WO2002069257A1 - Dispositif de recherche de solution optimale, dispositif pour commander un objet commande par algorithme d'optimisation, et programme de recherche de solution optimale - Google Patents

Dispositif de recherche de solution optimale, dispositif pour commander un objet commande par algorithme d'optimisation, et programme de recherche de solution optimale Download PDF

Info

Publication number
WO2002069257A1
WO2002069257A1 PCT/JP2002/000932 JP0200932W WO02069257A1 WO 2002069257 A1 WO2002069257 A1 WO 2002069257A1 JP 0200932 W JP0200932 W JP 0200932W WO 02069257 A1 WO02069257 A1 WO 02069257A1
Authority
WO
WIPO (PCT)
Prior art keywords
evaluation
control
evaluation function
output
individual
Prior art date
Application number
PCT/JP2002/000932
Other languages
English (en)
French (fr)
Inventor
Takaaki Mizutani
Original Assignee
Yamaha Hatsudoki Kabushiki Kaisha
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Hatsudoki Kabushiki Kaisha filed Critical Yamaha Hatsudoki Kabushiki Kaisha
Priority to US10/467,872 priority Critical patent/US7062333B2/en
Priority to EP02710510A priority patent/EP1372107A4/en
Publication of WO2002069257A1 publication Critical patent/WO2002069257A1/ja

Links

Classifications

    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F02COMBUSTION ENGINES; HOT-GAS OR COMBUSTION-PRODUCT ENGINE PLANTS
    • F02DCONTROLLING COMBUSTION ENGINES
    • F02D41/00Electrical control of supply of combustible mixture or its constituents
    • F02D41/02Circuit arrangements for generating control signals
    • F02D41/14Introducing closed-loop corrections
    • F02D41/1401Introducing closed-loop corrections characterised by the control or regulation method
    • F02D41/1405Neural network control
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F02COMBUSTION ENGINES; HOT-GAS OR COMBUSTION-PRODUCT ENGINE PLANTS
    • F02DCONTROLLING COMBUSTION ENGINES
    • F02D41/00Electrical control of supply of combustible mixture or its constituents
    • F02D41/02Circuit arrangements for generating control signals
    • F02D41/14Introducing closed-loop corrections
    • F02D41/1401Introducing closed-loop corrections characterised by the control or regulation method
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • G05B13/027Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks only
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F02COMBUSTION ENGINES; HOT-GAS OR COMBUSTION-PRODUCT ENGINE PLANTS
    • F02DCONTROLLING COMBUSTION ENGINES
    • F02D41/00Electrical control of supply of combustible mixture or its constituents
    • F02D41/02Circuit arrangements for generating control signals
    • F02D41/14Introducing closed-loop corrections
    • F02D41/1401Introducing closed-loop corrections characterised by the control or regulation method
    • F02D41/1406Introducing closed-loop corrections characterised by the control or regulation method with use of a optimisation method, e.g. iteration
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/32Operator till task planning
    • G05B2219/32028Electronic catalog, to select material, resources, make lists with prices
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/32Operator till task planning
    • G05B2219/32393Host and central distribution control between storage and cells

Definitions

  • the present invention relates to an apparatus and a program for searching for an optimum solution of an evaluation function by an optimization algorithm, and in particular, to search for an optimum solution according to a user's desire, and to reduce the time required for the optimization.
  • the present invention relates to an optimal solution search device, a control device of a control target by an optimization algorithm, and an optimal solution search program.
  • the characteristics of the products to be controlled are assumed to be those who will use the products at the development and design stages, and the virtual users Taking into account the tastes and usage conditions of the users, it is decided to adapt to the widest possible range of users.
  • the users who use the above products have their own unique personalities, and their preferences vary widely, so as described above, the preferences of the users who are likely to use the products, etc. Even if the product is developed and designed under the assumption that it is, it is almost impossible to provide characteristics that are satisfied by all users.
  • a control method that estimates the user's preferences and usage conditions after purchase using an optimization algorithm such as GA, and changes the control characteristics to characteristics that the user can satisfy, has been developed. Attempted.
  • control results are quantified and the control characteristics are evaluated autonomously based on predetermined evaluation criteria.
  • Autonomous evaluation method that optimizes control characteristics
  • interactive evaluation method that optimizes control characteristics while displaying the control results to the user and evaluating through dialogue with the user.
  • the autonomous evaluation method is performed autonomously based on a predetermined evaluation criterion, the control characteristics can be optimized in a relatively short time.However, an evaluation criterion that optimizes the user's preference is used. It is not suitable when it changes from person to person. On the other hand, the interactive evaluation method is suitable when the evaluation criterion that optimizes the user's preference changes depending on the user, but the evaluation by the user is much more rapid. Since it is not possible to obtain, for example, if all the control characteristics of the vehicle are to be optimized by this method, there is a problem that it takes a relatively long time to complete the optimization.
  • the present invention has been made by focusing on such unresolved problems of the conventional technology, and it is possible to search for an optimal solution according to a user's desire, and furthermore, it is necessary for optimization. It is an object of the present invention to provide an optimal solution search device capable of reducing time, a control device of a control target by an optimization algorithm, and an optimal solution search program. Disclosure of the invention
  • evaluation is performed by a combination of interactive evaluation and autonomous evaluation. While the output of the valence function is repeatedly evaluated, the optimal solution of the valuation function is searched by the optimization algorithm.
  • the invention described in claim 1 can be applied, for example, when optimizing the control characteristics of a control target.
  • the invention is not limited to this, and various optimization algorithms to which the optimization algorithm has been applied have been applied.
  • the problem can also be applied.
  • the invention described in claim 1 can employ an evolutionary optimization algorithm such as GA, GP (Genetic Progress) or ES (evolutional Stratage) as the optimization algorithm. It is also possible to use a type optimization algorithm or an optimization algorithm based on reinforcement learning. Hereinafter, the same applies to a control device to be controlled by the optimization algorithm according to claim 3 and an optimal solution search program according to claim 1'2.
  • GA Genetic Progress
  • ES evolutional Stratage
  • the output of the evaluation function is calculated as the evaluation value by the evaluation value calculation means, and the calculated evaluation value is stored in the storage means.
  • the interactive evaluation is performed based on the input contents.
  • autonomous evaluation is performed based on the evaluation value of the storage means. And these interactive and autonomous evaluations While the output of the evaluation function is repeatedly evaluated by the combination of, the optimal solution of the evaluation function is searched for by the optimization algorithm.
  • the storage means stores the evaluation value by any means and at all times, and may store the evaluation value in advance, or may store the evaluation value without storing the evaluation value in advance.
  • the evaluation value may be stored by an external input or the like.
  • a control device of a control target by an optimization algorithm according to claim 3 of the present invention has an effect on control characteristics of a control system that controls characteristics of the control target.
  • An evaluation function that outputs the control characteristic with a control coefficient as an input searching for the optimal solution of the evaluation function by an optimization algorithm while repeatedly evaluating the output of the evaluation function, the control characteristic of the control system is obtained.
  • An apparatus for optimizing comprising: an interactive evaluation for evaluating an output of the evaluation function based on a dialog with a user; and an autonomous evaluation for evaluating an output of the evaluation function based on a predetermined evaluation criterion. The search by the optimization algorithm is performed in combination with the above.
  • the optimal solution of the evaluation function is searched for by the optimization algorithm.
  • the control system operates based on the control coefficient searched as the optimal solution, thereby optimizing the control characteristics of the control system.
  • control device of the controlled object by the optimization algorithm according to claim 4 of the present invention is the control device of the controlled object by the optimization algorithm according to claim 3, wherein the evaluation function For storing the output of A storage unit, an evaluation value calculation unit that calculates an output of the evaluation function as an evaluation value and stores the evaluation value in the storage unit, and an evaluation input unit that inputs an evaluation by the user, wherein the interactive evaluation includes: The autonomous evaluation is performed based on the evaluation content of the storage means, based on the input content of the evaluation input means.
  • a control device for a controlled object by the optimization algorithm according to claim 5 of the present invention is a control device for a controlled object by the optimization algorithm according to any one of claims 3 and 4.
  • the apparatus comprises: a first control system that controls a first characteristic of the control target; and a second control system that controls a second characteristic of the control target, wherein the first control system includes the first control system.
  • the output of the first evaluation function is repeatedly evaluated by the interactive evaluation using the first evaluation function that outputs the control characteristic with a control coefficient that affects the control characteristic of the control system as the input.
  • An optimal solution of the function is searched for by the optimization algorithm.
  • For the second control system a control coefficient that affects a control characteristic of the second control system is input and the control characteristic is output.
  • the first evaluation function is within a predetermined range based on an output of the first evaluation function obtained from a solution searched as an optimal solution in the optimization of the first control system. While repeatedly evaluating the output of the second evaluation function by the autonomous evaluation so that the output of An optimal solution of the second evaluation function is searched for by the optimization algorithm.
  • the optimal solution of the first evaluation function is searched for by the optimization algorithm while the output of the first evaluation function is repeatedly evaluated by interactive evaluation. Then, for the second control system, the output of the first evaluation function belongs to a predetermined range based on the output of the first evaluation function obtained from the solution searched as the optimal solution in the optimization of the first control system, and While the output of the second evaluation function is repeatedly evaluated by the autonomous evaluation, the optimal solution of the second evaluation function is searched by the optimization algorithm.
  • the first evaluation function is within a predetermined range based on an output of the first evaluation function obtained from a solution searched as an optimal solution in the optimization of the first control system.
  • the optimal solution of the second evaluation function is searched by the optimization algorithm while repeatedly evaluating the output of the second evaluation function by the interactive evaluation so that the output of the second evaluation function belongs.
  • a control device for a controlled object by an optimization algorithm according to claim 7 of the present invention is a control device for a controlled object by an optimization algorithm according to any one of claims 5 and 6.
  • the controlled object is an engine
  • those to be subjected to the interactive evaluation are a rotation speed change rate and a throttle of the engine.
  • the response which is determined by the rate of change of the opening degree and which is subject to the autonomous evaluation among the outputs of the first evaluation function and the second evaluation function is the fuel efficiency of the engine.
  • the response characteristics of the first evaluation function and the second evaluation function to be subjected to interactive evaluation are optimized through repeated interactive evaluations.
  • those subject to autonomous evaluation are repeatedly subjected to autonomous evaluation to optimize the fuel efficiency characteristics of the engine.
  • the individual information operation means performs an information operation imitating the genetic operation on the individual information
  • the evaluation value calculation means calculates the evaluation value
  • the individual selection means calculates the evaluation value.
  • the survival or selection of individuals is performed based on the evaluation value.
  • the generation proceeds by performing the genetic operation by the individual information operation means and the individual selection operation by the individual selection means at least once in the same generation.
  • control device of the controlled object by the optimization algorithm according to claim 9 is the control device of the controlled object by the optimization algorithm according to claim 8, Is an engine, wherein the individual information includes, as the control coefficient, a fuel injection amount of the engine, a transient correction amount for correcting the fuel injection amount in a transient state of the engine, a correction value of the fuel injection amount, or The correction value of the transient correction amount is assigned.
  • the fuel injection amount, the transient correction amount, the correction value of the fuel injection amount or the transient value A correction value of the correction amount is determined.
  • a control device of a control target by an optimization algorithm according to claim 10 of the present invention is a control device of a control target by an optimization algorithm according to claim 8, wherein the control target is A fuel injection amount of the engine, a transient correction amount for correcting the fuel injection amount in a transient state of the engine, a correction value of the fuel injection amount, or the transient correction.
  • a correction value of the amount is generated by a neural network, and the individual information is assigned a synaptic coupling coefficient in the neural network as the control coefficient.
  • the fuel injection amount, the transient correction amount, the correction value of the fuel injection amount, or the correction value of the transient correction amount are generated by the neural network, but the population is increased in the direction of improving the evaluation value. As it evolves, the synaptic coupling coefficient in the neural network that can be expected to obtain high evaluation values is determined.
  • a control device for a control target by the optimization algorithm according to claim 11 of the present invention is a control device for a control target by the optimization algorithm according to any one of claims 5 and 6.
  • the control target is an electric motor
  • a target of the interactive evaluation among the first evaluation function and the second evaluation function output is a rotation change of the electric motor.
  • the output of the first evaluation function and the output of the second evaluation function to be subjected to the autonomous evaluation is the power consumption of the electric motor.
  • an optimal solution search program provides an optimal solution of the above-mentioned evaluation function while repeatedly evaluating the output of the evaluation function.
  • a computer-executable program that performs an evaluation on an output of the evaluation function based on a dialog with a user, and an evaluation on an output of the evaluation function based on a predetermined evaluation criterion.
  • This is a program that causes a computer to execute a search process using the optimization algorithm.
  • FIG. 1 is a diagram showing the basic concept of the present invention.
  • FIG. 2 is a block diagram showing a basic configuration of the present invention.
  • FIG. 3 is a block diagram showing a configuration of an engine control system to which the present invention is applied.
  • FIG. 4 is a block diagram showing the configuration of the interactive optimization unit 310.
  • FIG. 5 is a diagram showing a data structure of individual information.
  • FIG. 6 is a flowchart showing the processing executed by the evolution adaptation unit 330.
  • FIG. 7 is a block diagram showing the configuration of the autonomous optimization unit 350.
  • FIG. 8 is a diagram showing the configuration of the neural networks 36 2 a and 36 2 b and the data structure of the individual information.
  • FIG. 9 is a flowchart showing the processing executed by the evolution adaptation unit 360.
  • FIG. 10 is a diagram showing an order for optimizing the control characteristics of the engine 10 and the electronic throttle 12.
  • FIG. 11 is a diagram conceptually showing a state in which the teacher data set acquires a new teacher data.
  • FIG. 12 is a diagram conceptually showing the update of the teacher data set.
  • FIGS. 1 to 12 are diagrams showing an embodiment of an optimum solution search device, a control device to be controlled by an optimization algorithm, and an optimum solution search program according to the present invention.
  • FIG. Figure 1 shows the It is a figure showing the basic concept of light.
  • the basic configuration of the present invention is based on an optimization target 1 and a first operation amount of the optimization target 1 by an evolutionary optimization algorithm while evaluating the optimization target 1 by interactive evaluation.
  • An interactive optimization unit 2 that determines and outputs the optimization target, and an autonomous optimization that determines and outputs the second operation amount of the optimization target 1 using an evolutionary optimization algorithm while evaluating the optimization target 1 by an autonomous evaluation 3
  • the interactive optimization unit 2 determines, based on the operation result of the optimization target 1, a first operation amount that optimizes the operation characteristics of the optimization target 1 by using the GA, and determines the determined first operation amount. Is output to optimization target 1.
  • the autonomous optimization unit 3 determines, based on the operation result of the optimization target 1, a second operation amount that optimizes the operation characteristics of the optimization target 1 by using the GA, and determines the determined second operation amount. Is output to optimization target 1.
  • FIG. 2 is a block diagram showing a basic configuration of the present invention.
  • the basic configuration of the present invention includes a control target 50, and a control device 60 that controls a control amount of the control target 50 based on a control result of the control target 50. .
  • the control device 60 is composed of three control layers: a reflection layer 500, a learning layer 600, and an evolution adaptive layer 700, and receives a control result from the control target 50, and based on the input control result.
  • the reflection layer 500 determines the basic control amount
  • the learning layer 600 and the evolution adaptive layer 700 determine the correction rate for the basic control amount
  • the final control amount is determined from the basic control amount and the correction rate.
  • the configurations of the reflection layer 500, the learning layer 600, and the evolution adaptive layer 700 will be described in detail.
  • the reflection layer 500 is composed of a basic control amount and a control connection in the form of a mathematical expression, a map, a neural network, a file, a subsample architecture, and the like.
  • the basic control unit 510 defines the relationship with the control result.
  • the basic control unit 510 inputs the control result from the control target 50, determines the basic control amount based on the input control result, and outputs it. I do.
  • the subsampling architecture is known as behavioral artificial intelligence that performs parallel processing.
  • the evolutionary adaptation layer 7100 has an interactive optimization unit 710 that optimizes the control characteristics of the control target 50 using an evolutionary optimization algorithm while repeatedly performing interactive evaluations. It is composed of an autonomous optimization unit 750 that optimizes the control characteristics of the control target 50 using an evolutionary optimization algorithm.
  • the interactive optimization unit 7100 has at least one control module that outputs the control amount of the control target 50 based on the control result, and evaluates the control characteristics of the control target 50 with the user in an interactive manner.
  • the c GA is configured to optimize the control module by GA, to generate a population consisting of a set of a plurality of individuals virtually, each individual Each time, the individual information is configured based on the genetic information of the individual.
  • a control coefficient for constructing a control module is assigned to each individual information c.
  • a genetic operation that simulates a genetic operation is performed on the individual information, and an evaluation value of the individual.
  • the autonomous optimization unit 750 uses the base from the reflection layer 500 based on the control result. It has at least one control module that outputs an evolutionary correction factor for correcting this control amount to a value that meets the user's wishes, and is configured to optimize the control module by GA. After the optimal control module is constructed, the control module of the autonomous optimization unit 750 is fixed to the optimal control module, and control is performed using the evolution correction rate that corrects the basic control amount from the reflective layer 500.
  • the learning layer 600 learns information about the optimal control module. After the information on the optimal control module is learned by the learning layer 600, the output is returned to “1”, and thereafter, the operation is performed according to the instruction of the user. That is, the control by the control module of the autonomous optimization unit 750 is performed only during the evolution simulation and during the learning.
  • the learning layer 600 includes a learning unit 6100 having two neural networks that can be switched between learning and execution, and the learning unit 6100 is controlled by one dual network (for execution). While performing, the other neural network (for learning) learns the relationship between the input and output of the optimal control module from the evolutionary adaptation layer 700.
  • the neural network performing control and the neural network after learning are switched, and the control module obtained from the learning result in the neural network after learning is used.
  • the control starts, and the neural network that was executing the control begins to function for learning.
  • the neural network in the learning layer 600 is set so as to output “1” in the initial state. Therefore, in the initial state, the reflection layer 500 and the evolution adaptive layer are set in the initial state. Control according to 700 is performed.
  • the execution neural network is configured to receive a control result from the control target 500 and output a learning correction rate for correcting the basic control amount from the reflection layer 500 based on the input control result. .
  • This configuration is the same for the learning neural network.
  • the control device 600 adds the learning correction rate from the learning layer 600 and the evolution correction rate from the evolution adaptive layer 700, and adds the result to the basic control amount from the reflection layer 500. To calculate the control amount. This control amount is output to the control target 50.
  • the optimal solution search device, the control device to be controlled by the optimization algorithm, and the optimal solution search program according to the present invention are based on a combination of interactive evaluation and autonomous evaluation. This was applied to the case where the fuel economy characteristics and response characteristics of the engine 10 were optimized for the user by GA while repeating the evaluation.
  • FIG. 3 is a block diagram showing a configuration of an engine control system to which the present invention is applied.
  • the engine control system detects the operating state of the engine 10, the electronic throttle 12 that adjusts the intake air amount to the cylinder, and the engine 1 and the electronic throttle 12 to detect the operating state of the engine 1.
  • the various sensors 20 that output various kinds of information (hereinafter, collectively referred to as outside world information) relating to the operating state of 0, and a control device that controls the fuel injection amount of the engine 10 based on the outside world information from the various kinds of sensors 20 30.
  • the various sensors 20 detect the operating state of the engine 10 and the electronic throttle 12 and the running state of the vehicle, and based on the detection results, the rotation speed of the engine 10, the throttle opening, and the rate of change of the throttle opening.
  • the distance pulse and the fuel injection amount are output as external information.
  • the control device 30 is composed of three control layers: a reflection layer 100, a learning layer 200, and an evolution adaptation layer 300, and inputs external information from various sensors 20 and based on the input external information.
  • the reflective layer 100 determines the basic fuel injection amount, and the learning layer
  • the correction amount for the basic injection amount is determined in 200 and the evolution adaptive layer 300, and the final fuel injection amount is determined from the basic injection amount and the correction amount.
  • the configurations of the reflective layer 100, the learning layer 200, and the evolution adaptive layer 300 will be described in detail.
  • the reflection layer 100 is a basic control unit that defines the relationship between the basic injection amount, the transient correction rate, and the external information in the form of a mathematical expression, a map, a neural network, a fuzzy rule, a sub-sampling architecture, and the like.
  • the basic control unit 110 inputs external world information from various sensors 20 and determines and outputs a basic injection amount and a transient correction rate based on the input external world information.
  • the evolution adaptation layer 300 repeatedly performs the autonomous evaluation with the interactive optimization unit 310 that optimizes the control characteristics (response characteristics) of the electronic throttle 12 by GA while repeatedly performing the interactive evaluation. It is composed of an autonomous optimization unit 350 that optimizes the control characteristics (fuel efficiency characteristics) of the engine 10 using GA.
  • the interactive optimizing unit 310 has at least one control module that outputs the valve opening of the electronic throttle 12 based on external world information, and performs an evaluation of the response based on a dialog with the user. It is configured to optimize the control module by GA while repeatedly performing type evaluation.
  • the autonomous optimization unit 350 performs a correction rate (hereinafter, referred to as a correction rate) for correcting the basic injection amount from the reflective layer 100 and the transient correction rate to values according to the user's desire based on the external world information.
  • a correction rate hereinafter, referred to as a correction rate
  • the one that corrects the basic injection amount is called the evolution correction rate
  • the one that corrects the transient correction rate is called the evolutionary transient correction rate.
  • the control module of the autonomous optimization section 350 is fixed to the optimal control module, and the control and control based on the evolution correction rate for correcting the basic injection amount from the reflective layer 100 are performed. While the control is performed by the evolutionary transient correction rate for correcting the transient correction rate from the reflection layer 100, the learning layer 200 learns information on the optimal control module. After the information on the optimal control module is learned by the learning layer 200, the output is returned to “1”, and thereafter, the operation is performed according to the instruction of the user. That is, control by the control module of the autonomous optimization unit 350 is performed only during the evolution simulation and during the learning.
  • the learning layer 200 includes a learning unit 210 having two neural networks that can be switched between learning and execution, and the learning unit 210 is controlled by one of the dual networks (for execution). While executing, the other neural network (for learning) learns the relationship between the input and output of the optimal control module from the evolutionary adaptation layer 300.
  • the neural network that is performing control is switched to the neural network after learning, and the control is performed by the control module obtained from the learning result in the neural network after learning. Is started, and the neural network that was executing the control starts functioning for learning.
  • the neural network in the learning layer 200 is set to output “1” in the initial state. Therefore, in the initial state, the reflective layer 100 and the evolution adaptive layer 300 are set in the initial state. Is performed.
  • the execution neural network further includes two neural networks.
  • the neural network inputs the throttle opening and the engine speed as external information from various sensors 20 and corrects the basic injection amount from the reflective layer 100 based on the input information (hereinafter referred to as a correction rate (hereinafter referred to as a correction rate).
  • the correction rate is referred to as a learning correction rate.
  • the other neural network inputs the rate of change of the throttle opening and the engine speed as external information from various sensors 20 and outputs the result. Based on the input information, calculate the transient correction rate from the reflective layer 100.
  • a correction rate for correction hereinafter, this correction rate is referred to as a learning transient correction rate
  • This configuration is the same for the learning neural network.
  • the controller 300 adds the learning correction rate from the learning layer 200 and the evolution correction rate from the evolution adaptive layer 300, and adds the result to the basic injection amount from the reflection layer 100. , And this is used as the first multiplication result.
  • the learning transient correction rate from the learning layer 200 and the evolutionary transient correction rate from the evolution adaptive layer 300 are added, and the reflection layer 100
  • the transient correction rate from the above is multiplied by the result of the addition, and this is used as the second multiplication result.
  • the fuel injection amount is calculated by multiplying the first multiplication result by the second multiplication result. This fuel injection amount is output to the engine 10.
  • the interactive optimization unit 310 optimizes the control characteristics of the engine 10 by performing an evolution simulation using the interface unit 320 that performs input and output with the user. It is composed of an evolutionary adaptation unit 340 that turns into a computer, and an evaluation unit 340 that calculates the evaluation value of the individual in the GA.
  • the interface section 320 is composed of a display section 322 that displays the evaluation values of the individual during the evolution simulation by GA, and an input section 3224 that inputs the evaluation by the user.
  • the evaluation value (responsibility, which will be described in detail later) of each individual for each generation is displayed on the display section 312, and the user can experience the vehicle, such as riding comfort.
  • the evaluation of each individual is input to the input unit 314 based on the above.
  • the evaluation unit 340 includes a response degree calculation unit 342 that calculates a response degree based on external world information.
  • the response degree calculation section 342 inputs the throttle opening and the engine speed as external information, calculates the throttle opening change rate and the engine speed change rate, and calculates the engine speed change.
  • the degree of response is calculated by dividing the rate of change by the rate of change in the throttle opening, and the calculated degree of response is output to the evolution adaptation unit 330 as an individual evaluation value in the GA.
  • the evolution adaptation unit 33.0 has a control module 332.
  • Control module 3 3 2 shows for example, the dynamic characteristics of the two control coefficients SP 1 3 SP 2 and the throttle ⁇ and valve opening, showing the static characteristics of the Surodzutoru opening pulp opening 2
  • the relationship between throttle opening and valve opening is defined based on the two control coefficients DR (first order delay element) and AG (imperfect differential element), and the throttle opening is input as external information, and the throttle opening is input.
  • the opening degree of the valve is determined based on the degree, and is output to the electronic throttle 12.
  • FIG. 5 is a diagram showing a data structure of individual information.
  • the control coefficient SP 13 SP 2 showing the static characteristics to the upper side, two control coefficients DR showing the dynamic characteristics, is constructed by applying Ri, respectively allocate the AG to the lower side.
  • Ri For example, if one control coefficient is composed of 16 bits of data, the individual information is 64 bits of data in total.
  • the initial individual information generated when starting the evolution simulation is determined by random numbers for each individual. At this time, it is preferable to limit the random number generation range to a predetermined range in order to guarantee a certain degree of response. In other words, random numbers are not generated in a range where the response level is clearly worse.
  • FIG. 6 is a flowchart showing the processing executed by the evolution adaptation unit 330.
  • the GA assigns random initial values to each individual and arranges them in the search space, applies a genetic operation called crossover and mutation for each generation, and selects the growth and selection of individuals according to the evaluation value of the individual. By doing so, a set of individuals of the next generation is obtained. By repeating such generation alternation, the objective is to asymptotically approach the optimal solution.
  • Crossover is an operation in which at least two individuals are set as parents, and one or more individual descendants are generated by replacing part of the individual information of the individual parent.
  • Mutation is an operation that changes a specific part of individual information of an individual with a predetermined probability, and increases diversity within an individual group. Specifically, this is an operation of inverting a specific bit of the individual information. For example, the individual information of a certain individual is set to “000111”, and a mutation is caused at the third position to obtain the individual information of “001111”. Obtain an individual with
  • Selection is an operation to leave a better individual in the population to the next generation according to the evaluation value of the individual.
  • each individual is selected with a probability proportional to the evaluation value. For example, in a certain generation, the evaluation values of individuals having individual information of “000000”, “111011”, “110111”, and “010111” were “8”, “4”, “2”, and “2”, respectively. I do. The probability that each individual will be selected is “8/16”, “4/16”, “2 16 ”and“ 2/16 ”. Therefore, on average, in the next generation, the number of individuals with “000000” individual information will increase to two, the number of individuals with “111011” individual information will remain one, and the number of individuals with “110111” individual information will remain. Alternatively, an individual group having the individual information of “010111” is obtained such that any of the individuals remains. However, in the evolution adaptation section 330, the individual is selected by the user.
  • the processing executed by the evolution adaptation unit 330 will be described.
  • C The processing shown in the flowchart of FIG. 6 is, for example, reading a program stored in ROM in advance and following the read program. The CPU executes.
  • step S100 it is determined whether or not an evolution start instruction, which is an instruction to start an evolution simulation, has been input from the input unit 3222, and when it is determined that an evolution start instruction has been input. If (Yes), the process proceeds to step S 102, but if not (No), the process waits at step S 100 until an evolution start instruction is input.
  • an evolution start instruction which is an instruction to start an evolution simulation
  • step S102 an individual group consisting of a set of a predetermined number (for example, nine) of individuals is virtually generated, and individual information is configured for each individual.
  • each individual information the control coefficient showing the static characteristics SP!, 2 two control coefficients DR indicating the SP 2 and dynamics allocates AG, more determined individual information of each individual to a random number.
  • the individual information of each individual is stored and managed on a storage device such as a RAM.
  • step S108 the process proceeds to step S108, and the response level is obtained from the evaluation unit 340.
  • the control module 332 is constructed based on the individual information, and control of the electronic throttle 12 is started by the constructed control module 332, and the obtained response level is the evaluation value and the evaluation value for the individual. I do. The higher this evaluation value is, that is, the more excellent the individual is in the evolutionary simulation by GA, the more it can be positioned.
  • step S110 it is determined whether or not the processing from steps S106 to S108 has been completed for all individuals in the population, and the processing is performed for all individuals. If it is determined that the process has been completed (Yes), the process proceeds to step S112.
  • step S112 the response level, which is the evaluation value of each individual, is displayed on the display unit 324, and the process proceeds to step S114 to input the user's evaluation from the input unit 322. I do.
  • control enters the evaluation mode once.
  • the evaluation mode when the user sees the evaluation displayed on the display section 324 and selects an individual having a characteristic to be tested, the control module 332 is activated based on the individual information of the individual selected by the user. It is constructed, temporarily fixed, and controlled by its control module 3 3 2. In this way, the user determines the characteristics of each individual displayed on the display section 324 from the riding comfort and the like actually driving, and evaluates the evaluation value of each individual from the riding comfort.
  • step S116 the user ends the evaluation of each individual based on the evaluation of the individual represented on the display unit 3224 and the riding comfort when actually driving.
  • control is switched to selection mode, where individuals in the population survive or are selected.
  • the survival or selection of individuals can be performed, for example, by switching to the selection mode at the input section 3 2 2, selecting some individuals having the user's favorite characteristics from the population while referring to the display screen, and selecting the selected individuals. And erase the other individuals.
  • step S122 in which a mutation process for mutating the individual in the GA is performed, and the process proceeds to step S122, in which the user is satisfied with the input from the input unit 3222. It is determined whether or not characteristics that satisfy the user are obtained. If it is determined that characteristics that the user is satisfied are not obtained (No), the process proceeds to step S124, and the number of generation alternations is equal to or greater than a predetermined number. If it is determined that the number is equal to or more than the predetermined number (Yes), the process proceeds to step S126.
  • step S126 the evolution start request for starting the evolution simulation is output to the autonomous optimization unit 350, and the process proceeds to step S128, where the evaluation value is the highest among the population. Individuals are extracted, and a predetermined range based on the responsivity, which is the evaluation value of the extracted individuals, is output to the autonomous optimization unit 350 as a responsivity limit range. Return to processing. On the other hand, when it is determined in step S124 that the number of generation alternations is less than the predetermined number (Yes), the process proceeds to step S104.
  • step S122 determines that the characteristics satisfying the user have been obtained (Yes).
  • step S110 determines whether the processing from steps S106 to S108 has been completed for all individuals in the population (No). If it is determined in step S110 that the processing from steps S106 to S108 has not been completed for all individuals in the population (No), the process proceeds to step S130. Then, the individual information of the next individual in the individual group is read out, and the flow shifts to step S106.
  • FIG. 7 is a block diagram illustrating a configuration of the autonomous optimization unit 350.
  • the autonomous optimization unit 350 performs the evolution simulation using the GA to optimize the control characteristics of the engine 10 and the evaluation value of the individual in the GA. It is composed of an evaluator 370 for calculation.
  • the evaluation unit 370 includes a fuel efficiency calculation unit 372 that calculates the fuel efficiency of the engine 10 based on the fuel injection amount and the distance pulse, and a responsiveness that calculates the responsiveness based on the throttle opening and the engine speed. It consists of a calculation unit 374.
  • the fuel efficiency calculator 372 inputs the fuel injection amount and the distance pulse as external information, calculates the fuel consumption by summing the injection amount at the input interval of the distance pulse input every time the vehicle travels a predetermined distance, and calculates the fuel efficiency.
  • the fuel efficiency is output to the evolution adaptation unit 360 as the first evaluation value of the individual in the GA.
  • the response degree calculator 374 inputs the throttle opening and the engine speed as external information, calculates the rate of change of the throttle opening and the rate of change of the engine speed, and calculates the rate of change of the engine speed as the throttle.
  • the degree of response is calculated by dividing by the rate of change of the degree of opening, and the calculated degree of response Is output to the evolution adaptation unit 360 as the second evaluation value of
  • the evolution adaptation unit 360 has a control module 362, and the control module 362 is further configured to include two neural networks.
  • the neural network 362a receives the throttle opening and the engine speed as external information from various sensors 20 and outputs an evolutionary correction rate based on the input information.
  • the other neural network 36 2 b inputs the rate of change of throttle opening and the engine speed as external information from various sensors 20 and outputs an evolutionary transient correction rate based on the input information. ing.
  • FIG. 8 is a diagram showing the structures of the neural networks 36 2 a and 36 2 b and the data structure of the individual information.
  • the neural network 3 6 2 a has an input layer for inputting the throttle opening: u , an input layer f i2 for inputting the engine speed, and an input layer fu, an intermediate layer f hl for inputting the output from f i2.
  • the input layer fu and the intermediate layer f hl are formed by the synapse of the coupling coefficient k fl
  • the input layer f i2 and the intermediate layer f hl are formed by the synapse of the coupling coefficient k f2
  • the intermediate layer f hl and the output layer ⁇ 01 Is the synapse of the coupling coefficient k i3
  • the input layer fu and the intermediate layer f h2 are the synapse of the coupling coefficient k f4
  • the input layer f i2 and the intermediate layer f h2 are the synapse of the coupling coefficient k f5
  • output layer f. 2 is connected
  • the neural network 3 62 b has an input layer a u for inputting the rate of change of the throttle opening, an input layer a i2 for inputting the engine speed, and an intermediate layer for inputting the output from the input layer a il 3 a i2.
  • Input the output of the layers a hl , a h2 and the middle layers a hl , a h2 It consists of five perceptrons with an output layer acl that outputs the evolutionary transient correction rate.
  • the input layer a u and the middle layer a hl are formed by the synapse of the coupling coefficient k al
  • the input layer a i2 and the middle layer a hl are formed by the synapse of the coupling coefficient k a2 and the middle layer a hl and the output layer a Is the synapse of the coupling coefficient k a3
  • the input layer a u and the middle layer a h2 are the synapse of the coupling coefficient ka 4
  • the input layer a i2 and the middle layer a h2 are the synapse of the coupling coefficient k a5
  • the middle layer a h2 and output layer a. 2 is connected to each other by a synapse having a coupling coefficient k a6 .
  • the individual information of the individual in the GA is configured by continuously assigning synaptic coupling coefficients k fl to k f6 to the upper side and synaptic coupling coefficients k al to k a6 to the lower side. For example, if one coupling coefficient is composed of 8 bits of data, the individual information is a total of 96 bits of data.
  • the initial individual information generated when starting the evolution simulation is determined by random numbers for each individual. In this case, it is preferable to limit the random number generation range to a predetermined range in order to guarantee a certain degree of response. That is, random numbers are not generated in a range where the response is clearly deteriorated.
  • FIG. 9 is a flowchart showing the processing executed by the evolution adaptation unit 3.60.
  • a program stored in advance in the ROM is read, and the CPU executes according to the read program.
  • step S200 it is determined whether or not an evolution start request has been input from the interactive optimization unit 310, and when it is determined that an evolution start request has been input (Yes), The process proceeds to step S202, but if it is determined that this is not the case (No), the process waits in step S200 until an evolution start request is input.
  • the interactive optimization unit 3 1 Input from 0, and proceed to step S204 to virtually generate an individual group consisting of a set of a predetermined number (for example, nine) of individuals, and configure individual information for each individual.
  • the individual information is assigned a synaptic coupling coefficient in the neural networks 36 2 a and 36 2 b, and the individual information of each individual is determined by a random number.
  • the individual information of each individual is stored and managed on a storage device such as a RAM.
  • step S210 the process proceeds to step S210 to acquire the fuel efficiency and the response degree from the evaluation unit 370.
  • the control module 36 2 is constructed based on the individual information, the engine 10 is started to be controlled by the constructed control module 36 2, and the fuel efficiency and the response obtained as a result are evaluated values for the individual.
  • step S212 it is determined whether or not the processing from steps S20 & to S210 has been completed for all individuals in the population, and the processing is performed for all individuals. If it is determined that has been completed (Yes), the flow shifts to step S214.
  • step S214 it is determined whether or not the responsivity, which is the second evaluation value, for each individual belongs to the range of the responsivity input in step S202, and the responsivity is determined.
  • the process proceeds to step S216, the individual is culled out, and the process proceeds to step S218.
  • step S2128 it is determined whether the processing from steps S208 to S210 has been completed for all individuals in the population, and it has been determined that processing has been completed for all individuals. If (Yes), the process proceeds to step S220, but if not (No), the process proceeds to step S214.
  • step S220 a population of individuals whose response degree falls within the restricted range is formed by the processing of steps S214 to S218. Therefore, when a predetermined number (for example, half) or more of the individuals are not selected, a selection process for performing survival or selection of the individuals is further performed so that the total number of the population is equal to or less than half of the original number.
  • a predetermined number for example, half
  • a selection process for performing survival or selection of the individuals is further performed so that the total number of the population is equal to or less than half of the original number.
  • the selection processing for example, in addition to the above-described roulette selection processing, an elite priority selection processing, a lower fitness simple selection processing, or the like can be employed.
  • step S222 the process proceeds to step S222 to perform a crossover process for crossing individuals in the GA, and then proceeds to step S224 to perform a mutation process in the GA for sudden mutation of the individual. Then, the flow shifts to step S228, and it is determined whether or not the number of generation alternations is equal to or more than a predetermined number. If it is determined that the number is greater than or equal to the predetermined number (Yes), the flow shifts to step S228.
  • step S 2208 an individual with the highest evaluation value is extracted from the individual population, an optimal control module is constructed based on the individual information of the extracted individual, and the control module 362 is fixed to the optimal control module. Then, the process proceeds to step S230, in which the learning layer 200 learns the input / output relationship of the control module 362, and proceeds to step S232 to output the output of the control module 362 to " Set to “1” to end a series of processing and return to the original processing.
  • step S212 determines whether the processing from steps S208 to S210 has been completed for all individuals in the population (No). If it is determined in step S212 that the processing from steps S208 to S210 has not been completed for all individuals in the population (No), the process proceeds to step S2334. Then, the individual information of the next individual in the individual group is read out, and the routine goes to Step S208.
  • the first generation evolution simulation starts.
  • the individual information of the first individual in the individual group is read, and the control module 3332 is set based on the read individual information.
  • the control of the electronic throttle 12 is started by the constructed control module 332, and the control by the control module 332 is performed for a while.
  • the response level is obtained from the evaluation unit 340 through step S108.
  • the evaluation value is obtained for each individual through step S112.
  • the response level is displayed on the display section 3 2 4.
  • the user selects several individuals having his or her favorite characteristics from the individual group while referring to the evaluation of each individual displayed on the display unit 324.
  • the individual selected from the population is left, and the other individuals are deleted, thereby surviving or selecting the individual.
  • FIG. 10 is a diagram showing an order for optimizing control characteristics of the rule 12;
  • the evolution start request is output to the autonomous optimization unit 350 through steps S126 and S128, and the individual with the highest evaluation value is extracted from the population. Then, a predetermined range based on the responsivity, which is the extracted evaluation value of the individual, is output to the autonomous optimization unit 350 as a responsivity limit range.
  • the autonomous optimization unit 350 when an evolution start request is input, through steps S200 to S204, a limited range of responsivity is input, and an individual group consisting of a set of nine individuals is obtained. Generated and individual information is configured for each individual. Here, synaptic coupling coefficients in the neural networks 36 2 a and 36 2 b are assigned to the individual information.
  • the first generation of evolutionary simulations will begin.
  • the individual information of the first individual in the individual group is read, and the control module is set based on the read individual information.
  • the control module 362 is constructed, the control of the engine 10 is started by the constructed control module 362, and the control by the control module 362 is performed for a while.
  • step S 2 1 With c
  • the same procedure that fuel efficiency and the response degree is obtained from the evaluation unit 3 7 0, to base treatment populations from Step S 2 0 8 until S 2 1 0
  • step S 2 14 it is determined whether or not the responsivity, which is the second evaluation value, for each individual is within the limited range of the responsivity input in step S 202. Is determined.
  • steps S220 to S224 selection processing, crossover processing, and mutation processing are performed.
  • the first generation evolution simulation is completed.
  • the evolution simulation is repeatedly performed in the same manner until the number of generation alternations is equal to or more than a predetermined number.
  • the fuel efficiency characteristics are autonomously optimized so that the response degree falls within the limited range.
  • the point within the limit range and located on the maximum curve (dashed line) of the fuel consumption characteristic and the response characteristic is that point.
  • the evolution simulation is completed, through step S228, the population Among them, the individual with the highest evaluation value is extracted, an optimal control module is constructed based on the extracted individual information, and the control module 362 is fixed to the optimal control module.
  • step S230 the input / output relationship of the control module 362 is learned by the learning layer 200.
  • control is performed using the evolutionary correction rate and the evolutionary transient correction rate for input information such as the actual engine speed obtained by the optimal control module.
  • the autonomous optimization unit 350 starts executing the control based on the evolution correction rate and the evolutionary transient correction rate
  • the learning neural network of the learning layer 200 changes the input / output relationship of the control module 365 to the learning layer. Learn together with the input / output relationship of the neural network functioning for the execution of 200.
  • the output of the autonomous optimization unit 350 is performed by the individual whose evaluation function before that is maximized, and the control law does not change with time.
  • the input and output between the autonomous optimization unit 350 and the neural network for execution of the learning layer 200 are averaged with a certain step width, and this is used as the input / output data and the teacher data is used as the data.
  • Used for updating sets For example, the average engine speed per second is 500 000 [rpm], the average throttle opening is 20, the average intake air temperature is 28 [V], and the average atmospheric pressure is 101 3 [hP a ] If this is the case, the sum of these and the output of the execution neural network in the autonomous optimization unit 350 and the learning layer 200 at that time is used as the input / output data (see FIG. 11). This input / output data is added to the previous teacher data and a new teacher data set is obtained.
  • the old teacher data in the teacher data set whose shortcut distance to the new data is within a certain value is deleted.
  • the output is set to “1” for all input data.
  • the learning layer 200 learns synapse coupling coefficients in the learning neural network based on the updated teacher data set. The learning of the coupling coefficient is based on the error between the virtual control output obtained from the output of the learning neural network during learning, the basic injection amount from the reflective layer 100, and the transient correction rate, and the actual control output.
  • the neural network for learning is used for execution, and the neural network for original control is used for learning.
  • the learning layer 200 determines the learning correction rate and the learning transient correction rate by using the newly obtained neural network for execution, and actually outputs them.
  • the control module passes through step S2322, The output of 36 2 becomes “1”, and the control by the learning layer 200 and the reflection layer 100 is performed.
  • the initial value of the neural network for execution of the learning layer 200 is set so that the output is always "1". By doing so, in the initial state, control can be performed only by the reflection layer 100 and the autonomous optimization unit 350.
  • the interactive optimizing unit 310 that controls the response characteristics and the autonomous optimizing unit 350 that controls the fuel consumption characteristics are provided.
  • the response calculation unit 342 uses the response calculation unit 342 to output the response when the control coefficient that affects the control characteristics of the interactive optimization unit 310 is input.
  • Dialogue degree The optimal solution of the response degree calculation unit 342 is searched by GA while iteratively evaluating by type evaluation, and the autonomous optimization unit 350 is controlled by the autonomous optimization unit 350.
  • the optimal solution of the fuel efficiency calculation unit 372 is searched by GA while repeatedly evaluating the fuel efficiency of the fuel efficiency calculation unit 372 by autonomous evaluation so that the response degree falls within the specified range. I have.
  • the autonomous optimizing unit 350 can be optimized at relatively high speed without significantly impairing the responsiveness.
  • the correction rate of the fuel injection amount of the engine 10 or the correction rate of the transient correction rate is generated by the neural networks 36 2 a and 36 2 b. Assigns synaptic coupling coefficients in the neural networks 36 2 a and 36 2 b ⁇
  • the GA is the optimization algorithm described in claims 1, 3, 5 to 7, 7, 8, 10, or 12, or the optimization algorithm described in claim 8.
  • the synaptic coupling coefficients in the neural networks 36 2 a and 36 2 b correspond to the control coefficients described in the third, fifth, eighth or tenth claims.
  • the RAM corresponds to the storage means described in claims 2 or 4, and the evaluation section 340, 370 stores the evaluation means described in claims 2, 4, or 8.
  • the input unit 3222 corresponds to the evaluation input unit described in claims 2 or 4, and the engine 10 and the electronic throttle 12 correspond to the third to fifth claims. , 7, 8, or 10.
  • the interactive optimization unit 310 corresponds to the first control system described in Claim 5
  • the autonomous optimization unit 350 corresponds to Claim 5.
  • the response degree calculation unit 342 corresponds to the first evaluation function described in claim 5 or 7
  • the fuel efficiency calculation unit 372 corresponds to the second control system described in claim 7. It corresponds to the second evaluation function described in 5 or 7.
  • Steps S118, S122, S222, and S224 correspond to the individual information operating means described in claim 8, and steps S116, S214.
  • SS220 corresponds to the individual selecting means described in claim 8.
  • the limited range of the responsiveness is set, and while the autonomous evaluation is repeatedly performed, the responsiveness falls within the limited range.
  • the fuel efficiency characteristics are optimized as described above, but the invention is not limited to this.
  • a limited range is set for the fuel efficiency characteristics, and the interactive evaluation is repeated.
  • the response characteristics may be optimized so that the fuel efficiency falls within the limited range.
  • the response characteristics may be optimized so that the fuel efficiency falls within the limited range.
  • the fuel injection amount is handled as the control output.
  • the control output includes, for example, injection time, ignition timing, The intake valve timing, electronic throttle opening, valve lift, exhaust valve timing, or intake / exhaust control valve timing may be considered.
  • the intake control valve is a valve provided on the intake pipe for controlling tumble and swirl
  • the exhaust control valve is a valve provided on the exhaust pipe for controlling exhaust pulsation. It is.
  • the learning layer 200 is configured by a hierarchical neural network, but the configuration of the control system of the learning layer 200 is not limited to the present embodiment.
  • CMAC may be used. Advantages of using CMAC include the ability to perform additional learning and faster learning as compared to hierarchical neural networks.
  • the correction rate of the fuel injection amount of the engine 10 or the correction rate of the transient correction rate is generated by the neural networks 36 2 a and 36 2 b.
  • the information is configured to assign the synaptic coupling coefficients in the neural networks 36 2 a and 36 2 b.
  • the present invention is not limited to this, and the individual information may be directly assigned a correction rate of the fuel injection amount of the engine 10 or a correction rate of the transient correction rate. As a result, it is possible to determine the correction rate of the fuel injection amount of the engine 10 or the correction rate of the transient correction rate, which can be expected to obtain a high evaluation value.
  • the correction rate of the fuel injection amount or the correction rate of the transient correction rate of the engine 10 is configured to be generated by the neural networks 362a, 362b.
  • the fuel injection amount, the transient correction amount, the correction amount of the fuel injection amount, or the correction amount of the transient correction amount may be generated by the neural networks 362a and 362b. This is the same for the configuration in which the calculation is performed directly without being generated by the neural networks 362a and 362b.
  • the program may be read into a RAM from a recording medium on which the program indicating the procedure is recorded, and may be executed.
  • the recording medium is a semiconductor recording medium such as RAM or ROM, a magnetic recording type recording medium such as FD or HD, an optical reading type recording medium such as CD, CD V, LD, DVD, or a magnetic recording medium such as MO.
  • Type / optical reading type recording media including all types of recording media that can be read in a short time, regardless of electronic, magnetic, optical, etc. It is. Industrial applicability
  • the control device of the controlled object by the optimization algorithm described in claim 5 after the optimization of the first control system is completed, it is obtained as an optimal evaluation value of the first evaluation function. It is also possible to obtain an effect that the second control system can be optimized at a relatively high speed without significantly impairing the obtained evaluation value.
  • the first control system can be optimized at a relatively high speed, and the first control system can be optimized. After the optimization is completed, an effect is obtained that the second control system can be optimized without significantly impairing the evaluation value obtained as the optimum evaluation value of the first evaluation function.
  • control device for the control object by the optimization algorithm according to claim 9 of the present invention, it is possible to expect to obtain a high evaluation value, the fuel injection amount, the transient correction amount, and the correction value of the fuel injection amount. Or determine the correction value of the transient correction amount. There is also obtained an effect that it can be set.
  • the rotation change characteristic is provided to the user to reduce power consumption. There is also obtained an effect that characteristics can be optimized according to predetermined evaluation criteria.

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Automation & Control Theory (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Combustion & Propulsion (AREA)
  • Mechanical Engineering (AREA)
  • General Engineering & Computer Science (AREA)
  • Feedback Control In General (AREA)
  • Combined Controls Of Internal Combustion Engines (AREA)
  • Electrical Control Of Air Or Fuel Supplied To Internal-Combustion Engine (AREA)

Description

明 細 書 最適解探索装置、最適化アルゴリズムによる制御対象の制御装置および 最適解探索プログラム 技術分野
本発明は、.評価関数の最適解を最適化アルゴリズムにより探索する装置 およびプログラムに係り、 特に、 使用者の希望に沿った最適解を探索する ことができ、 しかも最適化に要する時間を短縮することができる最適解探 索装置、最適化アルゴリズムによる制御対象の制御装置および最適解探索 プログラムに関する。 背景技術
従来から、 車両や家電製品等の製品の特性を制御する場合、 制御対象と なる製品の特性は、 開発 ·設計段階で、 その製品を使用すると思われる使 用者を想定し、 その仮想使用者の好みや使用状況を加味し、 できるだけ幅 広い使用者に適応するように決められる。 しかし、上記製品を使用する使 用者は、個々に特有の個性を持っており、その好みも千差万別であるため、 前記したように、その製品を使用すると思われる使用者の好み等を想定し て製品の開発 ·設計を行ったとしても、 すべての使用者が満足する特性を 提供ことはほぼ不可能に近い。 この問題を解決するために、 G A等の最適 化アルゴリズムを用いて、 購入後に使用者の好みや使用状況を推定し、 使 用者が満足しうる特性に制御特性を変更していく制御方法が試みられて いる。
最適化アルゴリズムにより制御特性を最適化する場合には、その制御結 果を数値化し所定の評価基準に基づいて自律的に評価しながら制御特性 を最適化していく自律型評価手法と、その制御結果を使用者に対して表示 し使用者との対話により評価しながら制御特性を最適化していく対話型 評価手法とのいずれかが採用される。
自律型評価手法は、所定の評価基準に基づいて自律的に行うため、 比較 的短時間で制御特性を最適化することができるが、使用者の好みが最適値 となるような評価基準が使用者によって変化する場合には適していない。 これに対し、 対話型評価手法は、使用者の好みが最適値となるような評価 基準が使用者によって変化する場合に適したものではあるが、使用者によ る評価を短期間にさほど多く得ることができないので、例えば車両の制御 特性のすべてをこの手法で最適化しょうとすれば、最適化が完了するまで に比較的長時間要するという問題がある。
そこで、 本発明は、 このような従来の技術の有する未解決の課題に着目 してなされたものであって、使用者の希望に沿った最適解を探索すること ができ、 しかも最適化に要する時間を短縮することができる最適解探索装 置、最適化アルゴリズムによる制御対象の制御装置および最適解探索プロ グラムを提供することを目的としている。 発明の開示
上記目的を達成するために、本発明に係る請求の範囲第 1項記載の最適 解探索装置は、評価関数の出力を繰り返し評価しながら前記評価関数の最 適解を最適化アルゴリズムにより探索する装置であって、前記評価関数の 出力に対する評価を使用者との対話に基づいて行う対話型評価と、前記評 価関数の出力に対する評価を所定の評価基準に基づいて行う自律型評価 との組み合わせにより、前記最適化アルゴリズムによる探索を行うように なっている。
このような構成であれば、対話型評価と自律型評価との組合せにより評 価関数の出力が繰り返し評価されながら、評価関数の最適解が最適化アル ゴリズムにより探索される。
ここで、 請求の範囲第 1記載の発明は、 例えば、 制御対象の制御特性を 最適化する場合に適用することもできるが、 これに限らず、 最適化ァルゴ リズムがこれまで適用されてきた各種の問題にも適用することができる。 以下、請求の範囲第 1 2項記載の最適解探索プログラムにおいて同じであ る。
また、請求の範囲第 1記載の発明は、最適化ァルゴリズムとして、 G A、 G P (Genetic Progress) または E S (evolutional Stratage) のような 進化型最適化アルゴリズムを採用することもできるし、 その他、 近傍計算 型最適化アルゴリズムや強化学習による最適化アルゴリズムを採用する こともできる。以下、 請求の範囲第 3項記載の最適化アルゴリズムによる 制御対象の制御装置、および請求の範囲第 1' 2項記載の最適解探索プログ ラムにおいて同じである。
さらに、 本発明に係る請求の範囲第 2項記載の最適解探索装置は、 請求 の範囲第 1項記載の最適解探索装置において、前記評価関数の出力を記憶 するための記憶手段と、前記評価関数の出力を評価値として算出して前記 記憶手段に記憶する評価値算出手段と、前記使用者による評価を入力する 評価入力手段とを備え、 前記対話型評価は、前記評価入力手段の入力内容 に基づいて行い、 前記自律型評価は、 前記記憶手段の評価値に基づいて行 うようになっている。
このような構成であれば、 評価値算出手段により、 評価関数の出力が評 価値として算出され、算出された評価値が記憶手段に記憶される。ここで、 使用者は、 評価値に対する評価を評価入力手段に入力すると、 入力された 入力内容に基づいて対話型評価が行われる。一方、 記憶手段の評価値に基 づいて自律型評価が行われる。 そして、 これら対話型評価と自律型評価と の組合せにより評価関数の出力が繰り返し評価されながら、評価関数の最 適解が最適化アルゴリズムにより探索される。
ここで、 記憶手段は、 評価値をあらゆる手段でかつあらゆる時期に記憶 するものであり、評価値をあらかじめ記憶してあるものであってもよいし、 評価値をあらかじめ記憶することなく、本装置の動作時に外部からの入力 等によって評価値を記憶するようになっていてもよい。以下、請求の範囲 第 4項記載の最適化ァルゴリズムによる制御対象の制御装置において同 じである。
一方、 上記目的を達成するために、 本発明に係る請求の範囲第 3項記載 の最適化ァルゴリズムによる制御対象の制御装置は、制御対象の特性を制 御する制御系の制御特性に影響を及ぼす制御係数を入力として前記制御 特性を出力する評価関数を用いて、前記評価関数の出力を繰り返し評価し ながら前記評価関数の最適解を最適化アルゴリズムにより探索すること により、 前記制御系の制御特性を最適化する装置であって、 前記評価関数 の出力に対する評価を使用者との対話に基づいて行う対話型評価と、前記 評価関数の出力に対する評価を所定の評価基準に基づいて行う自律型評 価との組み合わせにより、前記最適化アルゴリズムによる探索を行うよう になっている。
このような構成であれば、対話型評価と自律型評価との組合せにより評 価関数の出力が繰り返し評価されながら、評価関数の最適解が最適化アル ゴリズムにより探索される。 そして、 探索が完了すると、 最適解として探 索された制御係数に基づいて制御系が動作し、これにより制御系の制御特 性が最適化される。
さらに、本発明に係る請求の範囲第 4項記載の最適化アルゴリズムによ る制御対象の制御装置は、請求の範囲第 3項記載の最適化アルゴリズムに よる制御対象の制御装置において、前記評価関数の出力を記憶するための 記憶手段と、前記評価関数の出力を評価値として算出して前記記憶手段に 記憶する評価値算出手段と、前記使用者による評価を入力する評価入力手 段とを備え、 前記対話型評価は、 前記評価入力手段の入力内容に基づいて 行い、前記自律型評価は、 前記記憶手段の評価値に基づいて行うようにな つている。
このような構成であれば、 評価値算出手段により、 評価関数の出力が評 価値として算出され、算出された評価値が記憶手段に記憶される。ここで、 使用者は、 評価値に対する評価を評価入力手段に入力すると、入力された 入力内容に基づいて対話型評価が行われる。一方、 記憶手段の評価値に基 づいて自律型評価が行われる。そして、 これら対話型評価と自律型評価と の組合せにより評価関数の出力が繰り返し評価されながら、評価関数の最 適解が最適化アルゴリズムにより探索される。
さらに、本発明に係る請求の範囲第 5項記載の最適化アルゴリズムによ る制御対象の制御装置は、請求の範囲第 3および第 4項のいずれかに記載 の最適化アルゴリズムによる制御対象の制御装置において、前記制御対象 の第 1の特性を制御する第 1制御系と、前記制御対象の第 2の特性を制御 する第 2制御系とを備え、 前記第 1制御系については、前記第 1制御系の 制御特性に影響を及ぼす制御係数を入力として前記制御特性を出力する 第 1評価関数を用いて、前記第 1評価関数の出力を前記対話型評価により 繰り返し評価しながら、前記第 1評価関数の最適解を前記最適化アルゴリ ズムにより探索するようになっており、 前記第 2制御系については、 前記 第 2制御系の制御特性に影響を及ぼす制御係数を入力として前記制御特 性を出力する第 2評価関数および前記第 1評価関数を用いて、前記第 1制 御系の最適化で最適解として探索した解から求まる前記第 1評価関数の 出力を基準として所定範囲内に前記第 1評価関数の出力が属するように、 前記第 2評価関数の出力を前記自律型評価により繰り返し評価しながら、 前記第 2評価関数の最適解を前記最適化ァルゴリズムにより探索するよ うになつている。
このような構成であれば、 第 1制御系については、 第 1評価関数の出力 が対話型評価により繰り返し評価されながら、第 1評価関数の最適解が最 適化アルゴリズムにより探索される。 そして、 第 2制御系については、 第 1制御系の最適化で最適解として探索された解から求まる第 1評価関数 の出力を基準として所定範囲内に第 1評価関数の出力が属するように、第 2評価関数の出力が自律型評価により繰り返し評価されながら、第 2評価 関数の最適解が最適化アルゴリズムにより探索される。
さらに、本発明に係る請求の範囲第 6項記載の最適化アルゴリズムによ る制御対象の制御装置は、請求の範囲第 3および第 4項のいずれかに記載 の最適化ァルゴリズムによる制御対象の制御装置において、前記制御対象 の第 1の特性を制御する第 1制御系と、前記制御対象の第 2の特性を制御 する第 2制御系とを備え、 前記第 1制御系については、 前記第 1制御系の 制御特性に影響を及ぼす制御係数を入力として前記制御特性を出力する 第 1評価関数を用いて、前記第 1評価関数の出力を前記自律型評価により 繰り返し評価しながら、前記第 1評価関数の最適解を前記最適化アルゴリ ズムにより探索するようになっており、 前記第 2制御系については、 前記 第 2制御系の制御特性に影響を及ぼす制御係数を入力として前記制御特 性を出力する第 2評価関数および前記第 1評価関数を用いて、前記第 1制 御系の最適化で最適解として探索した解から求まる前記第 1評価関数の 出力を基準として所定範囲内に前記第 1評価関数の出力が属するように、 前記第 2評価関数の出力を前記対話型評価により繰り返し評価しながら、 前記第 2評価関数の最適解を前記最適化ァルゴリズムにより探索するよ うになつている。
このような構成であれば、 第 1制御系については、 第 1評価関数の出力 が自律型評価により繰り返し評価されながら、第 1評価関数の最適解が最 適化アルゴリズムにより探索される。 そして、 第 2制御系については、 第 1制御系の最適化で最適解として探索された解から求まる第 1評価関数 の出力を基準として所定範囲内に第 1評価関数の出力が属するように、第 2評価関数の出力が対話型評価により繰り返し評価されながら、第 2評価 関数の最適解が最適化アルゴリズムにより探索される。
さらに、本発明に係る請求の範囲第 7項記載の最適化アルゴリズムによ る制御対象の制御装置は、請求の範囲第 5および第 6項のいずれかに記載 の最適化ァルゴリズムによる制御対象の制御装置において、前記制御対象 は、 エンジンであり、 前記第 1評価関数および前記第 2評価関数の出力の うち前記対話型評価の対象となるものは、前記ェンジンの回転数変化率お よびス口ットル開度変化率により定まるレスポンス度であり、前記第 1評 価関数および前記第 2評価関数の出力のうち前記自律型評価の対象とな るものは、 前記エンジンの燃費である。
このような構成であれば、第 1評価関数および第 2評価関数のうち対話 型評価の対象となるものについては、対話型評価を繰り返し経てレスボン ス特性が最適化される。一方、 第 1評価関数および第 2評価関数のうち自 律型評価の対象となるものについては、 自律型評価を繰り返し経てェンジ ンの燃費特性が最適化される。
さらに、本発明に係る請求の範囲第 8項記載の最適化ァルゴリズムによ る制御対象の制御装置は、請求の範囲第 5ないし第 7項のいずれかに記載 の最適化アルゴリズムによる制御対象の制御装置において、前記最適化ァ ルゴリズムは、複数の個体の集合からなる個体群を仮想的に生成するとと もに、前記各個体ごとにその個体の遺伝情報に見立てて個体情報を構成し、 当該個体情報には前記制御係数を割り当て、 さらに、 遺伝子操作を模倣し た情報操作を前記個体情報に対して行う個体情報操作手段と、前記個体の 評価値を算出する評価値算出手段と、前記評価値算出手段で算出した評価 値に基づいて前記個体の生存または淘汰を行う個体選択手段とを備え、同 一世代において、前記個体情報操作手段による遺伝的操作および前記個体 選択手段による個体選択操作をそれぞれ少なくとも 1回行って世代を進 行させる進化型最適化アルゴリズムである。
このような構成であれば、 個体情報操作手段により、 遺伝子操作を模倣 した情報操作が個体情報に対して行われ、 評価値算出手段により、 評価値 が算出され、 個体選択手段により、 算出された評価値に基づいて個体の生 存または淘汰が行われる。そして、 この個体情報操作手段による遺伝的操 作および個体選択手段による個体選択操作が、同一世代においてそれぞれ 少なくとも 1回行われることにより世代が進行する。
さらに、本発明に係る請求の範囲第 9項記載の最適化アルゴリズムによ る制御対象の制御装置は、請求の範囲第 8項記載の最適化ァルゴリズムに よる制御対象の制御装置において、 前記制御対象は、 エンジンであり、 前 記個体情報には、 前記制御係数として、 前記エンジンの燃料噴射量、 前記 エンジンの過渡状態において前記燃料噴射量を補正する過渡補正量、前記 燃料噴射量の補正値または前記過渡補正量の補正値を割り当てるように なっている。
このような構成であれば、評価値を向上する方向に個体群が進化してい くにつれて、 高い評価値を得ることが期待できる、 燃料噴射量、 過渡補正 量、 燃料噴射量の補正値または過渡補正量の補正値が決定される。
さらに、本発明に係る請求の範囲第 1 0項記載の最適化アルゴリズムに よる制御対象の制御装置は、請求の範囲第 8項記載の最適化ァルゴリズム による制御対象の制御装置において、 前記制御対象は、 エンジンであり、 前記エンジンの燃料噴射量、前記エンジンの過渡状態において前記燃料噴 射量を補正する過渡補正量、前記燃料噴射量の補正値または前記過渡補正 量の補正値をニューラルネットワークにより生成するようになっており、 前記個体情報には、前記制御係数として、前記ニューラルネツトワークに おけるシナプスの結合係数を割り当てるようになつている。
このような構成であれば、ニューラルネッ トワークにより、燃料噴射量、 過渡補正量、燃料噴射量の補正値または過渡補正量の補正値が生成される が、 評価値を向上する方向に個体群が進化していくにつれて、高い評価値 を得ることが期待できる、ニューラルネヅトワークにおけるシナプスの結 合係数が決定される。
さらに、本発明に係る請求の範囲第 1 1項記載の最適化アルゴリズムに よる制御対象の制御装置は、請求の範囲第 5および第 6項のいずれかに記 載の最適化アルゴリズムによる制御対象の制御装置において、前記制御対 象は、 電気モー夕であり、 前記第 1評価関数および前記第 2評価関数め出 力のうち前記対話型評価の対象となるものは、前記電気モー夕の回転変化 率であり、前記第 1評価関数および前記第 2評価関数の出力のうち前記自 律型評価の対象となるものは、 前記電気モー夕の電力消費である。
このような構成であれば、第 1評価関数および第 2評価関数のうち対話 型評価の対象となるものについては、対話型評価を繰り返し経て電気モー 夕の回転変化特性が最適化される。一方、 第 1評価関数および第 2評価閧 数のうち自律型評価の対象となるものについては、 自律型評価を繰り返し 経て電気モ一夕の電力消費特性が最適化される。
一方、 上記目的を達成するために、 本発明に係る請求の範囲第 1 2項記 載の最適解探索プログラムは、評価関数の出力を繰り返し評価しながら前 記評価関数の最適解を最適化アルゴリズムにより探索するコンピュータ 実行可能なプログラムであって、前記評価関数の出力に対する評価を使用 者との対話に基づいて行う対話型評価と、前記評価関数の出力に対する評 価を所定の評価基準に基づいて行う自律型評価との組み合わせにより、前 記最適化アルゴリズムによる探索を行う処理をコンピュータに実行させ るためのプログラムである。
このような構成であれば、プログラムに従ってコンピュータが実行した ときは、 請求の範囲第 1記載の最適解探索装置と同等の作用が得られる。 図面の簡単な説明
図 1は、 本発明の基本概念を示す図である。 図 2は、 本発明の基本構成 を示すプロック図である。 図 3は、 本発明を適用するエンジン制御システ ムの構成を示すブロック図である。図 4は、 対話型最適化部 3 1 0の構成 を示すプロック図である。図 5は、個体情報のデ一夕構造を示す図である。 図 6は、進化適応部 3 3 0で実行される処理を示すフローチャートである c 図 7は、 自律型最適化部 3 5 0の構成を示すブロック図である。 図 8は、 ニューラルネヅトワーク 3 6 2 a, 3 6 2 bの構成および個体情報のデー 夕構造を示す図である。
図 9は、進化適応部 3 6 0で実行される処理を示すフローチャートであ る。 図 1 0は、 エンジン 1 0および電子スロヅトル 1 2の制御特性を最適 化する順序を示す図である。 図 1 1は、教師デ一夕集合が新しい教師デ一 夕を獲得する状態を概念的に示す図である。図 1 2は、 教師データ集合の 更新を概念的に示す図である。 発明を実施するための最良の形態
以下、 本発明の実施の形態を図面を参照しながら説明する。図 1ないし 図 1 2は、 本発明に係る最適解探索装置、 最適化アルゴリズムによる制御 対象の制御装置および最適解探索プログラムの実施の形態を示す図であ る。
まず、 本発明の基本概念を図 1を参照しながら説明する。 図 1は、 本発 明の基本概念を示す図である。
本発明の基本構成は、 図 1に示すように、 最適化対象 1と、 最適化対象 1の評価を対話型評価により行いながら進化型最適化アルゴリズムによ り最適化対象 1の第 1操作量を決定し出力する対話型最適化部 2と、最適 化対象 1の評価を自律型評価により行いながら進化型最適化ァルゴリズ ムにより最適化対象 1の第 2操作量を決定し出力する自律型最適化部 3 とで構成されている。
対話型最適化部 2は、最適化対象 1の操作結果に基づいて、 G Aにより、 最適化対象 1の操作特性が最適となるような第 1操作量を決定し、決定し た第 1操作量を最適化対象 1に出力するようになっている。
自律型最適化部 3は、最適化対象 1の操作結果に基づいて、 G Aにより、 最適化対象 1の操作特性が最適となるような第 2操作量を決定し、決定し た第 2操作量を最適化対象 1に出力するようになっている。
次に、 本発明の基本構成を図 2を参照しながら説明する。 図 2は、 本発 明の基本構成を示すブロック図である。
本発明の基本構成は、 図 2に示すように、 制御対象 5 0と、 制御対象 5 0の制御結果に基づいて制御対象 5 0の制御量を制御する制御装置 6 0 とで構成されている。
制御装置 6 0は、 反射層 5 0 0、 学習層 6 0 0および進化適応層 7 0 0 の 3つの制御層からなり、 制御対象 5 0から制御結果を入力し、 入力した 制御結果に基づいて反射層 5 0 0で基本制御量を決定し、学習層 6 0 0お よび進化適応層 7 0 0で基本制御量に対する補正率を決定し、これら基本 制御量および補正率から最終的な制御量を決定する。以下、反射層 5 0 0、 学習層 6 0 0および進化適応層 7 0 0の構成を詳細に説明する。
反射層 5 0 0は、 数式、 マヅプ、 ニューラルネットワーク、 フアジ一ル —ル、 サブサンプシヨンアーキテクチャ等の形式で、 基本制御量と制御結 果との関係を定義付ける基礎制御部 5 1 0を備え、 基礎制御部 5 1 0は、 制御対象 5 0から制御結果を入力し、入力した制御結果に基づいて基本制 御量を決定して出力する。 なお、 サブサンプシヨンアーキテクチャとは、 並列的な処理を行う行動型人工知能として公知である。
進化適応層 7 0 0は、対話型評価を繰り返し行いながら進化型最適化ァ ルゴリズムにより制御対象 5 0の制御特性を最適化する対話型最適化部 7 1 0と、 自律型評価を繰り返し行いながら進化型最適化アルゴリズムに より制御対象 5 0の制御特性を最適化する自律型最適化部 7 5 0とで構 成されている。
対話型最適化部 7 1 0は、制御結果に基づいて制御対象 5 0の制御量を 出力する制御モジュールを少なくとも一つ有し、制御対象 5 0の制御特性 に対する評価をュ一ザとの対話に基づいて行う対話型評価を繰り返し行 いながら、 G Aにより制御モジュールを最適化するように構成されている c G Aでは、複数の個体の集合からなる個体群を仮想的に生成するとともに、 各個体ごとにその個体の遺伝情報に見立てて個体情報を構成する。ここで、 各個体情報には、制御モジュールを構築するための制御係数を割り当てる c そして、 同一世代において、 遺伝子操作を模倣した情報操作を個体情報に 対して行う遺伝的操作、および個体の評価値に基づいて個体の生存または 淘汰を行う個体選択操作をそれぞれ少なくとも 1回行って世代を所定回 進行させることにより、 個体群を進化させる。所定回数の世代交代が終了 したときは、 個体群のなかから評価値が最も高い個体を抽出し、 抽出した 個体の個体情報を制御係数として用い制御モジュールを構築する。 以下、 評価値が最も高い個体の個体情報を用いて構築した制御モジュールのこ とを 「最適制御モジュール」 という。 なお、 制御モジュールとは、 制御系 のあるまとまった制御を行う一単位をいう。
自律型最適化部 7 5 0は、 制御結果に基づいて、 反射層 5 0 0からの基 本制御量を使用者の希望に沿った値に補正するための進化補正率を出力 する制御モジュールを少なくとも一つ有し、 G Aにより制御モジュールを 最適化するように構成されている。 また、 最適制御モジュールを構築した 後、 自律型最適化部 7 5 0の制御モジュールをその最適制御モジュールに 固定し、反射層 5 0 0からの基本制御量を補正する進化補正率による制御 を行う一方、学習層 6 0 0にその最適制御モジュールに関する情報を学習 させる。 また、 最適制御モジュールに関する情報を学習層 6 0 0に学習さ せた後は、 その出力を 「1」 に戻し、 その後は、 使用者の指示に応じて作 動する。 すなわち、 自律型最適化部 7 5 0の制御モジュールによる制御が 行われるのは、 進化シミュレ一シヨン中および学習中のみである。
学習層 6 0 0は、学習用と実行用とに切換可能な 2つのニューラルネッ トワークを有する学習部 6 1 0を備え、 学習部 6 1 0は、 一方の二ユーラ ルネヅトワーク (実行用) で制御を実行している間、 他方のニュ一ラルネ ッ トヮ一ク (学習用)で進化適応層 7 0 0から最適制御モジュールに関す る入力と出力との関係を学習する。学習用ニューラルネットワークでの学 習が終了すると、制御を実行しているニューラルネッ卜ワークと学習後の ニューラルネヅトワークとを切り換え、学習後のニューラルネヅトワーク で学習結果から得られる制御モジュールによる制御を開始し、制御を実行 していたニューラルネヅトワークが学習用として機能し始める。 なお、 学 習層 6 0 0におけるニューラルネヅトヮ一クは、 初期状態では「 1」 を出 力するように設定されており、 したがって、 初期状態では、 反射層 5 0 0 と進化適応層 7 0 0とによる制御が行われる。
実行用ニューラルネットワークは、制御対象 5 0から制御結果を入力し、 入力した制御結果に基づいて反射層 5 0 0からの基本制御量を補正する ための学習補正率を出力するようになっている。 この構成は、学習用ニュ —ラルネヅトワークについても同様である。 そして、 制御装置 6 0は、学習層 6 0 0からの学習補正率と進化適応層 7 0 0からの進化補正率とを加算し、反射層 5 0 0からの基本制御量にそ の加算結果を乗算することにより制御量を算出する。この制御量を制御対 象 5 0に出力する。
以下、 本発明のより具体的な実施の形態を説明する。
本実施の形態は、 本発明に係る最適解探索装置、 最適化アルゴリズムに よる制御対象の制御装置および最適解探索プログラムを、図 3に示すよう に、対話型評価と自律型評価との組み合わせによる評価を繰り返し行いな がら、 G Aにより、 エンジン 1 0の燃費特性およびレスポンス特性を使用 者向けに最適化する場合について適用したものである。
まず、本発明を適用するエンジン制御システムの構成を図 3を参照しな がら説明する。 図 3は、 本発明を適用するエンジン制御システムの構成を 示すプロック図である。
エンジン制御システムは、 図 3に示すように、 エンジン 1 0と、 シリン ダへの吸気量を調整する電子スロットル 1 2と、エンジン 1 0および電子 スロッ トル 1 2の作動状態を検出してエンジン 1 0の作動状態に関する 各種の情報(以下、外界情報と総称する。)を出力する各種センサ 2 0と、 各種センサ 2 0からの外界情報に基づいてエンジン 1 0の燃料噴射量を 制御する制御装置 3 0とで構成されている。
各種センサ 2 0は、エンジン 1 0および電子スロヅトル 1 2の作動状態 並びに車両の走行状態を検出し、 その検出結果に基づいて、 エンジン 1 0 の回転数、 スロットル開度、 スロットル開度の変化率、 距離パルスおよび 燃料噴射量を外界情報として出力するようになっている。
制御装置 3 0は、 反射層 1 0 0、 学習層 2 0 0および進化適応層 3 0 0 の 3つの制御層からなり、各種センサ 2 0から外界情報を入力し、 入力し た外界情報に基づいて反射層 1 0 0で燃料の基本噴射量を決定し、学習層 2 0 0および進化適応層 3 0 0で基本噴射量に対する補正量を決定し、こ れら基本噴射量および補正量から最終的な燃料噴射量を決定する。 以下、 反射層 1 0 0、学習層 2 0 0および進化適応層 3 0 0の構成を詳細に説明 する。
反射層 1 0 0は、 数式、 マップ、 ニューラルネッ トワーク、 ファジール ール、 サブサンプシヨンアーキテクチャ等の形式で、 基本噴射量および過 渡補正率と外界情報との関係を定義付ける基礎制御部 1 1 0を備え、基礎 制御部 1 1 0は、 各種センサ 2 0から外界情報を入力し、 入力した外界情 報に基づいて基本噴射量および過渡補正率を決定して出力する。
進化適応層 3 0 0は、対話型評価を繰り返し行いながら G Aにより電子 スロッ トル 1 2の制御特性 (レスポンス特性) を最適化する対話型最適化 部 3 1 0と、自律型評価を繰り返し行いながら G Aによりエンジン 1 0の 制御特性(燃費特性) を最適化する自律型最適化部 3 5 0とで構成されて いる。
対話型最適化部 3 1 0は、外界情報に基づいて電子スロットル 1 2のバ ルブ開度を出力する制御モジュールを少なくとも一つ有し、 レスポンス度 に対する評価をユーザとの対話に基づいて行う対話型評価を繰り返し行 いながら、 G Aにより制御モジュールを最適化するように構成されている。 自律型最適化部 3 5 0は、 外界情報に基づいて、 反射層 1 0 0からの基 本噴射量および過渡補正率を使用者の希望に沿った値に補正するための 補正率(以下、 この補正率うち基本噴射量を補正するものを進化補正率と いい、 過渡補正率を補正するものを進化過渡補正率という。 ) を出力する 制御モジュールを少なくとも一つ有し、 G Aにより制御モジュールを最適 化するように構成されている。 また、 最適制御モジュールを構築した後、 自律型最適化部 3 5 0の制御モジュールをその最適制御モジュールに固 定し、反射層 1 0 0からの基本噴射量を補正する進化補正率による制御お よび反射層 1 0 0からの過渡補正率を補正する進化過渡補正率による制 御を行う一方、学習層 2 0 0にその最適制御モジュールに関する情報を学 習させる。 また、 最適制御モジュールに関する情報を学習層 2 0 0に学習 させた後は、 その出力を 「1」 に戻し、 その後は、 使用者の指示に応じて 作動する。 すなわち、 自律型最適化部 3 5 0の制御モジュールによる制御 が行われるのは、 進化シミュレーション中および学習中のみである。 学習層 2 0 0は、学習用と実行用とに切換可能な 2つのニューラルネッ トワークを有する学習部 2 1 0を備え、 学習部 2 1 0は、 一方の二ユーラ ルネヅトワーク (実行用) で制御を実行している間、 他方のニューラルネ ットワーク (学習用)で進化適応層 3 0 0から最適制御モジュールに関す る入力と出力との関係を学習する。学習用ニューラルネットワークでの学 習が終了すると、.制御を実行しているニュ一ラルネヅトワークと学習後の ニューラルネヅ トワークとを切り換え、学習後のニューラルネヅ卜ワーク で学習結果から得られる制御モジュ一ルによる制御を開始し、制御を実行 していたニューラルネヅトワークが学習用として機能し始める。 なお、 学 習層 2 0 0におけるニューラルネヅトワークは、 初期状態では「 1」 を出 力するように設定されており、 したがって、 初期状態では、 反射層 1 0 0 と進化適応層 3 0 0とによる制御が行われる。
実行用ニューラルネットワークは、 特に図示しないが、 さらに、 2つの ニューラルネットヮ一クを含んで構成されている。一方のニューラルネヅ トワークは、スロットル開度およびエンジン回転数を外界情報として各種 センサ 2 0から入力し、その入力情報に基づいて反射層 1 0 0からの基本 噴射量を補正するための補正率(以下、 この補正率を学習補正率という。) を出力するようになっており、 他方のニューラルネットワークは、 スロッ トル開度の変化率およびエンジン回転数を外界情報として各種センサ 2 0から入力し、その入力情報に基づいて反射層 1 0 0からの過渡補正率を 補正するための補正率 (以下、 この補正率を学習過渡補正率という。 ) を 出力するようになっている。 この構成は、 学習用ニューラルネヅトワーク についても同様である。
そして、 制御装置 3 0は、 学習層 2 0 0からの学習補正率と進化適応層 3 0 0からの進化補正率とを加算し、反射層 1 0 0からの基本噴射量にそ の加算結果を乗算し、 これを第 1の乗算結果とする一方、 学習層 2 0 0か らの学習過渡補正率と進化適応層 3 0 0からの進化過渡補正率とを加算 し、 反射層 1 0 0からの過渡補正率にその加算結果を乗算し、 これを第 2 の乗算結果とし、第 1の乗算結果に第 2の乗算結果を乗算することにより 燃料噴射量を算出する。 この燃料噴射量をエンジン 1 0に出力する。 次に、対話型最適化部 3 1 0の構成を図 4を参照しながら詳細に説明す る。 図 4は、 対話型最適化部 3 1 0の構成を示すブロック図である。 対話型最適化部 3 1 0は、 図 4に示すように、 使用者との入出力を行う インタ一フェース部 3 2 0と、 G Aによる進化シミュレーシヨンを行って エンジン 1 0の制御特性を最適化する進化適応部 3 3 0と、 G Aにおける 個体の評価値を算出する評価部 3 4 0とで構成されている。
ィン夕一フェース部 3 2 0は、 G Aによる進化シミュレーション中の個 体の評価値を表示する表示部 3 2 2と、使用者による評価を入力する入力 部 3 2 4どで構成されており、 G Aによる進化シミュレーシヨン中では、 各世代ごとに各個体の評価値(後段で詳述するが、 レスポンス度) が表示 部 3 1 2に表示され、使用者は、 乗り心地等の車両の体感をもとに各個体 の評価を入力部 3 1 4に入力する。
評価部 3 4 0は、外界情報に基づいてレスポンス度を算出するレスボン ス度算出部 3 4 2で構成されている。 レスポンス度算出部 3 4 2は、 スロ ットル開度およびエンジン回転数を外界情報として入力し、スロットル開 度の変化率およびエンジン回転数の変化率を算出し、エンジン回転数の変 化率をスロットル開度の変化率で除算することによりレスポンス度を算 出し、 算出したレスポンス度を、 G Aにおける個体の評価値として進化適 応部 3 3 0に出力するようになっている。
進化適応部 3 3 .0は、 制御モジュール 3 3 2を有している。制御モジュ ール 3 3 2は、例えば、 スロヅトル開度とパルプ開度との静特性を示す 2 つの制御係数 S P 1 3 S P2、 およびスロットル閧度とバルブ開度との動特 性を示す 2つの制御係数 D R ( 1次遅れ要素) , A G (不完全微分要素) に基づいて、 スロヅトル閧度とバルブ開度との関係を規定し、 スロヅトル 開度を外界情報として入力し、入力したスロットル開度に基づいてバルブ 開度を決定して電子スロットル 1 2に出力するようになっている。
G Aにおける個体の個体情報には、静特性を示す制御係数 S P 1 3 S P 2、 および動特性を示す 2つの制御係数 D R , A Gを割り当てる。具体的には、 図 5に示すように割り当てられている。 図 5は、 個体情報のデ一夕構造を 示す図である。
G Aにおける個体の個体情報は、 静特性を示す制御係数 S P 13 S P 2を 上位側に、 動特性を示す 2つの制御係数 D R, A Gを下位側にそれぞれ割 り当てることにより構成されている。例えば、一つの制御係数が 1 6ビヅ トのデ一夕で構成されていれば、 個体情報は、全体で 6 4ビットのデータ となる。 また、 進化シミュレーションを開始する際に生成する初期の個体 情報は、 各個体ごとに乱数により決定する。 その際、 レスポンス度をある 程度保証するために、乱数の発生範囲を所定範囲に制限するのが好ましい。 すなわち、 レスポンス度が明らかに悪くなるような範囲には、 乱数を発生 させないようにする。
次に、進化適応部 3 3 0で実行される処理を図 6を参照しながら詳細に 説明する。 図 6は、 進化適応部 3 3 0で実行される処理を示すフローチヤ —トである。 G Aは、 各個体にランダムな初期値を与えて探索空間内に配置し、 世代 ごとに交叉、 突然変異と呼ばれる遺伝的操作を適用し、個体の評価値に応 じて個体の増殖および選択を行うことにより、次世代の個体の集合を得る このような世代交代を繰り返すことにより、漸近的に最適解に近づくこと を目的とする。 以下、 遺伝的操作である交叉、 突然変異、 選択について説 明する。
交叉とは、 少なくとも 2つの個体を親とし、 親となる個体の個体情報の 一部を入れ替えることにより、子孫となる個体を 1以上生成する操作であ る。ある個体の個体情報のよい部分と別の個体の個体情報のよい部分を合 体させることにより、 より評価値の髙ぃ個体を得ることが期待できる。例 えば、 2つの個体を親として子孫となる 2つの個体を生成する場合、 一方 の親となる個体の個体情報を「000110」、 他方の親となる個体の個体情報 を 「110111」 とし、 3番目の位置で交叉させることにより、 「000111」 の 個体情報をもつ個体と、 「110110」の個体情報をもつ個体とを子孫となる 個体.として得る。
突然変異とは、所定の確率で個体の個体情報のうち特定部分を変更する 操作であり、 個体群内での多様性を増加させる。具体的には、 個体情報の 特定のビットを反転させる操作であり、 例えば、 ある個体の個体情報を 「000111」 とし、 その 3番目の位置で突然変異を起こすことにより、 「001111」 の個体情報をもつ個体を得る。
選択とは、個体の評価値に応じて個体群のなかのよりよい個体を次世代 に残すための操作である。ル一レツト選択と呼ばれる選択方法では、 各個 体は評価値に比例した確率で選択される。 例えば、 ある世代において、 「000000」 、 「111011」、 「110111」 、 「010111」 の個体情報をもつ個体 の評価値がそれぞれ「8」 、 「4」 、 「2」、 「2」 であったとする。 そ れそれの個体が選択される確率は、 「8 / 1 6」、 「4 / 1 6」、 「2 1 6」、 「2 / 1 6」となる。 したがって、平均的には、次世代において、 「000000」の個体情報をもつ個体は 2つに増え、 「111011」の個体情報を もつ個体は一つのままで、 「110111」 の個体情報をもつ個体または 「010111」の個体情報をもつ個体はいずれかが残るような個体群が得られ る。 もっとも、 進化適応部 3 3 0においては、 個体の選択を使用者の選択 により行う。
以上のことをふまえて、進化適応部 3 3 0で実行される処理を説明する c なお、 図 6のフローチャートに示す処理は、 例えば、 R O Mにあらかじめ 格納されているプログラムを読み出し、読み出したプログラムに従って C P Uが実行する。
まず、 ステップ S 1 0 0に移行して、 進化シミュレーションを開始する 指示である進化開始指示を入力部 3 2 2から入力したか否かを判定し、進 化開始指示を入力したと判定したとき(Yes)は、 ステップ S 1 0 2に移行 するが、 そうでないと判定したとき(No)は、 進化開始指示を入力するまで ステップ S 1 0 0で待機する。
ステップ S 1 0 2では、 所定数 (例えば、 9個) の個体の集合からなる 個体群を仮想的に生成するとともに各個体ごとに個体情報を構成する。こ こで、 各個体情報には、 静特性を示す制御係数 S P !, S P 2および動特性 を示す 2つの制御係数 D R, A Gを割り当て、 各個体の個体情報を乱数に より決定する。 このとき、 個体情報のすべての値が「0」 となる個体を一 つ生成することで、進化の過程で進化前のレスポンス性能を下回らないよ うにすることができる。 なお、 各個体の個体情報は、 R A M等の記憶装置 上に格納され管理される。
次いで、 ステップ S 1 0 4に移行して、個体群のうち先頭の個体の個体 情報を読み出し、 ステップ S 1 0 6に移行して、 読み出した個体情報に基 づいて制御モジュール 3 3 2を構築し、構築した制御モジュール 3 3 2に より電子スロットル 1 2の制御を開始する。
次いで、 ステップ S 1 0 8に移行して、 レスポンス度を評価部 3 4 0か ら取得する。ここで、個体情報に基づいて制御モジュール 3 3 2を構築し、 構築した制御モジュール 3 3 2により電子スロヅトル 1 2の制御を開始 し、 その結果得られたレスポンス度は、 その個体に対する評価値とする。 この評価値が高いほど、 すなわち、 G Aによる進化シミュレーションにお いて優秀な個体であると位置付けることができる。
次いで、 ステップ S 1 1 0に移行して、個体群のすべての個体について ステップ S 1 0 6から S 1 0 8までの処理が終了したか否かを判定し、す ベての個体について処理が終了したと判定したとき(Yes)は、 ステップ S 1 1 2に移行する。
ステップ S 1 1 2では、各個体ごとにその評価値であるレスポンス度を 表示部 3 2 4に表示し、 ステップ S 1 1 4に移行して、使用者による評価 を入力部 3 2 2から入力する。個体群のすべての個体に対する評価の表示 が終了すると、 制御は一度評価モードに入る。評価モードでは、 使用者が 表示部 3 2 4に表示された評価を見て試走してみたい特性の個体を選択 すると、使用者により選択された個体の個体情報に基づいて制御モジュ一 ル 3 3 2を構築して一時的に固定し、その制御モジュール 3 3 2による制 御を行う。 これにより、 使用者は、 表示部 3 2 4に表示された各個体の特 性を、 実際に走行した乗り心地等から判定し、 各個体の評価値を乗り心地 から評価する。 そして、 ステップ S 1 1 6に移行して、 使用者は、 表示部 3 2 4に表現された個体の評価と、実際に走行した時の乗り心地とに基づ く各個体の評価を終了した段階で、 制御を淘汰モードに切り換え、 個体群 における個体の生存または淘汰を行う。個体の生存または淘汰は、例えば、 入力部 3 2 2で淘汰モードに切り換え、 表示画面を参照しながら、 個体群 のなかから使用者の好みの特性を持つ個体を幾つか選択し、選択した個体 を残し、 それ以外の個体を消去することにより行う。
次いで、 ステップ S 1 1 8に移行して、 G Aにおける個体の交叉を行う 交叉処理を実行する。 具体的に、 ステップ S 1 1 8では、 使用者により選 択された個体群のなかから乱数を用いて 2個の親個体を選択し、これらに 交叉を施して 2個の子個体を生成する。 この処理を 5回行うことにより、 再び、 9個の子個体からなる個体群を生成する ( 1 0番目の子個体は破棄 する) 。 交叉処理には、 例えば、 上記の 1点交叉処理のほかに、 2点交叉 処理または正規分布交叉処理等を採用することができる。正規分布交叉処 理とは、 実数値表現の個体情報について、 両親個体を結ぶ軸に対して回転 対称な正規分布にしたがって子個体を生成する処理である。正規分布の標 準偏差は、両親個体を結ぶ主軸方向の成分については両親個体間の距離に 比例させ、その他の軸の成分については両親個体を結ぶ直線と個体群のな かからサンプルした第 3の親個体との距離に比例させる。この交叉方法は、 親個体の特質が子個体に引き継がれやすいという利点がある。
次いで、 ステップ S 1 2 0に移行して、 G Aにおける個体の突然変異を 行う突然変異処理を実行し、 ステップ S 1 2 2に移行して、 入力部 3 2 2 からの入力により使用者が満足する特性が得られたか否かを判定し、使用 者が満足する特性が得られないと判定したとき(No)は、ステップ S 1 2 4 に移行して、 世代交代数が所定回数以上であるか否かを判定し、 所定回数 以上であると判定したとき(Yes)は、 ステップ S 1 2 6に移行する。
ステヅプ S 1 2 6では、進化シミュレーションを開始すべき進化開始要 求を自律型最適化部 3 5 0に出力し、 ステップ S 1 2 8に移行して、個体 群のなかから評価値が最も高い個体を抽出し、抽出した個体の評価値であ るレスポンス度を基準として所定範囲を、 レスポンス度の制限範囲として 自律型最適化部 3 5 0に出力し、一連の処理を終了して元の処理に復帰さ せる。 一方、 ステップ S 1 2 4で、 世代交代数が所定回数未満であると判定し たとき(Yes )は、 ステヅプ S 1 0 4に移行する。
一方、 ステップ S 1 2 2で、 使用者が満足する特性が得られたと判定し たとき(Yes )は、 ステップ S 1 2 6に移行する。
一方、 ステヅプ S 1 1 0で、 個体群のすべての個体についてステップ S 1 0 6から S 1 0 8までの処理が終了していないと判定したとき(No )は、 ステップ S 1 3 0に移行して、個体群のうち次の個体の個体情報を読み出 し、 ステップ S 1 0 6に移行する。
次に、 自律型最適化部 3 5 0の構成を図 7を参照しながら詳細に説明す る。 図 7は、 自律型最適化部 3 5 0の構成を示すブロック図である。 自律型最適化部 3 5 0は、 図 7に示すように、 G Aによる進化シミュレ ーシヨンを行ってエンジン 1 0の制御特性を最適化する進化適応部 3 6 0と、 G Aにおける個体の評価値を算出する評価部 3 7 0とで構成されて いる。
評価部 3 7 0は、燃料噴射量および距離パルスに基づいてエンジン 1 0 の燃費を算出する燃費算出部 3 7 2と、スロットル開度およびエンジン回 転数に基づいてレスポンス度を算出するレスポンス度算出部 3 7 4とで 構成されている。
燃費算出部 3 7 2は、 料噴射量および距離パルスを外界情報として入 力し、所定距離走行するごとに入力される距離パルスの入力間隔で噴出量 を総和して燃費として算出し、 算出した燃費を、 G Aにおける個体の第 1 評価値として進化適応部 3 6 0に出力するようになっている。レスポンス 度算出部 3 7 4は、スロッ トル開度およびエンジン回転数を外界情報とし て入力し、スロットル開度の変化率およびエンジン回転数の変化率を算出 し、エンジン回転数の変化率をスロットル開度の変化率で除算することに よりレスポンス度を算出し、 算出したレスポンス度を、 G Aにおける個体 の第 2評価値として進化適応部 3 6 0に出力するようになっている。 進化適応部 3 6 0は、 制御モジュール 3 6 2を有し、 制御モジュール 3 6 2は、さらに、 2つのニューラルネヅトワークを含んで構成されている。 一方のニューラルネヅトワーク 3 6 2 aは、スロヅトル開度およびェンジ ン回転数を外界情報として各種センサ 2 0から入力し、その入力情報に基 づいて進化補正率を出力するようになっており、他方のニューラルネット ワーク 3 6 2 bは、スロヅトル開度の変化率およびエンジン回転数を外界 情報として各種センサ 2 0から入力し、その入力情報に基づいて進化過渡 補正率を出力するようになっている。
G Aにおける個体の個体情報には、 ニューラルネットワーク 3 6 2 a, 3 6 2 bにおけるシナプスの結合係数を割り当てる。具体的には、 図 8に 示すように割り当てられている。 図 8は、 ニューラルネヅトワーク 3 6 2 a , 3 6 2 bの構成および個体情報のデータ構造を示す図である。 . ニューラルネットワーク 3 6 2 aは、スロットル開度を入力する入力層 : uと、 エンジン回転数を入力する入力層 f i2と、 入力層 f u , : f i2からの 出力を入力する中間層 f hl, f h2と、 中間層 f hl , f h2の出力を入力して進 化補正率を出力する出力層: f Qlとの 5つのパーセプトロンから構成されて いる。そして、入力層 f uと中間層 f hlとは結合係数 kflのシナプスにより、 入力層 f i2と中間層 f hlは結合係数 kf2のシナプスにより、 中間層 f hlと出 力層: ί 01とは結合係数 ki3のシナプスにより、 入力層 f uと中間層 f h2とは 結合係数 kf4のシナプスにより、 入力層 f i2と中間層 f h2とは結合係数 kf5 のシナプスにより、 中間層 f h2と出力層 f。2とは結合係数 kf6のシナプスに よりそれぞれ結合されている。
ニューラルネットワーク 3 6 2 bは、スロットル開度の変化率を入力す る入力層 a uと、 エンジン回転数を入力する入力層 a i2と、 入力層 a il 3 a i2からの出力を入力する中間層 ahl, ah2と、 中間層 ahl, ah2の出力を入力 して進化過渡補正率を出力する出力層 aclとの 5つのパーセプトロンから 構成されている。 そして、 入力層 a uと中間層 ahlとは結合係数 kalのシナ ブスにより、 入力層 a i2と中間層 ahlは結合係数 ka2のシナプスにより、 中 間層 ahlと出力層 a とは結合係数 ka3のシナプスにより、 入力層 a uと中 間層 ah2とは結合係数 ka4のシナプスにより、 入力層 a i2と中間層 ah2とは 結合係数 ka5のシナプスにより、 中間層 ah2と出力層 a。2とは結合係数 ka6 のシナプスによりそれぞれ結合されている。
そして、 G Aにおける個体の個体情報は、 シナプスの結合係数 kfl〜k f6を上位側に、 シナプスの結合係数 k al〜 k a6を下位側にそれぞれ連続して 割り当てることにより構成されている。例えば、 一つの結合係数が 8ビヅ トのデ一夕で構成されていれば、個体情報は、 全体で 9 6ビヅトのデ一夕 となる。 また、 進化シミュレーションを開始する際に生成する初期の個体 情報は、 各個体ごとに乱数により決定する。 その際、 レスポンス度をある 程度保証するために、乱数の発生範囲を所定範囲に制限するのが好ましい すなわち、 レスポンス度が明らかに悪くなるような範囲には、 乱数を発生 させないようにする。
次に、進化適応部 3 6 0で実行される処理を図 9を参照しながら詳細に 説明する。図 9は、 進化適応部 3 .6 0で実行される処理を示すフローチヤ —トである。 なお、 図 9のフローチャートに示す処理は、 例えば、 R O M にあらかじめ格納されているプログラムを読み出し、読み出したプログラ ムに従って C P Uが実行する。
まず、 ステップ S 2 0 0に移行して、 進化開始要求を対話型最適化部 3 1 0から入力したか否かを判定し、進化開始要求を入力したと判定したと き(Yes)は、 ステップ S 2 0 2に移行するが、 そうでないと判定したとき (No)は、 進化開始要求を入力するまでステップ S 2 0 0で待機する。 ステップ S 2 0 2では、 レスポンス度の制限範囲を対話型最適化部 3 1 0から入力し、 ステップ S 2 0 4に移行して、 所定数 (例えば、 9個) の 個体の集合からなる個体群を仮想的に生成するとともに各個体ごとに個 体情報を構成する。 ここで、 各個体情報には、 ニューラルネットワーク 3 6 2 a , 3 6 2 bにおけるシナプスの結合係数を割り当て、 各個体の個体 情報を乱数により決定する。 このとき、 個体情報のすべての値が「0」 と なる個体を一つ生成することで、進化の過程で進化前のレスポンス性能を 下回らないようにすることができる。 なお、 各個体の個体情報は、 R A M 等の記憶装置上に格納され管理される。
次いで、 ステップ S 2 0 6に移行して、個体群のうち先頭の個体の個体 情報を読み出し、 ステップ S 2 0 8に移行して、 読み出した個体情報に基 づいてニューラルネヅトワーク 3 6 2 a, 3 6 2 bの結合状態を決定して 制御モジュール 3 6 2を構築し、構築した制御モジュール 3 6 2によりェ ンジン 1 0の制御を開始する。 このとき、 自律型最適化部 3 5 0からの出 力は、 スロットル開度、 スロットル開度の変化率およびエンジン回転数を ニューラルネヅトワーク 3 6 2 a , 3 6 2 bに入力し、 さらにその出力を 下式 ( 1 ) により線形変換することにより算出する。 また、 スロットル開 度、 スロットル開度の変化率およびエンジン回転数の入力情報は、 それぞ れを正規化したものを用いる。 下式 ( 1 ) において、 Yは進化補正率また は進化過渡補正率であり、 Xはニューラルネヅトワーク 3 6 2 a , 3 6 2 bの出力であり、 Gは所定のゲインである。
Y = 2 x Gx - G ... ( 1 ) このように、 ニューラルネットワーク 3 6 2 a , 3 6 2 bの出力 xを線 形変換して用いることにより、 自律型最適化部 3 5 0から出力される進化 補正率または進化過渡補正率の値が極端に大きくなることがなく、全体と して進化シミュレーションが少しずつ進行するようになり、エンジン 1 0 の挙動が評価や進化シミユレ一ションのために極端に変動することがな くなる。
次いで、 ステップ S 2 1 0に移行して、 燃費およびレスポンス度を評価 部 3 7 0から取得する。 ここで、 個体情報に基づいて制御モジュール 3 6 2を構築し、構築した制御モジュール 3 6 2によりエンジン 1 0の制御を 開始し、 その結果得られた燃費およびレスポンス度は、 その個体に対する 評価値とする。 この評価値が高いほど、 すなわち、 第 1評価値である燃費 については、 小さければ小さいほど、 第 2評価値であるレスポンス度につ いては、 高ければ高いほど、 G Aによる進化シミュレーションにおいて優 秀な個体であると位置付けることができる。
'次いで、 ステップ S 2 1 2に移行して、 個体群のすべての個体について ステップ S 2 0 &から S 2 1 0までの処理が終了したか否かを判定し、す ベての個体について処理が終了したと判定したとき(Yes )は、 ステヅプ S 2 1 4に移行する。
ステップ S 2 1 4では、各個体ごとにその第 2評価値であるレスポンス 度が、ステップ S 2 0 2で入力したレスポンス度の制限範囲内に属してい るか否かを判定し、 レスポンス度が制限範囲内に属していないと判定した とき(No)は、 ステップ S 2 1 6に移行して、 その個体を淘汰し、 ステップ S 2 1 8に移行する。
ステップ S 2 1 8では、個体群のすべての個体についてステヅプ S 2 0 8から S 2 1 0までの処理が終了したか否かを判定し、すべての個体につ いて処理が終了したと判定したとき(Yes)は、 ステップ S 2 2 0に移行す るが、 そうでないと判定したとき(No)は、 ステップ S 2 1 4に移行する。 ステヅプ S 2 2 0では、 ステップ S 2 1 4〜 S 2 1 8の処理により、 レ スポンス度が制限範囲内に属している個体群が形成されるが、この処理に よつて所定数(例えば、半数)以上の個体が淘汰されないときは、さらに、 個体群の総数が元の数の半数以下となるように個体の生存または淘汰を 行う選択処理を実行する。選択処理としては、 例えば、 上記のルーレツト 選択処理のほかに、エリート優先選択処理または下位適応度単純淘汰処理 等を採用することができる。
次いで、 ステップ S 2 2 2に移行して、 G Aにおける個体の交叉を行う 交叉処理を実行し、 ステップ S 2 2 4に移行して、 G Aにおける個体の突 然変異を行う突然変異処理を実行し、 ステップ S 2 2 6に移行して、 世代 交代数が所定回数以上であるか否かを判定し、所定回数以上であると判定 したとき(Yes )は、 ステップ S 2 2 8に移行する。
ステップ S 2 2 8では、個体群のなかから評価値が最も高い個体を抽出 し、 抽出した個体の個体情報に基づいて最適制御モジュールを構築し、 制 御モジュール 3 6 2を最適制御モジュールに固定し、ステップ S 2 3 0に 移行して、制御モジュール 3 6 2の入出力関係を学習層 2 0 0に学習させ、 ステップ S 2 3 2に移行して、 制御モジュール 3 6 2の出力を「 1」 に設 定し、 一連の処理を終了して元の処理に復帰させる。
一方、 ステヅプ S 2 2 6で、 世代交代数が所定回数未満であると判定し たとき(Yes )は、 ステップ S 2 0 6に移行する。
一方、 ステップ S 2 1 2で、 個体群のすべての個体についてステップ S 2 0 8から S 2 1 0までの処理が終了していないと判定したとき(No )は、 ステップ S 2 3 4に移行して、個体群のうち次の個体の個体情報を読み出 し、 ステップ S 2 0 8に移行する。
次に、 上記実施の形態の動作を図面を参照しながら説明する。
エンジン 1 0および電子スロットル 1 2の制御特性を使用者向けに最 適化するには、使用者は、まず、進化開始指示を入力部 3 2 2に入力する。 対話型最適化部 3 1 0では、使用者から.進化開始指示を入力すると、 ス テツプ S I 0 0 , S I 0 2を経て、 9個の個体の集合からなる個体群が生 成されるとともに各個体ごとに個体情報が構成される。 ここで、 個体情報 には、 静特性を示す制御係数 S P 13 S P2および動特性を示す 2つの制御 係数 D R , A Gが割り当てられる。
個体群が生成されると、第 1世代目の進化シミュレーションが開始され る。第 1世代目の進化シミュレーションでは、 まず、 ステップ S 1 0 4を 経て、 個体群のうち先頭の個体の個体情報が読み出され、 読み出された個 体情報に基づいて制御モジュール 3 3 2が構築され、構築された制御 ΐジ ユール 3 3 2により電子スロヅトル 1 2の制御が開始され、 しばらくの間 その制御モジュール 3 3 2による制御が行われる。 その間、 ステヅプ S 1 0 8を経て、 レスポンス度が評価部 3 4 0から取得される。
これと同じ要領で、ステップ S 1 0 6から S 1 0 8までの処理が個体群 のすベての個体について終了すると、 ステップ S 1 1 2を経て、 各個体ご とにその評価値であるレスポンス度が表示部 3 2 4に表示される。ここで、 使用者は、 表示部 3 2 4に表示された各個体の評価を参照しながら、 個体 群のなかから自己の好みの特性を持つ個体を幾つか選択する。使用者によ り個体の選択が行われると、 ステップ S 1 1 6を経て、個体群のうち選択 された個体が残され、それ以外の個体が消去されることにより個体の生存 または淘汰が行われる。
次いで、 ステップ S 1 1 8 , S 1 2 0を経て、 交叉処理および突然変異 処理が行われる。 ここまでの処理を経て、 第 1世代目の進化シミュレーシ ヨンが終了する。 その後は、 これと同じ要領で、 使用者が満足する特性が 得られるかまたは世代交代数が所定回数以上となるまで、進化シミュレ一 シヨンが繰り返し行われる。 その結果、 図 1 0に示すように、 レスポンス 特性が使用者向けに最適化される。図 1 0の例では、 制限範囲の中心付近 に位置する点がそれである。 図 1 0は、 エンジン 1 0および電子スロヅト ル 1 2の制御特性を最適化する順序を示す図である。
次いで、 進化シミュレーションが完了すると、 ステップ S 1 2 6 , S 1 2 8を経て、 進化開始要求が自律型最適化部 3 5 0に出力され、個体群の なかから評価値が最も高い個体が抽出され、抽出された個体の評価値であ るレスポンス度を基準として所定範囲が、 レスポンス度の制限範囲として 自律型最適化部 3 5 0に出力される。
自律型最適化部 3 5 0では、進化開始要求を入力すると、 ステップ S 2 0 0〜S 2 0 4を経て、 レスポンス度の制限範囲を入力し、 9個の個体の 集合からなる個体群が生成されるとともに各個体ごとに個体情報が構成 される。 ここで、 個体情報には、 ニューラルネヅ トワーク 3 6 2 a , 3 6 2 bにおけるシナプスの結合係数が割り当てられる。
個体群が生成されると、第 1世代目の進化シミュレ一シヨンが開始され る。 第 1世代目の進化シミュレーションでは、 まず、 ステップ S 2 0 6 , S 2 0 8を経て、個体群のうち先頭の個体の個体情報が読み出され、 読み 出された個体情報に基づいて制御モジュール 3 6 2が構築され、構築され た制御モジュール 3 6 2によりエンジン 1 0の制御が開始され、 しばらく の間その制御モジュール 3 6 2による制御が行われる。その間、 ステップ S 2 1 0を経て、燃費およびレスポンス度が評価部 3 7 0から取得される c これと同じ要領で、ステップ S 2 0 8から S 2 1 0までの処理が個体群 のすベての個体について終了すると、 ステップ S 2 1 4を経て、 各個体ご とにその第 2評価値であるレスポンス度が、ステップ S 2 0 2で入力した レスポンス度の制限範囲内に属しているか否かが判定される。 その結果、 レスポンス度の制限範囲内に属していない個体については、ステップ S 2 1 6を絰て淘汰される。 これにより、 レスポンス度が制限範囲内に属して いる個体のみが次世代の個体を生成する親個体の候補として生存するこ ととなる。 次いで、 ステップ S 2 2 0〜S 2 2 4を経て、 選択処理、 交叉処理およ び突然変異処理が行われる。 ここまでの処理を経て、 第 1世代目の進化シ ミュレ一シヨンが終了する。 その後は、 これと同じ要領で、 世代交代数が 所定回数以上となるまで、 進化シミュレーションが繰り返し行われる。そ の結果、 図 1 0に示すように、 レスポンス度が制限範囲内に属するように 燃費特性が自律的に最適化される。図 1 0の例では、 制限範囲内であって 燃費特性とレスポンス特性の最大曲線(波線)上に位置する点がそれであ 次いで、進化シミュレーションが完了すると、ステップ S 2 2 8を経て、 個体群のなかから評価値が最も高い個体が抽出され、抽出された個体の個 体情報に基づいて最適制御モジュールが構築され、制御モジュール 3 6 2 が最適制御モジュールに固定される。
次いで、 ステップ S 2 3 0を経て、 制御モジュール 3 6 2の入出力関係 が学習層 2 0 0に学習させられる。 この学習では、 まず、 最適制御モジュ ールにより得られる実際のエンジン回転数等の入力情報に対する進化補 正率および進化過渡補正率による制御を行う。自律型最適化部 3 5 0が進 化補正率および進化過渡補正率による制御を実行し始めると、学習層 2 0 0の学習用ニューラルネヅ トワークは、制御モジュール 3 6 2の入出関係 を、学習層 2 0 0の実行用として機能しているニューラルネヅトワークの 入出関係と合わせて学習する。 この間、 自律型最適化部 3 5 0の出力は、 それ以前の評価関数を最大とした個体により行われ、制御則が時間的に変 化することはない。前記した学習では、 自律型最適化部 3 5 0と学習層 2 0 0の実行用ニューラルネットワークとの入出力を、あるステップ幅で平 均化し、 これを入出力デ一夕として教師デ一夕集合の更新に用いる。例え ば、 1秒間の平均エンジン回転数が 5 0 0 0 [ r p m]、 平均スロッ トル 開度が 2 0、 平均吸気温度が 2 8 [V]、平均大気圧が 1 0 1 3 [ h P a ] であった場合、 これらと、 その時の自律型最適化部 3 5 0および学習層 2 0 0における実行用ニューラルネットワークの出力を加算したものを入 出力デ一夕として用いる (図 1 1参照) 。 この入出力デ一夕を、 以前の教 師デ一夕に加えて新しい教師デ一夕集合を得る。 このとき、 教師データ集 合における新しいデータとのュ一クリツド距離が一定値以内の古い教師 データは消去する。 この様子を図 1 2に示す。 また、 教師データ集合の初 期値は、 すべての入力デ一夕に対して出力を 「 1」 にしておく。 学習層 2 0 0では、 更新された教師デ一夕集合に基づいて、 学習用ニューラルネヅ トワークにおけるシナプスの結合係数の学習を行う。 結合係数の学習は、 学習中の学習用ニューラルネットワークの出力と反射層 1 0 0からの基 本噴射量および過渡補正率とから得られる仮想制御出力と、実際の制御出 力との間の誤差がしきい値以下になるまで行われ、 この学習が終わると、 学習用のニューラルネットワークは実行用になり、もとの制御用のニュー ラルネットワークが学習用となる。 この後、 学習層 2 0 0は、 新しく得ら れた実行用のニューラルネットワークにより学習補正率および学習過渡 補正率を決定して実際に出力し、 同時に、 ステヅプ S 2 3 2を経て、 制御 モジュール 3 6 2の出力は「 1」 になり、 学習層 2 0 0と反射層 1 0 0と による制御が行われる。 また、 学習層 2 0 0の実行用のニュ一ラルネヅト ワークの初期値は、 出力が常に 「1」 になるように設定しておく。 こうす ることで、初期状態においては、 反射層 1 0 0と自律型最適化部 3 5 0の みで制御を行うようにできる。
このようにして、 本実施の形態では、 レスポンス特性を制御する対話型 最適化部 3 1 0と、 燃費特性を制御する自律型最適化部 3 5 0とを備え、 対話型最適化部 3 1 0については、対話型最適化部 3 1 0の制御特性に影 響を及ぼす制御係数を入力としてレスポンス度を出力するレスポンス度 算出部 3 4 2を用いて、 レスポンス度算出部 3 4 2のレスポンス度を対話 型評価により繰り返し評価しながら、 レスポンス度算出部 3 4 2の最適解 を G Aにより探索するようになっており、 自律型最適化部 3 5 0について は、 自律型最適化部 3 5 0の制御特性に影響を及ぼす制御係数を入力とし て燃費を出力する燃費算出部 3 7 2を用いて、対話型最適化部 3 1 0の最 適化で最適解として探索した解から求まるレスポンス度を基準として所 定範囲内にレスポンス度が属するように、燃費算出部 3 7 2の燃費を自律 型評価により繰り返し評価しながら、燃費算出部 3 7 2の最適解を G Aに より探索するようになっている。
これにより、従来に比して、 使用者の希望に比較的沿ったレスポンス度 となるような制御係数を探索することができ、 しかも最適化に要する時間 を比較的短縮することができる。特に、 対話型最適化部 3 1 0について最 適化が完了した後は、 レスポンス度をさほど損なうことなく、 自律型最適 化部 3 5 0の最適化を比較的高速に行うことができる。
さらに、 本実施の形態では、 対話型最適化部 3 1 0の評価の対象がレス ポンス度であり、 自律型最適化部 3 5 0の評価の対象が燃費である。 これにより、エンジン 1 0の制御特性のうちレスポンス特性を使用者向 けに、燃費特性を所定の評価基準に従ってそれぞれ最適化することができ る。
さらに、 本実施の形態では、 エンジン 1 0の燃料噴射量の補正率または 過渡補正率の補正率をニュ一ラルネヅトワーク 3 6 2 a , 3 6 2 bにより 生成するようになっており、 個体情報には、 ニューラルネヅトワーク 3 6 2 a , 3 6 2 bにおけるシナプスの結合係数を割り当てるようになつてい る ο
これにより、 高い評価値を得ることが期待できる、 ニューラルネヅトヮ —ク 3 6 2 a , 3 6 2 bにおけるシナプスの結合係数を決定することがで きる。 上記実施の形態において、 G Aは、 請求の範囲第 1、 第 3ないし第 5、 第 7、 第 8、 第 1 0若しくは第 1 2項記載の最適化アルゴリズム、 または 請求の範囲第 8項記載の進化型最適化アルゴリズムに対応し、ニューラル ネットワーク 3 6 2 a , 3 6 2 bにおけるシナプスの結合係数は、請求の 範囲第 3、 第 5、 第 8または第 1 0項記載の制御係数に対応している。 ま た、 R A Mは、 請求の範囲第 2または第 4項記載の記憶手段に対応し、 評 価部 3 4 0, 3 7 0は、 請求の範囲第 2、 第 4または第 8項記載の評価値 算出手段に対応し、 入力部 3 2 2は、請求の範囲第 2または第 4項記載の 評価入力手段に対応し、 エンジン 1 0および電子スロヅトル 1 2は、 請求 の範囲第 3ないし第 5、 第 7、 第 8または第 1 0項記載の制御対象に対応 している。
また、 上記実施の形態において、 対話型最適化部 3 1 0は、 請求の範囲 第 5項記載の第 1制御系に対応し、 自律型最適化部 3 5 0は、 請求の範囲 第 5項記載の第 2制御系に対応し、 レスポンス度算出部 3 4 2は、 請求の 範囲第 5または第 7項記載の第 1評価関数に対応し、燃費算出部 3 7 2は、 請求の範囲第 5または第 7項記載の第 2評価関数に対応している。 また、 ステップ S 1 1 8, S 1 2 0 , S 2 2 2 , S 2 2 4は、 請求の範囲第 8項 記載の個体情報操作手段に対応し、 ステップ S 1 1 6 , S 2 1 4〜S 2 2 0は、 請求の範囲第 8項記載の個体選択手段に対応している。
なお、 上記実施の形態においては、 対話型評価を繰り返し行いながらレ スポンス特性を最適化した後に、 レスポンス度の制限範囲を設定し、 自律 型評価を繰り返し行いながら、 レスポンス度が制限範囲内に属するように 燃費特性を最適化するように構成したが、 これに限らず、 自律型評価を繰 り返し行いながら燃費特性を最適化した後に、燃費特性に制限範囲を設定 し、 対話型評価を繰り返し行いながら、燃費が制限範囲内に属するように レスポンス特性を最適化するように構成してもよい。 もちろん、 このよう に順番に行うに限らず、 少しずつ交互に行うようにしてもよいし、 並列に 行うようにしてもよい。
また、 上記実施の形態においては、 制御装置 3 0の制御対象として車両 用エンジン 1 0を適用しているが、制御装置 3 0の制御対象は本実施の形 態に限定されることなく任意のものでよく、 例えば、 車体のサスペンショ ンゃシートのダンパー特性の制御または、電気モー夕やエンジンを補助動 力とする自転車或いは車イスにおける補助動力のアシスト特性、またはパ 一ソナルロボットの動作特性(きびきびした動作やのんびりした動作)の 制御に適用してもよい。
また、 本実施の形態においては、 制御出力として燃料噴射量を取り扱つ ているが、 制御対象としてエンジン 1 0を適用する場合、 制御出力として は、 その他に、 例えば、 噴射時間、 点火時期、 吸気バルブタイミング、 電 子スロットル開度、 バルブリフト量、 排気バルブタイミング、 または吸排 気制御用バルブタイミング等が考えられる。 ここで、 吸気制御用バルブと は、タンブルおよびスワールの制御を行うために吸気管に設けられるバル ブであり、 また、 排気制御バルブとは、 排気脈動を制御するために排気管 に設けられるバルブである。
また、 本実施の形態においては、学習層 2 0 0を階層型ニューラルネヅ トヮ一クで構成しているが、学習層 2 0 0の制御系の構成は本実施例に限 定されることなく、 例えば、 C M A Cを用いてもよい。 C MA Cを用いる 利点としては、 階層型ニューラルネットワークに比べて、 追加学習の能力 が優れていること、 学習が高速である等が挙げられる。
また、 上記実施の形態においては、 エンジン 1 0の燃料噴射量の補正率 または過渡補正率の補正率をニューラルネヅトワーク 3 6 2 a , 3 6 2 b により生成するようになっており、個体情報には、 ニューラルネットヮ一 ク 3 6 2 a , 3 6 2 bにおけるシナプスの結合係数を割り当てるように構 成したが、 これに限らず、 個体情報には、 エンジン 10の燃料噴射量の補 正率または過渡補正率の補正率を直接割り当てるように構成してもよい。 これにより、 高い評価値を得ることが期待できる、 エンジン 10の燃料 噴射量の補正率または過渡補正率の補正率を決定することができる。 また、 上記実施の形態においては、 エンジン 10の燃料噴射量の補正率 または過渡補正率の補正率をニューラルネヅトワーク 362 a, 362b により生成するように構成したが、 これに限らず、 エンジン 10の燃料噴 射量、 過渡補正量、燃料噴射量の補正量または過渡補正量の補正量をニュ 一ラルネヅトワーク 362 a, 362 bにより生成するように構成しても よい。 このことは、 ニューラルネッ トワーク 362 a, 362 bにより生 成せずに直接算出する構成についても同じである。
また、 上記実施の形態においては、 エンジン 10の燃費特性およびレス ポンス特性を最適化するのに GAを用いたが、 これに限らず、 GPや ES 等の進化的アルゴリズムを用いることもできる。
また、 上記実施の形態において、 図 6および図 9のフローチャートに示 す処理を実行するにあたっては、 ROMにあらかじめ格納されているプロ グラムを実行する場合について説明したが、 これに限らず、 これらの手順 を示したプログラムが記録された記録媒体から、そのプログラムを RAM に読み込んで実行するようにしてもよい。
ここで、 記録媒体とは、 RAM、 ROM等の半導体記録媒体、 FD、 H D等の磁気記録型記録媒体、 CD、 CD V, LD、 DVD等の光学的読取 方式記録媒体、 MO等の磁気記録型/光学的読取方式記録媒体であって、 電子的、 磁気的、 光学的等の読み取り方法のいかんにかかわらず、 コンビ ュ一夕で読み取り可能な記録媒体であれば、あらゆる記録媒体を含むもの である。 産業上の利用可能性
以上説明したように、本発明に係る請求の範囲第 1または第 2項記載の 最適解探索装置によれば、 従来に比して、使用者の希望に比較的沿った解 を探索することができ、 しかも最適化に要する時間を比較的短縮すること ができるという効果が得られる。
一方、本発明に係る請求の範囲第 3ないし第 1 1項記載の最適化ァルゴ リズムによる制御対象の制御装置によれば、 従来に比して、 使用者の希望 に比較的沿った解を探索することができ、 しかも最適化に要する時間を比 較的短縮することができるという効果が得られる。
さらに、本発明に係る請求の範囲 5項記載の最適化アルゴリズムによる 制御対象の制御装置によれば、第 1制御系について最適化が完了した後は、 第 1評価関数の最適な評価値として得られた評価値をさほど損なうこと なく、第 2制御系の最適化を比較的高速に行うことができるという効果も 得られる。
さらに、本発明に係る請求の範囲 6項記載の最適化アルゴリズムによる 制御対象の制御装置によれば、第 1制御系の最適化を比較的高速に行うこ とができるとともに、 第 1制御系について最適化が完了した後は、 第 1評 価関数の最適な評価値として得られた評価値をさほど損なうことなく、第 2制御系を最適化することができるという効果も得られる。
さらに、本発明に係る請求の範囲 Ί項記載の最適化ァルゴリズムによる 制御対象の制御装置によれば、エンジンの制御特性のうちレスポンス特性 を使用者向けに、燃費特性を所定の評価基準に従ってそれぞれ最適化する ことができるという効果も得られる。
さらに、本発明に係る請求の範囲 9項記載の最適化ァルゴリズムによる 制御対象の制御装置によれば、高い評価値を得ることが期待できる、 燃料 噴射量、 過渡補正量、燃料噴射量の補正値または過渡補正量の補正値を決 定することができるという効果も得られる。
さらに、本発明に係る請求の範囲 1 0項記載の最適化アルゴリズムによ る制御対象の制御装置によれば、 高い評価値を得ることが期待できる、 二 ユーラルネヅトワークにおけるシナプスの結合係数を決定することがで きるという効果も得られる。
さらに、本発明に係る請求の範囲 1 1項記載の最適化アルゴリズムによ る制御対象の制御装置によれば、電気モ一夕の制御特性のうち回転変化特 性を使用者向けに、電力消費特性を所定の評価基準に従ってそれぞれ最適 化することができるという効果も得られる。
一方、本発明に係る請求の範囲 1 2項記載の最適解探索プログラムによ れば、 請求の範囲第 1記載の最適解探索装置と同等の効果が得られる。

Claims

請 求 の 範 囲
1 . 評価関数の出力を繰り返し評価しながら前記評価関数の最適解を最 適化アルゴリズムにより探索する装置であって、
前記評価関数の出力に対する評価を使用者との対話に基づいて行う対 話型評価と、前記評価関数の出力に対する評価を所定の評価基準に基づい て行う自律型評価との組み合わせにより、前記最適化アルゴリズムによる 探索を行うようになっていることを特徴とする最適解探索装置。
2 . 請求の範囲第 1項において、
前記評価関数の出力を記憶するための記憶手段と、前記評価関数の出力 を評価値として算出して前記記憶手段に記憶する評価値算出手段と、前記 使用者による評価を入力する評価入力手段とを備え、'
前記対話型評価は、前記評価入力手段の入力内容に基づいて行い、 前記 自律型評価は、前記記憶手段の評価値に基づいて行うようになっているこ とを特徴とする最適解探索装置。
3 . 制御対象の特性を制御する制御系の制御特性に影響を及ぼす制御係 数を入力として前記制御特性を出力する評価関数を用いて、前記評価関数 の出力を繰り返し評価しながら前記評価関数の最適解を最適化アルゴリ ズムにより探索することにより、前記制御系の制御特性を最適化する装置 であって、
前記評価関数の出力に対する評価を使用者との対話に基づいて行う対 話型評価と、前記評価関数の出力に対する評価を所定の評価基準に基づい て行う自律型評価との組み合わせにより、前記最適化アルゴリズムによる 探索を行うようになっていることを特徴とする最適化アルゴリズムによ る制御対象の制御装置。
4 . 請求の範囲第 3項において、
前記評価関数の出力を記憶するための記憶手段と、前記評価関数の出力 を評価値として算出して前記記憶手段に記憶する評価値算出手段と、前記 使用者による評価を入力する評価入力手段とを備え、
前記対話型評価は、前記評価入力手段の入力内容に基づいて行い、 前記 自律型評価は、前記記憶手段の評価値に基づいて行うようになっているこ とを特徴とする最適化アルゴリズムによる制御対象の制御装置。
5 . 請求の範囲第 3及び第 4項のいずれかにおいて、
前記制御対象の第 1の特性を制御する第 1制御系と、前記制御対象の第 2の特性を制御する第 2制御系とを備え、
前記第 1制御系については、前記第 1制御系の制御特性に影響を及ぼす 制御係数を入力として前記制御特性を出力する第 1評価関数を用いて、前 記第 1評価関数の出力を前記対話型評価により繰り返し評価しながら、前 記第 1評価関数の最適解を前記最適化アルゴリズムにより探索するよう になっており、
前記第 2制御系については、前記第 2制御系の制御特性に影響を及ぼす 制御係数を入力として前記制御特性を出力する第 2評価関数及び前記第 1評価関数を用いて、前記第 1制御系の最適化で最適解として探索した解 から求まる前記第 1評価関数の出力を基準として所定範囲内に前記第 1 評価関数の出力が属するように、前記第 2評価関数の出力を前記自律型評 価により繰り返し評価しながら、前記第 2評価関数の最適解を前記最適化 アルゴリズムにより探索するようになっていることを特徴とする最適化 ァルゴリズムによる制御対象の制御装置。
6 . 請求の範囲第 3及び第 4項のいずれかにおいて、
前記制御対象の第 1の特性を制御する第 1制御系と、前記制御対象の第 2の特性を制御する第 2制御系とを備え、
前記第 1制御系については、前記第 1制御系の制御特性に影響を及ぼす 制御係数を入力として前記制御特性を出力する第 1評価関数を用いて、前 記第 1評価関数の出力を前記自律型評価により繰り返し評価しながら、前 記第 1評価関数の最適解を前記最適化ァルゴリズムにより探索するよう になっており、
前記第 2制御系については、前記第 2制御系の制御特性に影響を及ぼす 制御係数を入力として前記制御特性を出力する第 2評価関数及び前記第 1評価関数を用いて、前記第 1制御系の最適化で最適解として探索した解 から求まる前記第 1評価関数の出力を基準として所定範囲内に前記第 1 評価関数の出力が属するように、前記第 2評価関数の出力を前記対話型評 価により繰り返し評価しながら、前記第 2評価関数の最適解を前記最適化 アルゴリズムにより探索するようになっていることを特徴とする最適化 ァルゴリズムによる制御対象の制御装置。
7 . 請求の範囲第 5及び第 6項のいずれかにおいて、
前記制御対象は、 エンジンであり、
前記第 1評価関数及び前記第 2評価関数の出力のうち前記対話型評価 の対象となるものは、前記エンジンの回転数変化率及びスロットル開度変 化率により定まるレスポンス度であり、前記第 1評価関数及び前記第 2評 価関数の出力のうち前記自律型評価の対象となるものは、前記エンジンの 燃費であることを特徴とする最適化アルゴリズムによる制御対象の制御
8 . 請求の範囲第 5乃至第 7項のいずれかにおいて、
前記最適化アルゴリズムは、複数の個体の集合からなる個体群を仮想的 に生成するとともに、前記各個体ごとにその個体の遺伝情報に見立てて個 体情報を構成し、 当該個体情報には前記制御係数を割り当て、 さらに、 遺 伝子操作を模倣した情報操作を前記個体情報に対して行う個体情報操作 手段と、 前記個体の評価値を算出する評価値算出手段と、 前記評価値算出 手段で算出した評価値に基づいて前記個体の生存又は淘汰を行う個体選 択手段とを備え、 同一世代において、 前記個体情報操作手段による遺伝的 操作及び前記個体選択手段による個体選択操作をそれぞれ少なくとも 1 回行って世代を進行させる進化型最適化アルゴリズムであることを特徴 とする最適化アルゴリズムによる制御対象の制御装置。
9 . 請求の範囲第 8項において、
前記制御対象は、 エンジンであり、
前記個体情報には、 前記制御係数として、 前記エンジンの燃料噴射量、 前記エンジンの過渡状態において前記燃料噴射量を補正する過渡補正量、 前記燃料噴射量の補正値又は前記過渡補正量の補正値を割り当てるよう になっていることを特徴とする最適化アルゴリズムによる制御対象の制
1 0 . 請求の範囲第 8項において、
前記制御対象は、 エンジンであり、
前記ェンジンの燃料噴射量、前記ェンジンの過渡状態において前記燃料 噴射量を補正する過渡補正量、前記燃料噴射量の補正値又は前記過渡補正 量の補正値をニューラルネヅトワークにより生成するようになっており、 前記個体情報には、 前記制御係数として、 前記ニューラルネットワーク におけるシナプスの結合係数を割り当てるようになつていることを特徴 とする最適化ァルゴリズムによる制御対象の制御装置。
1 1 . 請求の範囲第 5及び第 6項のいずれかにおいて、
前記制御対象は、 電気モー夕であり、
前記第 1評価関数及び前記第 2評価関数の出力のうち前記対話型評価 の対象となるものは、 前記電気モー夕の回転変化率であり、前記第 1評価 関数及び前記第 2評価関数の出力のうち前記自律型評価の対象となるも のは、前記電気モー夕の電力消費であることを特徴とする最適化アルゴリ ズムによる制御対象の制御装置。
1 2 . 評価関数の出力を繰り返し評価しながら前記評価関数の最適解を 最適化アルゴリズムにより探索するコンビュ一夕実行可能なプログラム であって、 '
前記評価関数の出力に対する評価を使用者との対話に基づいて行う対 話型評価と、前記評価関数の出力に対する評価を所定の評価基準に基づい て行う自律型評価との組み合わせにより、前記最適化アルゴリズムによる 探索を行う処理をコンピュータに実行させるためのプログラムであるこ とを特徴とする最適解探索プログラム。
PCT/JP2002/000932 2001-02-23 2002-02-05 Dispositif de recherche de solution optimale, dispositif pour commander un objet commande par algorithme d'optimisation, et programme de recherche de solution optimale WO2002069257A1 (fr)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US10/467,872 US7062333B2 (en) 2001-02-23 2002-02-05 Optimal solution search device, device for controlling controlled object by optimizing algorithm, and optimal solution search program
EP02710510A EP1372107A4 (en) 2001-02-23 2002-02-05 SEARCH FOR OPTIMAL SOLUTIONS, DEVICE FOR CONTROLLING A CONTROLLED OBJECT BY OPTIMIZING ALGORITHM AND SEARCH PROGRAM FOR OPTIMUM SOLUTIONS

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2001049342A JP2002251597A (ja) 2001-02-23 2001-02-23 最適解探索装置、最適化アルゴリズムによる制御対象の制御装置及び最適解探索プログラム
JP2001-49342 2001-02-23

Publications (1)

Publication Number Publication Date
WO2002069257A1 true WO2002069257A1 (fr) 2002-09-06

Family

ID=18910457

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2002/000932 WO2002069257A1 (fr) 2001-02-23 2002-02-05 Dispositif de recherche de solution optimale, dispositif pour commander un objet commande par algorithme d'optimisation, et programme de recherche de solution optimale

Country Status (4)

Country Link
US (1) US7062333B2 (ja)
EP (1) EP1372107A4 (ja)
JP (1) JP2002251597A (ja)
WO (1) WO2002069257A1 (ja)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002251597A (ja) * 2001-02-23 2002-09-06 Yamaha Motor Co Ltd 最適解探索装置、最適化アルゴリズムによる制御対象の制御装置及び最適解探索プログラム
US7035834B2 (en) * 2002-05-15 2006-04-25 Caterpillar Inc. Engine control system using a cascaded neural network
DE10354322B4 (de) * 2003-11-20 2022-06-09 Bayerische Motoren Werke Aktiengesellschaft Verfahren und System zur Ermittlung der Fahrsituation
JP2005271824A (ja) * 2004-03-25 2005-10-06 Mitsubishi Fuso Truck & Bus Corp 車両の挙動制御装置
US7835786B2 (en) * 2005-07-25 2010-11-16 Wisconsin Alumni Research Foundation Methods, systems, and computer program products for optimization of probes for spectroscopic measurement in turbid media
US7291934B2 (en) * 2005-08-30 2007-11-06 Caterpillar Inc. Machine with an electrical system
JP4561652B2 (ja) * 2006-03-01 2010-10-13 株式会社デンソー 内燃機関の制御装置
WO2007109126A2 (en) * 2006-03-17 2007-09-27 Duke University Monte carlo based model of fluorescence
US7751039B2 (en) * 2006-03-30 2010-07-06 Duke University Optical assay system for intraoperative assessment of tumor margins
US20080270091A1 (en) * 2007-02-23 2008-10-30 Nirmala Ramanujam Scaling method for fast monte carlo simulation of diffuse reflectance spectra from multi-layered turbid media and methods and systems for using same to determine optical properties of multi-layered turbid medium from measured diffuse reflectance
KR101399199B1 (ko) * 2007-07-16 2014-05-27 삼성전자주식회사 소프트웨어 로봇의 유전자 코드 구성 방법
WO2009043050A2 (en) * 2007-09-27 2009-04-02 Duke University Optical assay system with a multi-probe imaging array
US9820655B2 (en) * 2007-09-28 2017-11-21 Duke University Systems and methods for spectral analysis of a tissue mass using an instrument, an optical probe, and a Monte Carlo or a diffusion algorithm
WO2010042249A2 (en) * 2008-04-24 2010-04-15 Duke University A diffuse reflectance spectroscopy device for quantifying tissue absorption and scattering
US20100049561A1 (en) * 2008-08-22 2010-02-25 Alstom Technology Ltd. Fluidized bed combustion optimization tool and method thereof
US8483949B2 (en) 2009-04-13 2013-07-09 Toyota Jidosha Kabushiki Kaisha Running pattern calculating apparatus and running pattern calculating method
JP4821879B2 (ja) * 2009-04-13 2011-11-24 トヨタ自動車株式会社 走行軌跡演算装置、および、走行軌跡演算方法
DE112009005242B4 (de) * 2009-09-18 2015-02-12 Honda Motor Co., Ltd. Regelungs-/Steuerungssystem für einen Verbrennungsmotor
DE112009005254B4 (de) * 2009-09-18 2015-11-05 Honda Motor Co., Ltd. Regelungs-/Steuerungssystem für einen Verbrennungsmotor
JP6857332B2 (ja) * 2018-03-13 2021-04-14 オムロン株式会社 演算装置、演算方法、及びそのプログラム
JP6702380B2 (ja) * 2018-09-14 2020-06-03 トヨタ自動車株式会社 内燃機関の制御装置
JP6593560B1 (ja) * 2019-02-15 2019-10-23 トヨタ自動車株式会社 内燃機関の失火検出装置、内燃機関の失火検出システム、データ解析装置、および内燃機関の制御装置
US10947919B1 (en) 2019-08-26 2021-03-16 Caterpillar Inc. Fuel injection control using a neural network
US11603111B2 (en) * 2019-10-18 2023-03-14 Toyota Jidosha Kabushiki Kaisha Vehicle controller, vehicle control system, and learning device for vehicle
JP7205503B2 (ja) 2020-01-22 2023-01-17 トヨタ自動車株式会社 内燃機関の制御装置
JP7222366B2 (ja) * 2020-01-27 2023-02-15 トヨタ自動車株式会社 内燃機関の制御装置
JP7359011B2 (ja) 2020-02-05 2023-10-11 トヨタ自動車株式会社 内燃機関の制御装置
CN115166449B (zh) * 2022-08-11 2024-07-23 云南电网有限责任公司电力科学研究院 氧化锌阀片性能评估方法和系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6032139A (en) * 1996-09-27 2000-02-29 Yamaha Hatsudoki Kabushiki Kaisha Electronic controller using genetic evolution techniques suitable for controlling a motor
EP1033637A2 (en) * 1999-03-02 2000-09-06 Yamaha Hatsudoki Kabushiki Kaisha Method and apparatus for optimizing overall characteristic of device, using heuristic method
EP1039356A1 (en) * 1999-03-24 2000-09-27 Yamaha Hatsudoki Kabushiki Kaisha Overall characteristic optimization method and apparatus therefor

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5418858A (en) * 1994-07-11 1995-05-23 Cooper Tire & Rubber Company Method and apparatus for intelligent active and semi-active vibration control
US5877954A (en) * 1996-05-03 1999-03-02 Aspen Technology, Inc. Hybrid linear-neural network process control
US5933345A (en) * 1996-05-06 1999-08-03 Pavilion Technologies, Inc. Method and apparatus for dynamic and steady state modeling over a desired path between two end points
US6381504B1 (en) * 1996-05-06 2002-04-30 Pavilion Technologies, Inc. Method for optimizing a plant with multiple inputs
JP3825845B2 (ja) * 1996-09-27 2006-09-27 ヤマハ発動機株式会社 進化的制御方式
US5963458A (en) * 1997-07-29 1999-10-05 Siemens Building Technologies, Inc. Digital controller for a cooling and heating plant having near-optimal global set point control strategy
JP2000020103A (ja) * 1998-07-02 2000-01-21 Yamaha Motor Co Ltd 遺伝的アルゴリズムの評価方法
JP2002251597A (ja) * 2001-02-23 2002-09-06 Yamaha Motor Co Ltd 最適解探索装置、最適化アルゴリズムによる制御対象の制御装置及び最適解探索プログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6032139A (en) * 1996-09-27 2000-02-29 Yamaha Hatsudoki Kabushiki Kaisha Electronic controller using genetic evolution techniques suitable for controlling a motor
EP1033637A2 (en) * 1999-03-02 2000-09-06 Yamaha Hatsudoki Kabushiki Kaisha Method and apparatus for optimizing overall characteristic of device, using heuristic method
EP1039356A1 (en) * 1999-03-24 2000-09-27 Yamaha Hatsudoki Kabushiki Kaisha Overall characteristic optimization method and apparatus therefor

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP1372107A4 *

Also Published As

Publication number Publication date
EP1372107A4 (en) 2006-03-08
US7062333B2 (en) 2006-06-13
JP2002251597A (ja) 2002-09-06
US20040078095A1 (en) 2004-04-22
EP1372107A1 (en) 2003-12-17

Similar Documents

Publication Publication Date Title
WO2002069257A1 (fr) Dispositif de recherche de solution optimale, dispositif pour commander un objet commande par algorithme d'optimisation, et programme de recherche de solution optimale
JP3825845B2 (ja) 進化的制御方式
Stanley et al. Efficient reinforcement learning through evolving neural network topologies
Thiele et al. A preference-based evolutionary algorithm for multi-objective optimization
JP5124230B2 (ja) パラメトリック多目的最適化装置、パラメトリック多目的最適化方法およびパラメトリック多目的最適化プログラム
US6721647B1 (en) Method for evaluation of a genetic algorithm
Ochoa Error thresholds in genetic algorithms
CN107197006B (zh) 基于全局QoS分解的多约束服务选取方法及其装置
US6324529B1 (en) Evolutionary controlling system
US6529816B1 (en) Evolutionary controlling system for motor
JP2009099051A (ja) パラメトリック多目的最適化装置、パラメトリック多目的最適化方法およびパラメトリック多目的最適化プログラム
CN113830097B (zh) 车辆、模型学习系统以及服务器
CN113138555A (zh) 一种基于遗传算法优化的grnn电主轴热误差建模方法
Fiscko et al. Efficient solutions for targeted control of multi-agent mdps
Chen et al. Generative adversarial reward learning for generalized behavior tendency inference
CN112528556B (zh) 一种基于集成模型辅助社会学习粒子群算法的微机电系统设计优化方法
Chidambaran et al. Multi-criteria evolution of neural network topologies: Balancing experience and performance in autonomous systems
JP2002245434A (ja) 進化的手法による最適解探索装置、進化的手法による制御対象の制御装置及び進化的手法による最適解探索プログラム
JP2002251598A (ja) 最適解探索装置、制御対象の制御装置及び最適解探索プログラム
JP2002251599A (ja) 進化的手法による最適解探索装置、進化的手法による制御対象の制御装置及び進化的手法による最適解探索プログラム
JP2000339005A (ja) 制御対象の最適化制御方法及び制御装置
CN115409661A (zh) 基于集成学习模型的就业推荐方法、系统、设备及介质
JPH10154003A (ja) 進化的制御方式
Júnior et al. Hybrid metaheuristics using reinforcement learning applied to salesman traveling problem
JPH10333705A (ja) 総合制御方式

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): US

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LU MC NL PT SE TR

DFPE Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed before 20040101)
121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 10467872

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 2002710510

Country of ref document: EP

WWP Wipo information: published in national office

Ref document number: 2002710510

Country of ref document: EP

WWW Wipo information: withdrawn in national office

Ref document number: 2002710510

Country of ref document: EP