WO2007116592A1 - Plant control device - Google Patents

Plant control device Download PDF

Info

Publication number
WO2007116592A1
WO2007116592A1 PCT/JP2007/050684 JP2007050684W WO2007116592A1 WO 2007116592 A1 WO2007116592 A1 WO 2007116592A1 JP 2007050684 W JP2007050684 W JP 2007050684W WO 2007116592 A1 WO2007116592 A1 WO 2007116592A1
Authority
WO
WIPO (PCT)
Prior art keywords
operation signal
model
signal
value
learning
Prior art date
Application number
PCT/JP2007/050684
Other languages
French (fr)
Japanese (ja)
Inventor
Naohiro Kusumi
Akihiro Yamada
Takaaki Sekiai
Yoshiharu Hayashi
Masayuki Fukai
Satoru Shimizu
Original Assignee
Hitachi, Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi, Ltd. filed Critical Hitachi, Ltd.
Publication of WO2007116592A1 publication Critical patent/WO2007116592A1/en

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/041Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a variable is automatically adjusted to optimise the performance

Definitions

  • the present invention relates to a plant control apparatus such as power generation equipment, and more particularly to a control apparatus suitable for controlling boiler equipment.
  • a measurement signal obtained from a plant to be controlled is processed and an operation signal to be given to the control target is calculated.
  • the controller is equipped with an algorithm that calculates the operation signal so that the plant measurement signal that also incorporates the control target force achieves the operation target!
  • PI proportional 'integral
  • the PI algorithm is to derive the operation signal by multiplying the deviation between the operation target value and the measurement signal by a proportional gain, and adding the value obtained by time-integrating the deviation to the value.
  • a plant operation signal may be derived using a learning algorithm.
  • the -Euron of a human neural network is expressed by elements called nodes that are simulated by linear or nonlinear functions, arranged in layers, and the previous layer force
  • nodes that are simulated by linear or nonlinear functions, arranged in layers
  • Ural network that artificially simulates the network structure in which signals are transmitted to other layers.
  • the model using the -Eural network is a model in which a desired output signal is output by adjusting parameters in the model by providing an input signal and a desired output signal as a teacher signal.
  • a model that simulates the controlled object is used as a model. If this is the case, the operation signal input to the control target should be the input signal to the model, and the plant force measurement signal should be the model output signal.
  • a method for adjusting the basic structure of the neural network and the parameters in the model there are, for example, a back propagation method and a learning method of a neural network having a feedback mechanism.
  • a Back Propagation Through Time method for example, see Non-Patent Document 1.
  • an action that obtains more reward is selected as a goal, and as a result, the action that reaches the goal aimed by the environment is adapted.
  • the ability to select an action for obtaining more rewards for the environment is generally called an agent.
  • the environment is regarded as a controlled object and the agent is regarded as a controller, the control object and the trial and error are considered.
  • the generation method of the operation signal given to the controlled object is learned so that the measurement signal that can also obtain the controlled object force is desirable through the interaction, and this is known as the framework of learning control, Is.
  • Dyna-architecture has been developed as a method developed from the above method.
  • This is also known (see Non-Patent Document 1), but in this framework, there is a model that simulates the controlled object in the controller.
  • the model takes the operation signal given to the controlled object as a model input, and calculates the model output that is the predicted value of the measured signal to be controlled.
  • the model at this time is constructed using physical formulas and statistical methods.
  • model input generation method is learned.
  • model input generation that achieves the model output target value is performed.
  • the method is learned in advance, and an operation signal to be applied to the control target is determined according to the learning result.
  • Non-Patent Document 1 "Neural network and measurement control” Nishikawa Hoichi, Shinzo Kitamura, Asakura Shoten 1 Published January 25, 995
  • Non-Patent Document 2 "Reinforcement Learning” Sadayoshi Mikami and Masaaki Minagawa Co. Translation Morikita Publishing Co., Ltd. December 20, 2000
  • the present invention has been made in view of the above-described problems, and an object thereof is to provide a plant control device in which a simulation model can be easily created.
  • the above-described object is necessary to make the value of the measurement signal obtained from the control object fall within the operation target value of the control object when a predetermined operation signal is given to the control object.
  • a plant control device that generates an operation signal and uses the operation signal as the predetermined operation signal.
  • the value of the measurement signal obtained from the control target A learning means for learning how to generate a model input given to the model so that the model output that is the prediction result of the model converges to the model output target value, and according to the result of the learning means
  • a plant control apparatus comprising operation signal generation means for generating an operation signal to be given to the controlled object, wherein the operation signal generated by the operation signal generation means is the predetermined operation signal
  • An external input interface for capturing the measurement signal to be controlled and a measurement signal database for storing the value of the measurement signal captured by the interface, and the average and variance of the measurement signals stored in the measurement signal database This is achieved by correcting the operation signal using the result of the average and dispersion, and generating the predetermined operation signal anew.
  • control device for a plant that generates a specific operation signal and uses the operation signal as the predetermined operation signal.
  • a measurement signal obtained from the control target A model that predicts a value, a model output force that is a prediction result of the model, a learning means that learns how to generate a model input to be given to the model so as to converge on the model output target value, and a result of the learning means
  • Control of a plant having operation signal generating means for generating an operation signal to be given to the control object, and using the operation signal generated by the operation signal generating means as the predetermined operation signal
  • an external input interface for capturing the measurement target measurement signal, and A measurement signal database that stores the values of measurement signals captured by the interface is calculated, the average and variance of the measurement signals stored in the measurement signal database are calculated, and the operation signals are modified to generate new operation signals.
  • the change width of the operation signal is determined based on the variance of the measurement signal.
  • the distribution shape of the measurement signal is provided to the control device.
  • a user interface for inputting, as an external input function a user interface for inputting at least one of the average value, expected value, variance, and distribution shape of the measurement signal to the control device You may make it provide.
  • the control target is a thermal power plant, and among the measurement signals of the thermal power plant, a function of taking at least one of carbon monoxide and nitrogen oxides into the control device; Function to set at least one environmental regulation value of carbon monoxide and nitrogen oxides as the limit value of the measurement signal as an external input function and function to generate an operation signal of at least air damper opening according to the learning result.
  • At least one environmental regulation value of carbon monoxide, nitrogen oxides, carbon dioxide, sulfur oxides, fine particles of mercury, fluorine, dust or mist, and volatile organic compounds Depending on the function to be set as the limit value of the measurement signal and the learning result, the air damper opening, the fuel flow rate supplied to the burner, the burner air flow rate, the air flow rate supplied to the air port, the gas recirculation amount, the PANA angle, the supply air.
  • the average and variance of the measurement signal are calculated, and a model that simulates the control target is created from the calculation result. Therefore, the model that simulates the control target includes data The distribution shape corresponding to the accumulated amount of data is incorporated, and the fluctuation of force data such as the magnitude of dispersion can be known.
  • the variance is large! /
  • the operation state of the plant or! Is influenced by other process values, and when the variance is small, the operation state of the plant or other Therefore, according to the present invention, by constructing a control algorithm in consideration of the magnitude of dispersion, the reliability is low due to data fluctuations and the small amount of accumulated data. Can be avoided.
  • FIG. 1 is a block diagram showing an embodiment of a plant control apparatus according to the present invention.
  • FIG. 2 is a block diagram showing an example of a thermal power plant to be controlled in an embodiment of the present invention.
  • FIG. 3 is an enlarged view of a piping part and an air heater part in an example of a thermal power plant to be controlled in one embodiment of the present invention.
  • FIG. 4 is an explanatory diagram showing a state of data stored in a measurement signal database in one embodiment of the present invention.
  • FIG. 5 is an explanatory diagram showing a state of data stored in an operation signal database in one embodiment of the present invention.
  • FIG. 6 is an explanatory diagram showing a mechanism of model used in one embodiment of the present invention.
  • FIG. 7 is an explanatory diagram of a model cage structure used in an embodiment of the present invention.
  • FIG. 8 is a flowchart for explaining the process of the model creation unit in an embodiment of the present invention.
  • FIG. 9 is an explanatory diagram showing an aspect of data stored in a model parameter database in one embodiment of the present invention.
  • FIG. 10 is a block diagram of a learning unit using a Q-Learning method used in an embodiment of the present invention.
  • FIG. 11 is a flowchart of an algorithm used in the learning unit according to the embodiment of the present invention.
  • FIG. 12 is a flowchart at the time of execution of 1 episode learning in the algorithm used in the learning unit according to the embodiment of the present invention.
  • FIG. 13 is an explanatory diagram of tile coding applied to an evaluator in a learning unit according to an embodiment of the present invention.
  • FIG. 14 is an explanatory diagram showing an aspect of data stored in a learning information database in an embodiment of the present invention.
  • FIG. 15 is an explanatory diagram showing an aspect of data stored in a learning information database in an embodiment of the present invention.
  • FIG. 16 is an explanatory diagram showing an aspect of data stored in a learning parameter database in an embodiment of the present invention.
  • FIG. 17 is an explanatory diagram of an initial screen displayed as an image in an embodiment of the present invention.
  • FIG. 18 is an explanatory diagram of a control logic creation / edit screen displayed as an image in an embodiment of the present invention.
  • FIG. 19 is an explanatory diagram of a first half screen of a learning condition setting screen displayed as an image in an embodiment of the present invention.
  • FIG. 20 is an explanatory diagram of the second half screen of the learning condition setting screen displayed as an image in one embodiment of the present invention.
  • FIG. 21 is an explanatory diagram of a display information setting screen displayed as an image in an embodiment of the present invention.
  • FIG. 22 is an explanatory diagram of a trend graph of measured values displayed as an image in an embodiment of the present invention.
  • FIG. 23 is a characteristic diagram illustrating the relationship between CO and NOx emitted from a thermal power plant. Explanation of symbols
  • FIG. 1 shows an embodiment in which a plant control device according to the present invention is applied to a control object 100.
  • a control device 200 an input device 900, a maintenance tool 910, and an image display device 950 are provided.
  • RU RU
  • the control device 200 takes in the measurement signal 1 from the controlled object 100 via the external input interface 210 and transmits the operation signal 16 to the controlled object 100 via the external output interface 220.
  • the measurement signal 2 captured by the external input interface 210 is transmitted to the operation signal generation unit 300 and is stored in the measurement signal database 230 together with this.
  • the operation signal 15 generated in the operation signal generation unit 300 is transmitted to the external output interface 220 and is stored in the operation signal database 240 together with this.
  • the operation signal generation unit 300 uses information stored in the control logic database 250 and the learning information database 280 so that the measurement signal 1 from the control target 100 achieves the operation target value. Generate signal 15. At this time, the information stored in the learning information database 280 is a force generated by the learning unit 600. Therefore, the learning unit 600 is connected to the model 500.
  • the model 500 has a function of simulating the characteristics of the controlled object 100. That is, in the same way as when the operation signal 16 is given to the control object 100 and the measurement signal 1 is obtained, the model input 12 for operating the model 500 is given to the model 500, and as a result, the model output 13 is given. To get. At this time, the model output 13 is a predicted value of the measurement signal 1. Therefore, the model 500 simulates the characteristics of the controlled object 100, and has a function of calculating the model output 13 with respect to the model input 12 using a model formula based on a physical law or a statistical method.
  • the model creation unit 400 has a function of generating a model 500 from the previous model parameter 5 and the measurement signal 3 stored in the model parameter database 270.
  • the model creation unit 400 when the model parameter database 270 does not have the previous model parameter 5, generates the model parameter and measurement signal 3 generated by random numbers or the like. It has a function to create a new model 500 using
  • the learning unit 600 uses the previous learning information 11 stored in the learning information database 280, the learning parameter 7 stored in the learning parameter database 260, and the model output 13 as the model input 12. Generate. Therefore, the evaluation value 14 force calculated using the model output 13 calculated in the model 500 is input to the learning unit 600. Then, the learning unit 600 updates the learning information using the evaluation value 14, and transmits the updated learning information 10 to the learning information database 280.
  • the operation signal generator 300 generates the operation signal 15 using the learning information 9 stored in the learning information database 280 and the control logic information 6 stored in the control logic database 250.
  • the operator of the control target 100 is composed of a keyboard 901 and a mouse 902 and is connected to the input device 900 and the image display device 950. You can access the information stored in the various databases provided.
  • the maintenance tool 910 includes an external input interface 920, a data transmission / reception processing unit 930, and an external output interface 940.
  • An input signal 31 generated by the input device 900 is transmitted via the external input interface 920.
  • This maintenance tool 910 is taken in.
  • the data transmission / reception processing unit 930 acquires the database information 30 provided in the control device 200 according to the information of the input signal 32.
  • the data transmission / reception processing unit 930 transmits the output signal 33 obtained as a result of processing the database information 30 to the external output interface 940.
  • the output signal 34 is supplied from the external output interface 940 to the image display device 950 and displayed as an image in preparation for the operator's monitor.
  • all the necessary databases are arranged inside the control apparatus 200. These can be arranged outside the control apparatus 200. Further, in this embodiment, all signal processing functions for generating the operation signal 16 are arranged inside the control device 200, but these may be arranged outside the control device 200.
  • the coal is pulverized by an internal roller into fine powder coal, so-called pulverized coal. Then, the pulverized coal is transported to the burner 102 by the primary air for transporting coal together with the secondary air for combustion adjustment, and is supplied into the furnace of the boiler 101 and combusted. At this time, the primary air is supplied to the mill 110 via the pipe 133, the pulverized coal and the primary air are supplied to the burner 102 via the pipe 1 34, and the secondary air is supplied to the burner 102 via the pipe 141. Each is guided.
  • the force at which the after-air for two-stage combustion is supplied into the furnace of the boiler 101 via the after-air port 103.
  • This after-air is guided through the pipe 142.
  • the high-temperature gas generated in the furnace due to the combustion of coal flows along a predetermined path including the heat exchanger 106 of the boiler body in the furnace of the boiler 101, and then passes through the air heater 104 to treat the exhaust gas. And then released to the atmosphere through the chimney.
  • the feed water circulating in the heat exchange 106 of the boiler 101 is pressurized by the feed water pump 105 and introduced into the boiler 101, and heated by the heat exchange 106 to become high-temperature and high-pressure steam.
  • there is one heat exchange but a plurality of heat exchanges may be arranged.
  • FIG. 2 shows a flow rate measuring device 150, a temperature measuring device 151, a pressure measuring device 152, a power generation output measuring device 153, and a concentration measuring device 154.
  • the water supply The flow rate of the feed water supplied from the pump 105 to the boiler 101 is measured.
  • the temperature measuring device 151 and the pressure measuring device 152 measure the temperature and pressure of the steam supplied to the steam turbine 108.
  • the amount of power generated by the generator 109 is measured by a power generation output measuring device 153.
  • fine particles composed of CO (acid-carbon), NOx (nitrogen oxide), carbon dioxide, sulfur oxide, mercury, fluorine, dust, or mist contained in the gas passing through boiler 101 For example, information on the concentration of a component such as at least one environmental regulation value of a volatile organic compound is measured by a concentration meter 154.
  • concentration meter 154 In general, in addition to those shown in Fig. 2, many measuring instruments are omitted in Fig. 2, which is installed in a thermal power plant. Then, information obtained from these measuring instrument forces is shown in FIG. 1 as measurement information 1 output from the control object 100, and these are transmitted to the control device 200.
  • the paths of the primary air and secondary air supplied from the burner 102 and the after-air supplied from the after-air port 103 will be described.
  • the primary air is also taken into the pipe 130 by the fan 120 force, branched into a pipe 132 that passes through the air heater 104 and a pipe 131 that does not pass through, and then merges into the pipe 133 and is guided to the mill 110.
  • the air passing through the air heater 104 is heated by the gas and used to convey the pulverized coal produced by the mill 110 to the burner 102.
  • the secondary air and after air are taken into the pipe 140 by the fan 121, heated by the air heater 104, and then branched into the secondary air pipe 141 and the after air pipe 142, respectively. 102 and after-airport 103.
  • FIG. 3 is an enlarged view of the primary air and secondary air at this time, a piping section through which after-air passes, and an air heater 104.
  • Air dampers 160, 161, 162, and 163 are arranged, and by operating these air dampers, the area through which air passes through the pipe can be changed, and the air flow rate through the pipe can be adjusted by operating the air damper. . Therefore, the control device 200 operates equipment such as the feed pump 105, the mill 110, and the air dampers 160, 161, 162, 163 using the operation signal 16 generated there.
  • FIG. 4 is stored in the measurement signal database 230.
  • FIG. 5 shows an example of information stored in the operation signal database 240.
  • the measurement signal database 230 information measured in the control target 100 is stored together with each measurement time for each measuring instrument.
  • the flow rate value F measured by the flow meter 150, the temperature value T measured by the temperature meter 151, the pressure value ⁇ measured by the pressure meter 152, the pressure value ⁇ measured by the power generation output meter 153 The power generation output value ⁇ and the ⁇ concentration D contained in the exhaust gas are stored along with the time information.
  • each measurement value is assigned a unique number called a PID number as shown in the figure.
  • the force for storing data in a 1-second cycle that is, the sampling cycle for data collection can be arbitrarily set.
  • operation signals such as a feed water flow rate command signal are stored together with time information.
  • each operation signal is assigned a unique PID number, and it goes without saying that the time interval can also be set arbitrarily.
  • the model 500 realizes the relationship of the measurement signals shown in Fig. 6 by the structure shown in Fig. 7.
  • Fig. 6 shows the force plotting the relationship between the air flow rate ratio and the measurement signal ⁇ .
  • the number of data that can be plotted on the graph differs depending on the plant conditions. For example, in a new plant, the power of design value information is also required, so the number of data is small. On the other hand, the number of data increases in plants with many years of operation.
  • the distribution is assumed for each data, and the difference in the number of data is expressed by the shape of the distribution. Then, when the number of data is small, the variance is large and the distribution is widened. On the other hand, when the number of data is large, the variance is small and the distribution is sharp. At this time, if there is prior information on the data, the distribution shape can be assumed, but in the case of new data, it is necessary to estimate the distribution based on the data obtained without prior information. .
  • Fig. 7 is a diagram for explaining the model structure when the distribution is determined.
  • the output signal at this time is a model that outputs the median and variance values of the distribution shown in Fig. 6. It consists of an input layer, an intermediate layer, and an output layer, and the nodes of each layer are connected to each other.
  • the node portion uses a linear or non-linear function, but a sigmoid function is generally used.
  • Each node connection has a weighting coefficient, and represents the strength of the mutual relationship between the nodes.
  • a model parameter refers to this weighting factor.
  • the intermediate layer is expressed as a single layer, but can also be expressed as a multilayer.
  • the input signal input the related measurement signal.
  • FIG. 8 is a flowchart showing processing for creating a model 500 by the model creation unit 400.
  • the parameters necessary for the execution of this flowchart are stored in the model parameter database 270 !, but the format of the information stored in this database will be described later.
  • step 401 it is selected whether to use a model parameter set in the past or create a new model parameter. If a new model parameter is to be created here, the process proceeds to step 402, and the initial value of the model parameter is set using a random number.
  • step 403 the measurement signal 3 that is the input signal and output signal of the model 500 is extracted from the measurement signal database 230, and the average of the measurement signal 3 that is the output signal of the model 500 is calculated.
  • the calculated average is stored in the learning information database 280.
  • step 404 the variance of the measurement signal 3 that is the output signal of the model 500 is calculated. If the measurement signal has only one sample, the variance cannot be calculated. . Therefore, in this case, a larger dispersion value is given as a default value. For example, 100 may be set as the default value. This default value can be changed by the user sequentially.
  • the shape stored in the learning information database 280 is used. However, when the shape is not yet stored in the learning information database 280, a normal distribution is used. The variance thus calculated is stored in the learning information database 280.
  • step 405 the mean and variance calculated in steps 403 and 404 are set as the teacher signal of the model 500.
  • step 406 parameters necessary for learning such as the number of learning, the learning coefficient, and the number of nodes are set. Set.
  • the default value stored in the model parameter database 270 is used.
  • step 407 the initial value force is sequentially updated by learning the model parameters.
  • the Back Propagation method is used as a method for updating model parameters by learning. This learning method is described in detail in "Neural Network and Measurement Control" Kei Nishikawa-'Shinzo Kitamura, Asakura Shoten, published January 25, 1995'.
  • the model parameters are updated so that there is no difference between the output signal and the teacher signal when the signal is given.
  • the difference between the output signal from model 500 and the teacher signal is generally expressed by a square error and is called an evaluation function.
  • the variation of the evaluation function when each model parameter is varied is subjected to partial differential calculation, and the obtained value multiplied by the learning coefficient is used as the updated model parameter. Therefore, if this is repeated, the difference between the output signal of the model 500 and the teacher signal disappears, and the evaluation function approaches zero.
  • step 408 when the evaluation function falls below the set value, it is considered that learning has ended, and model creation is ended.
  • step 408 the iterative calculation is stopped when the number of learning repetitions reaches the set number of times, and the process returns to step 406 and restarts. Set the learning parameters.
  • step 401 If step 401 is returned and the use of the past model parameter is selected here, whether or not the past model parameter is to be corrected by learning is selected in step 409. If so, go to step 403. If it is not corrected, the model creation without the need to reconstruct the model 500 is completed because the previous model parameters are used as they are.
  • FIG. 9 is a diagram for explaining the form of information stored in the model parameter database 270.
  • the model parameter database 270 includes an ID, a creation date, a learning coefficient, and the number of learnings. , End condition, number of nodes, parameter values are saved.
  • the number of nodes is divided into an input layer, an intermediate layer, and an output layer.
  • the parameter value is a weighting factor, and there are mutual connections of nodes, which are stored as W, W, ..., respectively.
  • the ID value of 000 indicates the default value of the learning parameter when a new model parameter is created. For new creation, the number of nodes and parameter values are usually blank.
  • the learning unit 600 learns how to generate the model input 12 so that the model output 13 achieves the model output target value for the model 500 that simulates the characteristics of the control target 100.
  • Examples of algorithms for performing such learning are described in “Reinforcement Learning”, Sadayoshi Mikami and Masaaki Minagawa, Morikita Publishing Co., Ltd., published on December 20, 2000. There is a reinforcement learning theory.
  • this reinforcement learning is the generation of the model input 12 for achieving the model output target value through the interaction between the learning unit 600 and the model 500 using the evaluation value (reward) information as a clue.
  • this reinforcement learning it is possible to learn how to generate the model input 12 that maximizes the expected value of the evaluation value obtained from the current time in the future. is there.
  • the Q-learning method is applied as an example of the reinforcement learning algorithm.
  • the reinforcement learning method is used as a learning method in the control device 200 of this embodiment. It is also possible to apply optimization techniques such as genetic algorithms and linear 'non-linear programming'.
  • Figure 10 is a schematic diagram of the Q-learning method. As shown here, the learning unit 600 applying this Q-learning method evaluates the state value and the agent 650 that generates the model input 12. It consists of an evaluator 660.
  • FIG. 11 and FIG. 12 are flowcharts for explaining the processing in the case of the Q-learning method.
  • the learning parameter database 260 and the learning information database 280 are stored for the design parameters necessary for executing this flowchart, such as the discount rate ⁇ .
  • the form of information stored in these databases and the method of registering design parameters in the database will be described later.
  • this flowchart is repeatedly performed while the control target 100 is being controlled.
  • the sampling period r in the control is acquired.
  • one episode learning is executed.
  • the model 500 and the learning unit 600 are operated to execute the above-described reinforcement learning algorithm.
  • a learning end determination is executed.
  • This step 303 is a step provided to end the learning within the sampling period of the control.
  • the process returns to step 302, and when the processing time exceeds the period r. End learning.
  • FIG. 12 is a flowchart for explaining the operation at the time of execution of one episode learning in step 302 in FIG. 11.
  • step 601 initial values of model inputs are set at random.
  • step 602 the model input 12 generated in step 601 is input to the model 500, and the model output 13 is obtained.
  • Step 603 the model output 13 is compared with the target value of the model output, and if the model output 13 has achieved the model output target value, the episode is terminated and achieved! / Proceed to step 604.
  • the learning unit 600 determines a model input change width using information stored in the learning information database 280. This model input change The method for determining the width Aa will be described later.
  • Step 605 the model input 12 is determined using the following equation (1).
  • Step 606 the model input 12 determined in Step 605 is input to the model 500, and the model output 13 is obtained.
  • an evaluation value is calculated by the following equation (2) based on the model output 13 obtained at step 606.
  • ⁇ ( ⁇ , ⁇ ) is the value when taking action a with state s
  • ( 0 ⁇ v ⁇ D is the split bow j rate is the reward for time-lapse.
  • the value Q (s, a) is determined by the sum of time. This makes sense. That is, the actual behavior, here the force that becomes the response when the model input 12 is generated and input to the model 500 is often accompanied by a delay time. In particular, this effect is significant when applied to plants.
  • step 608 based on the evaluation value calculated in step 607, the agent parameter is updated by the following equation (3), and the updated result is stored in the learning information database 280. [0085] [Equation 3] Equation 3
  • step 609 end determination is performed by the same method as in step 403. That is, in step 609, when the learning end condition is not satisfied, the iterative calculation is stopped when the number of learning repetitions reaches the set number of times, and the process returns to step 604.
  • the agent 650 and the evaluator 660 may be configured by using a method other than this method.
  • the evaluator 660 divides the state by the tile coding method as described above.
  • This tile coding method is a method of recognizing continuous states as discrete states by dividing the input space and determining which region it belongs to.
  • Figure 13 shows the tile coding at this time. It is a figure explaining the law. In this figure, each area is called a tile. For example, if the input signal 12 to the model 500 is a two-dimensional input signal ⁇ and an input signal B, the input signal A is between 0 and 1, and the input signal B is between 1 and 2, Belongs to tile with state number 1.
  • the learning information database 280 stores information in a form in which the state number and the value function correspond as shown in FIG.
  • the evaluator 660 uses the value of the input signal 12 when the model output 13 is obtained and the information stored in the learning information database 280 to calculate the value of the state according to the above-described equation (3).
  • FIG. 15 shows information stored in the learning information database 280.
  • the teacher signal used when creating the model 500 corresponding to the state number is shown.
  • the mean and variance of the are preserved.
  • the model input change width is determined based on the variance value of the teacher signal. Accordingly, when the variance is small, the input change width is increased because the variation is small and the sensitivity to changes in the input signal is low. On the other hand, if the variance is large, the input change width is reduced because the variance is large and the sensitivity to changes in the input signal is high.
  • FIG. 16 shows an aspect of information stored in the learning parameter database 260, which includes steps 606 and 607 in the flowchart of FIG. 12, as shown in FIG. Parameters such as the learning rate necessary to do this are stored.
  • the generation method of the model input 12 is learned so that the expected value of the evaluation value is maximized. Therefore, when the model output 13 reaches the model output target value, the evaluation value increases. It is desirable.
  • a method for generating such an evaluation value there is a method in which when the model output 13 achieves the model output target value, a positive value, for example, “1” is used as the evaluation value. If the model output target value is not achieved, there is a method to calculate the evaluation value using a function that is inversely proportional to the error between the model force target value and the model output 13. Furthermore, a method of calculating an evaluation value by combining these methods can be considered.
  • the operator of the control target 100 displays the database information on the image display device 950 using the maintenance tool 910
  • the operator uses the keyboard 901 and the mouse 902 to execute an operation such as inputting a parameter value in a blank area of the displayed screen.
  • FIG. 17 shows an initial screen displayed on the image display device 950.
  • the operator creates control logic.
  • the edit button 951, the learning condition setting button 952, and the information display button 953 are also displayed. By selecting the required button, moving the cursor 954 using the mouse 902, and clicking the mouse 902, one of the buttons is pressed.
  • FIG. 18 shows a control logic edit screen that is displayed when the control logic create / edit button 951 is clicked.
  • the operator clicks the new create button 96 7 and the edit button 968. Press one of the following. If it is newly created, a logic diagram with nothing is opened. If editing, the logic to be edited is selected and the logic diagram is displayed.
  • the standard element module 963 registered in advance Select the required module and move it to the logic edit screen 961. Connect the modules using connection Z erase 962.
  • the control logic drawing created on the display screen of FIG. 18 is saved in the control logic database 250 via the data transmission / reception processing unit 930 when the save button 964 is clicked.
  • the operation signal generation unit 300 generates the operation signal 15 when the measurement signal 2 is input, using the information in the control logic drawing.
  • the operation signal generation unit 300 can generate the operation signal 15 by using information stored in the learning information database 280 together.
  • the learning information database 280 stores the state number and the central information of the information shown in FIG. Therefore, by using these pieces of information, it is possible to easily generate the operation signal 15 having the same value as the model input 12 where the model output 13 is desired and becomes a value. If the control logic drawing created at this time is not to be saved, a cancel button 965 is clicked. On the other hand, by clicking the back button 966, it is possible to return to the screen of FIG.
  • the learning condition setting button 952 When the learning condition setting button 952 is clicked on the screen shown in FIG. 17, the screen shown in FIG. 19 is displayed. Therefore, the operator inputs the learning coefficient, the number of learnings, and the end condition necessary for executing the flowchart of FIG. 8 in the model creation field 971 in the screen of FIG. 19 based on the model-specific PID. Or if it has already been entered, its value can be corrected. At this time, the operator can change the default value of ID 000.
  • setting parameters necessary for executing the flowcharts of FIGS. 11 and 12 are input.
  • the operation edge setting column 973 the operation edge name for learning the operation method, the operation range, and the number of divisions for tile coding are input by the flow chart of FIG.
  • the screen moves to the second half of the learning condition setting screen.
  • the previous page button 978 and the second half screen of the learning condition setting screen will be described later.
  • the information entered in the model creation field 971 is entered in the model parameter database 270 and in the parameter setting field 972.
  • the information input in the learning parameter database 260 and the information input in the operation end setting field 973 are stored in the learning information database 280, respectively.
  • the first half screen of the learning condition setting screen will be described with reference to FIG.
  • This first half screen is displayed by clicking the next page button 977 in FIG. Therefore, the operator can input the average, variance, and distribution shape of the output signal of the model 500 in the learning information column 979, or can correct them if they are input. Based on this information, the model input change width at step 604 in the flowchart of FIG. 12 is determined.
  • FIG. 21 shows a screen used to set the conditions for displaying the information stored in the measurement signal database 230 and the operation signal database 240 on the image display device 950.
  • FIG. It is displayed by clicking the information display button 953. Therefore, the operator inputs a measurement signal or an operation signal to be displayed on the image display device 950 in the input field 981 together with the range (upper limit Z lower limit). Enter the time you want to display at this time in the time input field 982.
  • the control target 100 in FIG. 1 is the thermal power plant described in FIG. 2, and the control device 200 is applied to this to operate the air damper of the thermal power plant.
  • This makes it possible to control the emission status of at least one environmental regulation value such as CO, NOx, carbon dioxide, sulfur oxides, mercury, fluorine, particulates consisting of dust or mist, and volatile organic compounds.
  • Fig. 23 explains the basic characteristics of CO and NOx emitted from a thermal power plant. Generally, the amount of CO and the amount of NOx are in a trade-off relationship as shown in the figure. Yes, NOx increases when trying to reduce CO, and CO tends to increase when trying to reduce NOx.
  • the model that simulates the thermal power plant to be controlled can model the shape of the distribution according to the accumulated data according to the flowchart of FIG. Therefore, the past state can be grasped from the shape of the distribution.
  • the variance is large, it means a state with a lot of variation, and it can be seen that the state of the plant is very unstable. If the variance is small, the variation is small, so the plant state is very stable. Therefore, a control algorithm that takes into account the reliability of stored data can be constructed from the flowchart in Fig. 12.

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)
  • Regulation And Control Of Combustion (AREA)

Abstract

Provided is a plant control device capable of easily creating a simulation model. The plant control device includes: a model (500) for predicting a value of a measurement signal (1) obtained from a control object (100) when a predetermined operation signal (16) is given to the control object (100); a learning unit (600) for learning a generation method of a model input (12) to be given to the model (500) so that a model output (13) as the prediction result of the model (500) is converged at a model output target value; and an operation signal generation unit (300) for generating an operation signal (15) according to the result of the learning unit (600). The operation signal (15) generated by the operation signal generation unit (300) is used as an operation signal (16). The plant control device further includes: an external input interface (210) for acquiring the measurement signal (1) and a measurement signal database (230) for storing the value of a measurement signal (2). The learning unit (600) calculates an average and variance of the measurement signals stored in the measurement signal database (230). By using the result of the average and the variance, the operation signal generation unit (300) corrects the operation signal (15).

Description

明 細 書  Specification
プラントの制御装置  Plant control device
技術分野  Technical field
[0001] 本発明は、発電設備などプラントの制御装置に係り、特にボイラ設備の制御に好適 な制御装置に関する。  TECHNICAL FIELD [0001] The present invention relates to a plant control apparatus such as power generation equipment, and more particularly to a control apparatus suitable for controlling boiler equipment.
背景技術  Background art
[0002] 火力発電設備などのプラントの制御においては、通常、制御対象であるプラントか ら得られる計測信号を処理し、制御対象に与える操作信号を算出するようになってい る。このため制御装置は、制御対象力も取り込まれたプラント計測信号が運転目標を 達成するように、操作信号を計算するアルゴリズムが実装されて!、る。  In the control of a plant such as a thermal power generation facility, usually, a measurement signal obtained from a plant to be controlled is processed and an operation signal to be given to the control target is calculated. For this reason, the controller is equipped with an algorithm that calculates the operation signal so that the plant measurement signal that also incorporates the control target force achieves the operation target!
[0003] このときのプラントの制御に用いられている制御アルゴリズムとしては、いわゆる PI ( 比例'積分)制御アルゴリズムが従来力も知られている。ここで、この PIアルゴリズムと は、運転目標値と計測信号の偏差に比例ゲインを乗じた上で、その値に、偏差を時 間積分した値を加算して操作信号を導出するものである。このとき、学習アルゴリズム を用いて、プラントの操作信号を導出する場合もある。  [0003] As a control algorithm used for plant control at this time, a so-called PI (proportional 'integral) control algorithm is also known in the past. Here, the PI algorithm is to derive the operation signal by multiplying the deviation between the operation target value and the measurement signal by a proportional gain, and adding the value obtained by time-integrating the deviation to the value. At this time, a plant operation signal may be derived using a learning algorithm.
[0004] ところで、プラント制御に用いられる制御アルゴリズムには、幾つかのパラメータが存 在するが、これらのパラメータについては、制御対象に適した値に事前にチューニン グしておく必要がある。そして、このパラメータのチューニングには、制御対象を物理 モデル或 、は統計モデルなどを用いて模擬(シミュレーション)したものを対象にして 実施するのが一般的である。  [0004] By the way, there are several parameters in the control algorithm used for plant control, but these parameters need to be tuned in advance to values suitable for the controlled object. In general, tuning of this parameter is carried out on the object to be controlled (simulated) using a physical model or a statistical model.
[0005] ここで、特に統計モデルの場合には、人間のもつ神経回路網の-ユーロンを線形 或いは非線形関数で模擬したノードと呼ばれる素子で表現し、これを層状に並べ、 前の層力 次の層へと信号が伝わっていくネットワーク構造を人工的に模擬した、い わゆる-ユーラルネットワークを用いる方法がよく知られて 、る。  [0005] Here, particularly in the case of a statistical model, the -Euron of a human neural network is expressed by elements called nodes that are simulated by linear or nonlinear functions, arranged in layers, and the previous layer force There is a well-known method that uses a so-called “Ural network” that artificially simulates the network structure in which signals are transmitted to other layers.
[0006] この-ユーラルネットワークを用いたモデルは、入力信号と所望の出力信号を教師 信号として与えることで、モデル内のパラメータを調整し、所望の出力信号が出力さ れるモデルとなる。そして、このように、モデルとして制御対象を模擬したモデルを用 いる場合には、制御対象に入力する操作信号をモデルへの入力信号とし、プラント 力 の計測信号をモデルの出力信号とすればょ 、。 [0006] The model using the -Eural network is a model in which a desired output signal is output by adjusting parameters in the model by providing an input signal and a desired output signal as a teacher signal. In this way, a model that simulates the controlled object is used as a model. If this is the case, the operation signal input to the control target should be the input signal to the model, and the plant force measurement signal should be the model output signal.
[0007] このときニューラルネットワークの基本的な構造とモデル内のパラメータを調整する 手法としては、例えばバックプロハゲーシヨン(Back Propagation)法や、フィード バック機構をもつ-ユーラルネットワークの学習法であるバックプロハゲーシヨンスル 一タイム法(Back Propagation Through Time)法などがある(例えば、非特許 文献 1など参照。)。  [0007] At this time, as a method for adjusting the basic structure of the neural network and the parameters in the model, there are, for example, a back propagation method and a learning method of a neural network having a feedback mechanism. There is a Back Propagation Through Time method (for example, see Non-Patent Document 1).
[0008] 一方、ニューラルネットワークのように教師信号を与えて学習する場合とは異なり、 教師なし学習の分野では、強化学習と呼ばれる手法が盛んに研究されている。ここ で、この強化学習とは、試行錯誤を通じて環境に適応する学習制御の枠組であり、 環境の状態を取得し、それに対して行動すると、その内容に応じて報酬が得られると いうものであるが、このときの報酬は、環境に対して正しい行動或いは環境が目指す 目標に到達するような行動であればある程、多くの報酬が得られることになる。  [0008] On the other hand, unlike the case of learning by giving a teacher signal as in a neural network, a technique called reinforcement learning has been actively studied in the field of unsupervised learning. Here, this reinforcement learning is a framework of learning control that adapts to the environment through trial and error, and if you acquire the state of the environment and act on it, you will be rewarded according to its content. However, as the reward at this time is the action that is right for the environment or the action that reaches the goal that the environment aims at, the more reward is obtained.
[0009] 従って、この場合、より多くの報酬を得るような行動を目標に選択するようになり、結 果、環境が目指す目標に到達する行動へと適応していく。このとき、環境に対して、よ り多くの報酬を得るための行動を選択するものを一般的にエージェントと呼ぶ力 ここ で環境を制御対象、エージェントを制御器と見なすと、制御対象と試行錯誤的な相 互作用を通じて、制御対象力も得られる計測信号が望ましいものとなるように、制御 対象に与える操作信号の生成方法が学習されることになり、これが学習制御の枠組 みとして知られて 、るものである。  [0009] Therefore, in this case, an action that obtains more reward is selected as a goal, and as a result, the action that reaches the goal aimed by the environment is adapted. At this time, the ability to select an action for obtaining more rewards for the environment is generally called an agent. Here, if the environment is regarded as a controlled object and the agent is regarded as a controller, the control object and the trial and error are considered. The generation method of the operation signal given to the controlled object is learned so that the measurement signal that can also obtain the controlled object force is desirable through the interaction, and this is known as the framework of learning control, Is.
[0010] この強化学習では、制御対象力 得られる信号を用いて計算されるスカラー量の評 価値 (これが強化学習で報酬と呼ばれて 、るものである)を手掛かりにして、現状態か ら将来までに得られる評価値の期待値が最大となるような、操作信号の生成方法が 学習されることになるが、このときの操作信号の生成方法としては、計測信号が運転 目標値を達成した場合に正の評価値を与え、 Actor -Critic, Q学習、実時間 Dy namic Programmingなどのアルゴリズムを用いて学習する手法が知られて!/、る( 例えば、非特許文献 2など参照。 )0 [0010] In this reinforcement learning, the value of the scalar quantity calculated using the signal obtained from the control target force (this is called reward in reinforcement learning) is used as a clue, and from the current state. The operation signal generation method will be learned so that the expected value of the evaluation value obtained up to the future is maximized, but the measurement signal achieves the operation target value as the operation signal generation method at this time. In such a case, a method for giving a positive evaluation value and learning using an algorithm such as Actor-Critic, Q-learning, real-time dynamic programming, etc. is known (for example, see Non-patent Document 2). 0
[0011] また、上述の手法を発展させた方式として、 Dyna—アーキテクチャと呼ばれる枠組 みも知られている (非特許文献 1参照)が、この枠組みでは、制御装置内に制御対象 を模擬するモデルを持つ。この場合、モデルには、制御対象に与える操作信号をモ デル入力として取り込み、制御対象の計測信号の予測値であるモデル出力を算出す る。このときのモデルは物理式や統計的手法を用いて構築する。 [0011] In addition, a framework called Dyna-architecture has been developed as a method developed from the above method. This is also known (see Non-Patent Document 1), but in this framework, there is a model that simulates the controlled object in the controller. In this case, the model takes the operation signal given to the controlled object as a model input, and calculates the model output that is the predicted value of the measured signal to be controlled. The model at this time is constructed using physical formulas and statistical methods.
[0012] そして、このモデル出力を用いて計算される評価値を手掛りにしてモデル入力の生 成方法を学習するが、この Dyna—アーキテクチャでは、モデル出力目標値を達成 するようなモデル入力の生成方法を予め学習しておき、この学習結果に従って制御 対象に印加する操作信号を決定する。  [0012] Then, using the evaluation value calculated using this model output as a clue, the model input generation method is learned. In this Dyna architecture, model input generation that achieves the model output target value is performed. The method is learned in advance, and an operation signal to be applied to the control target is determined according to the learning result.
[0013] 非特許文献 1 : "ニューラルネットと計測制御"西川繕一北村新三編著 朝倉書店 1 995年 1月 25日出版  [0013] Non-Patent Document 1: "Neural network and measurement control" Nishikawa Hoichi, Shinzo Kitamura, Asakura Shoten 1 Published January 25, 995
非特許文献 2 : "強化学習(Reinforcement Learning) " 三上貞芳 ·皆川雅章共 訳 森北出版株式会社 2000年 12月 20日出版  Non-Patent Document 2: "Reinforcement Learning" Sadayoshi Mikami and Masaaki Minagawa Co. Translation Morikita Publishing Co., Ltd. December 20, 2000
発明の開示  Disclosure of the invention
発明が解決しょうとする課題  Problems to be solved by the invention
[0014] 前述のように、プラントの制御装置を設計する際には、制御対象を適切に模擬した モデルを作成する必要がある力 ここで、まず、物理モデルによる制御対象の模擬を 考えた場合、精度向上のためには、詳細な物理モデルと数値解析が必要となる。そ して、この数値解析には、メッシュ (計算格子)の作成が必要となり、精度の向上には 、メッシュ数の増加が必要になる。  [0014] As described above, when designing a control device for a plant, it is necessary to create a model that appropriately simulates the controlled object. In order to improve accuracy, detailed physical models and numerical analysis are required. This numerical analysis requires the creation of meshes (calculation grids), and an increase in the number of meshes is necessary to improve accuracy.
[0015] 例えば、火力発電所のボイラのように大型のプラントを対象とし、その燃焼現象を解 析する場合などは、多大なメッシュ数を必要とし、このためには数時間〜数十数日の 計算時間を要することがあり、このため、アルゴリズムの高速ィ匕ゃ並列計算化によつ て計算時間を短縮する対策が従来力 用いられているが、それでも多様な運転条件 を連続的に計算することは事実上困難である。  [0015] For example, when a large plant such as a boiler of a thermal power plant is targeted and the combustion phenomenon is analyzed, a large number of meshes are required. For this purpose, several hours to several tens of days are required. For this reason, measures to reduce the calculation time by using parallel calculation of high-speed algorithms have been used in the past, but it is still possible to calculate various operating conditions continuously. It is virtually difficult to do.
[0016] また、統計モデルによる制御対象の模擬を考えた場合、モデル作成に用いたデー タにはよく適合 (フィット)するが、異なった値が入力された場合の精度が著しく低下す るという現象が発生する。この現象は、一般的には過学習と呼ばれているが、従来技 術では、この現象を回避し、汎用性のあるモデルを作成する工夫が必要であり、この ため適用が困難で適用範囲に制限があった。 [0016] In addition, when considering the simulation of a controlled object using a statistical model, the data used to create the model fits well, but the accuracy when different values are input is significantly reduced. The phenomenon occurs. This phenomenon is generally called over-learning, but the conventional technology needs to devise a way to avoid this phenomenon and create a versatile model. Therefore, the application is difficult and the application range is limited.
[0017] 本発明は、上述の課題に鑑みてなされたものであり、その目的は、模擬モデルの作 成が容易なプラントの制御装置を提供することにある。  [0017] The present invention has been made in view of the above-described problems, and an object thereof is to provide a plant control device in which a simulation model can be easily created.
課題を解決するための手段  Means for solving the problem
[0018] 上記目的は、制御対象に所定の操作信号を与えたとき、前記制御対象から得られ る計測信号の値が、当該制御対象の運転目標値に収まって行くようにするのに必要 な操作信号を生成し、この操作信号を前記所定の操作信号とするようにしたプラント の制御装置であって、制御対象に所定の操作信号を与えたとき、当該制御対象から 得られる計測信号の値を予測するモデルと、このモデルの予測結果であるモデル出 力が、モデル出力目標値に収斂するように、前記モデルに与えるモデル入力の生成 方法を学習する学習手段と、この学習手段の結果に従って前記制御対象に与える 操作信号を生成する操作信号生成手段を有し、この操作信号生成手段により生成さ れる操作信号を前記所定の操作信号とするようにしたプラントの制御装置において、 前記制御対象の計測信号を取り込む外部入力インターフェイスと、前記インターフ ースにより取り込んだ計測信号の値を保存する計測信号データベースを備え、前記 計測信号データベースに保存された計測信号の平均と分散を計算し、この平均と分 散の結果を用いて前記操作信号を修正し、前記所定の操作信号を新たに生成する こと〖こより達成される。 [0018] The above-described object is necessary to make the value of the measurement signal obtained from the control object fall within the operation target value of the control object when a predetermined operation signal is given to the control object. A plant control device that generates an operation signal and uses the operation signal as the predetermined operation signal. When a predetermined operation signal is given to the control target, the value of the measurement signal obtained from the control target A learning means for learning how to generate a model input given to the model so that the model output that is the prediction result of the model converges to the model output target value, and according to the result of the learning means A plant control apparatus comprising operation signal generation means for generating an operation signal to be given to the controlled object, wherein the operation signal generated by the operation signal generation means is the predetermined operation signal An external input interface for capturing the measurement signal to be controlled and a measurement signal database for storing the value of the measurement signal captured by the interface, and the average and variance of the measurement signals stored in the measurement signal database This is achieved by correcting the operation signal using the result of the average and dispersion, and generating the predetermined operation signal anew.
[0019] また、上記目的は、制御対象に所定の操作信号を与えたとき、前記制御対象から 得られる計測信号の値が、当該制御対象の運転目標値に収まって行くようにするの に必要な操作信号を生成し、この操作信号を前記所定の操作信号とするようにした プラントの制御装置であって、制御対象に所定の操作信号を与えたとき、当該制御 対象から得られる計測信号の値を予測するモデルと、このモデルの予測結果である モデル出力力 モデル出力目標値に収斂するように、前記モデルに与えるモデル入 力の生成方法を学習する学習手段と、この学習手段の結果に従って前記制御対象 に与える操作信号を生成する操作信号生成手段を有し、この操作信号生成手段に より生成される操作信号を前記所定の操作信号とするようにしたプラントの制御装置 において、前記制御対象の計測信号を取り込む外部入力インターフェイスと、前記ィ ンターフェースにより取り込んだ計測信号の値を保存する計測信号データベースを 備え、前記計測信号データベースに保存された計測信号の平均と分散を計算し、前 記操作信号を修正して新たな操作信号を生成する際、前記操作信号の変化幅を、 前記計測信号の分散に基づいて決定することにより達成される。 [0019] Further, the above-described purpose is necessary to make the value of the measurement signal obtained from the control object fall within the operation target value of the control object when a predetermined operation signal is given to the control object. A control device for a plant that generates a specific operation signal and uses the operation signal as the predetermined operation signal. When a predetermined operation signal is given to the control target, a measurement signal obtained from the control target A model that predicts a value, a model output force that is a prediction result of the model, a learning means that learns how to generate a model input to be given to the model so as to converge on the model output target value, and a result of the learning means Control of a plant having operation signal generating means for generating an operation signal to be given to the control object, and using the operation signal generated by the operation signal generating means as the predetermined operation signal In the apparatus, an external input interface for capturing the measurement target measurement signal, and A measurement signal database that stores the values of measurement signals captured by the interface is calculated, the average and variance of the measurement signals stored in the measurement signal database are calculated, and the operation signals are modified to generate new operation signals. In this case, the change width of the operation signal is determined based on the variance of the measurement signal.
[0020] このとき、計測信号の平均と分散から期待値を計算した結果を用いて操作信号を 生成する機能を備えるようにしてもよぐ外部入力機能として、制御装置に計測信号 の分布形状を入力するためのユーザーインターフェイスを備えるようにしてもよぐ更 には外部入力機能として、制御装置に計測信号の平均値、期待値、分散、分布形状 のうち少なくとも一つを入力するためのユーザーインターフェイスを備えるようにしても よい。  [0020] At this time, as an external input function that may have a function of generating an operation signal using the result of calculating an expected value from the average and variance of the measurement signal, the distribution shape of the measurement signal is provided to the control device. In addition to providing a user interface for inputting, as an external input function, a user interface for inputting at least one of the average value, expected value, variance, and distribution shape of the measurement signal to the control device You may make it provide.
[0021] また、このとき、前記制御対象が火力発電プラントであり、前記火力発電プラントの 計測信号のうち、一酸化炭素、窒素酸ィ匕物の少なくとも 1つを制御装置内に取り込む 機能と、外部入力機能として、一酸化炭素、窒素酸ィ匕物の少なくとも 1つの環境規制 値を計測信号の制限値として設定する機能と、学習結果に従って、少なくとも空気ダ ンパ開度の操作信号を生成する機能を備えるようにしても上記目的が達成され、更 に前記火力発電プラントの計測信号のうち、一酸化炭素、窒素酸ィ匕物の少なくとも 1 つを制御装置内に取り込む機能と、外部入力機能として、一酸化炭素、窒素酸化物 、二酸化炭素、硫黄酸化物、水銀、フッ素、煤塵またはミストからなる微粒子類、揮発 性有機化合物の少なくとも 1つの環境規制値を前記計測信号の制限値として設定す る機能と、学習結果に従って、空気ダンバ開度、バーナヘ供給する燃料流量、バー ナ空気流量、エアポートへ供給する空気流量、ガス再循環量、パーナ角度、供給空 気温度のうち少なくとも一つの操作信号を生成する機能を備えるようにしても上記目 的が達成される。  [0021] At this time, the control target is a thermal power plant, and among the measurement signals of the thermal power plant, a function of taking at least one of carbon monoxide and nitrogen oxides into the control device; Function to set at least one environmental regulation value of carbon monoxide and nitrogen oxides as the limit value of the measurement signal as an external input function and function to generate an operation signal of at least air damper opening according to the learning result The above-described object is achieved even when the thermal power plant is equipped with a function for taking in at least one of carbon monoxide and nitrogen oxides from the measurement signal of the thermal power plant into the control device, and an external input function. At least one environmental regulation value of carbon monoxide, nitrogen oxides, carbon dioxide, sulfur oxides, fine particles of mercury, fluorine, dust or mist, and volatile organic compounds Depending on the function to be set as the limit value of the measurement signal and the learning result, the air damper opening, the fuel flow rate supplied to the burner, the burner air flow rate, the air flow rate supplied to the air port, the gas recirculation amount, the PANA angle, the supply air The above object can be achieved by providing a function of generating at least one operation signal among the temperatures.
発明の効果  The invention's effect
[0022] 本発明によれば、計測信号の平均及び分散を計算し、この計算結果から制御対象 を模擬するモデルを作成するようになって 、るので、制御対象を模擬するモデルに は、データの蓄積に応じた分布形状が組み込まれ、分散の大きさなど力 データの 変動を知ることができる。 [0023] この結果、分散が大き!/、場合には、プラントの運転状態或!、は他のプロセス値の影 響が大きいことが分り、分散が小さい場合には、プラントの運転状態或いは他のプロ セス値の影響が小さいことが分り、従って、本発明によれば、分散の大きさを考慮し 制御アルゴリズムを構築することで、データ変動や蓄積データの少なさからくる信頼 性の低さを回避することができる。 [0022] According to the present invention, the average and variance of the measurement signal are calculated, and a model that simulates the control target is created from the calculation result. Therefore, the model that simulates the control target includes data The distribution shape corresponding to the accumulated amount of data is incorporated, and the fluctuation of force data such as the magnitude of dispersion can be known. [0023] As a result, it can be seen that when the variance is large! /, The operation state of the plant or! Is influenced by other process values, and when the variance is small, the operation state of the plant or other Therefore, according to the present invention, by constructing a control algorithm in consideration of the magnitude of dispersion, the reliability is low due to data fluctuations and the small amount of accumulated data. Can be avoided.
図面の簡単な説明  Brief Description of Drawings
[0024] [図 1]本発明に係るプラントの制御装置の一実施形態を示すブロック図である。  FIG. 1 is a block diagram showing an embodiment of a plant control apparatus according to the present invention.
[図 2]本発明の一実施形態において制御対象となる火力発電プラントの一例を示す ブロック図である。  FIG. 2 is a block diagram showing an example of a thermal power plant to be controlled in an embodiment of the present invention.
[図 3]本発明の一実施形態において制御対象となる火力発電プラントの一例におけ る配管部とエアーヒーター部の拡大図である。  FIG. 3 is an enlarged view of a piping part and an air heater part in an example of a thermal power plant to be controlled in one embodiment of the present invention.
[図 4]本発明の一実施形態において計測信号データベースに記憶されるデータの態 様を示す説明図である。  FIG. 4 is an explanatory diagram showing a state of data stored in a measurement signal database in one embodiment of the present invention.
[図 5]本発明の一実施形態において操作信号データベースに記憶されるデータの態 様を示す説明図である。  FIG. 5 is an explanatory diagram showing a state of data stored in an operation signal database in one embodiment of the present invention.
[図 6]本発明の一実施形態において用いられているモデルィ匕の仕組みを示す説明 図である。  FIG. 6 is an explanatory diagram showing a mechanism of model used in one embodiment of the present invention.
[図 7]本発明の一実施形態において用いられているモデルィ匕構造の説明図である。  FIG. 7 is an explanatory diagram of a model cage structure used in an embodiment of the present invention.
[図 8]本発明の一実施形態におけるモデル作成部の処理を説明するためのフローチ ヤート図である。  FIG. 8 is a flowchart for explaining the process of the model creation unit in an embodiment of the present invention.
[図 9]本発明の一実施形態においてモデルパラメータデータベースに記憶されるデ 一タの態様を示す説明図である。  FIG. 9 is an explanatory diagram showing an aspect of data stored in a model parameter database in one embodiment of the present invention.
[図 10]本発明の一実施形態において用いられている Q— Learning 法による学習 部のブロック図である。  FIG. 10 is a block diagram of a learning unit using a Q-Learning method used in an embodiment of the present invention.
[図 11]本発明の一実施形態による学習部に使用されているアルゴリズムのフローチヤ ート図である。  FIG. 11 is a flowchart of an algorithm used in the learning unit according to the embodiment of the present invention.
[図 12]本発明の一実施形態による学習部に使用されているアルゴリズムにおける 1ェ ピソード学習実行時のフローチャート図である。 [図 13]本発明の一実施形態による学習部における評価器に適用されているタイルコ ーデイングの説明図である。 FIG. 12 is a flowchart at the time of execution of 1 episode learning in the algorithm used in the learning unit according to the embodiment of the present invention. FIG. 13 is an explanatory diagram of tile coding applied to an evaluator in a learning unit according to an embodiment of the present invention.
[図 14]本発明の一実施形態において学習情報データベースに記憶されるデータの 態様を示す説明図である。  FIG. 14 is an explanatory diagram showing an aspect of data stored in a learning information database in an embodiment of the present invention.
[図 15]本発明の一実施形態において学習情報データベースに記憶されるデータの 態様を示す説明図である。  FIG. 15 is an explanatory diagram showing an aspect of data stored in a learning information database in an embodiment of the present invention.
[図 16]本発明の一実施形態において学習パラメータデータベースに記憶されるデー タの態様を示す説明図である。  FIG. 16 is an explanatory diagram showing an aspect of data stored in a learning parameter database in an embodiment of the present invention.
[図 17]本発明の一実施形態において画像表示される初期画面の説明図である。  FIG. 17 is an explanatory diagram of an initial screen displayed as an image in an embodiment of the present invention.
[図 18]本発明の一実施形態において画像表示される制御ロジック作成 ·編集画面の 説明図である。 FIG. 18 is an explanatory diagram of a control logic creation / edit screen displayed as an image in an embodiment of the present invention.
[図 19]本発明の一実施形態において画像表示される学習条件設定画面の前半画面 の説明図である。  FIG. 19 is an explanatory diagram of a first half screen of a learning condition setting screen displayed as an image in an embodiment of the present invention.
[図 20]本発明の一実施形態において画像表示される学習条件設定画面の後半画面 の説明図である。  FIG. 20 is an explanatory diagram of the second half screen of the learning condition setting screen displayed as an image in one embodiment of the present invention.
[図 21]本発明の一実施形態において画像表示される表示情報設定画面の説明図で ある。  FIG. 21 is an explanatory diagram of a display information setting screen displayed as an image in an embodiment of the present invention.
[図 22]本発明の一実施形態において画像表示される計測値のトレンドグラフの説明 図である。  FIG. 22 is an explanatory diagram of a trend graph of measured values displayed as an image in an embodiment of the present invention.
[図 23]火力発電プラントから排出される COと NOxの関係を説明する特性図である。 符号の説明  FIG. 23 is a characteristic diagram illustrating the relationship between CO and NOx emitted from a thermal power plant. Explanation of symbols
100:制御対象、 200:制御装置、 210:外部入力インターフェイス、 220:外部出 力インターフェイス、 230:計測信号データベース、 240:操作信号データベース、 25 0:制御ロジックデータベース、 260:学習パラメータデータベース、 270:モデルパラ メータデータベース、 280:学習情報データベース、 300:操作信号生成部、 400:モ デル作成部、 500:モデル、 600:学習部、 900:入力装置、 901:キーボード、 902: マウス、 910:保守ツール、 920:外部入力インターフェイス、 930:データ送受信処理 部、 940:外部出力インターフェイス、 950:画像表示装置。 発明を実施するための最良の形態 100: Control target, 200: Control device, 210: External input interface, 220: External output interface, 230: Measurement signal database, 240: Operation signal database, 25 0: Control logic database, 260: Learning parameter database, 270: Model parameter database, 280: Learning information database, 300: Operation signal generation unit, 400: Model creation unit, 500: Model, 600: Learning unit, 900: Input device, 901: Keyboard, 902: Mouse, 910: Maintenance Tool, 920: External input interface, 930: Data transmission / reception processing section, 940: External output interface, 950: Image display device. BEST MODE FOR CARRYING OUT THE INVENTION
[0026] 以下、本発明によるプラントの制御装置について、図示の実施の形態により詳細に 説明する。図 1は、本発明に係るプラントの制御装置を制御対象 100に適用した場合 の一実施形態で、このため、制御装置 200と入力装置 900、保守ツール 910、それ に画像表示装置 950を備えて 、る。  Hereinafter, the plant control apparatus according to the present invention will be described in detail with reference to the illustrated embodiments. FIG. 1 shows an embodiment in which a plant control device according to the present invention is applied to a control object 100. For this purpose, a control device 200, an input device 900, a maintenance tool 910, and an image display device 950 are provided. RU
[0027] まず、制御装置 200は、制御対象 100からの計測信号 1を、外部入力インターフ イス 210を介して取り込み、操作信号 16は、外部出力インターフェイス 220を介して、 制御対象 100に送信する。外部入力インターフェイス 210で取り込んだ計測信号 2は 、操作信号生成部 300に伝送され、これと共に、計測信号データベース 230に保存 される。そして、操作信号生成部 300において生成された操作信号 15は、外部出力 インターフェイス 220に伝送され、これと共に、操作信号データベース 240に保存さ れる。  First, the control device 200 takes in the measurement signal 1 from the controlled object 100 via the external input interface 210 and transmits the operation signal 16 to the controlled object 100 via the external output interface 220. The measurement signal 2 captured by the external input interface 210 is transmitted to the operation signal generation unit 300 and is stored in the measurement signal database 230 together with this. Then, the operation signal 15 generated in the operation signal generation unit 300 is transmitted to the external output interface 220 and is stored in the operation signal database 240 together with this.
[0028] 操作信号生成部 300では、制御ロジックデータベース 250と学習情報データべ一 ス 280に保存されている情報を用い、制御対象 100からの計測信号 1が運転目標値 を達成するように、操作信号 15を生成する。このとき学習情報データベース 280に保 存される情報は、学習部 600により生成される力 このため学習部 600は、モデル 50 0と接続される。  [0028] The operation signal generation unit 300 uses information stored in the control logic database 250 and the learning information database 280 so that the measurement signal 1 from the control target 100 achieves the operation target value. Generate signal 15. At this time, the information stored in the learning information database 280 is a force generated by the learning unit 600. Therefore, the learning unit 600 is connected to the model 500.
[0029] ここで、このモデル 500は、制御対象 100の特性を模擬する機能を持つ。つまり、 操作信号 16を制御対象 100に与え、計測信号 1を得る場合と同じように、モデル 50 0を動作させるためのモデル入力 12を当該モデル 500に与え、その結果として、モ デル出力 13を得るのである。このときモデル出力 13は、計測信号 1の予測値となる。 従って、モデル 500は、制御対象 100の特性を模擬するものであり、これは物理法則 に基づくモデル式、或いは統計的手法を用いて、モデル入力 12に対するモデル出 力 13を計算する機能を持つ。  Here, the model 500 has a function of simulating the characteristics of the controlled object 100. That is, in the same way as when the operation signal 16 is given to the control object 100 and the measurement signal 1 is obtained, the model input 12 for operating the model 500 is given to the model 500, and as a result, the model output 13 is given. To get. At this time, the model output 13 is a predicted value of the measurement signal 1. Therefore, the model 500 simulates the characteristics of the controlled object 100, and has a function of calculating the model output 13 with respect to the model input 12 using a model formula based on a physical law or a statistical method.
[0030] モデル作成部 400は、モデルパラメータデータベース 270に保存されている前回モ デルパラメータ 5と計測信号 3を用い、これからモデル 500を生成する機能を持つ。ま た、このモデル作成部 400は、モデルパラメータデータベース 270に前回モデルパラ メータ 5が無った場合には、乱数等によって生成されたモデルパラメータと計測信号 3 を用いて、新たにモデル 500を生成する機能を持つ。 The model creation unit 400 has a function of generating a model 500 from the previous model parameter 5 and the measurement signal 3 stored in the model parameter database 270. In addition, the model creation unit 400, when the model parameter database 270 does not have the previous model parameter 5, generates the model parameter and measurement signal 3 generated by random numbers or the like. It has a function to create a new model 500 using
[0031] そこで、学習部 600は、学習情報データベース 280に保存されている前回学習情 報 11、学習パラメータデータベース 260に保存されている学習パラメータ 7、及びモ デル出力 13を用いてモデル入力 12を生成する。このため、モデル 500で計算され たモデル出力 13を用いて計算した評価値 14力 この学習部 600に入力されている。 そして、この学習部 600では、評価値 14を用いて学習情報を更新し、更新学習情報 10を学習情報データベース 280に送信する。  [0031] Therefore, the learning unit 600 uses the previous learning information 11 stored in the learning information database 280, the learning parameter 7 stored in the learning parameter database 260, and the model output 13 as the model input 12. Generate. Therefore, the evaluation value 14 force calculated using the model output 13 calculated in the model 500 is input to the learning unit 600. Then, the learning unit 600 updates the learning information using the evaluation value 14, and transmits the updated learning information 10 to the learning information database 280.
[0032] 操作信号生成部 300では、学習情報データベース 280に保存されている学習情報 9と、制御ロジックデータベース 250に保存されている制御ロジック情報 6を用いて、 操作信号 15を生成する。このとき制御対象 100の運転員は、キーボード 901とマウス 902で構成されて 、る入力装置 900と、画像表示装置 950に接続されて 、る保守ッ ール 910を用いることにより、制御装置 200に備えられている種種のデータベースに 保存されて 、る情報にアクセスすることができる。  The operation signal generator 300 generates the operation signal 15 using the learning information 9 stored in the learning information database 280 and the control logic information 6 stored in the control logic database 250. At this time, the operator of the control target 100 is composed of a keyboard 901 and a mouse 902 and is connected to the input device 900 and the image display device 950. You can access the information stored in the various databases provided.
[0033] 保守ツール 910は、外部入力インターフェイス 920、データ送受信処理部 930、外 部出力インターフェイス 940で構成されていて、入力装置 900で生成した入力信号 3 1は、外部入力インターフェイス 920を介して、この保守ツール 910に取り込まれる。 このときデータ送受信処理部 930では、入力信号 32の情報に従って、制御装置 200 に備えられて 、るデータベース情報 30を取得する。  The maintenance tool 910 includes an external input interface 920, a data transmission / reception processing unit 930, and an external output interface 940. An input signal 31 generated by the input device 900 is transmitted via the external input interface 920. This maintenance tool 910 is taken in. At this time, the data transmission / reception processing unit 930 acquires the database information 30 provided in the control device 200 according to the information of the input signal 32.
[0034] データ送受信処理部 930では、データベース情報 30を処理した結果、得られる出 力信号 33を、外部出力インターフェイス 940に送信する。そして、この外部出力イン ターフェイス 940から出力信号 34が画像表示装置 950に供給され、運転員のモニタ に備えて画像として表示される。  The data transmission / reception processing unit 930 transmits the output signal 33 obtained as a result of processing the database information 30 to the external output interface 940. The output signal 34 is supplied from the external output interface 940 to the image display device 950 and displayed as an image in preparation for the operator's monitor.
[0035] なお、この実施形態では、必要なデータベースが全て制御装置 200の内部に配置 されている力 これらを制御装置 200の外部に配置することもできる。また、この実施 形態では、操作信号 16を生成するための信号処理機能が全て制御装置 200の内部 に配置されて 、るが、これらを制御装置 200の外部に配置してもよ 、。  In this embodiment, all the necessary databases are arranged inside the control apparatus 200. These can be arranged outside the control apparatus 200. Further, in this embodiment, all signal processing functions for generating the operation signal 16 are arranged inside the control device 200, but these may be arranged outside the control device 200.
[0036] 次に、この実施形態の動作について、以下、本発明を火力発電プラントに適用した 場合を例にとり、データベースに保存されている情報、及び信号処理機能と共に説 明する。ここで、ます制御対象 100となる火力発電プラントについて、図 2により説明 する。ここでは、石炭を燃料とする場合について説明すると、この場合は、コールバン カー 111に石炭が貯蔵されている。そして、このコールバンカー 111から給炭器 112 を介してミル 110に石炭が供給される。 [0036] Next, the operation of this embodiment will be described below along with the information stored in the database and the signal processing function, taking the case where the present invention is applied to a thermal power plant as an example. Light up. Here, the thermal power plant to be controlled 100 will be described with reference to FIG. Here, the case where coal is used as fuel will be described. In this case, coal is stored in the coal bunker 111. Then, coal is supplied from the coal bunker 111 to the mill 110 via the coal feeder 112.
[0037] ミル 110では、内部のローラにより石炭が細力べ砕かれ、微粉状の石炭、いわゆる微 粉炭にされる。そして、この微粉炭が石炭搬送用の 1次空気により、燃焼調整用の 2 次空気と共にバーナー 102に搬送され、ボイラ 101の炉内に供給されて燃焼される。 このとき 1次空気は配管 133を介してミル 110に供給され、微粉炭と 1次空気は配管 1 34を介してバーナー 102に、また、 2次空気は配管 141を介してバーナー 102に、そ れぞれ導かれる。 [0037] In the mill 110, the coal is pulverized by an internal roller into fine powder coal, so-called pulverized coal. Then, the pulverized coal is transported to the burner 102 by the primary air for transporting coal together with the secondary air for combustion adjustment, and is supplied into the furnace of the boiler 101 and combusted. At this time, the primary air is supplied to the mill 110 via the pipe 133, the pulverized coal and the primary air are supplied to the burner 102 via the pipe 1 34, and the secondary air is supplied to the burner 102 via the pipe 141. Each is guided.
[0038] このとき、ボイラ 101の炉内には、ァフタエアポート 103を介して、 2段燃焼用のァフ タエアが供給される力 このァフタエアは、配管 142を介して導かれる。そして、石炭 の燃焼により炉内で発生した高温のガスは、ボイラ 101の炉内でボイラ本体の熱交換 器 106を含む所定の経路に沿って流れた後、エアーヒーター 104を通過し、排ガス 処理された後、煙突を介して大気に放出される。  [0038] At this time, the force at which the after-air for two-stage combustion is supplied into the furnace of the boiler 101 via the after-air port 103. This after-air is guided through the pipe 142. The high-temperature gas generated in the furnace due to the combustion of coal flows along a predetermined path including the heat exchanger 106 of the boiler body in the furnace of the boiler 101, and then passes through the air heater 104 to treat the exhaust gas. And then released to the atmosphere through the chimney.
[0039] このとき、ボイラ 101の熱交^^ 106を循環する給水は、給水ポンプ 105により加圧 されてボイラ 101に導入され、熱交 106で加熱され高温高圧の蒸気となる。なお 、この例では、熱交^^が 1基になっているが、熱交^^が複数基、配置されるよう にしてもよい。  [0039] At this time, the feed water circulating in the heat exchange 106 of the boiler 101 is pressurized by the feed water pump 105 and introduced into the boiler 101, and heated by the heat exchange 106 to become high-temperature and high-pressure steam. In this example, there is one heat exchange, but a plurality of heat exchanges may be arranged.
[0040] 熱交^^ 106を通過して高温高圧になった蒸気は、タービンガバナ 107を介して 蒸気タービン 108に導かれ、ここで蒸気の持つエネルギーが回転エネルギーに変換 され、発電機 109が回転駆動された結果、電力が発生される。このとき蒸気タービン 108の排気は復水器 113に送られ、ここで冷却された結果、復水となって再び給水 ポンプ 105に送られる。この過程で、タービン 108から抽気を行い、抽気した蒸気に よ給水を加熱する装置を配置し、熱効率を向上させるようになって!/、る。  [0040] The steam that has passed through the heat exchange ^^ 106 and has become high-temperature and high-pressure is led to the steam turbine 108 through the turbine governor 107, where the energy of the steam is converted into rotational energy, and the generator 109 is As a result of the rotational drive, electric power is generated. At this time, the exhaust gas from the steam turbine 108 is sent to the condenser 113, where it is cooled, and as a result, it becomes condensed water and is sent to the feed pump 105 again. In this process, air is extracted from the turbine 108, and a device for heating the feed water with the extracted steam is installed to improve the thermal efficiency!
[0041] ところで、このような火力発電プラントには様々な計測器が配置されている。例えば 、図 2には、流量計測器 150、温度計測器 151、圧力計測器 152、発電出力計測器 153、及び濃度計測器 154が図示されている。そして、流量計測器 150では、給水 ポンプ 105からボイラ 101に供給される給水の流量が計測される。また、温度計測器 151と圧力計測器 152は、蒸気タービン 108に供給される蒸気の温度と圧力が計測 する。発電機 109で発電された電力量は、発電出力計測器 153で計測する。 By the way, various measuring instruments are arranged in such a thermal power plant. For example, FIG. 2 shows a flow rate measuring device 150, a temperature measuring device 151, a pressure measuring device 152, a power generation output measuring device 153, and a concentration measuring device 154. And with the flow meter 150, the water supply The flow rate of the feed water supplied from the pump 105 to the boiler 101 is measured. The temperature measuring device 151 and the pressure measuring device 152 measure the temperature and pressure of the steam supplied to the steam turbine 108. The amount of power generated by the generator 109 is measured by a power generation output measuring device 153.
[0042] 一方、ボイラ 101を通過中のガスに含まれている CO (—酸ィ匕炭素)、 NOx (窒素酸 化物)、二酸化炭素、硫黄酸化物、水銀、フッ素、煤塵またはミストからなる微粒子類 、揮発性有機化合物の少なくとも 1つの環境規制値などの成分の濃度に関する情報 は、濃度計測器 154で計測される。なお、一般的には、図 2に図示した以外にも、多 数の計測器が火力発電プラントに配置されている力 図 2では省略している。そして、 これらの計測器力も取得された情報が、図 1では制御対象 100から出力される計測 情報 1として示されていて、これらが制御装置 200に伝送される。  [0042] On the other hand, fine particles composed of CO (acid-carbon), NOx (nitrogen oxide), carbon dioxide, sulfur oxide, mercury, fluorine, dust, or mist contained in the gas passing through boiler 101. For example, information on the concentration of a component such as at least one environmental regulation value of a volatile organic compound is measured by a concentration meter 154. In general, in addition to those shown in Fig. 2, many measuring instruments are omitted in Fig. 2, which is installed in a thermal power plant. Then, information obtained from these measuring instrument forces is shown in FIG. 1 as measurement information 1 output from the control object 100, and these are transmitted to the control device 200.
[0043] 次に、バーナー 102から供給される 1次空気と 2次空気、それにァフタエアポート 10 3から投入されるァフタエアの経路について説明する。まず、 1次空気は、ファン 120 力も配管 130に取り込まれ、途中でエアーヒーター 104を通過する配管 132と通過し ない配管 131に分岐た後、配管 133に合流してミル 110に導かれる。このときエアー ヒーター 104を通過する空気はガスにより加熱され、ミル 110で生成される微粉炭を バーナー 102に搬送するのに使用される。  [0043] Next, the paths of the primary air and secondary air supplied from the burner 102 and the after-air supplied from the after-air port 103 will be described. First, the primary air is also taken into the pipe 130 by the fan 120 force, branched into a pipe 132 that passes through the air heater 104 and a pipe 131 that does not pass through, and then merges into the pipe 133 and is guided to the mill 110. At this time, the air passing through the air heater 104 is heated by the gas and used to convey the pulverized coal produced by the mill 110 to the burner 102.
[0044] 一方、 2次空気とァフタエアは、ファン 121により配管 140に取り込まれ、エアーヒー ター 104で加熱された後、 2次空気用の配管 141とァフタエア用の配管 142とに分岐 し、それぞれバーナー 102とァフタエアポート 103に導かれるようになつている。  [0044] On the other hand, the secondary air and after air are taken into the pipe 140 by the fan 121, heated by the air heater 104, and then branched into the secondary air pipe 141 and the after air pipe 142, respectively. 102 and after-airport 103.
[0045] 図 3は、このときの 1次空気と 2次空気、それにァフタエアが通過する配管部と、エア 一ヒーター 104の拡大図であり、この図に示されているように、各配管にはエアダンバ 160、 161、 162、 163が配置されていて、これらのエアダンパを操作することにより、 配管を空気が通過する面積を変更することでき、エアダンバの操作によって配管を 通過する空気流量を調整できる。そこで、制御装置 200は、そこで生成される操作信 号 16を用いて、給水ポンプ 105、ミル 110、エアダンバ 160、 161、 162、 163などの 機器を操作する。  [0045] Fig. 3 is an enlarged view of the primary air and secondary air at this time, a piping section through which after-air passes, and an air heater 104. As shown in this figure, Air dampers 160, 161, 162, and 163 are arranged, and by operating these air dampers, the area through which air passes through the pipe can be changed, and the air flow rate through the pipe can be adjusted by operating the air damper. . Therefore, the control device 200 operates equipment such as the feed pump 105, the mill 110, and the air dampers 160, 161, 162, 163 using the operation signal 16 generated there.
[0046] 次に、計測信号データベース 230と操作信号データベース 240に保存される情報 について、図 4と図 5により説明する。ここで、図 4は計測信号データベース 230に保 存される情報の一例であり、図 5は操作信号データベース 240に保存されている情 報の一例である。 Next, information stored in the measurement signal database 230 and the operation signal database 240 will be described with reference to FIGS. 4 and 5. FIG. Here, Fig. 4 is stored in the measurement signal database 230. FIG. 5 shows an example of information stored in the operation signal database 240.
[0047] まず、計測信号データベース 230には、図 4に示すように、制御対象 100において 計測された情報が、計測器毎に各計測時刻と共に保存される。例えば、図 2における 流量計測器 150で計測した流量値 F、温度計測器 151で計測した温度値 T、圧力計 測器 152で計測した圧力値 ρ、発電出力計測器 153で計測した圧力値 ρ、発電出力 値 Ε、それに排ガスに含まれる ΝΟχ濃度 Dが、時間の情報と共に保存される。  First, as shown in FIG. 4, in the measurement signal database 230, information measured in the control target 100 is stored together with each measurement time for each measuring instrument. For example, in Fig. 2, the flow rate value F measured by the flow meter 150, the temperature value T measured by the temperature meter 151, the pressure value ρ measured by the pressure meter 152, the pressure value ρ measured by the power generation output meter 153 The power generation output value Ε and the ΝΟχ concentration D contained in the exhaust gas are stored along with the time information.
[0048] このとき、計測信号データベース 230に格納されているデータを容易に活用できる ようにするため、各計測値には、図示のように、 PID番号という固有の番号が割り当て られている。なお、この図 4では、 1秒周期でデータを保存している力 このときの周期 、つまりデータ収集のサンプリング周期は任意に設定することが可能である。  [0048] At this time, in order to make it easy to use the data stored in the measurement signal database 230, each measurement value is assigned a unique number called a PID number as shown in the figure. In FIG. 4, the force for storing data in a 1-second cycle, that is, the sampling cycle for data collection can be arbitrarily set.
[0049] 次に、操作信号データベース 240には、図 5に示すように、給水流量の指令信号な どの操作信号が、時間の情報と共に保存される。なお、ここでも各操作信号には固有 の PID番号が割り当てられており、時間間隔も任意に設定することができるのは言う までもない。  Next, in the operation signal database 240, as shown in FIG. 5, operation signals such as a feed water flow rate command signal are stored together with time information. In this case as well, each operation signal is assigned a unique PID number, and it goes without saying that the time interval can also be set arbitrarily.
[0050] 次に、モデル作成部 400とモデル 500の動作について説明する。モデル 500は、 図 6に示す計測信号の関係を、図 7に示す構造により実現する。ここで図 6は、空気 流量比率と計測信号 Αとの関係をプロットしたものである力 このとき、プラントの状況 により、グラフにプロットできるデータの数が異なる。例えば、新設プラントでは、設計 値情報など力も求めることになるので、少ないデータ数となる。一方、運転年数の多 いプラントでは、データ数が多くなる。  [0050] Next, operations of the model creation unit 400 and the model 500 will be described. The model 500 realizes the relationship of the measurement signals shown in Fig. 6 by the structure shown in Fig. 7. Here, Fig. 6 shows the force plotting the relationship between the air flow rate ratio and the measurement signal Α. At this time, the number of data that can be plotted on the graph differs depending on the plant conditions. For example, in a new plant, the power of design value information is also required, so the number of data is small. On the other hand, the number of data increases in plants with many years of operation.
[0051] このように、データ数はプラント状況により差異が生じるため、ここでは、各データに 分布を仮定し、データ数の差異を分布の形状で表現することにする。そうすると、デ ータ数が少ない場合には分散が大きいので、広がった分布となり、他方、データ数が 多い場合には、分散が小さくなるので尖った分布となる。このときデータに対する事 前情報がある場合には、分布形状を仮定することができるが、新規データなどの場合 には、事前情報が無く得られたデータをもとに分布を推定する必要がある。  [0051] As described above, since the number of data varies depending on the plant status, here, the distribution is assumed for each data, and the difference in the number of data is expressed by the shape of the distribution. Then, when the number of data is small, the variance is large and the distribution is widened. On the other hand, when the number of data is large, the variance is small and the distribution is sharp. At this time, if there is prior information on the data, the distribution shape can be assumed, but in the case of new data, it is necessary to estimate the distribution based on the data obtained without prior information. .
[0052] ここで、データのみ力 分布を推定する手法は多数知られている力 何れも、母集 団分布が何であってもデータ数の増加によりその分布は正規分布に近づくという、中 心極限定理力 正規分布を仮定すればょ 、。分布が仮定できれば平均と分散より形 状を決定することができる。なお、この中心極限定理による正規分布の仮定について は、例えば、 "統計学入門"東京大学教養学部統計学教室編、東京大学出版会、 19 91年 7月 10日出版"に詳しく述べられている。 [0052] Here, there are many known methods for estimating the force distribution only in the data. Whatever the group distribution, the central limit of force normal distribution, where the distribution approaches the normal distribution as the number of data increases, assumes a normal distribution. If the distribution can be assumed, the shape can be determined from the mean and variance. The assumption of normal distribution based on this central limit theorem is described in detail, for example, in "Introduction to Statistics", Department of Statistics, Faculty of Liberal Arts, The University of Tokyo, 19th July, 1991. .
[0053] 図 7は、分布を坂定した場合のモデル構造を説明した図で、このときの出力信号と しては、図 6で示した分布の中央値と分散値を出力するようなモデルで、入力層、中 間層、出力層からなり、各層のノードが相互的に結合した構造となっている。ノード部 は線形或 、は非線形関数を用いるが、シグモイド関数を用 、るのが一般的である。 各ノードの結合には重み係数があり、各ノードの相互関係の強さを表している。  [0053] Fig. 7 is a diagram for explaining the model structure when the distribution is determined. The output signal at this time is a model that outputs the median and variance values of the distribution shown in Fig. 6. It consists of an input layer, an intermediate layer, and an output layer, and the nodes of each layer are connected to each other. The node portion uses a linear or non-linear function, but a sigmoid function is generally used. Each node connection has a weighting coefficient, and represents the strength of the mutual relationship between the nodes.
[0054] 通常、モデルパラメータ (後述)とは、この重み係数を指す。また、ここでは、中間層 を一層で表現しているが、多層で表現することも可能である。入力信号には、関連す る計測信号を入力する。このモデルで制御対象を模擬すると、蓄積データ数を考慮 したモデルを作成することができるため、制御対象のさまざまな状態が容易に模擬で きる。  [0054] Normally, a model parameter (described later) refers to this weighting factor. Here, the intermediate layer is expressed as a single layer, but can also be expressed as a multilayer. For the input signal, input the related measurement signal. By simulating the controlled object with this model, it is possible to create a model that takes into account the number of stored data, so various states of the controlled object can be easily simulated.
[0055] 図 8は、モデル作成部 400によるモデル 500を作成するための処理を示すフローチ ヤートである。なお、このフローチャートの実行に必要なパラメータについては、モデ ルパラメータデータベース 270に保存されて!、るが、このデータベースに保存されて V、る情報の形態にっ 、ては後述する。  FIG. 8 is a flowchart showing processing for creating a model 500 by the model creation unit 400. The parameters necessary for the execution of this flowchart are stored in the model parameter database 270 !, but the format of the information stored in this database will be described later.
[0056] 図 8のフローチャートによる処理を開始したら、まず、ステップ 401では、過去に設 定したモデルパラメータを用いるの力 或いは新規にモデルパラメータを作成するの かを選択する。ここで新規にモデルパラメータを作成する場合には、ステップ 402に 進み、モデルパラメータの初期値を、乱数を用い設定する。  When the processing according to the flowchart of FIG. 8 is started, first, in step 401, it is selected whether to use a model parameter set in the past or create a new model parameter. If a new model parameter is to be created here, the process proceeds to step 402, and the initial value of the model parameter is set using a random number.
[0057] 次に、ステップ 403では、計測信号データベース 230からモデル 500の入力信号 及び出力信号となる計測信号 3を抽出し、モデル 500の出力信号となる計測信号 3 の平均を計算する。計算した平均は、学習情報データベース 280に保存される。  [0057] Next, in step 403, the measurement signal 3 that is the input signal and output signal of the model 500 is extracted from the measurement signal database 230, and the average of the measurement signal 3 that is the output signal of the model 500 is calculated. The calculated average is stored in the learning information database 280.
[0058] ステップ 404では、モデル 500の出力信号となる計測信号 3の分散を計算する。こ こで計測信号のサンプル数が 1個しかない場合には、分散を計算することができない 。そこで、この場合には、デフォルト値として大きめの分散値を与える。例えば 100な どをデフォルト値に設定すればよい。このデフォルト値は、逐次、ユーザが変更するこ とが可能である。 [0058] In step 404, the variance of the measurement signal 3 that is the output signal of the model 500 is calculated. If the measurement signal has only one sample, the variance cannot be calculated. . Therefore, in this case, a larger dispersion value is given as a default value. For example, 100 may be set as the default value. This default value can be changed by the user sequentially.
[0059] このときの分布の形状については、学習情報データベース 280に保存されている 形状を用いる。ただし、学習情報データベース 280に、まだ形状が保存されていない 場合には、正規分布を用いることになる。こうして計算した分散は、学習情報データ ベース 280に保存される。  [0059] Regarding the shape of the distribution at this time, the shape stored in the learning information database 280 is used. However, when the shape is not yet stored in the learning information database 280, a normal distribution is used. The variance thus calculated is stored in the learning information database 280.
[0060] ステップ 405では、ステップ 403とステップ 404で計算された平均と分散をモデル 5 00の教師信号として設定し、次いでステップ 406では、学習回数や学習係数、ノード 数など学習に必要なパラメータを設定する。新規にモデルパラメータを作成する場合 には、モデルパラメータデータベース 270に保存されて!、るデフォルト値を用いる。  [0060] In step 405, the mean and variance calculated in steps 403 and 404 are set as the teacher signal of the model 500. Next, in step 406, parameters necessary for learning such as the number of learning, the learning coefficient, and the number of nodes are set. Set. When creating a new model parameter, the default value stored in the model parameter database 270 is used.
[0061] ステップ 407では、モデルパラメータを学習により初期値力も逐次更新する。学習 によるモデルパラメータの更新方法は、 Back Propagation法などを用いる。この学 習方法については、 "ニューラルネットと計測制御"西川祓ー '北村新三編著、朝倉 書店、 1995年 1月 25日出版"に詳しく述べられている力 基本的には、モデル 500 に入力信号を与えたときの出力信号と教師信号の差が無くなるように、モデルパラメ ータを更新することになる。  [0061] In step 407, the initial value force is sequentially updated by learning the model parameters. The Back Propagation method is used as a method for updating model parameters by learning. This learning method is described in detail in "Neural Network and Measurement Control" Kei Nishikawa-'Shinzo Kitamura, Asakura Shoten, published January 25, 1995'. The model parameters are updated so that there is no difference between the output signal and the teacher signal when the signal is given.
[0062] ここで、モデル 500からの出力信号と教師信号の差は、一般的には二乗誤差で表 現され、評価関数と呼ばれる。各モデルパラメータを変動させた場合の評価関数の 変動分を偏微分計算し、得られた値に学習係数を掛けたものをモデルパラメータの 更新分とする。従って、これを繰り返していくと、モデル 500の出力信号と教師信号の 差が無くなり、評価関数がゼロに近づく。  [0062] Here, the difference between the output signal from model 500 and the teacher signal is generally expressed by a square error and is called an evaluation function. The variation of the evaluation function when each model parameter is varied is subjected to partial differential calculation, and the obtained value multiplied by the learning coefficient is used as the updated model parameter. Therefore, if this is repeated, the difference between the output signal of the model 500 and the teacher signal disappears, and the evaluation function approaches zero.
[0063] そして、評価関数がゼロに近づくと、偏微分の値もゼロに近くなり、モデルパラメータ の更新量がセ口に近づく。ただし数値計算では、完全にゼロになることは無いので、 ステップ 408により、評価関数が設定された値以下になったら学習が終了したとみな し、モデル作成を終了する。  [0063] When the evaluation function approaches zero, the partial differential value also approaches zero, and the update amount of the model parameter approaches the outlet. However, in numerical calculations, it is never completely zero. Therefore, in step 408, when the evaluation function falls below the set value, it is considered that learning has ended, and model creation is ended.
[0064] 一方、ステップ 408で学習の終了条件に満たない場合には、学習の繰り返し回数 が設定された回数に達した時点で繰り返し計算をストップし、ステップ 406に戻って再 度、学習用パラメータを設定する。 [0064] On the other hand, if the learning end condition is not satisfied in step 408, the iterative calculation is stopped when the number of learning repetitions reaches the set number of times, and the process returns to step 406 and restarts. Set the learning parameters.
[0065] ステップ 401〖こ戻り、ここで過去のモデルパラメータの使用を選択した場合、過去の モデルパラメータを初期値として学習によって修正するか否かを、ステップ 409で選 択する。修正する場合には、ステップ 403に進む。修正しない場合には、過去のモデ ルパラメータをそのまま使用するため、モデル 500を再構築する必要がなぐモデル 作成は終了となる。  [0065] If step 401 is returned and the use of the past model parameter is selected here, whether or not the past model parameter is to be corrected by learning is selected in step 409. If so, go to step 403. If it is not corrected, the model creation without the need to reconstruct the model 500 is completed because the previous model parameters are used as they are.
[0066] なお、この実施形態では、ノードにシグモイド関数を用いた-ユーラルネットワークを 用いている力 ノードにガウシアン関数を用いた Radial Basis Function ネット ワークなど、他のネットワークモデルを用いてもよ!ヽ。  [0066] In this embodiment, other network models such as a radial basis function network using a Gaussian function for a force node using a sigmoid function for a node and a Gaussian function may be used!ヽ.
[0067] 図 9は、モデルパラメータデータベース 270に保存されている情報の形態を説明す る図であり、この図のように、モデルパラメータデータベース 270には、 ID、作成日時 、学習係数、学習回数、終了条件、ノード数、パラメータ値が保存される。ここでノード 数は、入力層、中間層、出力層に分かれる。また、パラメータ値は重み係数のことで、 ノードの相互結合分あり、それぞれ W 、 W 、 · · ·と保存されている。  [0067] FIG. 9 is a diagram for explaining the form of information stored in the model parameter database 270. As shown in this figure, the model parameter database 270 includes an ID, a creation date, a learning coefficient, and the number of learnings. , End condition, number of nodes, parameter values are saved. Here, the number of nodes is divided into an input layer, an intermediate layer, and an output layer. The parameter value is a weighting factor, and there are mutual connections of nodes, which are stored as W, W, ..., respectively.
11 12  11 12
[0068] なお、 IDの値が 000のものは、モデルパラメータを新規に作成する場合の学習パラ メータのデフォルト値を示している。新規作成用のため、ノード数及びパラメータ値の 箇所は通常、ブランクとなっている。  [0068] The ID value of 000 indicates the default value of the learning parameter when a new model parameter is created. For new creation, the number of nodes and parameter values are usually blank.
[0069] 次に、モデル 500、学習部 600の動作について説明する。学習部 600は、制御対 象 100の特性を模擬するモデル 500を対象に、モデル出力 13がモデル出力目標値 を達成するように、モデル入力 12の生成方法を学習する。なお、このような学習を実 行するアルゴリズムとしては、例えば、 "強化学習(Reinforcement Learning) "、 三上貞芳 ·皆川雅章共訳、森北出版株式会社、 2000年 12月 20日出版に述べられ ている強化学習理論がある。  Next, the operation of model 500 and learning unit 600 will be described. The learning unit 600 learns how to generate the model input 12 so that the model output 13 achieves the model output target value for the model 500 that simulates the characteristics of the control target 100. Examples of algorithms for performing such learning are described in “Reinforcement Learning”, Sadayoshi Mikami and Masaaki Minagawa, Morikita Publishing Co., Ltd., published on December 20, 2000. There is a reinforcement learning theory.
[0070] ここで、この強化学習とは、評価値 (報酬)情報を手がかりに、学習部 600とモデル 5 00との相互作用を通して、モデル出力目標値を達成するためのモデル入力 12の生 成方法を学習するものであり、この強化学習を適用することにより、現時刻から将来 にわたつて得られる評価値の期待値が最大となるようなモデル入力 12の生成方法を 学習することが可能である。 [0071] この実施形態では、強化学習アルゴリズムとして、 Q— learning 法を適用した場 合を例にして説明するが、しかし、この実施形態の制御装置 200における学習方法と しては、強化学習法以外にも遺伝的アルゴリズム、線形'非線形計画法などの最適 化技術を適用することも可能である。 [0070] Here, this reinforcement learning is the generation of the model input 12 for achieving the model output target value through the interaction between the learning unit 600 and the model 500 using the evaluation value (reward) information as a clue. By applying this reinforcement learning, it is possible to learn how to generate the model input 12 that maximizes the expected value of the evaluation value obtained from the current time in the future. is there. In this embodiment, a case where the Q-learning method is applied as an example of the reinforcement learning algorithm will be described. However, as a learning method in the control device 200 of this embodiment, the reinforcement learning method is used. It is also possible to apply optimization techniques such as genetic algorithms and linear 'non-linear programming'.
[0072] 図 10は、 Q— learning 法の概要図で、ここに示すように、この Q— learning 法を適用した学習部 600は、モデル入力 12を生成するエージェント 650と、状態の 価値を評価する評価器 660とで構成される。  [0072] Figure 10 is a schematic diagram of the Q-learning method. As shown here, the learning unit 600 applying this Q-learning method evaluates the state value and the agent 650 that generates the model input 12. It consists of an evaluator 660.
[0073] 図 11及び図 12は、この Q— learning 法による場合の処理を説明するためのフ ローチャートである。ここで、このフローチャートの実行に必要な設計パラメータ、例え ば割引率 γなどについては学習パラメータデータベース 260、及び学習情報データ ベース 280保存されている。なお、これらのデータベースに保存されている情報の形 態、及び設計パラメータをデータベースに登録する方法にっ 、ては後述する。  FIG. 11 and FIG. 12 are flowcharts for explaining the processing in the case of the Q-learning method. Here, the learning parameter database 260 and the learning information database 280 are stored for the design parameters necessary for executing this flowchart, such as the discount rate γ. The form of information stored in these databases and the method of registering design parameters in the database will be described later.
[0074] 図 11において、まず、このフローチャートは、制御対象 100を制御している間、繰り 返し実施され、始めのステップ 301では、制御におけるサンプリング周期 rを取得する 。次に、ステップ 302では、 1エピソード学習を実行する。このステップ 302において は、モデル 500及び学習部 600が動作し、前述の強化学習アルゴリズムを実行する 。そして、ステップ 303では、学習終了判定を実行する。  In FIG. 11, first, this flowchart is repeatedly performed while the control target 100 is being controlled. In the first step 301, the sampling period r in the control is acquired. Next, in step 302, one episode learning is executed. In step 302, the model 500 and the learning unit 600 are operated to execute the above-described reinforcement learning algorithm. In step 303, a learning end determination is executed.
[0075] このステップ 303は、制御のサンプリング周期以下で学習を終了させるために設け られたステップであり、学習実行時間が rより小さい間はステップ 302に戻り、処理時 間が周期 rを超えたら学習を終了する。  [0075] This step 303 is a step provided to end the learning within the sampling period of the control. When the learning execution time is smaller than r, the process returns to step 302, and when the processing time exceeds the period r. End learning.
[0076] 図 12は、図 11のステップ 302における 1エピソード学習実行時の動作を説明するフ ローチャートで、まず、ステップ 601では、モデル入力の初期値をランダムに設定す る。次に、ステップ 602では、ステップ 601で生成したモデル入力 12をモデル 500に 入力し、モデル出力 13を得る。次いで、ステップ 603では、モデル出力 13とモデル 出力の目標値とを比較し、モデル出力 13がモデル出力目標値を達成していればェ ピソードを終了し、達成して!/、な 、場合はステップ 604に進む。  FIG. 12 is a flowchart for explaining the operation at the time of execution of one episode learning in step 302 in FIG. 11. First, in step 601, initial values of model inputs are set at random. Next, in step 602, the model input 12 generated in step 601 is input to the model 500, and the model output 13 is obtained. Next, in Step 603, the model output 13 is compared with the target value of the model output, and if the model output 13 has achieved the model output target value, the episode is terminated and achieved! / Proceed to step 604.
[0077] 次のステップ 604では、学習部 600により、学習情報データベース 280に保存され ている情報を用いてモデル入力変更幅 を決定する。なお、このモデル入力変更 幅 Aaの決定方法は後述する。 In the next step 604, the learning unit 600 determines a model input change width using information stored in the learning information database 280. This model input change The method for determining the width Aa will be described later.
[0078] ステップ 605では、次の( 1)式を用 、てモデル入力 12を決定する。  In Step 605, the model input 12 is determined using the following equation (1).
[0079] [数 1]  [0079] [Equation 1]
"(/ + 1} = a(t) + A "(/ + 1} = a (t) + A
[0080] ステップ 606では、ステップ 605で決定したモデル入力 12をモデル 500に入力し、 モデル出力 13を得る。次いでステップ 607では、ステップ 606で得たモデル出力 13 をもとにして、次の(2)式により評価値を計算する。 In Step 606, the model input 12 determined in Step 605 is input to the model 500, and the model output 13 is obtained. Next, at step 607, an evaluation value is calculated by the following equation (2) based on the model output 13 obtained at step 606.
[0081] [数 2]
Figure imgf000019_0001
[0081] [Equation 2]
Figure imgf000019_0001
ここで、 β(ΐ, ίί』は状艏 s で行動 aを取ったときの価値、 (0≤ v < Dは割弓 j率 は時翻 ίの報酬である。 Here, β (ΐ, ίί) is the value when taking action a with state s, ( 0 ≤ v <D is the split bow j rate is the reward for time-lapse.
[0082] ここでは、価値 Q (s, a)が時刻での総和により決定されている力 これには意味があ る。すなわち、実際の行動、ここではモデル入力 12を生成し、モデル 500に入力した 場合の応答になる力 これには遅れ時間を伴う場合が多い。特に、プラントに適用し た場合には、この影響が大きい。 [0082] Here, the value Q (s, a) is determined by the sum of time. This makes sense. That is, the actual behavior, here the force that becomes the response when the model input 12 is generated and input to the model 500 is often accompanied by a delay time. In particular, this effect is significant when applied to plants.
[0083] そこで、行動直後に対する報酬により価値を決定するのではなぐ将来的に与えら れる報酬の総和で価値を決定する方がより現実的であり、このため時刻での総和に より決定されるようにしたのである。また、この場合、割引率 γの導入により、行動直 後に得られた報酬が高くなるように設定することで、応答性も考慮した評価値ができ るというメリ  [0083] Therefore, it is more realistic to determine the value based on the sum of rewards given in the future rather than determining the value based on the reward immediately after the action. Therefore, the value is determined based on the sum at the time. I did it. In this case, by introducing a discount rate γ, the reward obtained immediately after the action is set higher so that an evaluation value that considers responsiveness can be obtained.
ッ卜ちある。  There is.
ステップ 608では、ステップ 607で計算した評価値に基づき、次の(3)式により、ェ ージェントのパラメータを更新し、その更新した結果を学習情報データベース 280に 保存する。 [0085] [数 3] 数 3 In step 608, based on the evaluation value calculated in step 607, the agent parameter is updated by the following equation (3), and the updated result is stored in the learning information database 280. [0085] [Equation 3] Equation 3
<2(i, ) — Q(s, , α, ) +な + , max max β(5(+, , α) Q st ,。, ) ( 3 ) ここで、 ひ (0≤ α <1 )は学習率である <2 (i,) - ( . 5 (+,, α) Q s t,,) Q (s,, α,) + Do +, max max β (3) where, shed (0≤ α <1 ) Is the learning rate
[0086] 最後に、ステップ 609で、ステップ 403と同様の方法により終了判定を実施する。す なわち、ステップ 609では、学習の終了条件に満たない場合、学習の繰り返し回数が 設定された回数に達した時点で繰り返し計算をストップし、ステップ 604に戻るのであ る。 [0086] Finally, in step 609, end determination is performed by the same method as in step 403. That is, in step 609, when the learning end condition is not satisfied, the iterative calculation is stopped when the number of learning repetitions reaches the set number of times, and the process returns to step 604.
[0087] 次に、学習部 600のエージェント 650においてモデル入力 12を生成し、評価器 66 0において状態価値を計算する場合の処理について説明する。なお、ここでは、ター ルコーディング法を用いた場合について説明する力 この方法以外の手法を用いて エージェント 650及び評価器 660を構成してもよ ヽ。  Next, processing when the model input 12 is generated in the agent 650 of the learning unit 600 and the state value is calculated in the evaluator 660 will be described. Here, the power to explain the case of using the tail coding method The agent 650 and the evaluator 660 may be configured by using a method other than this method.
[0088] まず、評価器 660では、上記したように、タイルコーディング法により状態を分割す る。このタイルコーディング法とは、入力空間を分割し、どの領域に属するかを判別す ることによって、連続的な状態を離散的な状態として認識する手法であり、図 13は、 このときのタイルコーディング法を説明する図であり、この図において、 1つ 1つの領 域は、タイルと呼ばれる。例えば、モデル 500への入力信号 12が入力信号 Αと入力 信号 Bの 2次元であり、入力信号 Aが 0と 1の間、入力信号 Bが 1と 2の間にある場合は 、図 13における状態番号 1のタイルに属する。  First, the evaluator 660 divides the state by the tile coding method as described above. This tile coding method is a method of recognizing continuous states as discrete states by dividing the input space and determining which region it belongs to. Figure 13 shows the tile coding at this time. It is a figure explaining the law. In this figure, each area is called a tile. For example, if the input signal 12 to the model 500 is a two-dimensional input signal Α and an input signal B, the input signal A is between 0 and 1, and the input signal B is between 1 and 2, Belongs to tile with state number 1.
[0089] この場合、学習情報データベース 280には、図 14に示すように、状態番号と価値 関数とが対応した形態で情報が保存されている。評価器 660では、モデル出力 13が 得られたときの入力信号 12の値と、学習情報データベース 280に保存されている情 報を用いて、前述した (3)式に従って状態の価値を計算する。  In this case, the learning information database 280 stores information in a form in which the state number and the value function correspond as shown in FIG. The evaluator 660 uses the value of the input signal 12 when the model output 13 is obtained and the information stored in the learning information database 280 to calculate the value of the state according to the above-described equation (3).
[0090] ここで、まず、図 15は、学習情報データベース 280に保存されている情報を示した もので、図示のように、状態番号に対応してモデル 500を作成する際に用いた教師 信号の平均と分散が保存されている。このとき、前述のステップ 604では、教師信号 の分散値に基づいてモデル入力変化幅 を決定する。 [0091] 従って、分散が小さい場合には、ばらつきが少なく入力信号の変化に対する感度 が低いという理由から、入力変化幅 を大きくする。反対に、分散が大きい場合に は、ばらつきが大きく入力信号の変化に対する感度が高いという理由から、入力変化 幅 を小さくする。 Here, first, FIG. 15 shows information stored in the learning information database 280. As shown in the figure, the teacher signal used when creating the model 500 corresponding to the state number is shown. The mean and variance of the are preserved. At this time, in step 604 described above, the model input change width is determined based on the variance value of the teacher signal. Accordingly, when the variance is small, the input change width is increased because the variation is small and the sensitivity to changes in the input signal is low. On the other hand, if the variance is large, the input change width is reduced because the variance is large and the sensitivity to changes in the input signal is high.
[0092] 次に、図 16は、学習パラメータデータベース 260に保存されている情報の態様を示 したもので、これには、図 13のように、図 12のフローチャートにおけるステップ 606と ステップ 607を実行するのに必要な学習率などのパラメータが保存される。この強化 学習では、評価値の期待値が最大となるように、モデル入力 12の生成方法を学習す るので、モデル出力 13がモデル出力目標値を達成した場合に、評価値の値が大きく なることが望ましい。  Next, FIG. 16 shows an aspect of information stored in the learning parameter database 260, which includes steps 606 and 607 in the flowchart of FIG. 12, as shown in FIG. Parameters such as the learning rate necessary to do this are stored. In this reinforcement learning, the generation method of the model input 12 is learned so that the expected value of the evaluation value is maximized. Therefore, when the model output 13 reaches the model output target value, the evaluation value increases. It is desirable.
[0093] そこで、このような評価値の生成方法として、モデル出力 13が、モデル出力目標値 を達成した場合には正の値、例えば「1」を評価値とする方法がある。また、モデル出 力目標値を達成していない場合、モデル担力目標値とモデル出力 13の誤差に反比 例するような関数を用いて、評価値を計算する方法がある。さらに、これらの方法を組 み合わせて評価値を計算する方法も考えられる。  Therefore, as a method for generating such an evaluation value, there is a method in which when the model output 13 achieves the model output target value, a positive value, for example, “1” is used as the evaluation value. If the model output target value is not achieved, there is a method to calculate the evaluation value using a function that is inversely proportional to the error between the model force target value and the model output 13. Furthermore, a method of calculating an evaluation value by combining these methods can be considered.
[0094] 次に、制御対象 100の運転員が保守ツール 910を用い、画像表示装置 950にデ ータベースの情報を表示させる方法について、図 17〜図 21により説明する。この場 合、運転員は、キーボード 901とマウス 902を用い、表示された画面の空欄となって いる箇所にパラメータ値を入力するなどの操作を実行することになる。  Next, a method in which the operator of the control target 100 displays the database information on the image display device 950 using the maintenance tool 910 will be described with reference to FIGS. In this case, the operator uses the keyboard 901 and the mouse 902 to execute an operation such as inputting a parameter value in a blank area of the displayed screen.
[0095] ここで、図 17は、画像表示装置 950に表示される初期画面で、ここで運転員は、制 御ロジック作成.編集ボタン 951、学習条件設定ボタン 952、情報表示ボタン 953の 中力も必要なボタンを選択し、マウス 902を用いてカーソル 954を移動させ、マウス 9 02をクリックすることにより、何れかのボタンを押すようになって 、る。  Here, FIG. 17 shows an initial screen displayed on the image display device 950. Here, the operator creates control logic. The edit button 951, the learning condition setting button 952, and the information display button 953 are also displayed. By selecting the required button, moving the cursor 954 using the mouse 902, and clicking the mouse 902, one of the buttons is pressed.
[0096] そして、まず、図 18は、制御ロジック作成 ·編集ボタン 951がクリックされたときに表 示される制御ロジック編集画面で、この画面において、運転員は、新規作成ボタン 96 7と編集ボタン 968の何れかを押す。ここで新規作成であれば、何も記述されていな いロジック図が開き、編集の場合には、編集したいロジックを選択し、ロジック図が表 示される。この作成或いは編集時は、予め登録してある標準要素モジュール 963から 必要なモジュールを選び、それをロジック編集画面 961に移動させる。モジュール間 は、結線 Z消去 962を用いて接続する。 [0096] First, FIG. 18 shows a control logic edit screen that is displayed when the control logic create / edit button 951 is clicked. In this screen, the operator clicks the new create button 96 7 and the edit button 968. Press one of the following. If it is newly created, a logic diagram with nothing is opened. If editing, the logic to be edited is selected and the logic diagram is displayed. When creating or editing, from the standard element module 963 registered in advance Select the required module and move it to the logic edit screen 961. Connect the modules using connection Z erase 962.
[0097] 図 18の表示画面上で作成された制御ロジック図面は、保存ボタン 964をクリックす ることにより、データ送受信処理部 930を介して制御ロジックデータベース 250に保 存される。また、操作信号生成部 300では、この制御ロジック図面の情報を用いて、 計測信号 2が入力されたときの操作信号 15を生成する。更に、この操作信号生成部 300では、学習情報データベース 280に保存されている情報を併用して、操作信号 15を生成することができる。  The control logic drawing created on the display screen of FIG. 18 is saved in the control logic database 250 via the data transmission / reception processing unit 930 when the save button 964 is clicked. In addition, the operation signal generation unit 300 generates the operation signal 15 when the measurement signal 2 is input, using the information in the control logic drawing. Furthermore, the operation signal generation unit 300 can generate the operation signal 15 by using information stored in the learning information database 280 together.
[0098] このとき、学習情報データベース 280には、図 12に示した情報の状態番号と中心 の情報が保存されている。従って、これらの情報を用いることにより、モデル出力 13 が望ま 、値となるようなモデル入力 12と同じ値を持つ操作信号 15が容易に生成で きる。このとき作成した制御ロジック図面を保存しない場合には、キャンセルボタン 96 5をクリックする。一方、戻るボタン 966をクリックすることにより、図 17の画面に戻すこ とがでさる。  At this time, the learning information database 280 stores the state number and the central information of the information shown in FIG. Therefore, by using these pieces of information, it is possible to easily generate the operation signal 15 having the same value as the model input 12 where the model output 13 is desired and becomes a value. If the control logic drawing created at this time is not to be saved, a cancel button 965 is clicked. On the other hand, by clicking the back button 966, it is possible to return to the screen of FIG.
[0099] 図 17の画面において、学習条件設定ボタン 952をクリックすることにより、図 19の画 面が表示される。そこで、運転員は、図 8のフローチャートを実行させるために必要な 学習係数、学習回数及び終了条件を、図 19の画面の中のモデル作成欄 971に、モ デル固有の PIDに基づいて入力し、或いは既に入力されている場合は、その値を修 正することができる。このとき、 IDが 000であるデフォルト値を運転員が変更すること ができる。  When the learning condition setting button 952 is clicked on the screen shown in FIG. 17, the screen shown in FIG. 19 is displayed. Therefore, the operator inputs the learning coefficient, the number of learnings, and the end condition necessary for executing the flowchart of FIG. 8 in the model creation field 971 in the screen of FIG. 19 based on the model-specific PID. Or if it has already been entered, its value can be corrected. At this time, the operator can change the default value of ID 000.
[0100] 次に、パラメータ設定欄 972には、図 11及び図 12のフローチャートを実行するのに 必要な設定パラメータを入力する。また、操作端設定欄 973には、図 11のフローチヤ ートによって操作方法を学習するための操作端名称、動作範囲、及びタイルコーディ ングのための分割数を入力する。ここで、図 19の次頁ボタン 977をクリックすることに より、学習条件設定画面の後半画面に移る。なお、前頁ボタン 978及び学習条件設 定画面の後半画面については後述にて説明する。  Next, in the parameter setting field 972, setting parameters necessary for executing the flowcharts of FIGS. 11 and 12 are input. Also, in the operation edge setting column 973, the operation edge name for learning the operation method, the operation range, and the number of divisions for tile coding are input by the flow chart of FIG. Here, by clicking the next page button 977 in FIG. 19, the screen moves to the second half of the learning condition setting screen. The previous page button 978 and the second half screen of the learning condition setting screen will be described later.
[0101] そして、図 19の保存ボタン 974をクリックすることにより、モデル作成欄 971に入力 された情報はモデルパラメータデータベース 270に、ノ ラメータ設定欄 972に入力さ れた情報は学習パラメータデータベース 260に、それに操作端設定欄 973に入力さ れた情報は学習情報データベース 280に、それぞれ保存される。 [0101] Then, by clicking the save button 974 in FIG. 19, the information entered in the model creation field 971 is entered in the model parameter database 270 and in the parameter setting field 972. The information input in the learning parameter database 260 and the information input in the operation end setting field 973 are stored in the learning information database 280, respectively.
[0102] ここで、キャンセルボタン 975をクリックしたとすると、モデル作成欄 971とパラメータ 設定欄 972、それに操作端設定欄 973に入力された情報が何れもキャンセルされる 。そして、戻るボタン 976をクリックすることにより、図 17の画面に戻る。  Here, if the cancel button 975 is clicked, the information input in the model creation field 971, the parameter setting field 972, and the operation end setting field 973 is canceled. Then, when the return button 976 is clicked, the screen shown in FIG. 17 is restored.
[0103] 次に、図 20により、学習条件設定画面の前半画面について説明する。この前半画 面は図 19の次頁ボタン 977をクリックすることにより表示される。そこで、運転員は、 学習情報欄 979に、モデル 500の出力信号の平均、分散及び分布形状を入力し、 或いはおのおのが入力されていた場合は、それらを修正することができる。そして、こ の情報に基づいて、図 12のフローチャートにおけるステップ 604のモデル入力変化 幅が決定されることになる。  Next, the first half screen of the learning condition setting screen will be described with reference to FIG. This first half screen is displayed by clicking the next page button 977 in FIG. Therefore, the operator can input the average, variance, and distribution shape of the output signal of the model 500 in the learning information column 979, or can correct them if they are input. Based on this information, the model input change width at step 604 in the flowchart of FIG. 12 is determined.
[0104] 次に、図 21は、計測信号データベース 230と操作信号データベース 240に保存さ れている情報を画像表示装置 950に表示させるため、その条件を設定するとき使用 する画面で、図 17において、情報表示ボタン 953をクリックすることにより表示される 。そこで、運転員は、画像表示装置 950に表示させたい計測信号、或いは操作信号 を入力欄 981に、そのレンジ (上限 Z下限)と共に入力する。このとき表示させたい時 間については時刻入力欄 982に入力する。  Next, FIG. 21 shows a screen used to set the conditions for displaying the information stored in the measurement signal database 230 and the operation signal database 240 on the image display device 950. In FIG. It is displayed by clicking the information display button 953. Therefore, the operator inputs a measurement signal or an operation signal to be displayed on the image display device 950 in the input field 981 together with the range (upper limit Z lower limit). Enter the time you want to display at this time in the time input field 982.
[0105] また、表示ボタン 983をクリックすることにより、図 22に示すようなトレンドグラフが画 像表示装置 950に表示される。ここで戻るボタン 991をクリックすることにより、図 21の 画面に戻すことができる。一方、戻るボタン 984をクリックすることにより、図 17の画面 に戻すことができる。なお、以上に説明した画像以外にも、制御装置 200内のデータ ベースに保存されている情報を任意に選択し、任意の態様で画像表示装置 950に 表示することちでさる。  Also, by clicking the display button 983, a trend graph as shown in FIG. 22 is displayed on the image display device 950. Clicking the return button 991 here will return you to the screen in Figure 21. On the other hand, by clicking the back button 984, it is possible to return to the screen of FIG. In addition to the image described above, information stored in the database in the control device 200 can be arbitrarily selected and displayed on the image display device 950 in any manner.
[0106] 次に、この実施形態では、図 1の制御対象 100が、図 2で説明した火力発電プラン トの場合で、これに制御装置 200が適用され、火力発電プラントの空気ダンバを操作 することにより、 COや NOx、二酸化炭素、硫黄酸化物、水銀、フッ素、煤塵またはミ ストからなる微粒子類、揮発性有機化合物などの少なくとも 1つの環境規制値の排出 状況が制御できるようになつている。 [0107] ここで、まず、図 23は、火力発電設備において排出される COと NOxの基本特性に ついて説明すると、一般に COの量と NOxの量は、図示のように、トレードオフの関係 にあり、 COを低減しょうとすると NOxが増加し、 NOxを低減しょうとすると COが増加 する傾向にある。 Next, in this embodiment, the control target 100 in FIG. 1 is the thermal power plant described in FIG. 2, and the control device 200 is applied to this to operate the air damper of the thermal power plant. This makes it possible to control the emission status of at least one environmental regulation value such as CO, NOx, carbon dioxide, sulfur oxides, mercury, fluorine, particulates consisting of dust or mist, and volatile organic compounds. . [0107] Here, first, Fig. 23 explains the basic characteristics of CO and NOx emitted from a thermal power plant. Generally, the amount of CO and the amount of NOx are in a trade-off relationship as shown in the figure. Yes, NOx increases when trying to reduce CO, and CO tends to increase when trying to reduce NOx.
[0108] 一方、火力発電プラントにお 、て、煙突力も排出される COの量と NOxの量には法 的規制がかけられており、特に NOxについては厳しぐこのためボイラ出口のガスを 脱硝装置に導き、ここでの処理を通して規制を守っている力 このとき脱硝装置に用 V、られるアンモニアの消費量は、脱硝装置入口の NOx濃度が高 、ほど多くなる。  [0108] On the other hand, in the thermal power plant, the amount of CO and NOx emitted from the chimney force is also legally restricted. In particular, NOx is strictly controlled, so the gas at the boiler outlet is denitrated. The power that leads to the equipment and keeps the regulations through the treatment here At this time, the amount of ammonia consumed for the denitration equipment increases as the NOx concentration at the inlet of the denitration equipment increases.
[0109] そこで、脱硝装置入口での NOx量を低減することは大きなコストメリットとなり、従つ て、 NOx濃度には可能な限りの低減が望ましぐこのため CO及び NOxのトレードォ フ関係を考慮した制御アルゴリズムが必要となる。し力も、火力発電プラントは、設計 時と試運転時及び運用時など状況が異なると、蓄積されている計測信号のデータも 異なってしまう。従って、長期間の運用でも運転条件が異なれば、蓄積されているデ ータ数が多 、からと!/、つて、必ずしも好まし 、とは限らな!/、。  [0109] Therefore, reducing the amount of NOx at the inlet of the denitration system is a great cost advantage. Therefore, it is desirable to reduce the NOx concentration as much as possible. Therefore, consider the tradeoff relationship between CO and NOx. Control algorithm is required. However, in the case of thermal power plants, the stored measurement signal data will differ if the situation differs during design, trial operation, and operation. Therefore, if the operating conditions are different even during long-term operation, the number of accumulated data is large, so it is not necessarily preferable! /.
[0110] しカゝしながら、上記実施形態の場合、制御対象となる火力発電プラントを模擬する モデルは、蓄積されたデータに応じた分布の形状を図 8のフローチャートに従ってモ デルィ匕することができ、従って、その分布の形状から、過去の状態を把握することが できる。つまり、分散が大きければ、ばらつきの多い状態を意味し、プラントの状態が 非常に不安定になっていることが分り、分散が小さければばらつきが少ないため、プ ラントの状態が非常に安定していることが分るので、蓄積データの信頼度を考慮した 制御アルゴリズムを図 12のフローチャートから構築することが可能となる。  [0110] However, in the case of the above embodiment, the model that simulates the thermal power plant to be controlled can model the shape of the distribution according to the accumulated data according to the flowchart of FIG. Therefore, the past state can be grasped from the shape of the distribution. In other words, if the variance is large, it means a state with a lot of variation, and it can be seen that the state of the plant is very unstable.If the variance is small, the variation is small, so the plant state is very stable. Therefore, a control algorithm that takes into account the reliability of stored data can be constructed from the flowchart in Fig. 12.
[0111] この結果、上記実施形態によれば、蓄積データが少ない場合にも、データ数が少 な 、ことを考慮した制御アルゴリズムを構築することができるため、データの変動に対 しロノストな制御が可能となり、従って、 CO及び NOxのトレードオフ関係を考慮した 上で、これらについての法的規制を常に満足させることができる。  [0111] As a result, according to the above embodiment, a control algorithm that takes into account the fact that the number of data is small even when the amount of accumulated data is small can be constructed. Therefore, it is always possible to satisfy the legal regulations regarding the trade-off relationship between CO and NOx.
[0112] なお、法的規制がかけられている排出物については、上記した COと NOxの外にも 二酸化炭素、硫黄酸化物、水銀、フッ素、煤塵またはミストからなる微粒子類、揮発 性有機化合物などがあるのは、既に説明した通りであるが、上記実施形態によれば、 これら少なくとも 1つの環境規制値についての制御も可能である。 [0112] Regarding emissions subject to legal restrictions, in addition to the above-mentioned CO and NOx, fine particles such as carbon dioxide, sulfur oxide, mercury, fluorine, dust or mist, volatile organic compounds As described above, according to the above embodiment, Control over at least one of these environmental limits is also possible.

Claims

請求の範囲 The scope of the claims
[1] 制御対象に所定の操作信号を与えたとき、前記制御対象から得られる計測信号の 値が、当該制御対象の運転目標値に収まって行くようにするのに必要な操作信号を 生成し、この操作信号を前記所定の操作信号とするようにしたプラントの制御装置で あって、制御対象に所定の操作信号を与えたとき、当該制御対象から得られる計測 信号の値を予測するモデルと、このモデルの予測結果であるモデル出力が、モデル 出力目標値に収斂するように、前記モデルに与えるモデル入力の生成方法を学習 する学習手段と、この学習手段の結果に従って前記制御対象に与える操作信号を 生成する操作信号生成手段を有し、この操作信号生成手段により生成される操作信 号を前記所定の操作信号とするようにしたプラントの制御装置において、前記制御対 象の計測信号を取り込む外部入力インターフェイスと、前記インターフェースにより取 り込んだ計測信号の値を保存する計測信号データベースを備え、前記計測信号デ ータベースに保存された計測信号の平均と分散を計算し、この平均と分散の結果を 用いて前記操作信号を修正し、前記所定の操作信号を新たに生成することを特徴と したプラントの制御装置。  [1] When a predetermined operation signal is given to the control object, an operation signal necessary to make the measurement signal value obtained from the control object fall within the operation target value of the control object is generated. A control apparatus for a plant in which this operation signal is used as the predetermined operation signal, and a model for predicting a value of a measurement signal obtained from the control object when the predetermined operation signal is given to the control object; Learning means for learning a method of generating a model input to be given to the model so that the model output which is a prediction result of the model converges to a model output target value; In a plant control apparatus, comprising an operation signal generating means for generating a signal, wherein the operation signal generated by the operation signal generating means is the predetermined operation signal. An external input interface that captures the target measurement signal and a measurement signal database that stores the value of the measurement signal captured by the interface, and calculates the mean and variance of the measurement signal stored in the measurement signal database Then, using the average and variance results, the operation signal is corrected, and the predetermined operation signal is newly generated.
[2] 制御対象に所定の操作信号を与えたとき、前記制御対象から得られる計測信号の 値が、当該制御対象の運転目標値に収まって行くようにするのに必要な操作信号を 生成し、この操作信号を前記所定の操作信号とするようにしたプラントの制御装置で あって、制御対象に所定の操作信号を与えたとき、当該制御対象から得られる計測 信号の値を予測するモデルと、このモデルの予測結果であるモデル出力が、モデル 出力目標値に収斂するように、前記モデルに与えるモデル入力の生成方法を学習 する学習手段と、この学習手段の結果に従って前記制御対象に与える操作信号を 生成する操作信号生成手段を有し、この操作信号生成手段により生成される操作信 号を前記所定の操作信号とするようにしたプラントの制御装置において、前記制御対 象の計測信号を取り込む外部入力インターフェイスと、前記インターフェースにより取 り込んだ計測信号の値を保存する計測信号データベースを備え、前記計測信号デ ータベースに保存された計測信号の平均と分散を計算し、前記操作信号を修正して 新たな操作信号を生成する際、前記操作信号の変化幅を、前記計測信号の分散に 基づいて決定することを特徴としたプラントの制御装置。 [2] When a predetermined operation signal is given to the controlled object, an operation signal necessary to make the value of the measurement signal obtained from the controlled object fall within the operation target value of the controlled object is generated. A control apparatus for a plant in which this operation signal is used as the predetermined operation signal, and a model for predicting a value of a measurement signal obtained from the control object when the predetermined operation signal is given to the control object; Learning means for learning a method of generating a model input to be given to the model so that the model output which is a prediction result of the model converges to a model output target value, and an operation to be given to the control target according to the result of the learning means In a plant control apparatus, comprising an operation signal generating means for generating a signal, wherein the operation signal generated by the operation signal generating means is the predetermined operation signal. An external input interface that captures the target measurement signal and a measurement signal database that stores the value of the measurement signal captured by the interface, and calculates the mean and variance of the measurement signal stored in the measurement signal database When the operation signal is modified to generate a new operation signal, the change width of the operation signal is set to the dispersion of the measurement signal. A control apparatus for a plant characterized in that it is determined based on the above.
[3] 請求項 1に記載されたプラントの制御装置において、計測信号の平均と分散から期 待値を計算した結果を用いて操作信号を生成する機能を備えることを特徴としたブラ ントの制御装置。  [3] The plant control device according to claim 1, comprising a function of generating an operation signal using a result of calculating an expected value from an average and variance of measurement signals. apparatus.
[4] 請求項 1に記載されたプラントの制御装置において、外部入力機能として、制御装 置に計測信号の分布形状を入力するためのユーザーインターフェイスを備えることを 特徴としたプラントの制御装置。  [4] The plant control device according to claim 1, further comprising a user interface for inputting a distribution shape of the measurement signal to the control device as an external input function.
[5] 請求項 1に記載されたプラントの制御装置において、外部入力機能として、制御装 置に計測信号の平均値、期待値、分散、分布形状のうち少なくとも一つを入力するた めのユーザーインターフェイスを備えることを特徴としたプラントの制御装置。  [5] In the plant control apparatus according to claim 1, a user for inputting at least one of an average value, an expected value, a variance, and a distribution shape of the measurement signal to the control apparatus as an external input function. A plant control device comprising an interface.
[6] 請求項 1に記載されたプラントの制御装置にお 、て、前記制御対象が火力発電プ ラントであり、前記火力発電プラントの計測信号のうち、一酸化炭素、窒素酸化物の 少なくとも 1つを制御装置内に取り込む機能と、外部入力機能として、一酸化炭素、 窒素酸化物の少なくとも 1つの環境規制値を計測信号の制限値として設定する機能 と、学習結果に従って、少なくとも空気ダンバ開度の操作信号を生成する機能を備え ることを特徴としたプラントの制御装置。  [6] In the plant control apparatus according to claim 1, the control target is a thermal power plant, and at least one of carbon monoxide and nitrogen oxides among measurement signals of the thermal power plant. A function to capture one of them into the control device, a function to set at least one environmental regulation value of carbon monoxide and nitrogen oxide as a limit value of the measurement signal as an external input function, and at least an air damper opening according to the learning result A plant control device characterized by having a function of generating an operation signal.
[7] 請求項 1に記載されたプラントの制御装置にお 、て、前記制御対象が火力発電プ ラントであり、前記火力発電プラントの計測信号のうち、一酸化炭素、窒素酸化物の 少なくとも 1つを制御装置内に取り込む機能と、外部入力機能として、一酸化炭素、 窒素酸化物、二酸化炭素、硫黄酸化物、水銀、フッ素、煤塵またはミストからなる微 粒子類、揮発性有機化合物の少なくとも 1つの環境規制値を前記計測信号の制限 値として設定する機能と、学習結果に従って、空気ダンバ開度、バーナヘ供給する 燃料流量、パーナ空気流量、エアポートへ供給する空気流量、ガス再循環量、バー ナ角度、供給空気温度のうち少なくとも一つの操作信号を生成する機能を備えること を特徴としたプラントの制御装置。  [7] In the plant control apparatus according to claim 1, the control target is a thermal power plant, and at least one of carbon monoxide and nitrogen oxides among the measurement signals of the thermal power plant. At least one of fine particles and volatile organic compounds consisting of carbon monoxide, nitrogen oxides, carbon dioxide, sulfur oxides, mercury, fluorine, dust, or mist. According to the learning result, the air damper opening, the fuel flow to be supplied to the burner, the fuel flow to the burner, the air flow to be supplied to the air port, the gas recirculation amount, the burner A plant control apparatus comprising a function of generating at least one operation signal of an angle and a supply air temperature.
PCT/JP2007/050684 2006-03-30 2007-01-18 Plant control device WO2007116592A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2006094762A JP4741968B2 (en) 2006-03-30 2006-03-30 Plant control equipment
JP2006-094762 2006-03-30

Publications (1)

Publication Number Publication Date
WO2007116592A1 true WO2007116592A1 (en) 2007-10-18

Family

ID=38580894

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2007/050684 WO2007116592A1 (en) 2006-03-30 2007-01-18 Plant control device

Country Status (2)

Country Link
JP (1) JP4741968B2 (en)
WO (1) WO2007116592A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI830193B (en) * 2021-06-22 2024-01-21 日商歐姆龍股份有限公司 Forecasting systems, information processing devices and information processing programs

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4427074B2 (en) 2007-06-07 2010-03-03 株式会社日立製作所 Plant control equipment
US8135653B2 (en) 2007-11-20 2012-03-13 Hitachi, Ltd. Power plant control device which uses a model, a learning signal, a correction signal, and a manipulation signal
US9122260B2 (en) 2008-03-03 2015-09-01 Alstom Technology Ltd Integrated controls design optimization
JP4627553B2 (en) 2008-03-28 2011-02-09 株式会社日立製作所 Plant control device and thermal power plant control device
JP5384132B2 (en) * 2009-02-12 2014-01-08 中国電力株式会社 Heat pump hot water simulation program
US9740214B2 (en) 2012-07-23 2017-08-22 General Electric Technology Gmbh Nonlinear model predictive control for chemical looping process
US9734479B2 (en) * 2014-02-20 2017-08-15 General Electric Company Method and system for optimization of combined cycle power plant
JP6985217B2 (en) 2018-07-09 2021-12-22 株式会社シマノ Control data creation device, component control device, control data creation method, component control method, and computer program
JP7366033B2 (en) * 2018-09-06 2023-10-20 住友重機械工業株式会社 Support device, support method, support program, and boiler system

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06266410A (en) * 1993-03-11 1994-09-22 Toshiba Corp Visual feedback controller
JPH08309140A (en) * 1995-05-18 1996-11-26 Toshiba Corp Controller for gas adsorption process
JP2003287214A (en) * 2002-03-29 2003-10-10 Mitsubishi Heavy Ind Ltd Burning control device for thermal decomposition gasification fusion furnace and burning control method

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH056349A (en) * 1991-06-21 1993-01-14 Fujitsu Ltd Learning device
JP2002133390A (en) * 2000-10-18 2002-05-10 Matsushita Electric Ind Co Ltd Learning device and recording medium

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06266410A (en) * 1993-03-11 1994-09-22 Toshiba Corp Visual feedback controller
JPH08309140A (en) * 1995-05-18 1996-11-26 Toshiba Corp Controller for gas adsorption process
JP2003287214A (en) * 2002-03-29 2003-10-10 Mitsubishi Heavy Ind Ltd Burning control device for thermal decomposition gasification fusion furnace and burning control method

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI830193B (en) * 2021-06-22 2024-01-21 日商歐姆龍股份有限公司 Forecasting systems, information processing devices and information processing programs

Also Published As

Publication number Publication date
JP4741968B2 (en) 2011-08-10
JP2007272361A (en) 2007-10-18

Similar Documents

Publication Publication Date Title
JP4741968B2 (en) Plant control equipment
JP4573783B2 (en) Plant control apparatus and control method, thermal power plant and control method therefor
JP4627553B2 (en) Plant control device and thermal power plant control device
US11232376B2 (en) System and method for optimizing combustion of boiler
Gu et al. Online adaptive least squares support vector machine and its application in utility boiler combustion optimization systems
CN108549792B (en) Soft measurement method for dioxin emission concentration in solid waste incineration process based on latent structure mapping algorithm
JP2010537192A (en) System and method for virtual sensing based on empirical ensemble of gas emissions
JP4974330B2 (en) Control device
JP4427074B2 (en) Plant control equipment
Liukkonen et al. Dynamic soft sensors for NOx emissions in a circulating fluidized bed boiler
JP2012194960A (en) Matrix generation program, method, and device, and plant control program, method, and device
JP5503563B2 (en) Plant control device and thermal power plant control device
JP5918663B2 (en) Thermal power plant control device and control method
JP4989421B2 (en) Plant control device and thermal power plant control device
JP5410480B2 (en) Plant control equipment
JP5277064B2 (en) Plant control device, thermal power plant control device, and thermal power plant
JP2009282750A (en) Apparatus for processing plant data, and method for processing plant data
JP5117232B2 (en) Control device for plant with boiler and control method for plant with boiler
JP2008224120A (en) Control device of boiler plant and device for training operator
JP2010146068A (en) Control device for plant, and control device of thermal power generation plant
CN110684547A (en) Optimized control method for biomass pyrolysis carbonization kiln
CN116085823A (en) Boiler combustion control method and system
JP2011210215A (en) Control device for plant and control device for thermal power plant
JP5203763B2 (en) Coal-fired boiler type identification device and coal-fired boiler type identification method
JP7222943B2 (en) Operation improvement support system, operation improvement support method, and operation improvement support program

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 07706988

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 07706988

Country of ref document: EP

Kind code of ref document: A1