WO2024101351A1 - 装置、方法およびプログラム - Google Patents

装置、方法およびプログラム Download PDF

Info

Publication number
WO2024101351A1
WO2024101351A1 PCT/JP2023/040041 JP2023040041W WO2024101351A1 WO 2024101351 A1 WO2024101351 A1 WO 2024101351A1 JP 2023040041 W JP2023040041 W JP 2023040041W WO 2024101351 A1 WO2024101351 A1 WO 2024101351A1
Authority
WO
WIPO (PCT)
Prior art keywords
control
deviation
sub
recommended
model
Prior art date
Application number
PCT/JP2023/040041
Other languages
English (en)
French (fr)
Inventor
琢 劉
英二 石井
豪 ▲高▼見
Original Assignee
横河電機株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 横河電機株式会社 filed Critical 横河電機株式会社
Publication of WO2024101351A1 publication Critical patent/WO2024101351A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric

Definitions

  • the present invention relates to an apparatus, a method and a program.
  • Patent Documents 1 to 4 state, for example, that "an operation amount map is selected based on the target value SV, and the operation amount MV is calculated using the selected operation amount map" (paragraph 0031 of Patent Document 1).
  • Patent Documents [Patent Documents] [Patent Document 1] JP 2022-156797 A [Patent Document 2] JP 2020-95352 A [Patent Document 3] JP 2021-117699 A [Patent Document 4] JP 2022-014099 A
  • an apparatus including a first acquisition unit that acquires a deviation between a measured value of a state related to a control object and a target value, a second acquisition unit that acquires a control parameter supplied to the control object, a supply unit that supplies the deviation acquired by the first acquisition unit and the control parameter acquired by the second acquisition unit to a control model having a plurality of sub-control models respectively associated with a plurality of aspects previously set for the state, the control model outputting a recommended control parameter recommended to be supplied to the control object in response to input of the deviation and the control parameter using a sub-control model among the plurality of sub-control models that is associated with an aspect according to the measured value, and an output unit that outputs the recommended control parameter output from the control model in response to the supply to the control model from the supply unit.
  • the above device may further include an identification unit that identifies a phase from the plurality of phases that corresponds to the measurement value, and a selection unit that selects a sub-control model from the plurality of sub-control models that corresponds to the phase identified by the identification unit.
  • the supply unit may supply the deviation acquired by the first acquisition unit and the control parameter acquired by the second acquisition unit to a sub-control model selected by the selection unit from among the multiple sub-control models.
  • the identification unit may identify the situation depending on which of a number of preset numerical ranges the deviation falls within.
  • At least two of the plurality of sub-control models may output recommended control parameters that are recommended to reduce the deviation between the measured value and a common target value, and in response to input of control parameters.
  • the identification unit may identify the situation depending on which of a number of preset numerical ranges the measurement value falls within.
  • At least two of the plurality of sub-control models may be associated with different inherent target values, and may output recommended control parameters recommended for reducing the deviation between a measured value and the inherent target value, and in response to input of control parameters.
  • the device may further include a setting unit that sets one of the inherent target values of the at least two sub-control models as the target value in response to the situation identified by the identification unit.
  • each sub-control model may have a change amount output model that outputs a recommended change amount that recommends a change to the control parameter in response to input of a deviation and a control parameter, and an adder that calculates the recommended control parameter by adding the control parameter supplied to the control target and the recommended change amount output from the change amount output model.
  • the multiple sub-control models may share the adder.
  • the change amount output models in at least two of the multiple sub-control models may output the recommended change amounts in different ranges.
  • Any of the above devices having an identification unit and a selection unit may further include a learning processing unit that performs learning processing for each change amount output model using learning data including the deviation acquired by the first acquisition unit and the control parameter acquired by the second acquisition unit, and outputs the recommended change amount recommended to increase a reward value determined by a preset reward function in response to input of the deviation and the control parameter.
  • a learning processing unit that performs learning processing for each change amount output model using learning data including the deviation acquired by the first acquisition unit and the control parameter acquired by the second acquisition unit, and outputs the recommended change amount recommended to increase a reward value determined by a preset reward function in response to input of the deviation and the control parameter.
  • the learning processing unit may perform learning processing for each change amount output model using separate learning data.
  • a method comprising: a first acquisition step of acquiring a deviation between a measured value of a state of a control object and a target value; a second acquisition step of acquiring a control parameter supplied to the control object; a first supply step of supplying the deviation acquired in the first acquisition step and the control parameter acquired in the second acquisition step to a control model having a plurality of sub-control models respectively associated with a plurality of aspects preset for the state, the control model outputting a recommended control parameter recommended to be supplied to the control object in response to input of the deviation and the control parameter using a sub-control model among the plurality of sub-control models that is associated with an aspect according to the measured value; and an output step of outputting the recommended control parameter output from the control model in response to supplying the control model to the control model in the first supply step.
  • a program causes a computer to function as a first acquisition unit that acquires the deviation between a measured value of a state related to a control object and a target value, a second acquisition unit that acquires a control parameter supplied to the control object, a supply unit that supplies the deviation acquired by the first acquisition unit and the control parameter acquired by the second acquisition unit to a control model having a plurality of sub-control models respectively associated with a plurality of aspects previously set for the state, the control model outputting a recommended control parameter recommended to be supplied to the control object in response to input of the deviation and the control parameter using a sub-control model among the plurality of sub-control models that is associated with an aspect according to the measured value, and an output unit that outputs the recommended control parameter output from the control model in response to the supply to the control model from the supply unit.
  • 1 shows a system 1 according to a first embodiment.
  • the change amount output model 2061 is shown.
  • the change amount output model 2061 is shown.
  • 2 shows another example of the change amount output model 2061.
  • 2 shows another example of the change amount output model 2061.
  • 2 illustrates the operation of the device 200.
  • 1 shows the transition of the measurement value PV and the control parameter P when the controlled object 101 is controlled.
  • 1 shows a system 1A according to a modified example.
  • the correspondence between the phase ID, the numerical range of the measurement value PV, the sub-model ID, and the specific target value is shown.
  • the operation of the device 200A is shown. 4 shows the transition of the measured value PV when the controlled object 101 is controlled.
  • 22 illustrates an example computer 2200 in which aspects of the present invention may be embodied, in whole or in part.
  • System 1> 1 shows a system 1 according to the first embodiment.
  • the system 1 includes a facility 100 and an apparatus 200.
  • the equipment 100 is a facility or device in which a control target 101 is installed.
  • the equipment 100 may be a plant or a composite device in which multiple devices are combined.
  • industrial plants such as chemical and biotechnology plants, plants that manage and control wellheads and surrounding areas of gas and oil fields, plants that manage and control hydroelectric, thermal and nuclear power plants, and environmental power plants such as solar and wind power plants. Examples of such plants include those that manage and control water supply, sewage, and dams.
  • the facility 100 is provided with one or more control objects 101.
  • the control object 101 may be a tool, machine, or device to be controlled, and may be a so-called field device.
  • the control object 101 may be a sensor device such as a pressure gauge, flow meter, or temperature sensor, a valve device such as a flow control valve or an on-off valve, or an actuator device such as a fan or a motor.
  • the control object 101 is controlled from the outside by wired or wireless communication, or may be controlled manually.
  • the control object 101 may be controlled by the control unit 210 in the device 200.
  • the control object 101 may be controlled by receiving an instruction value IV (Instructed Value) for a manipulated variable MV (Manipulated Variable) from the control unit 210.
  • IV Instructed Value
  • MV Manipulated Variable
  • the facility 100 may be provided with one or more sensors 102.
  • Each sensor 102 may measure a measurement value of the inside and outside state of the facility 100, that is, a measurement value of a physical quantity indicating the inside and outside state.
  • At least one sensor 102 may measure a measurement value PV (Process Variable) of the state of the control object 101.
  • the measurement value PV may be operation data indicating the operating state as a result of controlling the control object 101, and may indicate the control amount to be controlled.
  • the measurement value PV may indicate the output of the control object 101 itself, or may indicate various values that change depending on the output of the control object 101.
  • the measurement value PV may indicate pressure, temperature, pH, speed, flow rate, etc.
  • Each sensor 102 may supply the measured measurement value PV to the device 200.
  • the device 200 controls the controlled object 101, and may be, for example, a controller for the controlled object 101.
  • the device 200 outputs an instruction value IV for a manipulated variable MV of the controlled object 101 to adjust the temperature, Process controls such as adjusting the surface level or adjusting the flow rate may be performed.
  • the device 200 may be a computer such as a PC (personal computer), tablet computer, smartphone, workstation, server computer, or general-purpose computer, or may be a computer system in which multiple computers are connected. Such a computer system is also a computer in the broad sense.
  • the device 200 may also be implemented by a virtual computer environment in which one or more programs can be executed within a computer.
  • the device 200 may be a dedicated computer designed for AI control, or may be dedicated hardware realized by a dedicated circuit.
  • the device 200 may be realized by cloud computing.
  • the device 200 may have a measurement value acquisition unit 201, a target value acquisition unit 202, a deviation acquisition unit 203, a control parameter acquisition unit 204, a control model 205, an identification unit 207, a selection unit 208, a supply unit 209, a control unit 210, and a learning processing unit 211.
  • these blocks are functionally separated functional blocks, and may not necessarily match the actual device configuration. In other words, even if shown as one block in this diagram, it is not limited to being configured by one device. Also, even if shown as separate blocks in this diagram, it is not limited to being configured by separate devices.
  • Measurement value acquisition unit 201 acquires a measurement value PV of a state related to the control target 101.
  • the measurement value acquiring unit 201 acquires a measurement value PV for one physical quantity from one sensor 102, but the measurement value acquiring unit 201 may acquire measurement values PV for each of a plurality of physical quantities from a plurality of sensors 102.
  • the measurement value acquiring unit 201 may supply the acquired measurement value PV to the deviation acquiring unit 203.
  • Target value acquisition unit 202 acquires a target value SP (Set Point) of a state related to the control target 101.
  • the target value acquisition unit 202 may acquire the target value SP of the measurement value PV acquired by the measurement value acquisition unit 201.
  • the target value acquisition unit 202 may acquire the target value SP from an operator via an input unit (not shown).
  • the target value acquisition unit 202 may acquire a preset reference target value as the target value SP.
  • the target value acquisition unit 202 may supply the acquired target value SP to the deviation acquisition unit 203.
  • the deviation acquisition unit 203 is an example of a first acquisition unit, and acquires the deviation between the measurement value PV and the target value SP of the state related to the control target 101.
  • the deviation acquisition unit 203 may acquire the measurement value PV from the measurement value acquisition unit 201 and the target value SP from the target value acquisition unit 202, and calculate the deviation by subtracting the measurement value PV from the target value SP.
  • the deviation acquisition unit 203 may calculate the deviation by subtracting the target value SP from the measurement value PV.
  • the deviation acquisition unit 203 may supply the acquired deviation to the identification unit 207 and the supply unit 209.
  • the deviation acquisition unit 203 may store the acquired deviation in a storage unit (not shown).
  • the control parameter acquisition unit 204 is an example of a second acquisition unit, and acquires the control parameter P supplied to the control object 101.
  • the control parameter acquisition unit 204 may acquire the control parameter P from the control unit 210 described below, and in the present embodiment, as an example, may acquire the control parameter P each time the control unit 210 supplies the control parameter P to the control object 101.
  • the control parameter P may indicate an instruction value IV for an operation amount MV of the control object 101.
  • the control parameter P may indicate a valve opening degree, as an example.
  • the control parameter acquisition unit 204 may supply the acquired control parameter P to the supply unit 209.
  • Control model 205 In response to input of the deviation and the control parameter P, the control model 205 outputs a recommended control parameter Pr recommended to be supplied to the controlled object 101. In response to input of the deviation and the control parameter P supplied to one controlled object 101, the control model 205 may output a recommended control parameter Pr recommended to be supplied to the one controlled object 101.
  • the recommended control parameter Pr may indicate a recommended indicated value IV for the manipulated variable MV of the controlled object 101.
  • the control model 205 may output a recommended control parameter Pr to the control unit 210 described below in response to input of the deviation and the control parameter P from the supply unit 209 described below.
  • the deviation of the measurement value PV and the target value SP for one physical quantity is described as being input to the control model 205, but the deviations of the measurement value PV and the target value SP for multiple physical quantities may also be input.
  • the control model 205 may have multiple sub-control models 206 (two sub-control models 206a, 206b are used as an example in this embodiment) each associated with a multiple phases set in advance for the state of the control object 101, and may output the recommended control parameter Pr using the sub-control model 206 associated with a phase according to the measurement value PV.
  • a phase may be a state of the control object 101 at a certain point in time.
  • the multiple phases may include a first phase in which the measurement value PV is close to the target value SP, and a second phase in which the measurement value PV is far from the target value SP.
  • Sub-control model 206 Each sub-control model 206 may output a recommended control parameter recommended for reducing the deviation in response to the input of the deviation and the control parameter.
  • the sub-control models 206 may be provided independently of each other and may be capable of acquiring the deviation and the control parameter independently of each other from a supply unit 209 described later.
  • the two sub-control models 206a, 206b may be associated with a common target value SP, and may output a recommended control parameter recommended for reducing the deviation in response to the deviation between the common target value SP and the measured value PV and the input of the control parameter.
  • the sub-control model 206a may output recommended control parameters with fine intervals or granularity (also referred to as fineness or precision) in the first phase in which the measured value PV is close to the target value SP (i.e., the deviation is small).
  • the sub-control model 206a may be for controlling the control target 101 by prioritizing precision over speed, and is also referred to as a precision-oriented sub-control model 206a.
  • the sub-control model 206b may output recommended control parameters with a larger interval or granularity than the sub-control model 206a in a second phase in which the measured value PV is far from the target value SP (i.e., the deviation is large).
  • the sub-control model 206b may be for controlling the control target 101 by prioritizing speed over accuracy, and is also referred to as a speed-oriented sub-control model 206b.
  • the sub-control models 206a and 206b may be set with different numerical ranges for the deviation to be input.
  • the sub-control model 206a may be set with a numerical range of the deviation to be input that includes 0 and has a small absolute value (for example, a range from -1 to 1; also referred to as a first numerical range)
  • the sub-control model 206b may be set with a range of the deviation to be input that does not include 0 and has a larger absolute value than the first numerical range (for example, a range of -1 or less and 1 or more; also referred to as a second numerical range).
  • the first numerical range and the second numerical range may not overlap with each other, and the first numerical range may be a range inside the second numerical range.
  • Each sub-control model 206 may have a change amount output model 2061 and an adder 2062.
  • Change amount output model 2061 Each change amount output model 2061 of each sub-control model 206 outputs a recommended change amount that recommends changing the control parameter P in response to input of the deviation and the control parameter P.
  • the change amount output model 2061 of each sub-control model 206 may output a recommended change amount in a different range.
  • the recommended change amount output from the change amount output model 2061 (also referred to as the change amount output model 2061a) of the sub-control model 206a may have a smaller order (also referred to as the number of digits), interval, or granularity compared to the recommended change amount output from the change amount output model 2061 (also referred to as the change amount output model 2061b) of the sub-control model 206b.
  • the recommended change amount of the change amount output model 2061b may be only three types, a maximum value, a minimum value, and an intermediate value (for example, 0), and the measured value PV may be brought closer to the target value SP by control approximating full accelerator/full brake control.
  • the recommended change amount of the change amount output model 2061a may have more values than the change amount output model 2061b.
  • the change amount output model 2061 may supply the recommended change amount to the adder 2062.
  • the recommended change amount may indicate a recommended change amount from the most recent control parameter P supplied to the control object 101.
  • the recommended change amount may indicate a recommended change amount for the most recent instruction value IV for the manipulated variable MV.
  • the change amount output model 2061 may be generated by a learning process by the learning processing unit 211, and may be stored in a storage unit (not shown).
  • Addition unit 2062 calculates a recommended control parameter Pr by adding the control parameter P supplied to the control object 101 and the recommended change amount output from the change amount output model 2061.
  • the adder 2062 may be shared by the sub-control models 206a and 206b.
  • the adder 2062 may calculate the recommended control parameter Pr by adding the control parameter P supplied to the control object 101 and the recommended change amount output from the change amount output model 2061a of the sub-control model 206a, and may calculate the recommended control parameter Pr by adding the control parameter P supplied to the control object 101 and the recommended change amount output from the change amount output model 2061b of the sub-control model 206b.
  • the adder 2062 may calculate a recommended control parameter Pr by adding together the most recent control parameter P supplied from the control unit 210 and the recommended change amount supplied from the change amount output model 2061.
  • the adder 2062 may calculate a recommended control parameter Pr(t) at time t by adding together the control parameter P (t-1) at time t-1 and the recommended change amount ⁇ u (t) at time t, as shown in the following formula (1) .
  • Pr (t) P (t-1) + ⁇ u (t) (1)
  • the adder 2062 may store the control parameter P supplied from the control unit 210 and use it to calculate the recommended control parameter Pr.
  • the adder 2062 may supply the calculated recommended control parameter Pr to the control unit 210.
  • the determination unit 207 determines a phase corresponding to the measured value PV from among the multiple phases.
  • the determination unit 207 may determine a phase according to the deviation supplied from the deviation acquisition unit 203.
  • the specification unit 207 may specify the situation depending on which of a plurality of preset numerical ranges the deviation falls within. The situation may be identified depending on whether the deviation from the deviation acquisition section 203 is included in the first numerical range or the second numerical range.
  • the identification unit 207 may store a numerical range and identification information of a phase (also referred to as a phase ID) in association with each other, and may identify a phase associated with a numerical range that includes the deviation from the deviation acquisition unit 203.
  • the identification unit 207 may identify a first phase as a phase corresponding to the measurement value PV in response to the deviation from the deviation acquisition unit 203 being included in a first numerical range.
  • the identification unit 207 may identify a second phase as a phase corresponding to the measurement value PV in response to the deviation from the deviation acquisition unit 203 being included in a second numerical range.
  • the identification unit 207 may supply the phase ID of the identified phase to the selection unit 208.
  • the selection unit 208 selects, from among the multiple sub-control models 206, the sub-control model 206 corresponding to the phase identified by the identification unit 207.
  • the selection unit 208 may store a phase ID of each phase and identification information (also referred to as a sub-model ID) of each sub-control model 206 in association with each other, and may select the sub-control model 206 having a sub-model ID corresponding to the phase ID supplied from the identification unit 207.
  • the selection unit 208 may supply the sub-model ID of the selected sub-control model 206 to the supply unit 209.
  • the supply unit 209 supplies the control model 205 with the deviation acquired by the deviation acquisition unit 203 and the control parameter P acquired by the control parameter acquisition unit 204.
  • the control parameter P supplied to the control object 101 and a deviation indicating the operating state resulting from controlling the control object 101 using the control parameter P may be supplied to the control model 205 .
  • the supply unit 209 may supply the deviation and control parameters to the sub-control model 206 selected by the selection unit 208 from among the multiple sub-control models 206 in the control model 205.
  • the supply unit 209 may supply to the sub-control model 206 indicated by the sub-model ID supplied from the selection unit 208.
  • Control unit 210 is an example of an output unit, and outputs a recommended control parameter Pr output from the control model 205 in response to a supply from the supply unit 209 to the control model 205.
  • the control unit 210 may output the recommended control parameter Pr to the control object 101 as a control parameter P to control the control object 101.
  • the control unit 210 may output the control parameter P input by an operator to the control object 101 to control the control object 101.
  • the control unit 210 may output the control parameter P to the control object 101 in accordance with the control period of the control object 101.
  • the control unit 210 may store the control parameter P supplied to the control object 101 in a storage unit (not shown).
  • the control unit 210 may store the control parameter P supplied to the control object 101 in the storage unit in association with the deviation acquired by the deviation acquisition unit 203.
  • the control unit 210 may store the control parameter P supplied to the control object 101 in the storage unit in association with the deviation indicating the operating state resulting from controlling the control object 101 with the control parameter P.
  • the learning processing unit 211 performs a learning process for each change amount output model 2061 using learning data including the deviation acquired by the deviation acquiring unit 203 and the control parameter P acquired by the control parameter acquiring unit 204 .
  • the learning processing unit 211 may learn the sub-control model 2061 so as to output a recommended change amount recommended for increasing the reward value in response to the input of the deviation and the control parameter P.
  • the recommended change amount may be a change amount recommended for increasing the reward value above a reference reward value (for example, a reward value obtained by inputting a value corresponding to the measurement value PV at that time into the reward function) corresponding to the state of the controlled object 101 at a predetermined time point (for example, the time point at which the deviation and the control parameter P are acquired) when the reference reward value is the reward value.
  • the reward value may be a value determined by a preset reward function.
  • the reward function may be a function based on the deviation, and as an example, a function in which the smaller the deviation, the larger the reward value.
  • the reward function may be a function based on the sum of the multiple deviations, or may be a function based on the result of weighted addition of the multiple deviations.
  • the learning processing unit 211 may perform learning using the Kernel Dynamic Policy Programming (KDPP) algorithm.
  • the learning processing unit 211 may perform the learning process for each change amount output model 2061 using different learning data. For example, when performing the learning process for the change amount output model 2061a, the learning processing unit 211 may perform the learning process using learning data whose deviation is included in a first numerical range. As an example, the learning processing unit 211 may perform the learning process using learning data acquired when the control object 101 is successively controlled in a state in which the measurement value PV is close to the target value SP. When performing the learning process for the change amount output model 2061b, the learning processing unit 211 may perform the learning process using learning data whose deviation is included in a second numerical range, or may further perform the learning process using learning data whose deviation is included in the first numerical range. As an example, the learning processing unit 211 may perform the learning process using learning data acquired when the control object 101 is successively controlled in a state in which the measurement value PV is far from the target value SP.
  • the numerical range of the absolute value of the deviation may be different between the learning data of the change amount output model 2061a and the learning data of the change amount output model 2061b.
  • the numerical range of the absolute value of the deviation in the learning data of the change amount output model 2061a may be closer to 0 than the numerical range of the absolute value of the deviation in the learning data of the change amount output model 2061b.
  • the deviation in the learning data of the change amount output model 2061a may be on the order of 10 0 , that is, a single digit
  • the deviation in the learning data of the change amount output model 2061b may be on the order of 10 1 , that is, a double digit value.
  • the numerical range of the control parameter P may be different between the learning data of the change amount output model 2061a and the learning data of the change amount output model 2061b.
  • the numerical range of the control parameter P in the learning data of the change amount output model 2061a may be a value within a third numerical range including the value of the control parameter P when the measurement value PV stabilizes to the target value SP (also referred to as the control parameter P at the equilibrium point).
  • the numerical range of the control parameter P in the learning data of the change amount output model 2061b may be a value within a fourth numerical range outside the third numerical range, or may be a value within the third numerical range and the fourth numerical range.
  • the control parameter P in the learning data of the change amount output model 2061a may have smaller intervals and granularity than the control parameter P in the learning data of the change amount output model 2061b.
  • the learning processing unit 211 may perform learning processing of each change amount output model 2061 using learning data including the deviation and control parameter P acquired when the target value SP is the same value.
  • the learning data may be acquired from a simulator (not shown) of the system 1 instead of from the actual system 1.
  • the simulator may be created using actual measurement data of the equipment 100 by any system identification technology.
  • Each learning data may be stored in a storage unit (not shown).
  • the control model 205 uses the sub-control model 206 associated with the phase corresponding to the measured value from among a plurality of sub-control models 206 each associated with a plurality of phases previously set for the state, and outputs a recommended control parameter Pr in response to input of the deviation acquired by the deviation acquisition unit 203 and the control parameter P acquired by the control parameter acquisition unit 204. Therefore, by inputting the deviation and the control parameter P to the control model 205, it is possible to acquire the recommended control parameter Pr corresponding to the phase.
  • a phase corresponding to the measured value PV is identified, and a sub-control model 206 corresponding to the identified phase is selected from the multiple sub-control models 206, and the deviation and control parameters are supplied to the selected sub-control model 206. Therefore, the recommended control parameters Pr can be obtained by appropriately using the sub-control model 206 according to the situation.
  • sub-control models 206a, 206b each output recommended control parameters recommended for reducing the deviation between the measurement value PV and the common target value SP, in response to the input of control parameters P. Therefore, different recommended control parameters Pr for reducing the deviation between the common target value SP and the measurement value PV can be obtained depending on the situation. Therefore, recommended control parameters Pr that emphasize the speed at which the equilibrium point is reached and reduce the deviation rapidly, and recommended control parameters Pr that emphasize the accuracy at which the equilibrium point is reached and reduce the deviation gradually, can be obtained depending on the situation.
  • a recommended change amount for the control parameter P is output from the change amount output model 2061 according to the deviation and the control parameter P already supplied to the control target 101, and the supplied control parameter P and the recommended change amount are added by a common adder 2062 to calculate the recommended control parameter Pr. Therefore, unlike the case where an adder 2062 is provided for each sub-control model 206, the configuration of the device 200 can be simplified.
  • the change amount output models 2061 of the sub-control models 206a and 206b output recommended change amounts in different ranges, so that it is possible to reliably obtain recommended control parameters Pr that reduce the deviation rapidly and recommended control parameters Pr that reduce the deviation gradually depending on the situation.
  • a learning process is performed for each change amount output model 2061 so as to output a recommended change amount recommended for increasing a reward value determined by a preset reward function in response to the input of the deviation and the control parameter P. Therefore, an appropriate recommended control parameter Pr can be acquired from each sub-control model 206.
  • Change amount output model 2061> 2 and 3 show the change amount output model 2061.
  • the vertical axis indicates the control parameter P (the command value IV of the valve opening as an example), and the horizontal axis indicates the deviation.
  • the change amount output model 2061 may show the correspondence between the combination of the deviation and the control parameter P and the recommended change amount.
  • the change amount output model 2061 in this example may be a manipulated variable map that maps the correspondence between the combination of the deviation and the control parameter P and the recommended change amount.
  • the manipulated variable map may be divided into a plurality of regions each corresponding to a different recommended change amount according to the combination of the control parameter P and the deviation, and may output a recommended change amount corresponding to the coordinate position of the input combination of the control parameter P and the deviation.
  • the change amount output model 2061 in Fig. 2 may be a change amount output model 2061a that outputs recommended control parameters with fine intervals and granularity in a situation where the deviation is small
  • the change amount output model 2061 in Fig. 3 may be a change amount output model 2061b that outputs recommended control parameters with large intervals and granularity in a situation where the deviation is large.
  • -1.00 to 1.00 may be set as a first numerical range for the input deviation
  • -50 to 50 may be set as a second numerical range for the input deviation.
  • the recommended change amount output from the change amount output model 2061a may be on the order of 10 -2 to 10 -1
  • the recommended change amount output from the change amount output model 2061b may be on the order of 10 0 .
  • the change amount output model 2061 may include information relating to the entire area of the operation amount map. Alternatively, the change amount output model 2061 may include only information indicating the boundaries of each area (for example, coordinates or function formulas indicating the boundaries) and the recommended change amount corresponding to each area. In this case, the storage area for storing the change amount output model 2061 can be made smaller.
  • FIGS. 4 and 5 show other examples of the change amount output model 2061.
  • FIG. 4 may show a change amount output model 2061a having the same content as FIG. 2, and
  • FIG. 5 may show a change amount output model 2061b having the same content as FIG. 3.
  • the change amount output model 2061 may be a table that associates combinations of deviations and control parameters P with recommended change amounts.
  • Operation> 6 shows the operation of the device 200.
  • the device 200 may control the control target 101 by performing the processes of steps S11 to S23. Note that this operation is performed in response to the device 200 being started up.
  • the learning process of the change amount output model 2061 may be completed, and the target value SP may be set to the reference target value.
  • step S11 the measurement value acquisition unit 201 acquires the measurement value PV of the state of the control object 101.
  • the target value acquisition unit 202 may acquire the measurement value PV from the sensor 102 of the equipment 100.
  • step S13 the deviation acquisition unit 203 acquires the deviation between the target value SP (in this embodiment, as an example, the reference target value) and the measurement value PV acquired in step S13.
  • the identification unit 207 identifies a phase from among the multiple phases that corresponds to the measured value PV.
  • the identification unit 207 may identify either the first phase or the second phase depending on whether the deviation from the deviation acquisition unit 203 is included in the first numerical range or the second numerical range.
  • the selection unit 208 selects, from among the multiple sub-control models 206, the sub-control model 206 that corresponds to the phase identified by the identification unit 207.
  • the selection unit 208 may select sub-control model 206a in response to the identification of a first phase, and may select sub-control model 206b in response to the identification of a second phase.
  • step S19 the control parameter acquisition unit 204 acquires the control parameter P supplied to the control object 101.
  • the control parameter acquisition unit 204 may acquire the control parameter P supplied to the control object 101 in the most recent control cycle from the control unit 210.
  • the control parameter acquisition unit 204 may acquire and temporarily store the control parameter P output from the control unit 210 to the control object 101 in the processing of step S23 described below, and read out the control parameter P in step S19.
  • step S19 is executed for the first time, that is, when the processing of step S23 has not been executed, the control parameter acquisition unit 204 may acquire the initial value of the control parameter P that has been set in advance.
  • step S21 the supply unit 209 supplies the control parameter P supplied from the control parameter acquisition unit 204 and the deviation supplied from the deviation acquisition unit 203 to the control model 205.
  • the supply unit 209 supplies the deviation and the control parameter P to a selected sub-control model 206 out of the multiple sub-control models 206 in the control model 205.
  • a recommended control parameter Pr corresponding to the input control parameter P and the deviation is output from the sub-control model 206 corresponding to the situation.
  • the recommended change amount corresponding to the input control parameter P and the deviation may be output from the change amount output model 2061, and the recommended change amount and the control parameter P acquired in step S17 may be added by the adder 2062 to generate the recommended control parameter Pr.
  • step S23 the control unit 210 outputs the recommended control parameters Pr from the control model 205.
  • the control unit 210 may supply the recommended control parameters Pr to the control object 101 as control parameters P to control the control object 101.
  • the processing may proceed to step S11.
  • Operation example> 7 shows the transition of the measurement value PV and the control parameter P when the controlled object 101 is controlled.
  • the horizontal axis in the figure indicates time (seconds), and the vertical axis indicates the measurement value PV and the control parameter P.
  • the control parameter P may indicate the indication value IV of the valve opening.
  • the valve of the control object 101 is controlled using the recommended control parameters Pr output from the speed-oriented sub-control model 206b in response to the deviation falling within the second numerical range.
  • the valve opening is roughly controlled with a change amount of ⁇ 10%.
  • the control object 101 is controlled using the recommended control parameters Pr output from the accuracy-oriented sub-control model 206a in response to the deviation falling within the first numerical range.
  • the valve opening is finely controlled with a change amount of ⁇ 0.1%.
  • the control object 101 is controlled by the recommended control parameters Pr according to the situation, and the measured value PV can be maintained at the target value SP at high speed and with high accuracy.
  • Fig. 8 shows a system 1A according to a modified example. Components that are substantially the same as those in the system 1 shown in Fig. 1 are given the same reference numerals, and descriptions thereof will be omitted.
  • the system 1A includes an apparatus 200A.
  • the apparatus 200A may include an identifying unit 207A, a target value setting unit 212A, a control model 205A, and a learning processing unit 211A.
  • Identification unit 207A determines a phase from among a plurality of phases according to the measured value PV.
  • the determination unit 207A according to this modification determines a phase according to the measured value PV supplied from the measured value acquisition unit 201.
  • the specifying unit 207A may specify the aspect depending on which of a plurality of preset numerical ranges the measured value falls within. Depending on which of the third to sixth numerical ranges for the measurement value PV, which are preset for 206c to 206f, the measurement value PV from the measurement value acquisition unit 201 is included in, may be specified.
  • the identification unit 207A may store a numerical range and a phase ID of each phase in association with each other, and may identify a phase associated with a numerical range including the measurement value from the measurement value acquisition unit 201.
  • the identification unit 207A may identify a third phase as a phase corresponding to the measurement value PV in response to the measurement value PV being included in a third numerical range.
  • the identification unit 207A may identify a fourth phase as a phase corresponding to the measurement value PV in response to the measurement value PV being included in a fourth numerical range.
  • the identification unit 207A may identify a fifth phase as a phase corresponding to the measurement value PV in response to the measurement value PV being included in a fifth numerical range.
  • the identification unit 207A may identify a sixth phase as a phase corresponding to the measurement value PV in response to the measurement value PV being included in a sixth numerical range.
  • the identification unit 207A may supply the phase ID of the identified phase to the selection unit 208 and the target value setting unit 212A. By supplying the phase ID from the identification unit 207A to the selection unit 208, the selection unit 208 may select a sub-control model 206 corresponding to the identified phase from among the multiple sub-control models 206 in the control model 205A.
  • the target value setting unit 212A is an example of a setting unit, and sets a target value SP according to the phase identified by the identification unit 207A.
  • the target value setting unit 212A may set any of the specific target values of the sub-control models 206c to 206f described below as the target value SP.
  • the target value setting unit 212A may store the specific target values of the sub-control models 206c to 206f in association with the phase IDs of the respective phases, and may set the specific target value corresponding to the phase ID supplied from the identification unit 207A as a new target value SP.
  • the target value setting unit 212A may supply the set target value SP to the target value acquisition unit 202.
  • the new target value SP may be supplied from the target value acquisition unit 202 to the deviation acquisition unit 203, and the deviation acquisition unit 203 may acquire the deviation between the new target value SP and the measured value PV.
  • Control model 205A Similar to the control model 205 in the above embodiment, outputs a recommended control parameter Pr that is recommended to be supplied to the control object 101 in response to input of the deviation and the control parameter P.
  • the control model 205A according to this modification may have four sub-control models 206 (also referred to as sub-control models 206c to 206f) each associated with a plurality of phases that are preset for the state of the control object 101, and may output the recommended control parameter Pr using the sub-control model 206 associated with the phase according to the measurement value PV.
  • the sub-control models 206c to 206f may be provided for each target value and may be associated with different inherent target values. Each inherent target value may be used as a target value SP by the target value setting unit 212A.
  • the sub-control models 206c to 206f may output a recommended control parameter Pr that is recommended to reduce the deviation between the inherent target value and the measured value PV and in response to the input of the control parameter P.
  • the sub-control models 206c to 206f are selected by the selection unit 208 in response to the situation, and the inherent target value of the selected sub-control model 206 is set as the target value SP by the target value setting unit 212A, so that when each of the sub-control models 206c to 206f is selected, it outputs a recommended control parameter Pr in response to the deviation between the inherent target value as the target value SP and the measured value PV and the input of the control parameter P.
  • the sub-control models 206c to 206f may have change amount output models 2061c to 2061f, respectively.
  • the change amount output models 2061c to 2061f output recommended change amounts that recommend changes to be made to the control parameter P.
  • the change amount output models 2061c to 2061f may output recommended change amounts in different ranges, or may output recommended change amounts in the same range.
  • the recommended change amounts output from the change amount output models 2061c to 2061f may have similar intervals and granularity.
  • the learning processing unit 211 performs the learning process for each of the change amount output models 2061c to 2061f in the same manner as the learning processing unit 211 in the above embodiment.
  • the learning processing unit 211A may perform the learning process for each of the change amount output models 2061c to 2061f by using separate learning data.
  • the learning processing unit 211A may perform the learning processing using learning data in which the deviation falls within a third numerical range.
  • the learning data of the change amount output model 2061c may include the deviation and the control parameter P obtained when the target value SP is preset as the inherent target value of the sub-control model 206c.
  • the learning processing unit 211A may perform the learning processing using learning data in which the deviation is included in the fourth numerical range.
  • the learning data of the change amount output model 2061d may include the deviation and the control parameter P obtained when the target value SP is preset as the inherent target value of the sub-control model 206d.
  • the learning processing unit 211A may perform the learning processing using learning data in which the deviation is included in the fifth numerical range.
  • the learning data of the change amount output model 2061e may include the deviation and the control parameter P obtained when the target value SP is preset as the inherent target value of the sub-control model 206e.
  • the learning processing unit 211A may perform the learning processing using learning data in which the deviation is included in the sixth numerical range.
  • the learning data of the change amount output model 2061f may include the deviation and the control parameter P obtained when the target value SP is preset as the inherent target value of the sub-control model 206f.
  • the absolute values of the deviations may be similar between the learning data of the change amount output models 2061c to 2061f, and as an example, the orders of the deviations may be the same.
  • the learning data instead of obtaining the learning data from the actual system 1A, the learning data may be obtained from a simulator (not shown) of the system 1A.
  • the situation is identified depending on which of multiple pre-set numerical ranges the measurement value PV falls within, so that the situation according to the measurement value PV can be identified and the recommended control parameter Pr according to the situation can be obtained.
  • one of the inherent target values of the sub-control models 206c to 206f is set as the target value SP, and the sub-control model 206 out of the sub-control models 206c to 206f that is appropriate for the situation outputs the deviation between the inherent target value as the target value SP and the measured value PV, and the recommended control parameter Pr according to the control parameter P. Therefore, while switching the target value SP according to the progress of the process, it is possible to obtain the recommended control parameter Pr for reducing the deviation between the target value SP and the measured value PV after switching.
  • Correspondence Table> 9 shows the correspondence between phase IDs, numerical ranges of the measurement values PV, sub-model IDs, and specific target values.
  • "K3" to “K6” in the figure may be phase IDs of the third to sixth phases.
  • "PVc min to PVc max ,”"PVd min to PVd max ,”"PVe min to PVe max ,” and “PVf min to PVf max " may each indicate a numerical range of the measurement values PV.
  • "206c” to "206f” may be sub-model IDs of the sub-control models 206c to 206f.
  • "SPc” to “SPf” may be specific target values of the sub-control models 206c to 206f.
  • the identification unit 207A may identify the phase ID depending on which of the numerical ranges in the figure the measurement value PV falls within.
  • the selection unit 208 may select the sub-control model 206 of the sub-model ID corresponding to the identified phase ID from among the phase IDs in the figure.
  • the target value setting unit 212A may set the unique target value corresponding to the identified phase ID from among the phase IDs in the figure as the target value SP.
  • Operation> 10 shows the operation of the device 200A.
  • the device 200A may control the control target 101 by performing the processes of steps S11 to S23. Note that this operation is performed in response to the device 200 being started.
  • the learning process of the change amount output model 2061 may be completed at the start of the operation.
  • the operation of the device 200A according to the second embodiment is the same as the operation of the device 200 according to the first embodiment. 1 in that steps S31 to S35 are performed between steps S17 and S17.
  • the identification unit 207A identifies, from among the multiple phases, a phase that corresponds to the measured value PV.
  • the identification unit 207A may identify any one of the third to sixth phases as the phase that corresponds to the measured value PV.
  • the target value setting unit 212A sets the target value SP according to the situation identified by the identification unit 207A.
  • the target value setting unit 212A may set the specific target value corresponding to the situation identified in step S31, among the specific target values of the sub-control models 206c to 206f, as the target value SP.
  • step S35 the deviation acquisition unit 203 acquires the deviation between the target value SP and the measurement value PV.
  • the deviation acquisition unit 203 may acquire the deviation between the target value SP set in step S33 and the measurement value PV acquired in step S11.
  • the processing may proceed to step S17.
  • the sub-control model 206 corresponding to the situation identified in step S31 is selected from the multiple sub-control models 206c to 206f.
  • Operation example> 11 shows the transition of the measured value PV when the controlled object 101 is controlled.
  • the horizontal axis in the figure shows time (seconds), and the vertical axis shows the measured value PV.
  • the control parameter P may show the indicated value IV of the temperature inside the furnace.
  • a third phase is identified in response to the measurement value PV being included in a third numerical range as the process progresses.
  • the control object 101 is then controlled using the deviation between the target value SP and the measurement value PV in response to the third phase, and the recommended control parameter Pr, which is input to and output from the sub-control model 206c.
  • a fourth phase is identified in response to the measurement value PV being included in a fourth numerical range.
  • the control object 101 is then controlled using the deviation between the target value SP and the measurement value PV in response to the fourth phase, and the recommended control parameter Pr, which is input to and output from the sub-control model 206d.
  • a fifth phase is identified in response to the measurement value PV being included in a fifth numerical range.
  • the control object 101 is then controlled using the deviation between the target value SP and the measurement value PV in response to the fifth phase, and the recommended control parameter Pr, which is input to and output from the sub-control model 206e.
  • a sixth phase is identified in response to the measurement value PV being included in a sixth numerical range.
  • the control object 101 is controlled using the deviation between the target value SP and the measurement value PV in response to the sixth phase, and the control parameter P, which is input to and output from the sub-control model 206f, and the recommended control parameter Pr.
  • control model 205, 205A has been described as having the change amount output model 2061 and the adder 2062, but as long as the recommended control parameter Pr is output in response to the input of the deviation and the control parameter P, it is not necessary to have these.
  • the control model 205, 205A may be a learning model generated by an algorithm such as a kernel dynamic policy programming method, deep reinforcement learning, a support vector machine, a logistic regression, a decision tree, or a neural network.
  • the learning processing unit 211, 211A may perform learning processing of the control model 205, 205A using learning data including the deviation acquired by the deviation acquisition unit 203 and the control parameter P acquired by the control parameter acquisition unit 204.
  • change amount output model 2061 has been described as a map or table generated by the learning algorithm of the kernel dynamic policy programming method, it may be generated by other algorithms such as deep reinforcement learning, support vector machines, logistic regression, decision trees, and neural networks, or may be a model of another form different from a map or table.
  • the deviation and the control parameter P are input to the change amount output model 2061, other values may also be input.
  • the other values may be, for example, the differential value or integral value of the measurement value by the sensor 102.
  • the devices 200 and 200A have been described as having the measurement value acquisition unit 201, the target value acquisition unit 202, and the learning processing unit 211, any of these may not be included. If the devices 200 and 200A do not have the measurement value acquisition unit 201 and the target value acquisition unit 202, the deviation acquisition unit 203 may acquire a deviation calculated by an external device. If the devices 200 and 200A do not have the learning processing units 211 and 211A, they may have a change amount output model 2061 that has been learned in advance by an external device.
  • each sub-control model 206 is provided independently and separately and the deviation and control parameters are independently supplied from the supply unit 209, they may be provided in an integrated manner.
  • each sub-control model 206 may constitute a part of the control model 205, 205A.
  • the control models 205, 205A may be an operation amount map that maps the correspondence between the combination of the deviation and the control parameter P and the recommended control parameter Pr, and each sub-control model 206 may be a central part or a peripheral part of the operation amount map.
  • the device 200, 200A may not have the identification unit 207 and the selection unit 208, and in response to the supply unit 209 inputting the deviation and the control parameter P to the control model 205, 205A, the recommended control parameter Pr may be output from the part of the corresponding sub-control model 206 among the sub-control models 206 in the control model 205, 205A.
  • Such control models 205, 205A may be generated by providing a common input section for the separate sub-control models 206 generated by the learning processing sections 211, 211A, and setting the deviation and control parameter P supplied from the supply section 209 to be input to one of the sub-control models 206 depending on the numerical range.
  • control model 205 has been described as having two sub-control models 206a and 206b associated with a common target value SP, but it may have three or more sub-control models 206 associated with a common target value SP. In addition, the control model 205 may further have other sub-control models 206 with different target values.
  • Various embodiments of the present invention may also be described with reference to flow charts and block diagrams, where the blocks may represent (1) stages of a process in which operations are performed or (2) sections of an apparatus responsible for performing the operations. Particular stages and sections may be implemented by dedicated circuitry, programmable circuitry provided with computer readable instructions stored on a computer readable medium, and/or a processor provided with computer readable instructions stored on a computer readable medium.
  • Dedicated circuitry may include digital and/or analog hardware circuitry and may include integrated circuits (ICs) and/or discrete circuits.
  • Programmable circuitry may include reconfigurable hardware circuitry including logical AND, logical OR, logical XOR, logical NAND, logical NOR, and other logical operations, memory elements such as flip-flops, registers, field programmable gate arrays (FPGAs), programmable logic arrays (PLAs), and the like.
  • reconfigurable hardware circuitry including logical AND, logical OR, logical XOR, logical NAND, logical NOR, and other logical operations, memory elements such as flip-flops, registers, field programmable gate arrays (FPGAs), programmable logic arrays (PLAs), and the like.
  • a computer readable medium may include any tangible device capable of storing instructions that are executed by a suitable device, such that the computer readable medium having instructions stored thereon comprises an article of manufacture that includes instructions that can be executed to create means for performing the operations specified in the flowchart or block diagram.
  • Examples of computer readable media may include electronic storage media, magnetic storage media, optical storage media, electromagnetic storage media, semiconductor storage media, and the like.
  • Computer readable media may include floppy disks, diskettes, hard disks, random access memories (RAMs), read-only memories (ROMs), erasable programmable read-only memories (EPROMs or flash memories), electrically erasable programmable read-only memories (EEPROMs), static random access memories (SRAMs), compact disk read-only memories (CD-ROMs), digital versatile disks (DVDs), Blu-ray (RTM) disks, memory sticks, integrated circuit cards, and the like.
  • RAMs random access memories
  • ROMs read-only memories
  • EPROMs or flash memories erasable programmable read-only memories
  • EEPROMs electrically erasable programmable read-only memories
  • SRAMs static random access memories
  • CD-ROMs compact disk read-only memories
  • DVDs digital versatile disks
  • RTM Blu-ray
  • the computer readable instructions may include either assembler instructions, instruction set architecture (ISA) instructions, machine instructions, machine-dependent instructions, microcode, firmware instructions, state setting data, or source or object code written in any combination of one or more programming languages, including object-oriented programming languages such as Smalltalk (registered trademark), JAVA (registered trademark), C++, etc., and conventional procedural programming languages such as the "C" programming language or similar programming languages.
  • ISA instruction set architecture
  • machine instructions machine-dependent instructions
  • microcode firmware instructions
  • state setting data or source or object code written in any combination of one or more programming languages, including object-oriented programming languages such as Smalltalk (registered trademark), JAVA (registered trademark), C++, etc., and conventional procedural programming languages such as the "C" programming language or similar programming languages.
  • Computer-readable instructions may be provided to a processor or programmable circuitry of a general-purpose computer, special-purpose computer, or other programmable data processing apparatus, either locally or over a wide-area network (WAN) such as a local area network (LAN), the Internet, etc., to execute the computer-readable instructions to create means for performing the operations specified in the flowcharts or block diagrams.
  • WAN wide-area network
  • LAN local area network
  • Internet Internet
  • processors include computer processors, processing units, microprocessors, digital signal processors, controllers, microcontrollers, etc.
  • FIG. 12 illustrates an example of a computer 2200 in which aspects of the present invention may be embodied in whole or in part.
  • Programs installed on the computer 2200 may cause the computer 2200 to function as or perform operations associated with an apparatus or one or more sections of the apparatus according to an embodiment of the present invention, and/or to perform a process or steps of a process according to an embodiment of the present invention.
  • Such programs may be executed by the CPU 2212 to cause the computer 2200 to perform specific operations associated with some or all of the blocks of the flowcharts and block diagrams described herein.
  • the computer 2200 includes a CPU 2212, a RAM 2214, a graphics controller 2216, and a display device 2218, which are interconnected by a host controller 2210.
  • the computer 2200 also includes input/output units such as a communication interface 2222, a hard disk drive 2224, a DVD-ROM drive 2226, and an IC card drive, which are connected to the host controller 2210 via an input/output controller 2220.
  • the computer also includes legacy input/output units such as a ROM 2230 and a keyboard 2242, which are connected to the input/output controller 2220 via an input/output chip 2240.
  • the CPU 2212 operates according to the programs stored in the ROM 2230 and the RAM 2214, thereby controlling each unit.
  • the graphics controller 2216 retrieves image data generated by the CPU 2212 into a frame buffer or the like provided in the RAM 2214 or into itself, and causes the image data to be displayed on the display device 2218.
  • the communication interface 2222 communicates with other electronic devices via a network.
  • the hard disk drive 2224 stores programs and data used by the CPU 2212 in the computer 2200.
  • the DVD-ROM drive 2226 reads programs or data from the DVD-ROM 2201 and provides the programs or data to the hard disk drive 2224 via the RAM 2214.
  • the IC card drive reads programs and data from an IC card and/or writes programs and data to an IC card.
  • ROM 2230 stores therein a boot program, etc., which is executed by computer 2200 upon activation, and/or a program that depends on the hardware of computer 2200.
  • Input/output chip 2240 may also connect various input/output units to input/output controller 2220 via a parallel port, a serial port, a keyboard port, a mouse port, etc.
  • the programs are provided by a computer-readable medium such as a DVD-ROM 2201 or an IC card.
  • the programs are read from the computer-readable medium and installed in the hard disk drive 2224, RAM 2214, or ROM 2230, which are also examples of computer-readable media, and executed by the CPU 2212.
  • the information processing described in these programs is read by the computer 2200, and brings about cooperation between the programs and the various types of hardware resources described above.
  • An apparatus or method may be constructed by realizing the manipulation or processing of information in accordance with the use of the computer 2200.
  • CPU 2212 may execute a communication program loaded into RAM 2214 and instruct communication interface 2222 to perform communication processing based on the processing described in the communication program.
  • communication interface 2222 reads transmission data stored in a transmission buffer processing area provided in RAM 2214, hard disk drive 2224, DVD-ROM 2201, or a recording medium such as an IC card, and transmits the read transmission data to the network, or writes received data received from the network to a reception buffer processing area or the like provided on the recording medium.
  • the CPU 2212 may also cause all or a necessary portion of a file or database stored on an external recording medium such as the hard disk drive 2224, the DVD-ROM drive 2226 (DVD-ROM 2201), an IC card, etc. to be read into the RAM 2214, and perform various types of processing on the data on the RAM 2214. The CPU 2212 then writes back the processed data to the external recording medium.
  • an external recording medium such as the hard disk drive 2224, the DVD-ROM drive 2226 (DVD-ROM 2201), an IC card, etc.
  • CPU 2212 may perform various types of processing on data read from RAM 2214, including various types of operations, information processing, conditional judgment, conditional branching, unconditional branching, information search/replacement, etc., as described throughout this disclosure and specified by the instruction sequence of the program, and write back the results to RAM 2214.
  • CPU 2212 may also search for information in a file, database, etc. in the recording medium.
  • CPU 2212 may search for an entry that matches a condition, in which an attribute value of the first attribute is specified, from among the multiple entries, read the attribute value of the second attribute stored in the entry, and thereby obtain the attribute value of the second attribute associated with the first attribute that satisfies a predetermined condition.
  • the above-described programs or software modules may be stored on a computer-readable medium on the computer 2200 or in the vicinity of the computer 2200.
  • a recording medium such as a hard disk or RAM provided in a server system connected to a dedicated communication network or the Internet can be used as a computer-readable medium, thereby providing the programs to the computer 2200 via the network.

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)

Abstract

制御対象に関する状態の測定値と、目標値との偏差を取得する第1取得部と、前記制御対象に対して供給された制御パラメータを取得する第2取得部と、前記状態について予め設定された複数の局面にそれぞれ対応付けられた複数のサブ制御モデルを有する制御モデルであって、前記測定値に応じた局面に対応付けられた前記サブ制御モデルを用いて、偏差および制御パラメータが入力されることに応じて、前記制御対象に供給することを推奨する推奨制御パラメータを出力する制御モデルに対し、前記第1取得部により取得された前記偏差と、前記第2取得部により取得された前記制御パラメータとを供給する供給部と、前記供給部から前記制御モデルに対する供給が行われたことに応じて当該制御モデルから出力される前記推奨制御パラメータを出力する出力部と、を備える装置が提供される。

Description

装置、方法およびプログラム
 本発明は、装置、方法およびプログラムに関する。
 特許文献1~4には、「目標値SVに基づいて操作量マップを選択して、選択した操作量マップを用いて操作量MVを算出する」(特許文献1の段落0031)などと記載されている。
[先行技術文献]
[特許文献]
  [特許文献1]特開2022-156797号公報
  [特許文献2]特開2020-95352号公報
  [特許文献3]特開2021-117699号公報
  [特許文献4]特開2022-014099号公報
一般的開示
 本発明の第1の態様においては、制御対象に関する状態の測定値と、目標値との偏差を取得する第1取得部と、前記制御対象に対して供給された制御パラメータを取得する第2取得部と、前記状態について予め設定された複数の局面にそれぞれ対応付けられた複数のサブ制御モデルを有する制御モデルであって、前記複数のサブ制御モデルのうち前記測定値に応じた局面に対応付けられたサブ制御モデルを用いて、偏差および制御パラメータが入力されることに応じて、前記制御対象に供給することを推奨する推奨制御パラメータを出力する制御モデルに対し、前記第1取得部により取得された前記偏差と、前記第2取得部により取得された前記制御パラメータとを供給する供給部と、前記供給部から前記制御モデルに対する供給が行われたことに応じて当該制御モデルから出力される前記推奨制御パラメータを出力する出力部と、を備える装置が提供される。
 上記の装置においては、前記複数の局面のうち、前記測定値に応じた局面を特定する特定部と、前記複数のサブ制御モデルのうち、前記特定部により特定された局面に対応するサブ制御モデルを選択する選択部と、をさらに備えてよい。
 前記供給部は、前記複数のサブ制御モデルのうち、前記選択部により選択されたサブ制御モデルに対し、前記第1取得部により取得された前記偏差と、前記第2取得部により取得された前記制御パラメータとを供給してよい。
 特定部および選択部を有する上記の装置においては、前記特定部は、予め設定された複数の数値範囲の何れに前記偏差が含まれるかに応じて局面を特定してよい。
 特定部および選択部を有する上記何れかの装置においては、前記複数のサブ制御モデルのうち、少なくとも2つのサブ制御モデルは、それぞれ測定値と、共通の目標値との偏差、および、制御パラメータの入力に応じ、当該偏差を小さくするために推奨される推奨制御パラメータを出力してよい。
 特定部および選択部を有する上記の装置においては、前記特定部は、予め設定された複数の数値範囲の何れに前記測定値が含まれるかに応じて局面を特定してよい。
 特定部および選択部を有する上記何れかの装置においては、前記複数のサブ制御モデルのうち、少なくとも2つのサブ制御モデルは、互いに異なる固有目標値に対応付けられて、測定値と、当該固有目標値との偏差、および、制御パラメータの入力に応じ、当該偏差を小さくするために推奨される推奨制御パラメータを出力してよい。当該装置は、前記特定部により特定された局面に応じて前記少なくとも2つのサブ制御モデルの前記固有目標値の何れかを前記目標値として設定する設定部をさらに備えてよい。
 特定部および選択部を有する上記何れかの装置においては、各サブ制御モデルは、偏差および制御パラメータが入力されることに応じて、当該制御パラメータについて変更することを推奨する推奨変更量を出力する変更量出力モデルと、前記制御対象に供給された前記制御パラメータと、前記変更量出力モデルから出力される前記推奨変更量とを加算して前記推奨制御パラメータを算出する加算部と、を有してよい。前記複数のサブ制御モデルは、前記加算部を共有してよい。
 特定部および選択部を有する上記何れかの装置においては、前記複数のサブ制御モデルのうち、少なくとも2つのサブ制御モデルにおける前記変更量出力モデルは、互いに異なる範囲の前記推奨変更量を出力してよい。
 特定部および選択部を有する上記何れかの装置においては、前記第1取得部により取得される偏差と、前記第2取得部により取得される制御パラメータと、を含む学習データを用い、偏差および制御パラメータの入力に応じ、予め設定された報酬関数により定まる報酬値を高めるために推奨される前記推奨変更量を出力するよう各変更量出力モデルの学習処理を行う学習処理部をさらに備えてよい。
 上記の装置においては、前記学習処理部は、各変更量出力モデルに対し、別々の学習データを用いて学習処理を行ってよい。
 本発明の第2の態様においては、制御対象に関する状態の測定値と、目標値との偏差を取得する第1取得段階と、前記制御対象に対して供給された制御パラメータを取得する第2取得段階と、前記状態について予め設定された複数の局面にそれぞれ対応付けられた複数のサブ制御モデルを有する制御モデルであって、前記複数のサブ制御モデルのうち前記測定値に応じた局面に対応付けられたサブ制御モデルを用いて、偏差および制御パラメータが入力されることに応じて、前記制御対象に供給することを推奨する推奨制御パラメータを出力する制御モデルに対し、前記第1取得段階により取得された前記偏差と、前記第2取得段階により取得された前記制御パラメータとを供給する第1供給段階と、前記第1供給段階により前記制御モデルに対する供給が行われたことに応じて当該制御モデルから出力される前記推奨制御パラメータを出力する出力段階と、を備える方法が提供される。
 本発明の第3の態様においては、コンピュータを、制御対象に関する状態の測定値と、目標値との偏差を取得する第1取得部と、前記制御対象に対して供給された制御パラメータを取得する第2取得部と、前記状態について予め設定された複数の局面にそれぞれ対応付けられた複数のサブ制御モデルを有する制御モデルであって、前記複数のサブ制御モデルのうち前記測定値に応じた局面に対応付けられたサブ制御モデルを用いて、偏差および制御パラメータが入力されることに応じて、前記制御対象に供給することを推奨する推奨制御パラメータを出力する制御モデルに対し、前記第1取得部により取得された前記偏差と、前記第2取得部により取得された前記制御パラメータとを供給する供給部と、前記供給部から前記制御モデルに対する供給が行われたことに応じて当該制御モデルから出力される前記推奨制御パラメータを出力する出力部として機能させるプログラムが提供される。
 なお、上記の概要は、本発明の必要な特徴の全てを列挙したものではない。また、これらの特徴群のサブコンビネーションもまた、発明となりうる。
第1実施形態に係るシステム1を示す。 変更量出力モデル2061を示す。 変更量出力モデル2061を示す。 変更量出力モデル2061の他の例を示す。 変更量出力モデル2061の他の例を示す。 装置200の動作を示す。 制御対象101が制御される場合の測定値PVおよび制御パラメータPの推移を示す。 変形例に係るシステム1Aを示す。 局面IDと、測定値PVの数値範囲と、サブモデルIDと、固有目標値との対応を示す。 装置200Aの動作を示す。 制御対象101が制御される場合の測定値PVの推移を示す。 本発明の複数の態様が全体的または部分的に具現化されてよいコンピュータ2200の例を示す。
 以下、発明の実施の形態を通じて本発明を説明するが、以下の実施形態は請求の範囲にかかる発明を限定するものではない。また、実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。
 <1.システム1>
 図1は、第1実施形態に係るシステム1を示す。システム1は設備100と、装置200とを備える。
 <1.1.設備100>
 設備100は、制御対象101が備え付けられた施設や装置等である。例えば、設備100は、プラントであってもよいし、複数の機器を複合させた複合装置であってもよい。プラントとしては、化学やバイオ等の工業プラントの他、ガス田や油田等の井戸元やその周辺を管理制御するプラント、水力・火力・原子力等の発電を管理制御するプラント、太陽光や風力等の環境発電を管理制御するプラント、上下水やダム等を管理制御するプラント等が挙げられる。
 設備100には、1または複数の制御対象101が設けられている。制御対象101は、制御の対象となる器具、機械または装置等であり、いわゆるフィールド機器であってよい。例えば、制御対象101は、圧力計、流量計、温度センサ等のセンサ機器、流量制御弁や開閉弁等のバルブ機器、またはファンやモータ等のアクチュエータ機器であってよい。制御対象101は、外部から有線または無線で制御されるが、手動で制御されてもよい。制御対象101は、装置200における制御部210によって制御されてよい。本実施形態では一例として、制御対象101は、操作量MV(Manipulated Variable)についての指示値IV(Instructed value)を制御部210から供給されることで制御されてよい。
 また、設備100には、1または複数のセンサ102が設けられていてよい。各センサ102は、設備100の内外の状態の測定値、つまり、内外の状態を示す物理量の測定値を測定してよい。少なくとも1つのセンサ102は、制御対象101の状態の測定値PV(Process Variable)を測定してよい。測定値PVは、制御対象101を制御した結果の運転状態を示す運転データであってよく、制御の対象となる制御量を示してよい。一例として、測定値PVは、制御対象101の出力そのものを示してもよいし、制御対象101の出力によって変化する様々な値を示してもよい。一例として、測定値PVは、圧力、温度、pH、速度、流量などを示してよい。各センサ102は、測定した測定値PVを装置200に供給してよい。
 <1.2.装置200>
 装置200は、制御対象101を制御するものであり、例えば制御対象101のコントローラであってよい。装置200は、制御対象101の操作量MVについての指示値IVを出力して温度の調節、液面の水位調整または流量の調整などのプロセス制御を実行してよい。
 装置200は、PC(パーソナルコンピュータ)、タブレット型コンピュータ、スマートフォン、ワークステーション、サーバコンピュータ、または汎用コンピュータ等のコンピュータであってよく、複数のコンピュータが接続されたコンピュータシステムであってもよい。このようなコンピュータシステムもまた広義のコンピュータである。また、装置200は、コンピュータ内で1または複数実行可能な仮想コンピュータ環境によって実装されてもよい。これに代えて、装置200は、AI制御用に設計された専用コンピュータであってもよく、専用回路によって実現された専用ハードウェアであってもよい。また、装置200がインターネットに接続可能な場合、装置200は、クラウドコンピューティングにより実現されてもよい。
 装置200は、測定値取得部201と、目標値取得部202と、偏差取得部203と、制御パラメータ取得部204と、制御モデル205と、特定部207と、選択部208と、供給部209と、制御部210と、学習処理部211とを有してよい。なお、これらブロックは、それぞれ機能的に分離された機能ブロックであって、実際のデバイス構成とは必ずしも一致していなくてもよい。即ち、本図において、1つのブロックとして示されている場合であっても、それが1つのデバイスにより構成されるものに限定されない。また、本図において、別々のブロックとして示されている場合であっても、それらが別々のデバイスにより構成されるものに限定されない。
 <1.2―1.測定値取得部201>
 測定値取得部201は、制御対象101に関する状態の測定値PVを取得する。本実施形態では一例として、測定値取得部201は、一の物理量についての測定値PVを一のセンサ102から取得することとして説明するが、複数の物理量のそれぞれについての測定値PVを複数のセンサ102から取得してもよい。測定値取得部201は、取得した測定値PVを偏差取得部203に供給してよい。
 <1.2-2.目標値取得部202>
 目標値取得部202は、制御対象101に関する状態の目標値SP(Set Point)を取得する。目標値取得部202は、測定値取得部201により取得される測定値PVの目標値SPを取得してよい。目標値取得部202は、図示しない入力部を介してオペレータから目標値SPを取得してよい。本実施形態では一例として目標値取得部202は、予め設定された基準目標値を目標値SPとして取得してよい。目標値取得部202は、取得した目標値SPを偏差取得部203に供給してよい。
 <1.2-3.偏差取得部203>
 偏差取得部203は、第1取得部の一例であり、制御対象101に関する状態の測定値PVおよび目標値SPの偏差を取得する。偏差取得部203は、測定値取得部201から測定値PVを、目標値取得部202から目標値SPを取得し、目標値SPから測定値PVを減算して偏差を算出してよい。これに代えて、偏差取得部203は、測定値PVから目標値SPを減算して偏差を算出してもよい。偏差取得部203は、取得した偏差を特定部207および供給部209に供給してよい。偏差取得部203は、取得した偏差を、図示しない記憶部に記憶させてよい。
 <1.2-4.制御パラメータ取得部204>
 制御パラメータ取得部204は、第2取得部の一例であり、制御対象101に対して供給された制御パラメータPを取得する。制御パラメータ取得部204は、後述の制御部210から制御パラメータPを取得してよく、本実施形態では一例として、制御部210が制御対象101に制御パラメータPを供給するごとに当該制御パラメータPを取得してよい。制御パラメータPは、制御対象101の操作量MVについての指示値IVを示してよい。制御対象101がバルブである場合には、制御パラメータPは一例としてバルブ開度を示してよい。制御パラメータ取得部204は、取得した制御パラメータPを供給部209に供給してよい。
 <1.2-5.制御モデル205>
 制御モデル205は、偏差および制御パラメータPが入力されることに応じて、制御対象101に供給することを推奨する推奨制御パラメータPrを出力する。制御モデル205は、偏差と、一の制御対象101に供給された制御パラメータPとが入力されることに応じて、当該一の制御対象101に供給することを推奨する推奨制御パラメータPrを出力してよい。推奨制御パラメータPrは、制御対象101の操作量MVについての、推奨される指示値IVを示してよい。
 制御モデル205は、後述の供給部209から偏差と、制御パラメータPとを入力されることに応じて、後述の制御部210に推奨制御パラメータPrを出力してよい。本実施形態では一例として、制御モデル205には一の物理量についての測定値PVおよび目標値SPの偏差が入力されることとして説明するが、複数の物理量についての測定値PVおよび目標値SPの偏差がそれぞれ入力されることとしてもよい。
 制御モデル205は、制御対象101に関する状態について予め設定された複数の局面にそれぞれ対応付けられた複数のサブ制御モデル206(本実施形態では一例として2つのサブ制御モデル206a,206b)を有し、測定値PVに応じた局面に対応付けられたサブ制御モデル206を用いて推奨制御パラメータPrを出力してよい。局面とは、ある時点での制御対象101に関する状態であってよい。例えば、複数の局面には、測定値PVが目標値SPに近い第1の局面と、測定値PVが目標値SPから遠い第2の局面とが含まれてよい。
 <1.2-5(1).サブ制御モデル206>
 各サブ制御モデル206は、それぞれ偏差、および、制御パラメータの入力に応じ、当該偏差を小さくするために推奨される推奨制御パラメータを出力してよい。複数のサブ制御モデル206は、互いに独立して別々に設けられ、後述の供給部209から互いに独立に偏差および制御パラメータを取得可能であってよい。2つのサブ制御モデル206a、206bは、共通の目標値SPに対応付けられてよく、それぞれ共通の目標値SPと測定値PVとの偏差、および、制御パラメータの入力に応じ、当該偏差を小さくするために推奨される推奨制御パラメータを出力してよい。
 本実施形態では一例としてサブ制御モデル206aは、測定値PVが目標値SPに近い(つまり偏差が小さい)第1の局面において、細かい間隔や粒度(細かさ、精度とも称する)の推奨制御パラメータを出力するものであってよい。サブ制御モデル206aは、速度よりも精度を優先して制御対象101を制御するためのものであってよく、精度重視型のサブ制御モデル206aとも称される。
 サブ制御モデル206bは、測定値PVが目標値SPから遠い(つまり偏差が大きい)第2の局面において、サブ制御モデル206aよりも大きい間隔や粒度の推奨制御パラメータを出力するものであってよい。サブ制御モデル206bは、精度よりも速度を優先して制御対象101を制御するためのものであってよく、速度重視型のサブ制御モデル206bとも称される。
 サブ制御モデル206a,206bには、入力される偏差について、互いに異なる数値範囲が設定されてよい。例えば、サブ制御モデル206aには、入力される偏差の数値範囲として、0を含み絶対値が小さい範囲(一例として、-1から1までの範囲。第1の数値範囲とも称する)が設定されてよく、サブ制御モデル206bには、0を含まず第1の数値範囲よりも絶対値が大きい範囲(一例として、-1以下および1以上の範囲。第2の数値範囲とも称する)が設定されてよい。第1の数値範囲および第2の数値範囲は互いに重複しなくてよく、第1の数値範囲は、第2の数値範囲の内側の範囲であってよい。各サブ制御モデル206は、変更量出力モデル2061と、加算部2062とを有してよい。
 <1.2-5(1-1).変更量出力モデル2061>
 各サブ制御モデル206の各変更量出力モデル2061は、偏差および制御パラメータPが入力されることに応じて、当該制御パラメータPについて変更することを推奨する推奨変更量を出力する。各サブ制御モデル206の変更量出力モデル2061は、互いに異なる範囲の推奨変更量を出力してよい。本実施形態では一例として、サブ制御モデル206aの変更量出力モデル2061(変更量出力モデル2061aとも称する)から出力される推奨変更量は、サブ制御モデル206bの変更量出力モデル2061(変更量出力モデル2061bとも称する)から出力される推奨変更量と比較して、オーダ(桁数とも称する)や間隔、粒度が小さくてよい。変更量出力モデル2061bの推奨変更量は、最大値および最小値と、中間値(一例として0)との3種類のみであってよく、フルアクセル・フルブレーキ制御に近似した制御によって測定値PVを目標値SPに近づけてよい。変更量出力モデル2061aの推奨変更量は、変更量出力モデル2061bよりも多くの値を有してよい。
 変更量出力モデル2061は、推奨変更量を加算部2062に供給してよい。推奨変更量は、制御対象101に対して供給された直近の制御パラメータPから変更することを推奨する変更量を示してよい。本実施形態では一例として推奨変更量は、操作量MVについての直近の指示値IVについての推奨される変更量を示してよい。変更量出力モデル2061は、学習処理部211による学習処理によって生成されてよく、図示しない記憶部に記憶されていてよい。
 <1.2-5(1-2).加算部2062>
 加算部2062は、制御対象101に供給された制御パラメータPと、変更量出力モデル2061から出力される推奨変更量とを加算して推奨制御パラメータPrを算出する。加算部2062は、サブ制御モデル206a,206bにより共有されてよい。加算部2062は、制御対象101に供給された制御パラメータPと、サブ制御モデル206aの変更量出力モデル2061aから出力される推奨変更量とを加算して推奨制御パラメータPrを算出すると共に、制御対象101に供給された制御パラメータPと、サブ制御モデル206bの変更量出力モデル2061bから出力される推奨変更量とを加算して推奨制御パラメータPrを算出してよい。
 加算部2062は、制御部210から供給された直近の制御パラメータPと、変更量出力モデル2061から供給された推奨変更量とを加算して推奨制御パラメータPrを算出してよい。加算部2062は、次の(1)式に示すように、時点t-1での制御パラメータP(t-1)と、時点tでの推奨変更量Δu(t)とを加算して、時点tでの推奨制御パラメータPr(t)を算出してよい。
 Pr(t)=P(t-1)+Δu(t)  (1)
 加算部2062は、制御部210から供給される制御パラメータPを記憶して、推奨制御パラメータPrの算出に用いてよい。加算部2062は、算出された推奨制御パラメータPrを制御部210に供給してよい。
 <1.2-6.特定部207>
 特定部207は、複数の局面のうち、測定値PVに応じた局面を特定する。特定部207は、偏差取得部203から供給される偏差に応じて局面を特定してよい。特定部207は、予め設定された複数の数値範囲の何れに偏差が含まれるかに応じて局面を特定してよい。特定部207は、サブ制御モデル206a,206bに予め設定された、入力される偏差についての第1の数値範囲および第2の数値範囲の何れに対し、偏差取得部203からの偏差が含まれるかに応じて局面を特定してよい。
 特定部207は、数値範囲と、局面の識別情報(局面IDとも称する)とを対応付けて記憶してよく、偏差取得部203からの偏差を含む数値範囲に対応付けられた局面を特定してよい。本実施形態では一例として、特定部207は、偏差取得部203からの偏差が第1の数値範囲に含まれることに応じて第1の局面を、測定値PVに応じた局面として特定してよい。特定部207は、偏差取得部203からの偏差が第2の数値範囲に含まれることに応じて第2の局面を、測定値PVに応じた局面として特定してよい。特定部207は、特定した局面の局面IDを選択部208に供給してよい。
 <1.2-7.選択部208>
 選択部208は、複数のサブ制御モデル206のうち、特定部207により特定された局面に対応するサブ制御モデル206を選択する。選択部208は、各局面の局面IDと、各サブ制御モデル206の識別情報(サブモデルIDとも称する)とを対応付けて記憶してよく、特定部207から供給される局面IDに対応するサブモデルIDのサブ制御モデル206を選択してよい。選択部208は、選択したサブ制御モデル206のサブモデルIDを供給部209に供給してよい。
 <1.2-8.供給部209>
 供給部209は、制御モデル205に対し、偏差取得部203により取得された偏差と、制御パラメータ取得部204により取得された制御パラメータPとを供給する。供給部209は、制御部210から制御対象101に供給された制御パラメータPと、当該制御パラメータPにより制御対象101を制御した結果の運転状態を示す偏差とを制御モデル205に供給してよい。
 供給部209は、制御モデル205における複数のサブ制御モデル206のうち、選択部208により選択されたサブ制御モデル206に対して偏差および制御パラメータを供給してよい。本実施形態では一例として供給部209は、選択部208から供給されるサブモデルIDで示されるサブ制御モデル206に対して供給を行ってよい。
 <1.2-9.制御部210>
 制御部210は、出力部の一例であり、供給部209から制御モデル205に対する供給が行われたことに応じて当該制御モデル205から出力される推奨制御パラメータPrを出力する。本実施形態では一例として、制御部210は、推奨制御パラメータPrを制御パラメータPとして制御対象101に出力して、制御対象101を制御してよい。制御部210は、オペレータから入力される制御パラメータPを制御対象101に出力して制御対象101を制御してもよい。制御部210は、制御対象101の制御周期に合わせて制御パラメータPを制御対象101に出力してよい。
 制御部210は、制御対象101に供給される制御パラメータPを、図示しない記憶部に記憶させてよい。制御部210は、制御対象101に供給される制御パラメータPを、偏差取得部203により取得される偏差と対応付けて記憶部に記憶させてよい。制御部210は、制御対象101に供給される制御パラメータPを、当該制御パラメータPにより制御対象101を制御した結果の運転状態を示す偏差と対応付けて記憶部に記憶させてよい。
 <1.2-10.学習処理部211>
 学習処理部211は、偏差取得部203により取得される偏差と、制御パラメータ取得部204により取得される制御パラメータPと、を含む学習データを用いて各変更量出力モデル2061の学習処理を行う。
 学習処理部211は、偏差および制御パラメータPの入力に応じ、報酬値を高めるために推奨される推奨変更量を出力するようサブ制御モデル2061の学習を行ってよい。推奨変更量は、所定の時点(一例として偏差および制御パラメータPの取得時点)での制御対象101の状態に対応する報酬値(一例としてその時点の測定値PVに応じた値を報酬関数に入力して得られる報酬値)を基準報酬値とした場合に、当該基準報酬値よりも報酬値を高くするために推奨される変更量であってよい。報酬値は、予め設定された報酬関数により定まる値であってよい。報酬関数は、偏差に基づく関数であってよく、一例として、偏差が小さいほど報酬値が大きくなる関数であってよい。なお、偏差取得部203により複数の物理量のそれぞれについて偏差が取得される場合には、報酬関数は複数の偏差の総和に基づく関数であってもよいし、複数の偏差を重み付け加算した結果に基づく関数であってもよい。学習処理部211は、一例として、カーネルダイナミックポリシープログラミング法(Kernel Dynamic Policy Programming、KDPP)のアルゴリズムにより学習を行ってよい。
 学習処理部211は、各変更量出力モデル2061に対し、別々の学習データを用いて学習処理を行ってよい。例えば、学習処理部211は、変更量出力モデル2061aの学習処理を行う場合には、偏差が第1の数値範囲に含まれる学習データを用いて学習処理を行ってよい。一例として、学習処理部211は、測定値PVが目標値SPに近い状態において制御対象101を逐次、制御した場合に取得される学習データを用いて学習処理を行ってよい。学習処理部211は、変更量出力モデル2061bの学習処理を行う場合には、偏差が第2の数値範囲に含まれる学習データを用いて学習処理を行ってもよいし、偏差が第1の数値範囲に含まれる学習データをさらに用いて学習処理を行ってもよい。一例として、学習処理部211は、測定値PVが目標値SPから遠い状態において制御対象101を逐次、制御した場合に取得される学習データを用いて学習処理を行ってよい。
 なお、変更量出力モデル2061aの学習データと、変更量出力モデル2061bの学習データとの間では、偏差の絶対値の数値範囲が互いに異なってよい。例えば、変更量出力モデル2061aの学習データにおける偏差の絶対値の数値範囲は、変更量出力モデル2061bの学習データにおける偏差の絶対値の数値範囲よりも0に近くてよい。一例として、変更量出力モデル2061aの学習データにおける偏差は10、つまり1桁のオーダであってよく、変更量出力モデル2061bの学習データにおける偏差は10のオーダ、つまり2桁の値であってよい。
 また、変更量出力モデル2061aの学習データと、変更量出力モデル2061bの学習データとの間では、制御パラメータPの数値範囲が互いに異なってよい。例えば、変更量出力モデル2061aの学習データにおける制御パラメータPの数値範囲は、測定値PVが目標値SPに安定する場合の制御パラメータPの値(平衡点での制御パラメータPとも称する)を含む第3の数値範囲内の値であってよい。変更量出力モデル2061bの学習データにおける制御パラメータPの数値範囲は、第3の数値範囲よりも外側の第4の数値範囲内の値であってもよいし、第3の数値範囲および第4の数値範囲内の値であってもよい。変更量出力モデル2061aの学習データにおける制御パラメータPは、変更量出力モデル2061bの学習データにおける制御パラメータPと比較して、間隔や粒度が小さくてよい。
 学習処理部211は、目標値SPが同一の値である場合に取得される偏差および制御パラメータPを含む学習データを用いて各変更量出力モデル2061の学習処理を行ってよい。なお、学習データは、実際のシステム1から取得される代わりに、システム1のシミュレータ(図示せず)から取得されてもよい。シミュレータは、任意のシステム同定技術により設備100の実測データなどを用いて作成されてよい。各学習データは、図示しない記憶部に記憶されてよい。
 以上の装置200によれば、制御モデル205では、状態について予め設定された複数の局面にそれぞれ対応付けられた複数のサブ制御モデル206のうち、測定値に応じた局面に対応付けられたサブ制御モデル206が用いられ、偏差取得部203により取得された偏差と、制御パラメータ取得部204により取得された制御パラメータPとが入力されることに応じて推奨制御パラメータPrが出力される。従って、制御モデル205に偏差および制御パラメータPを入力することで、局面に応じた推奨制御パラメータPrを取得することができる。
 また、測定値PVに応じた局面が特定されて、複数のサブ制御モデル206のうち、特定された局面に対応するサブ制御モデル206が選択され、選択されたサブ制御モデル206に偏差と制御パラメータとが供給される。
 従って、局面に応じたサブ制御モデル206を適切に用いて推奨制御パラメータPrを取得することができる。
 また、予め設定された複数の数値範囲の何れに偏差が含まれるかに応じて局面が特定されるので、偏差の大きさに応じた局面、つまり、目標値SPと測定値PVとの乖離度に応じた局面を特定して、局面に応じた推奨制御パラメータPrを取得することができる。
 また、サブ制御モデル206a,206bはそれぞれ測定値PVと、共通の目標値SPとの偏差、および、制御パラメータPの入力に応じ、当該偏差を小さくするために推奨される推奨制御パラメータを出力する。従って、共通の目標値SPと測定値PVとの偏差を小さくするための別々の推奨制御パラメータPrを、局面に応じて取得することができる。よって、平衡点に達する速度を重視して偏差を急激に小さくする推奨制御パラメータPrと、平衡点に達する精度を重視して偏差を穏やかに小さくする推奨制御パラメータPrとを局面に応じて取得することができる。
 また、各サブ制御モデル206では、偏差と、制御対象101に供給済みの制御パラメータPとに応じて当該制御パラメータPの推奨変更量が変更量出力モデル2061から出力され、当該供給済みの制御パラメータPと、当該推奨変更量とが共通の加算部2062によって加算されて推奨制御パラメータPrが算出される。従って、加算部2062をサブ制御モデル206ごとに設ける場合と異なり、装置200の構成を簡略化することができる。
 また、サブ制御モデル206a,206bの変更量出力モデル2061は、互いに異なる範囲の推奨変更量を出力するので、偏差を急激に小さくする推奨制御パラメータPrと、偏差を穏やかに小さくする推奨制御パラメータPrとを局面に応じて確実に取得することができる。
 また、偏差取得部203により取得される偏差と、制御パラメータ取得部204により取得される制御パラメータPと、を含む学習データを用い、偏差および制御パラメータPの入力に応じ、予め設定された報酬関数により定まる報酬値を高めるために推奨される推奨変更量を出力するよう各変更量出力モデル2061の学習処理が行われる。従って、各サブ制御モデル206から適切な推奨制御パラメータPrを取得することができる。
 また、各サブ制御モデル206に対し、別々の学習データを用いて学習処理が行われるので、各サブ制御モデル206から局面に適した推奨制御パラメータPrを取得することができる。
 <2.変更量出力モデル2061>
 図2,図3は、変更量出力モデル2061を示す。なお、図2,図3等において縦軸は制御パラメータP(一例としてバルブの開度の指示値IV)を示し、横軸は偏差を示す。
 変更量出力モデル2061は、偏差および制御パラメータPの組み合わせと、推奨変更量との対応関係を示してよい。本例の変更量出力モデル2061は、偏差および制御パラメータPの組み合わせと、推奨変更量との対応関係をマッピングした操作量マップであってよい。操作量マップは、制御パラメータPと偏差との組み合わせに応じて、それぞれ別々の推奨変更量に対応付けられた複数の領域に分けられてよく、入力される制御パラメータPおよび偏差の組み合わせの座標位置に対応付けられた推奨変更量を出力してよい。このような変更量出力モデル2061を用いると、偏差が0で、かつ、推奨変更量が0の座標点(本図では一例として偏差=0かつ制御パラメータP=約50の点)、つまり平衡点でプロセスが安定状態となる。
 ここで、図2の変更量出力モデル2061は、偏差が小さい局面において細かい間隔や粒度の推奨制御パラメータを出力する変更量出力モデル2061aであり、図3の変更量出力モデル2061は、偏差が大きい局面において大きい間隔や粒度の推奨制御パラメータを出力する変更量出力モデル2061bであってよい。変更量出力モデル2061aには、入力される偏差について-1.00~1.00が第1の数値範囲として設定されてよく、変更量出力モデル2061bには、入力される偏差について-50~50が第2の数値範囲として設定されてよい。変更量出力モデル2061aから出力される推奨変更量は10-2~10-1のオーダであってよく、変更量出力モデル2061bから出力される推奨変更量は10のオーダであってよい。
 なお、変更量出力モデル2061は、操作量マップの全域に関する情報を含んでよい。これに代えて、変更量出力モデル2061は、各領域の境界を示す情報(一例として境界を示す座標や関数式)と、各領域に対応する推奨変更量とのみを含んでもよい。この場合には、変更量出力モデル2061を記憶するための記憶領域を小さくすることができる。
 図4、図5は、変更量出力モデル2061の他の例を示す。図4は図2と同内容の変更量出力モデル2061aを示してよく、図5は図3と同内容の変更量出力モデル2061bを示してよい。これらの図に示すように、変更量出力モデル2061は、偏差および制御パラメータPの組み合わせと、推奨変更量とを対応付けたテーブルであってもよい。
 <3.動作>
 図6は、装置200の動作を示す。装置200は、ステップS11~S23の処理を行うことにより、制御対象101を制御してよい。なお、この動作は装置200が起動されることに応じて開始してよい。また、動作の開始時点においては変更量出力モデル2061の学習処理が完了しており、目標値SPが基準目標値に設定されていてよい。
 ステップS11において測定値取得部201は、制御対象101に関する状態の測定値PVを取得する。目標値取得部202は、設備100のセンサ102から測定値PVを取得してよい。
 ステップS13において偏差取得部203は、目標値SP(本実施形態では一例として基準目標値)と、ステップS13で取得された測定値PVとの偏差を取得する。
 ステップS15において特定部207は、複数の局面のうち、測定値PVに応じた局面を特定する。本実施形態では一例として特定部207は、偏差取得部203からの偏差が第1の数値範囲および第2の数値範囲の何れに含まれるかに応じて第1の局面および第2の局面の何れかを特定してよい。
 ステップS17において選択部208は、複数のサブ制御モデル206のうち、特定部207により特定された局面に対応するサブ制御モデル206を選択する。本実施形態では一例として選択部208は、第1の局面が特定されたことに応じてサブ制御モデル206aを選択し、第2の局面が特定されたことに応じてサブ制御モデル206bを選択してよい。
 ステップS19において制御パラメータ取得部204は、制御対象101に対して供給された制御パラメータPを取得する。制御パラメータ取得部204は、直近の制御周期において制御対象101に供給された制御パラメータPを制御部210から取得してよい。一例として、制御パラメータ取得部204は、後述のステップS23の処理で制御部210から制御対象101に出力される制御パラメータPを取得して一時保存しておき、ステップS19において当該制御パラメータPを読み出してよい。ステップS19が最初に実行される場合、つまりステップS23の処理が実行されていない場合には、制御パラメータ取得部204は、予め設定された制御パラメータPの初期値を取得してよい。
 ステップS21において供給部209は、制御パラメータ取得部204から供給された制御パラメータPと、偏差取得部203から供給された偏差とを制御モデル205に供給する。本実施形態では一例として供給部209は、制御モデル205における複数のサブ制御モデル206のうち、選択されたサブ制御モデル206に偏差および制御パラメータPを供給する。これにより、入力された制御パラメータPおよび偏差に応じた推奨制御パラメータPrが、局面に応じたサブ制御モデル206から出力される。本実施形態では一例として、入力された制御パラメータPおよび偏差に応じた推奨変更量が変更量出力モデル2061から出力され、推奨変更量と、ステップS17で取得された制御パラメータPとが加算部2062により加算されて推奨制御パラメータPrが生成されてよい。
 ステップS23において制御部210は、制御モデル205からの推奨制御パラメータPrを出力する。制御部210は、推奨制御パラメータPrを制御パラメータPとして制御対象101に供給して、制御対象101を制御してよい。ステップS23の処理が終了したら、ステップS11に処理が移行してよい。
 <4.動作例>
 図7は、制御対象101が制御される場合の測定値PVおよび制御パラメータPの推移を示す。図中の横軸は時間(秒)を示し、縦軸は測定値PVおよび制御パラメータPを示す。なお、本図では一例として制御パラメータPは、バルブの開度の指示値IVを示してよい。
 この図に示されるように、本実施形態に係る装置200では、偏差が第2の数値範囲に含まれることに応じて速度重視のサブ制御モデル206bから出力される推奨制御パラメータPrを用いて制御対象101のバルブが制御される。本図では一例として、バルブの開度は±10%の変更量で大まかに制御される。そして、偏差が第1の数値範囲に含まれることに応じて精度重視のサブ制御モデル206aから出力される推奨制御パラメータPrを用いて制御対象101が制御される。本図では一例として、バルブの開度は±0.1%の変更量で細かに制御される。これにより、局面に応じた推奨制御パラメータPrにより制御対象101が制御される結果、高速かつ高精度に測定値PVを目標値SPに維持することができる。
 <5.変形例>
 <5.1.システム1A>
 図8は、変形例に係るシステム1Aを示す。なお、図1に示されたシステム1と略同一のものには同一の符号を付け、説明を省略する。システム1Aは装置200Aを備える。装置200Aは、特定部207Aと、目標値設定部212Aと、制御モデル205Aと、学習処理部211Aとを有してよい。
 <5.1.1.特定部207A>
 特定部207Aは、複数の局面のうち、測定値PVに応じた局面を特定する。本変形例に係る特定部207Aは、測定値取得部201から供給される測定値PVに応じて局面を特定してよい。特定部207Aは、予め設定された複数の数値範囲の何れに測定値が含まれるかに応じて局面を特定してよい。特定部207Aは、制御モデル205Aにおける後述のサブ制御モデル206c~206fに対して予め設定された、測定値PVについての第3の数値範囲から第6の数値範囲の何れに対し、測定値取得部201からの測定値PVが含まれるかに応じて局面を特定してよい。
 特定部207Aは、数値範囲と、各局面の局面IDとを対応付けて記憶してよく、測定値取得部201からの測定値を含む数値範囲に対応付けられた局面を特定してよい。本実施形態では一例として、特定部207Aは、測定値PVが第3の数値範囲に含まれることに応じて第3の局面を、測定値PVに応じた局面として特定してよい。特定部207Aは、測定値PVが第4の数値範囲に含まれることに応じて第4の局面を、測定値PVに応じた局面として特定してよい。特定部207Aは、測定値PVが第5の数値範囲に含まれることに応じて第5の局面を、測定値PVに応じた局面として特定してよい。特定部207Aは、測定値PVが第6の数値範囲に含まれることに応じて第6の局面を、測定値PVに応じた局面として特定してよい。
 特定部207Aは、特定した局面の局面IDを選択部208および目標値設定部212Aに供給してよい。特定部207Aから選択部208に局面IDが供給されることにより、制御モデル205Aにおける複数のサブ制御モデル206のうち、特定された局面に対応するサブ制御モデル206が選択部208によって選択されてよい。
 <5.1.2.目標値設定部212A>
 目標値設定部212Aは、設定部の一例であり、特定部207Aにより特定された局面に応じて目標値SPを設定する。目標値設定部212Aは、後述のサブ制御モデル206c~206fそれぞれの固有目標値の何れかを目標値SPとして設定してよい。目標値設定部212Aは、各サブ制御モデル206c~206fの固有目標値と、各局面の局面IDとを対応付けて記憶してよく、特定部207Aから供給される局面IDに対応する固有目標値を、新たな目標値SPに設定してよい。目標値設定部212Aは、設定した目標値SPを目標値取得部202に供給してよい。これにより、新たな目標値SPが目標値取得部202から偏差取得部203に供給され、偏差取得部203では新たな目標値SPと測定値PVとの偏差が取得されてよい。
 <5.1.3.制御モデル205A>
 制御モデル205Aは、上述の実施形態における制御モデル205と同様にして、偏差および制御パラメータPが入力されることに応じて、制御対象101に供給することを推奨する推奨制御パラメータPrを出力する。本変形例に係る制御モデル205Aは、制御対象101に関する状態について予め設定された複数の局面にそれぞれ対応付けられた4つのサブ制御モデル206(サブ制御モデル206c~206fとも称する)を有してよく、測定値PVに応じた局面に対応付けられたサブ制御モデル206を用いて推奨制御パラメータPrを出力してよい。
 サブ制御モデル206c~206fは目標値の値ごとに設けられてよく、互いに異なる固有目標値に対応付けられてよい。各固有目標値は、目標値設定部212Aにより目標値SPとして用いられてよい。サブ制御モデル206c~206fは、固有目標値と測定値PVとの偏差、および、制御パラメータPの入力に応じ、当該偏差を小さくするために推奨される推奨制御パラメータPrを出力してよい。本変形例では一例として、局面に応じてサブ制御モデル206c~206fが選択部208により選択され、選択されるサブ制御モデル206の固有目標値が目標値設定部212Aにより目標値SPとして設定されるため、サブ制御モデル206c~206fは、それぞれ選択された場合に目標値SPとしての固有目標値と、測定値PVとの偏差、および、制御パラメータPの入力に応じて推奨制御パラメータPrを出力することとなる。
 サブ制御モデル206c~206fは、それぞれ変更量出力モデル2061c~2061fを有してよい。変更量出力モデル2061c~2061fは、偏差および制御パラメータPが入力されることに応じて、当該制御パラメータPについて変更することを推奨する推奨変更量を出力する。変更量出力モデル2061c~2061fは、互いに異なる範囲の推奨変更量を出力してもよいし、同じ範囲の推奨変更量を出力してもよい。変更量出力モデル2061c~2061fから出力される推奨変更量は間隔や粒度が同程度であってよい。
 <5.1-4.学習処理部211A>
 学習処理部211は、上記実施形態における学習処理部211と同様にして各変更量出力モデル2061c~2061fの学習処理を行う。学習処理部211Aは、各変更量出力モデル2061c~2061fに対し、別々の学習データを用いて学習処理を行ってよい。
 例えば、学習処理部211Aは、サブ制御モデル206cの変更量出力モデル2061cの学習処理を行う場合には、偏差が第3の数値範囲に含まれる学習データを用いて学習処理を行ってよい。変更量出力モデル2061cの学習データは、目標値SPをサブ制御モデル206cの固有目標値に予め設定した場合に取得される偏差および制御パラメータPを含んでよい。
 学習処理部211Aは、サブ制御モデル206dの変更量出力モデル2061dの学習処理を行う場合には、偏差が第4の数値範囲に含まれる学習データを用いて学習処理を行ってよい。変更量出力モデル2061dの学習データは、目標値SPをサブ制御モデル206dの固有目標値に予め設定した場合に取得される偏差および制御パラメータPを含んでよい。
 学習処理部211Aは、サブ制御モデル206eの変更量出力モデル2061eの学習処理を行う場合には、偏差が第5の数値範囲に含まれる学習データを用いて学習処理を行ってよい。変更量出力モデル2061eの学習データは、目標値SPをサブ制御モデル206eの固有目標値に予め設定した場合に取得される偏差および制御パラメータPを含んでよい。
 学習処理部211Aは、サブ制御モデル206fの変更量出力モデル2061fの学習処理を行う場合には、偏差が第6の数値範囲に含まれる学習データを用いて学習処理を行ってよい。変更量出力モデル2061fの学習データは、目標値SPをサブ制御モデル206fの固有目標値に予め設定した場合に取得される偏差および制御パラメータPを含んでよい。
 なお、変更量出力モデル2061c~2061fの学習データの間では、偏差の絶対値が同程度であってよく、一例として偏差のオーダが等しくてよい。なお、学習データは、実際のシステム1Aから取得される代わりに、システム1Aのシミュレータ(図示せず)から取得されてもよい。
 以上の装置200Aによれば、予め設定された複数の数値範囲の何れに測定値PVが含まれるかに応じて局面が特定されるので、測定値PVに応じた局面を特定して、局面に応じた推奨制御パラメータPrを取得することができる。
 また、局面に応じてサブ制御モデル206c~206fの何れかの固有目標値が目標値SPとして設定され、サブ制御モデル206c~206fのうち局面に応じたサブ制御モデル206により、目標値SPとしての固有目標値と測定値PVとの偏差、および、制御パラメータPに応じた推奨制御パラメータPrが出力される。従って、プロセスの進行に応じて目標値SPを切り替えつつ、切り替え後の目標値SPと測定値PVとの偏差を小さくするための推奨制御パラメータPrを取得することができる。
 <5.2.対応テーブル>
 図9は、局面IDと、測定値PVの数値範囲と、サブモデルIDと、固有目標値との対応を示す。図中の「K3」~「K6」は、第3の局面から第6の局面の局面IDであってよい。「PVcmin~PVcmax」,「PVdmin~PVdmax」,「PVemin~PVemax」,「PVfmin~PVfmax」はそれぞれ測定値PVの数値範囲を示してよい。「206c」~「206f」はサブ制御モデル206c~206fのサブモデルIDであってよい。「SPc」~「SPf」はサブ制御モデル206c~206fの固有目標値であってよい。
 特定部207Aは、図中の数値範囲の何れに測定値PVが含まれるかに応じて局面IDを特定してよい。選択部208は、図中の各局面IDのうち、特定された局面IDに対応するサブモデルIDのサブ制御モデル206を選択してよい。目標値設定部212Aは、図中の各局面IDのうち、特定された局面IDに対応する固有目標値を目標値SPとして設定してよい。
 <5.3.動作>
 図10は、装置200Aの動作を示す。装置200Aは、ステップS11~S23の処理を行うことにより、制御対象101を制御してよい。なお、この動作は装置200が起動されることに応じて開始してよい。また、動作の開始時点においては変更量出力モデル2061の学習処理が完了していてよい。第2実施形態に係る装置200Aの動作は、第1実施形態に係る装置200の動作と比較してステップS17,S17の間にステップS31~S35の処理を行う点で異なっている。
 ステップS31において特定部207Aは、複数の局面のうち、測定値PVに応じた局面を特定する。本変形例では一例として特定部207Aは、測定値PVに応じた局面として、第3の局面~第6の局面の何れかを特定してよい。
 ステップS33において目標値設定部212Aは、特定部207Aにより特定された局面に応じて目標値SPを設定する。目標値設定部212Aは、サブ制御モデル206c~206fの固有目標値のうち、ステップS31で特定された局面に対応する固有目標値を目標値SPとして設定してよい。
 ステップS35において偏差取得部203は、目標値SPと測定値PVとの偏差を取得する。偏差取得部203は、ステップS33で設定された目標値SPと、ステップS11で取得された測定値PVとの偏差を取得してよい。ステップS35の処理が終了したら、ステップS17に処理が移行してよい。これにより、複数のサブ制御モデル206c~206fのうち、ステップS31で特定された局面に対応するサブ制御モデル206が選択される。
 <5.4.動作例>
 図11は、制御対象101が制御される場合の測定値PVの推移を示す。図中の横軸は時間(秒)を示し、縦軸は測定値PVを示す。なお、本図では一例として制御パラメータPは、炉内の温度の指示値IVを示してよい。
 この図に示されるように、本変形例に係る装置200Aでは、プロセスの進行に応じて測定値PVが第3の数値範囲に含まれることに応じて第3の局面が特定される。そして、第3の局面に応じた目標値SPと測定値PVとの偏差、および、制御パラメータPがサブ制御モデル206cに入力されて出力される推奨制御パラメータPrを用いて、制御対象101が制御される。
 同様に、測定値PVが第4の数値範囲に含まれることに応じて第4の局面が特定される。そして、第4の局面に応じた目標値SPと測定値PVとの偏差、および、制御パラメータPがサブ制御モデル206dに入力されて出力される推奨制御パラメータPrを用いて、制御対象101が制御される。
 同様に、測定値PVが第5の数値範囲に含まれることに応じて第5の局面が特定される。そして、第5の局面に応じた目標値SPと測定値PVとの偏差、および、制御パラメータPがサブ制御モデル206eに入力されて出力される推奨制御パラメータPrを用いて、制御対象101が制御される。
 そして、測定値PVが第6の数値範囲に含まれることに応じて第6の局面が特定される。そして、第6の局面に応じた目標値SPと測定値PVとの偏差、および、制御パラメータPがサブ制御モデル206fに入力されて出力される推奨制御パラメータPrを用いて、制御対象101が制御される。
 <6.他の変形例>
 なお、上記の実施形態および変形例においては、制御モデル205,205Aが変更量出力モデル2061と加算部2062とを有することとして説明したが、偏差および制御パラメータPが入力されることに応じて推奨制御パラメータPrを出力する限りにおいて、これらを有しなくてもよい。この場合には、制御モデル205,205Aは、カーネルダイナミックポリシープログラミング法や深層強化学習、サポートベクトルマシン、ロジスティック回帰、決定木、ニューラルネットワークなどのアルゴリズムにより生成された学習モデルであってよい。学習処理部211,211Aは、偏差取得部203により取得された偏差と、制御パラメータ取得部204により取得された制御パラメータPと、を含む学習データを用いて制御モデル205,205Aの学習処理を行ってよい。
 また、変更量出力モデル2061をカーネルダイナミックポリシープログラミング法の学習アルゴリズムにより生成されたマップやテーブルとして説明したが、深層強化学習やサポートベクトルマシン、ロジスティック回帰、決定木、ニューラルネットワークなどの他のアルゴリズムにより生成されてもよいし、マップやテーブルとは異なる他の形態のモデルであってもよい。
 また、変更量出力モデル2061には偏差および制御パラメータPが入力されることとして説明したが、他の値がさらに入力されてよい。他の値は、例えばセンサ102による測定値の微分値や積分値であってよい。
 また、装置200,200Aが測定値取得部201、目標値取得部202、学習処理部211を有することとして説明したが、これらの何れかを有しなくてもよい。装置200,200Aが測定値取得部201および目標値取得部202を有しない場合には、偏差取得部203は外部機器で算出された偏差を取得してよい。装置200,200Aが学習処理部211,211Aを有しない場合には、予め外部機器で学習された変更量出力モデル2061を有してよい。
 また、各サブ制御モデル206は独立して別々に設けられ供給部209から独立に偏差及び制御パラメータを供給されることとして説明したが、統合して設けられてもよい。この場合には各サブ制御モデル206は、制御モデル205,205Aの各部分を構成してよい。一例として、制御モデル205、205Aは、偏差および制御パラメータPの組み合わせと、推奨制御パラメータPrとの対応関係をマッピングした操作量マップであってよく、各サブ制御モデル206は当該操作量マップの中央部分や周辺部分であってよい。複数のサブ制御モデル206が統合して制御モデル205を構成する場合には、装置200,200Aは特定部207および選択部208を有しなくてよく、供給部209が制御モデル205,205Aに対して偏差および制御パラメータPを入力することに応じ、当該制御モデル205,205Aにおける各サブ制御モデル206のうち、該当のサブ制御モデル206の部分から推奨制御パラメータPrが出力されてよい。このような制御モデル205,205Aは、学習処理部211,211Aによって生成される別々のサブ制御モデル206に対して共通の入力部を設け、供給部209から供給される偏差および制御パラメータPが数値範囲に応じて何れかのサブ制御モデル206に入力されるよう設定することで生成されてよい。
 また、上記の実施形態においては制御モデル205には、共通の目標値SPに対応付けられた2つのサブ制御モデル206a,206bを有することとして説明したが、共通の目標値SPに対応付けられた3つ以上のサブ制御モデル206を有してもよい。また、制御モデル205は、目標値が異なる他のサブ制御モデル206をさらに有してもよい。
 また、本発明の様々な実施形態は、フローチャートおよびブロック図を参照して記載されてよく、ここにおいてブロックは、(1)操作が実行されるプロセスの段階または(2)操作を実行する役割を持つ装置のセクションを表わしてよい。特定の段階およびセクションが、専用回路、コンピュータ可読媒体上に格納されるコンピュータ可読命令と共に供給されるプログラマブル回路、および/またはコンピュータ可読媒体上に格納されるコンピュータ可読命令と共に供給されるプロセッサによって実装されてよい。専用回路は、デジタルおよび/またはアナログハードウェア回路を含んでよく、集積回路(IC)および/またはディスクリート回路を含んでよい。プログラマブル回路は、論理AND、論理OR、論理XOR、論理NAND、論理NOR、および他の論理操作、フリップフロップ、レジスタ、フィールドプログラマブルゲートアレイ(FPGA)、プログラマブルロジックアレイ(PLA)等のようなメモリ要素等を含む、再構成可能なハードウェア回路を含んでよい。
 コンピュータ可読媒体は、適切なデバイスによって実行される命令を格納可能な任意の有形なデバイスを含んでよく、その結果、そこに格納される命令を有するコンピュータ可読媒体は、フローチャートまたはブロック図で指定された操作を実行するための手段を作成すべく実行され得る命令を含む、製品を備えることになる。コンピュータ可読媒体の例としては、電子記憶媒体、磁気記憶媒体、光記憶媒体、電磁記憶媒体、半導体記憶媒体等が含まれてよい。コンピュータ可読媒体のより具体的な例としては、フロッピー(登録商標)ディスク、ディスケット、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリメモリ(ROM)、消去可能プログラマブルリードオンリメモリ(EPROMまたはフラッシュメモリ)、電気的消去可能プログラマブルリードオンリメモリ(EEPROM)、静的ランダムアクセスメモリ(SRAM)、コンパクトディスクリードオンリメモリ(CD-ROM)、デジタル多用途ディスク(DVD)、ブルーレイ(RTM)ディスク、メモリスティック、集積回路カード等が含まれてよい。
 コンピュータ可読命令は、アセンブラ命令、命令セットアーキテクチャ(ISA)命令、マシン命令、マシン依存命令、マイクロコード、ファームウェア命令、状態設定データ、またはSmalltalk(登録商標)、JAVA(登録商標)、C++等のようなオブジェクト指向プログラミング言語、および「C」プログラミング言語または同様のプログラミング言語のような従来の手続型プログラミング言語を含む、1または複数のプログラミング言語の任意の組み合わせで記述されたソースコードまたはオブジェクトコードのいずれかを含んでよい。
 コンピュータ可読命令は、汎用コンピュータ、特殊目的のコンピュータ、若しくは他のプログラム可能なデータ処理装置のプロセッサまたはプログラマブル回路に対し、ローカルにまたはローカルエリアネットワーク(LAN)、インターネット等のようなワイドエリアネットワーク(WAN)を介して提供され、フローチャートまたはブロック図で指定された操作を実行するための手段を作成すべく、コンピュータ可読命令を実行してよい。プロセッサの例としては、コンピュータプロセッサ、処理ユニット、マイクロプロセッサ、デジタル信号プロセッサ、コントローラ、マイクロコントローラ等を含む。
 図12は、本発明の複数の態様が全体的または部分的に具現化されてよいコンピュータ2200の例を示す。コンピュータ2200にインストールされたプログラムは、コンピュータ2200に、本発明の実施形態に係る装置に関連付けられる操作または当該装置の1または複数のセクションとして機能させることができ、または当該操作または当該1または複数のセクションを実行させることができ、および/またはコンピュータ2200に、本発明の実施形態に係るプロセスまたは当該プロセスの段階を実行させることができる。そのようなプログラムは、コンピュータ2200に、本明細書に記載のフローチャートおよびブロック図のブロックのうちのいくつかまたはすべてに関連付けられた特定の操作を実行させるべく、CPU2212によって実行されてよい。
 本実施形態によるコンピュータ2200は、CPU2212、RAM2214、グラフィックコントローラ2216、およびディスプレイデバイス2218を含み、それらはホストコントローラ2210によって相互に接続されている。コンピュータ2200はまた、通信インタフェース2222、ハードディスクドライブ2224、DVD-ROMドライブ2226、およびICカードドライブのような入/出力ユニットを含み、それらは入/出力コントローラ2220を介してホストコントローラ2210に接続されている。コンピュータはまた、ROM2230およびキーボード2242のようなレガシの入/出力ユニットを含み、それらは入/出力チップ2240を介して入/出力コントローラ2220に接続されている。
 CPU2212は、ROM2230およびRAM2214内に格納されたプログラムに従い動作し、それにより各ユニットを制御する。グラフィックコントローラ2216は、RAM2214内に提供されるフレームバッファ等またはそれ自体の中にCPU2212によって生成されたイメージデータを取得し、イメージデータがディスプレイデバイス2218上に表示されるようにする。
 通信インタフェース2222は、ネットワークを介して他の電子デバイスと通信する。ハードディスクドライブ2224は、コンピュータ2200内のCPU2212によって使用されるプログラムおよびデータを格納する。DVD-ROMドライブ2226は、プログラムまたはデータをDVD-ROM2201から読み取り、ハードディスクドライブ2224にRAM2214を介してプログラムまたはデータを提供する。ICカードドライブは、プログラムおよびデータをICカードから読み取り、および/またはプログラムおよびデータをICカードに書き込む。
 ROM2230はその中に、アクティブ化時にコンピュータ2200によって実行されるブートプログラム等、および/またはコンピュータ2200のハードウェアに依存するプログラムを格納する。入/出力チップ2240はまた、様々な入/出力ユニットをパラレルポート、シリアルポート、キーボードポート、マウスポート等を介して、入/出力コントローラ2220に接続してよい。
 プログラムが、DVD-ROM2201またはICカードのようなコンピュータ可読媒体によって提供される。プログラムは、コンピュータ可読媒体から読み取られ、コンピュータ可読媒体の例でもあるハードディスクドライブ2224、RAM2214、またはROM2230にインストールされ、CPU2212によって実行される。これらのプログラム内に記述される情報処理は、コンピュータ2200に読み取られ、プログラムと、上記様々なタイプのハードウェアリソースとの間の連携をもたらす。装置または方法が、コンピュータ2200の使用に従い情報の操作または処理を実現することによって構成されてよい。
 例えば、通信がコンピュータ2200および外部デバイス間で実行される場合、CPU2212は、RAM2214にロードされた通信プログラムを実行し、通信プログラムに記述された処理に基づいて、通信インタフェース2222に対し、通信処理を命令してよい。通信インタフェース2222は、CPU2212の制御下、RAM2214、ハードディスクドライブ2224、DVD-ROM2201、またはICカードのような記録媒体内に提供される送信バッファ処理領域に格納された送信データを読み取り、読み取られた送信データをネットワークに送信し、またはネットワークから受信された受信データを記録媒体上に提供される受信バッファ処理領域等に書き込む。
 また、CPU2212は、ハードディスクドライブ2224、DVD-ROMドライブ2226(DVD-ROM2201)、ICカード等のような外部記録媒体に格納されたファイルまたはデータベースの全部または必要な部分がRAM2214に読み取られるようにし、RAM2214上のデータに対し様々なタイプの処理を実行してよい。CPU2212は次に、処理されたデータを外部記録媒体にライトバックする。
 様々なタイプのプログラム、データ、テーブル、およびデータベースのような様々なタイプの情報が記録媒体に格納され、情報処理を受けてよい。CPU2212は、RAM2214から読み取られたデータに対し、本開示の随所に記載され、プログラムの命令シーケンスによって指定される様々なタイプの操作、情報処理、条件判断、条件分岐、無条件分岐、情報の検索/置換等を含む、様々なタイプの処理を実行してよく、結果をRAM2214に対しライトバックする。また、CPU2212は、記録媒体内のファイル、データベース等における情報を検索してよい。例えば、各々が第2の属性の属性値に関連付けられた第1の属性の属性値を有する複数のエントリが記録媒体内に格納される場合、CPU2212は、第1の属性の属性値が指定される、条件に一致するエントリを当該複数のエントリの中から検索し、当該エントリ内に格納された第2の属性の属性値を読み取り、それにより予め定められた条件を満たす第1の属性に関連付けられた第2の属性の属性値を取得してよい。
 上で説明したプログラムまたはソフトウェアモジュールは、コンピュータ2200上またはコンピュータ2200近傍のコンピュータ可読媒体に格納されてよい。また、専用通信ネットワークまたはインターネットに接続されたサーバーシステム内に提供されるハードディスクまたはRAMのような記録媒体が、コンピュータ可読媒体として使用可能であり、それによりプログラムを、ネットワークを介してコンピュータ2200に提供する。
 以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。上記実施の形態に、多様な変更または改良を加えることが可能であることが当業者に明らかである。その様な変更または改良を加えた形態も本発明の技術的範囲に含まれ得ることが、請求の範囲の記載から明らかである。
 請求の範囲、明細書、および図面中において示した装置、システム、プログラム、および方法における動作、手順、ステップ、および段階等の各処理の実行順序は、特段「より前に」、「先立って」等と明示しておらず、また、前の処理の出力を後の処理で用いるのでない限り、任意の順序で実現しうることに留意すべきである。請求の範囲、明細書、および図面中の動作フローに関して、便宜上「まず、」、「次に、」等を用いて説明したとしても、この順で実施することが必須であることを意味するものではない。
 1 システム
 100 設備
 101 制御対象
 102 センサ
 200 装置
 201 測定値取得部
 202 目標値取得部
 203 偏差取得部
 204 制御パラメータ取得部
 205 制御モデル
 206 サブ制御モデル
 207 特定部
 208 選択部
 209 供給部
 210 制御部
 211 学習処理部
 212 目標値設定部
 206 サブ制御モデル
 2061 変更量出力モデル
 2062 加算部
 2200 コンピュータ
 2201 DVD-ROM
 2210 ホストコントローラ
 2212 CPU
 2214 RAM
 2216 グラフィックコントローラ
 2218 ディスプレイデバイス
 2220 入/出力コントローラ
 2222 通信インタフェース
 2224 ハードディスクドライブ
 2226 DVD-ROMドライブ
 2230 ROM
 2240 入/出力チップ
 2242 キーボード

Claims (12)

  1.  制御対象に関する状態の測定値と、目標値との偏差を取得する第1取得部と、
     前記制御対象に対して供給された制御パラメータを取得する第2取得部と、
     前記状態について予め設定された複数の局面にそれぞれ対応付けられた複数のサブ制御モデルを有する制御モデルであって、前記複数のサブ制御モデルのうち前記測定値に応じた局面に対応付けられたサブ制御モデルを用いて、偏差および制御パラメータが入力されることに応じて、前記制御対象に供給することを推奨する推奨制御パラメータを出力する制御モデルに対し、前記第1取得部により取得された前記偏差と、前記第2取得部により取得された前記制御パラメータとを供給する供給部と、
     前記供給部から前記制御モデルに対する供給が行われたことに応じて当該制御モデルから出力される前記推奨制御パラメータを出力する出力部と、
     を備える装置。
  2.  前記複数の局面のうち、前記測定値に応じた局面を特定する特定部と、
     前記複数のサブ制御モデルのうち、前記特定部により特定された局面に対応するサブ制御モデルを選択する選択部と、
     をさらに備え、
     前記供給部は、前記複数のサブ制御モデルのうち、前記選択部により選択されたサブ制御モデルに対し、前記第1取得部により取得された前記偏差と、前記第2取得部により取得された前記制御パラメータとを供給する、請求項1に記載の装置。
  3.  前記特定部は、予め設定された複数の数値範囲の何れに前記偏差が含まれるかに応じて局面を特定する、請求項2に記載の装置。
  4.  前記複数のサブ制御モデルのうち、少なくとも2つのサブ制御モデルは、それぞれ測定値と、共通の目標値との偏差、および、制御パラメータの入力に応じ、当該偏差を小さくするために推奨される推奨制御パラメータを出力する、請求項2に記載の装置。
  5.  前記特定部は、予め設定された複数の数値範囲の何れに前記測定値が含まれるかに応じて局面を特定する、請求項2に記載の装置。
  6.  前記複数のサブ制御モデルのうち、少なくとも2つのサブ制御モデルは、互いに異なる固有目標値に対応付けられて、測定値と、当該固有目標値との偏差、および、制御パラメータの入力に応じ、当該偏差を小さくするために推奨される推奨制御パラメータを出力し、
     当該装置は、
     前記特定部により特定された局面に応じて前記少なくとも2つのサブ制御モデルの前記固有目標値の何れかを前記目標値として設定する設定部をさらに備える、請求項2に記載の装置。
  7.  各サブ制御モデルは、
     偏差および制御パラメータが入力されることに応じて、当該制御パラメータについて変更することを推奨する推奨変更量を出力する変更量出力モデルと、
     前記制御対象に供給された前記制御パラメータと、前記変更量出力モデルから出力される前記推奨変更量とを加算して前記推奨制御パラメータを算出する加算部と、
     を有し、
     前記複数のサブ制御モデルは、前記加算部を共有する、請求項1に記載の装置。
  8.  前記複数のサブ制御モデルのうち、少なくとも2つのサブ制御モデルにおける前記変更量出力モデルは、互いに異なる範囲の前記推奨変更量を出力する、請求項7に記載の装置。
  9.  前記第1取得部により取得される偏差と、前記第2取得部により取得される制御パラメータと、を含む学習データを用い、偏差および制御パラメータの入力に応じ、予め設定された報酬関数により定まる報酬値を高めるために推奨される前記推奨変更量を出力するよう各変更量出力モデルの学習処理を行う学習処理部をさらに備える、請求項8に記載の装置。
  10.  前記学習処理部は、各変更量出力モデルに対し、別々の学習データを用いて学習処理を行う、請求項9に記載の装置。
  11.  制御対象に関する状態の測定値と、目標値との偏差を取得する第1取得段階と、
     前記制御対象に対して供給された制御パラメータを取得する第2取得段階と、
     前記状態について予め設定された複数の局面にそれぞれ対応付けられた複数のサブ制御モデルを有する制御モデルであって、前記複数のサブ制御モデルのうち前記測定値に応じた局面に対応付けられたサブ制御モデルを用いて、偏差および制御パラメータが入力されることに応じて、前記制御対象に供給することを推奨する推奨制御パラメータを出力する制御モデルに対し、前記第1取得段階により取得された前記偏差と、前記第2取得段階により取得された前記制御パラメータとを供給する第1供給段階と、
     前記第1供給段階により前記制御モデルに対する供給が行われたことに応じて当該制御モデルから出力される前記推奨制御パラメータを出力する出力段階と、
     を備える方法。
  12.  コンピュータを、
     制御対象に関する状態の測定値と、目標値との偏差を取得する第1取得部と、
     前記制御対象に対して供給された制御パラメータを取得する第2取得部と、
     前記状態について予め設定された複数の局面にそれぞれ対応付けられた複数のサブ制御モデルを有する制御モデルであって、前記複数のサブ制御モデルのうち前記測定値に応じた局面に対応付けられたサブ制御モデルを用いて、偏差および制御パラメータが入力されることに応じて、前記制御対象に供給することを推奨する推奨制御パラメータを出力する制御モデルに対し、前記第1取得部により取得された前記偏差と、前記第2取得部により取得された前記制御パラメータとを供給する供給部と、
     前記供給部から前記制御モデルに対する供給が行われたことに応じて当該制御モデルから出力される前記推奨制御パラメータを出力する出力部
     として機能させるプログラム。
PCT/JP2023/040041 2022-11-11 2023-11-07 装置、方法およびプログラム WO2024101351A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022180701A JP2024070308A (ja) 2022-11-11 2022-11-11 装置、方法およびプログラム
JP2022-180701 2022-11-11

Publications (1)

Publication Number Publication Date
WO2024101351A1 true WO2024101351A1 (ja) 2024-05-16

Family

ID=91032470

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/040041 WO2024101351A1 (ja) 2022-11-11 2023-11-07 装置、方法およびプログラム

Country Status (2)

Country Link
JP (1) JP2024070308A (ja)
WO (1) WO2024101351A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019519871A (ja) * 2016-04-28 2019-07-11 ヴェリトーン アルファ インコーポレイテッド 予測を使用してターゲットシステムを制御すること
JP2019204178A (ja) * 2018-05-21 2019-11-28 株式会社トランストロン 制御パラメータ計算方法、制御パラメータ計算プログラム、及び制御パラメータ計算装置
JP2021086283A (ja) * 2019-11-26 2021-06-03 横河電機株式会社 装置、方法およびプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019519871A (ja) * 2016-04-28 2019-07-11 ヴェリトーン アルファ インコーポレイテッド 予測を使用してターゲットシステムを制御すること
JP2019204178A (ja) * 2018-05-21 2019-11-28 株式会社トランストロン 制御パラメータ計算方法、制御パラメータ計算プログラム、及び制御パラメータ計算装置
JP2021086283A (ja) * 2019-11-26 2021-06-03 横河電機株式会社 装置、方法およびプログラム

Also Published As

Publication number Publication date
JP2024070308A (ja) 2024-05-23

Similar Documents

Publication Publication Date Title
US11119451B2 (en) Apparatus, method, program, and recording medium
US20210157280A1 (en) Apparatus, method and storage medium
CN113568379B (zh) 控制辅助装置、控制辅助方法、计算机可读介质及控制系统
CN113205187A (zh) 学习装置、学习方法及计算机可读介质、判定装置、判定方法及计算机可读介质
US20220307944A1 (en) Apparatus, method, and computer-readable medium
US20230129189A1 (en) Apparatus, method, and computer readable medium
WO2024101351A1 (ja) 装置、方法およびプログラム
JP2022151049A (ja) 装置、方法およびプログラム
JP7548090B2 (ja) シミュレーション装置、シミュレーションシステム、シミュレーション方法、およびシミュレーションプログラム
US20220351101A1 (en) Evaluation apparatus, evaluation method, recording medium having recorded thereon evaluation program, control apparatus and recording medium having recorded thereon control program
US20220291671A1 (en) Control apparatus, control method and recording medium having recorded thereon control program
CN115705038A (zh) 学习装置、学习方法、记录介质以及控制装置
JP2024067631A (ja) 装置、方法およびプログラム
JP2018156231A (ja) エネルギー管理システムおよびエネルギー管理方法
JP7552643B2 (ja) データ処理装置、データ処理方法、及びプログラム
US20230384742A1 (en) Model selection apparatus, model selection method, and non-transitory computer readable medium
JP7517313B2 (ja) 装置、方法およびプログラム
JP7409345B2 (ja) 学習処理装置、制御装置、学習処理方法、制御方法、学習プログラムおよび制御プログラム
EP4053651A1 (en) Determination apparatus, determination method, and determination program
EP4063984B1 (en) Apparatus, method, and program for the estimation of a state of a device
JP7459856B2 (ja) 装置、方法およびプログラム
US20230305501A1 (en) Model verification apparatus, model verification method, and non-transitory computer readable medium
JP2023174330A (ja) リモート制御装置、ローカル制御装置、学習処理装置、方法、およびプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23888698

Country of ref document: EP

Kind code of ref document: A1