RU2780340C2 - System for assistance in setting of installation operating mode, training device, and device for assistance in setting of operating mode - Google Patents
System for assistance in setting of installation operating mode, training device, and device for assistance in setting of operating mode Download PDFInfo
- Publication number
- RU2780340C2 RU2780340C2 RU2020140013A RU2020140013A RU2780340C2 RU 2780340 C2 RU2780340 C2 RU 2780340C2 RU 2020140013 A RU2020140013 A RU 2020140013A RU 2020140013 A RU2020140013 A RU 2020140013A RU 2780340 C2 RU2780340 C2 RU 2780340C2
- Authority
- RU
- Russia
- Prior art keywords
- control
- control device
- devices
- setting
- adjustment parameter
- Prior art date
Links
- 238000009434 installation Methods 0.000 title claims abstract description 32
- 238000000034 method Methods 0.000 claims abstract description 36
- 230000002787 reinforcement Effects 0.000 claims description 25
- 238000005259 measurement Methods 0.000 claims description 10
- 230000004044 response Effects 0.000 claims description 8
- 238000011156 evaluation Methods 0.000 claims description 7
- 230000000694 effects Effects 0.000 abstract description 3
- 239000000126 substance Substances 0.000 abstract description 3
- ATUOYWHBWRKTHZ-UHFFFAOYSA-N propane Chemical compound CCC ATUOYWHBWRKTHZ-UHFFFAOYSA-N 0.000 description 26
- 230000001537 neural Effects 0.000 description 19
- 239000001294 propane Substances 0.000 description 19
- 230000006399 behavior Effects 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 9
- 239000007788 liquid Substances 0.000 description 8
- 239000003507 refrigerant Substances 0.000 description 8
- 238000001816 cooling Methods 0.000 description 4
- 239000003795 chemical substances by application Substances 0.000 description 3
- 239000000470 constituent Substances 0.000 description 2
- 230000000875 corresponding Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000006011 modification reaction Methods 0.000 description 2
- 230000002349 favourable Effects 0.000 description 1
- 238000010438 heat treatment Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
Images
Abstract
Description
Область техники, к которой относится изобретениеThe field of technology to which the invention belongs
[0001] Настоящее изобретение относится к системе поддержки настройки режима работы установки для поддержки настройки режима работы установки и к обучающему устройству и устройству поддержки настройки режима работы, которые могут быть использованы в системе настройки режима работы установки.[0001] The present invention relates to a plant operation mode setting support system for plant operation mode setting support, and a teaching device and an operation mode setting support device that can be used in the plant operation mode setting system.
Уровень техникиState of the art
[0002] В установках для производства химических продуктов и промышленных изделий последовательность процессов выполняется посредством большого числа устройств, таких как реактор и нагревательная печь. Большое число манипуляционных переменных для управления большим числом устройств соответственно изменяют состояние процесса. В установках, в которых выполняется многоэтапный процесс, большое число манипуляционных переменных могут взаимодействовать друг с другом сложным образом. Следовательно, нелегко прогнозировать влияние от изменения манипуляционной переменной, и параметр регулировки устройства управления для определения манипуляционной переменной задается опытным оператором, чтобы эксплуатировать установку.[0002] In installations for the production of chemical products and industrial products, the sequence of processes is carried out through a large number of devices, such as a reactor and a heating furnace. A large number of manipulation variables to control a large number of devices change the state of the process accordingly. In installations in which a multi-step process is performed, a large number of manipulation variables may interact with each other in complex ways. Therefore, it is not easy to predict the effect of changing the manipulated variable, and the adjustment parameter of the control device for determining the manipulated variable is set by an experienced operator to operate the plant.
[0003] Например, патентный документ 1 и патентный документ 2 предлагают технологию управления установкой типа этой, которая включает в себя множество систем управления, которые могут взаимно мешать друг другу.[0003] For example,
[0004] Патентный документ 1 описывает технологию предоставления, между тремя или более системами контуров управления, элемента невмешательства, который отменяет взаимные помехи между контурами управления. Элемент невмешательства вычисляется посредством аппроксимации передаточной функции каждого контура управления и передаточной функции вмешивающегося элемента, вмешивающегося из другого контура управления, к форме реакции системы запаздывания первого порядка, которая включает в себя пустую трату времени.[0004]
[0005] Патентный документ 2 описывает технологию построения соотношения между позицией клапана для клапана управления и переменной, представляющей состояние процесса, которое изменяется в зависимости от позиции клапана, в форме уравнения в устойчивом состоянии, вычисления CV-значения, указывающего целевую позицию клапана для клапана управления на основе выражения аналитического решения, полученного для каждого клапана управления согласно уравнению, вычисления CV-значения, указывающего текущую позицию клапана для клапана управления, определенную посредством обнаруженного значения, и вычисления отклонения e между двумя CV-значениями и воздействие на состояние процесса для управления с обратной связью на основе отклонения e.[0005]
[0006] [патентный документ 1] JP2007-11866[0006] [patent document 1] JP2007-11866
[патентный документ 2] JP2010-97254[patent document 2] JP2010-97254
Проблема, которая должна быть решена изобретениемThe problem to be solved by the invention
[0007] Трудно аппроксимировать математически поведение значения процесса в каждой из множества систем управления с высокой точностью. Более трудным является прогноз поведения значения установки на основе математически аппроксимированного представления множества систем управления с высокой точностью при наличии непрогнозируемого нарушения работы во множестве систем управления, которые могут взаимодействовать сложным образом. Требуется технология, которая предоставляет возможность устойчивой работы установки, даже когда нарушение работы, которое может дестабилизировать характер работы установки, случается.[0007] It is difficult to mathematically approximate the behavior of a process value in each of a variety of control systems with high accuracy. It is more difficult to predict the behavior of a setting value based on a mathematically approximate representation of a plurality of control systems with high accuracy in the presence of an unpredictable malfunction in a plurality of control systems that may interact in complex ways. A technology is required that enables stable operation of the plant even when a disruption that can destabilize the operation of the plant occurs.
[0008] На этом фоне, общей целью настоящего изобретения является предоставление технологии для реализации устойчивой работы установки.[0008] Against this background, the general purpose of the present invention is to provide technology for realizing sustainable plant operation.
Средство решения проблемыTroubleshooter
[0009] Система поддержки настройки режима работы установки согласно варианту осуществления настоящего изобретения является системой поддержки настройки режима работы установки для поддержки настройки режима работы установки, которая выполняет процесс, сформированный посредством множества устройств, система включает в себя: множество устройств управления, которые воздействуют на одно или более управляемых устройств во множестве устройств для управления с обратной связью соответственно; и устройство поддержки настройки режима работы, который обеспечивает объединенную поддержку для настройки множества устройств управления, которые выполняют множество задач управления с обратной связью соответственно и независимо. Каждое из множества устройств управления включает в себя: блок получения измеренного значения, который получает измеренное значение, указывающее состояние управляемого устройства; блок получения параметра регулировки устройства управления, который получает параметр регулировки устройства управления для определения манипуляционной переменной для управления, вводимой в управляемое устройство; блок определения манипуляционной переменной для управления, который определяет манипуляционную переменную для управления на основе измеренного значения, полученного посредством блока получения измеренного значения, и параметра регулировки устройства управления, полученного посредством блока получения параметра регулировки устройства управления; и блок ввода манипуляционной переменной для управления, который вводит манипуляционную переменную для управления, определенную посредством блока определения манипуляционной переменной для управления, в управляемое устройство. Устройство поддержки настройки режима работы включает в себя: блок получения множества измеренных значений, который получает множество измеренных значений, указывающих состояния множества управляемых устройств, управляемых посредством множества устройств управления, соответственно; и блок определения параметра регулировки устройства управления, который определяет, на основе множества измеренных значений, полученных посредством блока получения множества измеренных значений, множество параметров регулировки устройства управления, используемых каждым из множества устройств управления для определения манипуляционных переменных для управления, которые должны быть введены во множество управляемых устройств, согласно политике, изученной посредством глубокого обучения с подкреплением.[0009] A plant operation mode setting support system according to an embodiment of the present invention is a plant operation mode setting support system for supporting plant operation mode setting that executes a process formed by a plurality of devices, the system includes: a plurality of control devices that act on one or more controllable devices in a plurality of devices for feedback control, respectively; and an operation mode setting support device that provides integrated support for setting a plurality of control devices that perform a plurality of feedback control tasks respectively and independently. Each of the plurality of control devices includes: a measured value acquisition unit that obtains a measured value indicative of a state of the device to be controlled; a control device adjustment parameter obtaining unit that obtains a control device adjustment parameter for determining a manipulated variable for control input to the controlled device; a manipulated variable determination unit for control that determines a manipulated variable for control based on the measured value obtained by the measured value acquisition unit and the control device adjustment parameter obtained by the control device adjustment parameter acquisition unit; and a manipulation variable input unit for control that inputs the manipulation variable for control determined by the manipulation variable for control determination unit to the controlled device. The operation mode setting support device includes: a plurality of measured value acquisition unit that acquires a plurality of measured values indicative of states of a plurality of controllable devices controlled by the plurality of control devices, respectively; and a control device adjustment parameter determination unit that determines, based on the plurality of measured values obtained by the plurality of measured value acquisition unit, a plurality of control device adjustment parameters used by each of the plurality of control devices to determine manipulated variables for control to be input to the plurality of managed devices, according to the policy learned through deep reinforcement learning.
[0010] Блок определения параметра регулировки устройства управления может определять множество параметров регулировки устройства управления согласно политике, изученной посредством глубокого обучения с подкреплением для изучения политики для определения множества параметров регулировки устройства управления, политика основывается на измеренном значении управляемого устройства, целевом значении управления и манипуляционной переменной для управления, возникающей, когда установка работает, на значении вознаграждения, которое представляет индекс устойчивости, указывающий оценку измеренного значения, целевое значение управления и манипуляционную переменную для управления в числовых выражениях, и на параметре регулировки устройства управления, использованном для определения манипуляционной переменной для управления.[0010] The control device adjustment parameter determining unit can determine the control device adjustment parameter set according to the policy learned through deep learning with reinforcement to learn the policy to determine the control device adjustment parameter set, the policy is based on the measured value of the control device, the target control value, and the manipulated variable. for a control occurring when the plant is running, on a reward value that represents a stability index indicating a measured value estimate, a control target value, and a manipulation variable for control in numerical terms, and on a control device adjustment parameter used to determine the manipulation variable for control.
[0011] Система поддержки настройки режима работы установки может дополнительно включать в себя: обучающее устройство, которое выполняет глубокое обучение с подкреплением. Обучающее устройство может включать в себя: блок определения действия, который получает множество измеренных значений, указывающих состояния множества управляемых устройств, и выводит множество параметров регулировки устройства управления, используемых каждым из множества устройств управления; и блок функции оценки, который вычисляет оценку для набора из i) множества измеренных значений, указывающих состояния множества управляемых устройств, возникающие, когда множество устройств управления управляют множеством управляемых устройств с помощью параметров регулировки устройства управления, выведенных блоком определения действия, и ii) используемых параметров регулировки устройства управления. Блок функции оценки может быть обучен таким образом, чтобы уменьшать погрешность между i) ожидаемым значением для значения вознаграждения, которое будет получено, когда блок определения параметра регулировки устройства управления определяет параметры регулировки устройства управления, которые вводятся в управляемые устройства, в то время как множество управляемых устройств находятся в состояниях, указанных посредством множества измеренных значений, манипуляционные переменные для управления, определенные посредством множества устройств управления с помощью определенных параметров регулировки устройства управления, вводятся во множество управляемых устройств, чтобы обновлять состояния множества управляемых устройств, и оптимальные параметры регулировки устройства управления продолжают выбираться впоследствии, и ii) оценкой, вычисленной посредством блока функции оценки.[0011] The installation mode setting support system may further include: a training device that performs deep reinforcement learning. The learning device may include: an action determination unit that receives a plurality of measured values indicative of states of a plurality of controllable devices and outputs a plurality of control device adjustment parameters used by each of the plurality of control devices; and an evaluation function block that calculates an estimate for a set of i) a plurality of measured values indicative of the states of the plurality of controllable devices occurring when the plurality of control devices control the plurality of controllable devices with the adjustment parameters of the control device outputted by the action determining block, and ii) the parameters used adjustment of the control device. The evaluation function block can be trained to reduce the error between i) an expected value for the reward value that will be obtained when the control device adjustment parameter determining block determines the control device adjustment parameters that are input to the controlled devices, while the set of controlled devices are in states indicated by the plurality of measured values, manipulation variables for control determined by the plurality of controllers by means of certain control device adjustment parameters are input to the plurality of controllable devices to update the states of the plurality of controllable devices, and optimal control device adjustment parameters continue to be selected subsequently, and ii) the score computed by the score function block.
[0012] Значение вознаграждения может представлять индекс устойчивости, указывающий правильность состояния процесса в числовых выражениях.[0012] The reward value may represent a stability index indicating the correctness of the state of the process in numerical terms.
[0013] Значение вознаграждения может представлять индекс устойчивости, указывающий правильность состояния процесса в числовых выражениях согласно одному или более следующим критериям: (1) разница между множеством измеренных значений и целевыми значениями управления является небольшой; (2) множество измеренных значений не колеблются; или (3) время, требуемое для стабилизации множества измеренных значений, является коротким.[0013] The reward value may represent a stability index indicating the correctness of the process state in numerical terms according to one or more of the following criteria: (1) the difference between the plurality of measured values and the target control values is small; (2) a set of measured values do not fluctuate; or (3) the time required for the set of measured values to stabilize is short.
[0014] Блок определения параметра регулировки устройства управления может определять множество параметров регулировки устройства управления, используемых, когда работа установки начинается или приводится к остановке, согласно политике, изученной посредством глубокого обучения с подкреплением, которое использует измеренные значения и манипуляционные переменные для управления, возникающие, когда работа установки начинается или приводится к остановке, и параметры регулировки устройства управления.[0014] The control device adjustment parameter determination unit may determine a plurality of control device adjustment parameters used when plant operation is started or brought to a stop, according to a policy learned through deep reinforcement learning that uses measured values and manipulated variables to control arising, when the operation of the installation is started or brought to a stop, and the adjustment parameters of the control device.
[0015] Блок определения параметра регулировки устройства управления может определять множество параметров регулировки устройства управления, когда нарушение возникает, или когда режим работы изменяется во время работы установки, согласно политике, изученной посредством глубокого обучения с подкреплением, которое использует измеренные значения и манипуляционные переменные для управления, возникающие, когда нарушение происходит, или когда режим работы изменяется во время работы установки, и параметр регулировки устройства управления.[0015] The control device adjustment parameter determination unit may determine a plurality of control device adjustment parameters when a violation occurs or when the operating mode is changed during plant operation, according to a policy learned through deep reinforcement learning that uses measured values and manipulative variables for control. , occurring when a violation occurs, or when the mode of operation is changed during the operation of the installation, and the adjustment parameter of the control device.
[0016] Устройство поддержки настройки режима работы может дополнительно включать в себя блок переключения режима, который указывает, на основе политики, изученной посредством глубокого обучения с подкреплением, устройству управления, следует ли осуществлять управление в автоматическом режиме, в котором устройство управления автоматически вводит манипуляционную переменную для управления в управляемое устройство, или в ручном режиме, в котором устройство управления вводит манипуляционную переменную для управления в управляемое устройство в ответ на инструкцию по манипуляционной переменной для управления от оператора.[0016] The operation mode setting support device may further include a mode switching unit that indicates, based on the policy learned through deep reinforcement learning, to the control device whether to control in an automatic mode in which the control device automatically inputs a manipulated variable. to control to a controlled device, or in a manual mode in which the control device inputs a manipulated variable to control to a controlled device in response to an instruction on a manipulated variable to be controlled from an operator.
[0017] Устройство поддержки настройки режима работы может сообщать множество параметров регулировки устройства управления, определенных посредством блока определения параметра регулировки устройства управления, соответствующим устройствам управления, и устройство управления может получать параметр регулировки устройства управления, сообщенный от устройства поддержки настройки режима работы, с помощью блока получения параметра регулировки устройства управления.[0017] The operation mode setting support device can report a plurality of control device adjustment parameters determined by the control device adjustment parameter determination unit to the respective control devices, and the control device can receive the control device adjustment parameter reported from the operation mode setting support device by the unit obtaining the adjustment parameter of the control device.
[0018] Устройство поддержки настройки режима работы может представлять множество параметров регулировки устройства управления, определенных посредством блока определения параметра регулировки устройства управления, оператору, и устройство управления может получать параметр регулировки устройства управления, введенный оператором, с помощью блока получения параметра регулировки устройства управления.[0018] The operation mode setting support device may present a plurality of control device adjustment parameters determined by the control device adjustment parameter determination unit to the operator, and the control device may obtain the control device adjustment parameter entered by the operator with the control device adjustment parameter obtaining unit.
[0019] Другой вариант осуществления настоящего изобретения относится к устройству поддержки настройки режима работы. Устройство является устройством поддержки настройки режима работы для обеспечения объединенной поддержки для настройки множества устройств управления для воздействия на одно или более управляемых устройств, которые существуют среди множества устройств, формирующих процесс, выполняемый в установке, для управления с обратной связью соответственно, устройство включает в себя: блок получения множества измеренных значений, который получает множество измеренных значений, указывающих состояния множества управляемых устройств, управляемых посредством множества устройств управления, соответственно; и блок определения параметра регулировки устройства управления, который определяет, на основе множества измеренных значений, полученных посредством блока получения множества измеренных значений, множество параметров регулировки устройства управления, используемых каждым из множества устройств управления для определения манипуляционных переменных для управления, которые должны быть введены во множество управляемых устройств, согласно политике, изученной посредством глубокого обучения с подкреплением.[0019] Another embodiment of the present invention relates to an operating mode setting support device. The device is an operation mode setting support device for providing joint support for setting a plurality of control devices to affect one or more controllable devices that exist among the plurality of devices shaping the process performed in the plant for feedback control, respectively, the device includes: a plurality of measured value acquisition unit that acquires a plurality of measured values indicative of the states of the plurality of controllable devices controlled by the plurality of control devices, respectively; and a control device adjustment parameter determination unit that determines, based on the plurality of measured values obtained by the plurality of measured value acquisition unit, a plurality of control device adjustment parameters used by each of the plurality of control devices to determine manipulated variables for control to be input to the plurality of managed devices, according to the policy learned through deep reinforcement learning.
[0020] Другой вариант осуществления настоящего изобретения относится к обучающему устройству. Обучающее устройство включает в себя: блок определения действия, который получает множество измеренных значений, указывающих состояния множества управляемых устройств, формирующих процесс, выполняемый в установке, и выводит множество параметров регулировки устройства управления, используемых каждым из множества устройств управления для воздействия на множество управляемых устройств для автоматического управления с обратной связью, соответственно; и блок функции оценки, который вычисляет оценку для набора из i) множества измеренных значений, указывающих состояния множества управляемых устройств, возникающих, когда множество устройств управления управляют множеством управляемых устройств с помощью параметров регулировки устройства управления, выводимых посредством блока определения действия, и ii) используемых параметров регулировки устройства управления. Блок функции оценки может быть обучен таким образом, чтобы уменьшать погрешность между i) ожидаемым значением для значения вознаграждения, которое будет получено, когда блок определения параметра регулировки устройства управления определяет параметры регулировки устройства управления, которые вводятся в управляемые устройства, в то время как множество управляемых устройств находятся в состояниях, указанных посредством множества измеренных значений, манипуляционные переменные для управления, определенные посредством множества устройств управления с помощью определенных параметров регулировки устройства управления, вводятся во множество управляемых устройств, чтобы обновлять состояния множества управляемых устройств, и оптимальные параметры регулировки устройства управления продолжают выбираться впоследствии, и ii) оценкой, вычисленной посредством блока функции оценки.[0020] Another embodiment of the present invention relates to a learning device. The learning device includes: an action determining unit that receives a plurality of measured values indicative of the states of a plurality of controllable devices forming a process performed in the plant, and outputs a plurality of control device adjustment parameters used by each of the plurality of control devices to influence the plurality of controllable devices to automatic feedback control, respectively; and an evaluation function block that calculates an estimate for a set of i) a plurality of measured values indicative of the states of the plurality of controllable devices occurring when the plurality of control devices control the plurality of controllable devices with control device adjustment parameters output by the action determination block, and ii) used control device adjustment parameters. The evaluation function block can be trained to reduce the error between i) an expected value for the reward value that will be obtained when the control device adjustment parameter determining block determines the control device adjustment parameters that are input to the controlled devices, while the set of controlled devices are in states indicated by the plurality of measured values, manipulation variables for control determined by the plurality of controllers by means of certain control device adjustment parameters are input to the plurality of controllable devices to update the states of the plurality of controllable devices, and optimal control device adjustment parameters continue to be selected subsequently, and ii) the score computed by the score function block.
[0021] Необязательные сочетания вышеупомянутых составляющих элементов, и реализации изобретения в форме способов, устройств, систем, носителей записи и компьютерных программ могут также быть применены на практике в качестве дополнительных режимов осуществления настоящего изобретения.[0021] Optional combinations of the aforementioned constituent elements, and embodiments of the invention in the form of methods, devices, systems, recording media, and computer programs may also be practiced as additional modes of implementation of the present invention.
Преимущество изобретенияThe advantage of the invention
[0022] Настоящее изобретение способно предоставлять технологию для реализации устойчивой работы установки.[0022] The present invention is capable of providing a technology for realizing stable operation of a plant.
Краткое описание чертежейBrief description of the drawings
[0023] Фиг. 1 показывает общую конфигурацию системы поддержки настройки режима работы установки согласно варианту осуществления;[0023] FIG. 1 shows an overall configuration of a plant operation mode setting support system according to the embodiment;
Фиг. 2 показывает примерную конфигурацию компрессорной системы, которая представляется в качестве примера процесса, подвергаемого управлению;Fig. 2 shows an exemplary configuration of a compressor system, which is presented as an example of the process being controlled;
Фиг. 3 схематично показывает способ управления в установке предшествующего уровня техники;Fig. 3 schematically shows the control method in a prior art plant;
Фиг. 4 схематично показывает конфигурацию устройства поддержки настройки режима работы согласно варианту осуществления;Fig. 4 schematically shows a configuration of an operation mode setting support apparatus according to the embodiment;
Фиг. 5 показывает конфигурацию устройства поддержки настройки режима работы и устройства управления согласно варианту осуществления;Fig. 5 shows a configuration of an operation mode setting support device and a control device according to the embodiment;
Фиг. 6 схематично показывает конфигурацию обучающего устройства согласно варианту осуществления;Fig. 6 schematically shows the configuration of the teaching device according to the embodiment;
Фиг. 7 показывает конфигурацию обучающего устройства согласно варианту осуществления; иFig. 7 shows a configuration of a teaching device according to an embodiment; and
Фиг. 8 показывает пример вида экрана, отображаемого на устройстве отображения пользовательской операционной панели.Fig. 8 shows an example of a screen layout displayed on the display device of the user operation panel.
Режим осуществления изобретенияMode of carrying out the invention
[0024] Фиг. 1 показывает общую конфигурацию системы поддержки настройки режима работы установки согласно варианту осуществления. Система 1 поддержки настройки режима работы установки для поддержки настройки режима работы установки 3 снабжается установкой 3 для производства химических продуктов, промышленных изделий и т.д. и обучающим устройством 2 для обеспечения глубокого обучения с подкреплением для изучения политики для определения множества параметров регулировки устройства управления, используемых для задания режима работы установки 3. Установка 3 включает в себя управляемое устройство 10, которое формирует процесс, выполняемый в установке 3, множество устройств 20 управления для воздействия на одно или более управляемых устройств 10 для управления с обратной связью соответственно, и устройство 30 поддержки настройки режима работы для предоставления объединенной поддержки для настройки множества устройств 20 управления, которые выполняют множество задач управления с обратной связью соответственно и независимо. Устройство 30 поддержки настройки режима работы определяет множество параметров регулировки устройства управления, используемых для определения манипуляционных переменных для управления, предоставляемых каждым из множества устройств 20 управления множеству управляемых устройств 10 согласно политике, изученной посредством глубокого обучения с подкреплением, выполняемого в обучающем устройстве 2.[0024] FIG. 1 shows the general configuration of the installation mode setting support system according to the embodiment. The installation mode
[0025] Фиг. 2 показывает примерную конфигурацию компрессорной системы, которая представляется в качестве примера процесса, подвергаемого управлению. Компрессорная система, показанная на чертеже, включает в себя, в качестве множества управляемых устройств 10, которые формируют процесс, теплообменник для охлаждения субъекта охлаждения с помощью пропанового хладагента, пропановый компрессор для сжатия газообразного пропана, испарившегося в теплообменнике, и т.д. Компрессорная система дополнительно включает в себя, в качестве устройств 20 управления, которые управляют каждым из множества управляемых устройств 10 независимо и автоматически, PID-контроллеры, такие как контроллер LC уровня жидкости, контроллер PC давления, контроллер SC скорости вращения и контроллер ASC противопомпажного регулирования.[0025] FIG. 2 shows an exemplary configuration of a compressor system, which is presented as an example of the process being controlled. The compressor system shown in the drawing includes, as a plurality of
[0026] Контроллер LC уровня жидкости управляет открытием подающего клапана для подачи пропанового хладагента в соответствии с уровнем жидкости пропанового хладагента для того, чтобы поддерживать уровень жидкости пропанового хладагента в теплообменнике постоянным. Контроллер PC давления управляет контроллером SC скорости вращения в соответствии с давлением газообразного пропана, испарившегося из теплообменника, для того, чтобы поддерживать давление газообразного пропана, вводимого в пропановый компрессор, постоянным. Контроллер SC скорости вращения управляет скоростью вращения газовой турбины GT для регулировки давления газообразного пропана, введенного в пропановый компрессор, в ответ на команду от контроллера PC давления. Контроллер ASC противопомпажного регулирования управляет открытием противопомпажного клапана в соответствии с давлением газообразного пропана на выходе пропанового компрессора для того, чтобы препятствовать помпажу в пропановом компрессоре. Из этих PID-контроллеров контроллер SC скорости вращения работает в ответ на команду от контроллера PC давления. Другие три PID-контроллера автоматически управляют управляемыми устройствами 10 соответственно и независимо.[0026] The liquid level controller LC controls the opening of the propane refrigerant supply valve according to the propane refrigerant liquid level in order to keep the propane refrigerant liquid level in the heat exchanger constant. The pressure controller PC controls the rotation speed controller SC according to the pressure of the propane gas vaporized from the heat exchanger in order to keep the pressure of the propane gas introduced into the propane compressor constant. The rotation speed controller SC controls the rotation speed of the gas turbine GT to adjust the pressure of the propane gas introduced into the propane compressor in response to a command from the pressure controller PC. The anti-surge controller ASC controls the opening of the anti-surge valve according to the propane gas pressure at the outlet of the propane compressor in order to prevent surge in the propane compressor. Of these PID controllers, the rotation speed controller SC operates in response to a command from the pressure controller PC. The other three PID controllers automatically control the controlled
[0027] Когда величина субъекта охлаждения уменьшается быстро в этой компрессорной системе, например, вследствие нарушения, величина холодопроизводительности уменьшается, так что количество пропана, испарившегося в теплообменнике, уменьшается, и уровень жидкости пропанового хладагента увеличивается. Когда это происходит, контроллер LC уровня жидкости уменьшает открытие клапана с тем, чтобы уменьшать количество втекающего пропанового хладагента и поддерживать уровень жидкости пропанового хладагента постоянным. Когда количество испарившегося пропана уменьшается, измеренное значение давления, вводимое в контроллер PC давления, уменьшается. В ответ, контроллер PC давления инструктирует контроллеру SC скорости вращения уменьшать скорость вращения газовой турбины GT.[0027] When the amount of the subject of cooling decreases rapidly in this compressor system, for example, due to a violation, the amount of cooling capacity decreases, so that the amount of propane evaporated in the heat exchanger decreases, and the liquid level of the propane refrigerant increases. When this occurs, the liquid level controller LC reduces the opening of the valve so as to reduce the amount of inflowing propane refrigerant and keep the propane refrigerant liquid level constant. As the amount of vaporized propane decreases, the measured pressure value input to the pressure controller PC decreases. In response, the pressure controller PC instructs the rotation speed controller SC to decrease the rotation speed of the gas turbine GT.
[0028] Однако, когда давление пропанового газа, вводимого в пропановый компрессор, уменьшается в результате уменьшения в скорости вращения газовой турбины GT, измеренное значение давления, вводимое в контроллер ASC противопомпажного регулирования, уменьшается, так что контроллер ASC противопомпажного регулирования увеличивает открытие противопомпажного клапана для того, чтобы избегать помпажа в пропановом компрессоре. Это вынуждает измеренное значение давления, вводимое в контроллер PC давления, увеличиваться, так что контроллер PC давления инструктирует контроллеру SC скорости вращения увеличивать скорость вращения газовой турбины GT.[0028] However, when the pressure of the propane gas input to the propane compressor decreases as a result of a decrease in the rotation speed of the gas turbine GT, the measured pressure value input to the anti-surge controller ASC decreases, so that the anti-surge controller ASC increases the opening of the anti-surge valve to in order to avoid surge in the propane compressor. This causes the measured pressure value input to the pressure controller PC to increase, so that the pressure controller PC instructs the rotation speed controller SC to increase the rotation speed of the gas turbine GT.
[0029] Когда давление пропанового газа, вводимого в пропановый компрессор, увеличивается в результате увеличения в скорости вращения газовой турбины GT, измеренное значение давления, вводимое в контроллер ASC противопомпажного регулирования, увеличивается, так что контроллер ASC противопомпажного регулирования уменьшает открытие противопомпажного клапана. Это уменьшает измеренное значение давления, вводимое в контроллер PC давления, так что контроллер PC давления инструктирует контроллеру SC скорости вращения уменьшать скорость вращения газовой турбины GT снова.[0029] When the pressure of the propane gas input to the propane compressor increases as a result of an increase in the rotation speed of the gas turbine GT, the measured pressure value input to the anti-surge controller ASC increases, so that the anti-surge controller ASC reduces the opening of the anti-surge valve. This reduces the measured pressure value input to the pressure controller PC so that the pressure controller PC instructs the rotation speed controller SC to decrease the rotation speed of the gas turbine GT again.
[0030] Таким образом, при наличии взаимных помех между воздействиями от автоматических задач управления с обратной связью в процессе, включающем в себя множество систем управления, подвергаемых автоматическому и независимому управлению с обратной связью посредством множества устройств 20 управления, соответственно, характер работы может становиться неустойчивым. Например, управление происходит в противоположных направлениях периодически, чтобы приводить в результате к колебанию регулируемой величины. Даже в таком случае, система, как ожидается, должна сводиться к устойчивой работе в конечном счете, если правильные PID-параметры заданы в соответствующих PID-контроллерах. Если нарушение, которое индуцировало колебание или отклонение, вызванное изменением в режиме работы, является серьезным или скачкообразным, однако, оно может занять длительное время, прежде чем система сведется к устойчивой работе, или колебание регулируемой величины может оставаться.[0030] Thus, when there is mutual interference between influences from automatic feedback control tasks in a process including a plurality of control systems subjected to automatic and independent feedback control by a plurality of
[0031] Фиг. 3 схематично показывает способ управления в установке предшествующего уровня техники. Процесс 12, выполняемый в установке, формируется посредством множества управляемых устройств 10a, 10b, …, 10n. Множество управляемых устройств 10a, 10b, …, 10n управляются посредством устройств 20a, 20b, …, 20n управления, соответственно. В случае примера, показанного на фиг. 2, множество управляемых устройств 10a, 10b, …, 10n являются теплообменником, пропановым компрессором и т.д. Множество устройств 20a, 20b, …, 20n управления являются контроллером LC уровня жидкости, контроллером PC давления, контроллером SC скорости вращения, контроллером ASC противопомпажного регулирования и т.д.[0031] FIG. 3 schematically shows a control method in a prior art plant. The
[0032] В установке предшествующего уровня техники трудно прогнозировать влияние от изменения трех типов параметров регулировки устройства управления (далее в данном документе называемых "PID-параметрами"), включающих в себя пропорциональный коэффициент усиления (P-коэффициент усиления), интегральный коэффициент усиления (I-коэффициент усиления) и дифференциальный коэффициент усиления (D-коэффициент усиления), которые используются множеством устройств 20 управления для PID-регулирования. Следовательно, PID-параметры являются едва ли изменяемыми. Если изменение необходимо, оператор вводит параметр в соответствующее устройство 20 управления вручную. Следовательно, если состояние процесса 12 становится неустойчивым, например, вследствие нарушения, автоматическое управление посредством взаимно мешающих устройств 20a, 20b, …, 20n управления необходимо стабилизировать посредством ввода оператором соответствующих PID-параметров в соответствующие устройства 20 управления. Время, требуемое для сведения к устойчивой работе, зависело от опыта и квалификации оператора.[0032] In the prior art installation, it is difficult to predict the effect of changing the three types of control device adjustment parameters (hereinafter referred to as "PID parameters"), including proportional gain (P gain), integral gain (I -gain) and differential gain (D-gain), which are used by the plurality of
[0033] Фиг. 4 схематично показывает конфигурацию устройства поддержки настройки режима работы согласно варианту осуществления. Устройство 30 поддержки настройки режима работы определяет PID-параметры, которые должны быть введены во множество устройств 20 управления в соответствии с политикой, изученной посредством глубокого обучения с подкреплением в обучающем устройстве 2, как описано ниже. Политика определяет PID-параметры, которые максимизируют оценку, на основе функции действие-значение для вычисления оценки сочетания множества значений, которые могут быть заданы в качестве PID-параметров, из множества измеренных значений, указывающих состояние множества управляемых устройств 10, целевых значений для значений, подвергаемых регулированию во множестве управляемых устройств 10, и значений манипуляционных переменных для управления, вводимых во множество управляемых устройств 10. Функция действие-значение изучается посредством обучающего устройства 2 таким образом, чтобы вычислять высокую оценку для PID-параметра, который предоставляет возможность значениям, подвергаемым регулированию, приближаться к целевым значениям в короткий срок, в то же время также управляя процессом в целом, чтобы он был устойчивым. В альтернативном примере функция действие-значение, используемая для определения PID-параметров, может использовать значения других параметров в дополнение к или вместо измеренных значений, целевых значений для значений, подвергаемых регулированию, и значений манипуляционных переменных для управления, с целью вычисления оценки сочетания множества значений, которые могут быть заданы в качестве PID-параметров. Например, значение текущего или прошлого PID-параметра, значение параметра, указывающего фактор нарушения, и т.д., могут быть использованы. Альтернативно, степень изменения или величина изменения таких параметров может быть использована в дополнение к или вместо абсолютных значений параметров.[0033] FIG. 4 schematically shows the configuration of the operation mode setting support device according to the embodiment. The operation mode setting
[0034] Множество PID-параметров, определенных посредством устройства 30 поддержки настройки режима работы, могут быть представлены оператору, чтобы предоставлять возможность оператору вводить PID-параметр в устройство 20 управления, обращаясь к множеству представленных PID-параметров. Альтернативно, устройство 30 поддержки настройки режима работы может вводить PID-параметр непосредственно в устройство 20 управления. Это уменьшает работу оператора значительно и предоставляет возможность установке 3 работать устойчивым образом независимо от опыта и квалификации оператора.[0034] The plurality of PID parameters determined by the operation mode setting
[0035] Фиг. 5 показывает конфигурацию устройства поддержки настройки режима работы и устройства управления согласно варианту осуществления. Устройство 20 управления снабжается блоком 21 управления и пользовательской операционной панелью 22.[0035] FIG. 5 shows a configuration of an operation mode setting support device and a control device according to the embodiment. The
[0036] Пользовательская операционная панель 22 отображает на устройстве отображения множество измеренных значений, указывающих состояние множества управляемых устройств 10, содержащихся в установке 3, значения манипуляционных переменных для управления, заданных посредством устройств 20 управления в управляемых устройствах 10, значения PID-параметров, заданных в устройствах 20 управления, и измеренные значения выходных данных, указывающих результат работы установки 3. Пользовательская операционная панель 22 также подтверждает ввод значения PID-параметра от оператора.[0036] The
[0037] Устройство 20 управления снабжается блоком 23 получения измеренного значения, блоком 24 получения целевого значения, блоком 25 получения PID-параметра, блоком 26 определения манипуляционной переменной для управления и блоком 27 ввода манипуляционной переменной для управления. Функции реализуются в компонентах аппаратных средств, таких как CPU и память в произвольном компьютере, программе, загруженной в память, и т.д. Чертеж изображает функциональные блоки, реализованные посредством взаимодействия этих элементов. Следовательно, специалистам в области техники будет понятно, что функциональные блоки могут быть реализованы множеством способов посредством только аппаратных средств, только программного обеспечения или посредством сочетания аппаратных средств и программного обеспечения.[0037] The
[0038] Блок 23 получения измеренного значения получает измеренное значение, указывающее состояние управляемого устройства 10. В случае, когда целевое значение для значений, подвергаемых регулированию в управляемом устройстве 10, является переменным, блок 24 получения целевого значения получает целевое значение. В примере, показанном на фиг. 2, например, целевое значение уровня жидкости пропанового хладагента в теплообменнике является фиксированным значением, но целевое значение скорости вращения газовой турбины регулируется переменным образом посредством контроллера LC давления. Следовательно, блок 24 получения целевого значения получает целевое значение скорости вращения газовой турбины от контроллера LC давления.[0038] The measured
[0039] Блок 25 получения PID-параметра получает PID-параметр, используемый для определения манипуляционных переменных для управления, вводимых в управляемое устройство 10. В автоматическом режиме, в котором устройство 30 поддержки настроек режима работы автоматически вводит PID-параметр в устройство 20 управления, устройство 30 поддержки настройки режима работы сообщает множество определенных PID-параметров соответствующим устройствам 20 управления. Устройство 20 управления непосредственно получает PID-параметр, сообщенный из устройства 30 поддержки настройки режима работы, с помощью блока 25 получения PID-параметра. В ручном режиме, в котором оператор вводит PID-параметр в устройство 20 управления, устройство 30 поддержки настройки режима работы представляет множество определенных PID-параметров оператору через пользовательскую операционную панель 22. Устройство 20 управления получает PID-параметр, введенный оператором, с помощью блока 25 получения PID-параметра.[0039] The PID
[0040] Блок 26 определения манипуляционной переменной для управления определяет манипуляционные переменные для управления, которые должны быть заданы в управляемом устройстве 10, на основе измеренного значения, полученного посредством блока 23 получения измеренного значения, целевого значения, полученного посредством блока 24 получения целевого значения, и PID-параметра, полученного посредством блока 25 получения PID-параметра. Блок 26 определения манипуляционной переменной для управления может определять манипуляционные переменные для управления с помощью произвольной публично известной технологии PID-регулирования. Блок 27 ввода манипуляционной переменной для управления вводит манипуляционные переменные для управления, определенные посредством блока 26 определения манипуляционной переменной для управления, в управляемое устройство 10.[0040] The manipulation
[0041] Устройство 30 поддержки настройки режима работы снабжается блоком 31 управления. Блок 31 управления снабжается блоком 32 получения множества измеренных значений, блоком 33 определения PID-параметра, блоком 34 вывода PID-параметра, блоком 35 переключения режима и блоком 36 обновления политики. Эти функции могут также быть реализованы множеством способов посредством только аппаратных средств, только программного обеспечения или посредством сочетания аппаратных средств и программного обеспечения.[0041] The operation mode setting
[0042] Блок 32 получения множества измеренных значений получает множество измеренных значений, указывающих состояния множества управляемых устройств 10, управляемых посредством множества устройств 20 управления, соответственно. Блок 32 получения множества измеренных значений получает все измеренные значения, указывающие состояния всех управляемых устройств 10, управляемых посредством множества устройств 20 управления, обеспечиваемых объединенной поддержкой посредством устройства 30 поддержки настройки режима работы.[0042] The plurality of measured
[0043] Блок 33 определения PID-параметра определяет, на основе множества измеренных значений, полученных посредством блока 32 получения множества измеренных значений, множество PID-параметров, используемых для определения манипуляционных переменных для управления, которые множество устройств 20 управления должны, соответственно, вводить во множество управляемых устройств 10. Из PID-параметров, которые могут быть выбраны в состоянии, определенном по измеренным значениям, полученным посредством блока 32 получения множества измеренных значений, блок 33 определения PID-параметра определяет PID-параметр, который максимизирует оценку, на основе функции действие-значение, изученной посредством обучающего устройства 2. Как описано ниже, функция действие-значение является нейронной сетью, которая выводит оценку для каждого из множества PID-параметров, которые могут быть выбраны, в ответ на ввод множества измеренных значений, указывающих состояния множества управляемых устройств 10. Функция действие-значение изучается посредством глубокого обучения с подкреплением в обучающем устройстве 2.[0043] The PID
[0044] Блок 35 переключения режима указывает, на основе политики, изученной посредством глубокого обучения с подкреплением, устройству 20 управления, следует ли осуществлять управление в автоматическом режиме, в котором устройство 20 управления автоматически вводит манипуляционную переменную для управления в управляемое устройство 10, или в ручном режиме, в котором устройство 20 управления вводит манипуляционную переменную для управления в управляемое устройство 10 в ответ на инструкцию по манипуляционной переменной для управления от оператора.[0044] The
[0045] Блок 36 обновления политики получает, в качестве политики, обученную нейронную сеть от обучающего устройства 2 и обновляет блок 33 определения PID-параметра. Это делает возможным получение нейронной сети с ее точностью, улучшенной посредством обучающего устройства 2, даже во время работы установки 3 и обновление функции действие-значение для определения действия. Следовательно, более подходящий PID-параметр выбирается по сравнению с иным случаем.[0045] The
[0046] Фиг. 6 схематично показывает конфигурацию обучающего устройства согласно варианту осуществления. Обучающее устройство 2 использует симулятор 40, чтобы выполнять глубокое обучение с подкреплением для изучения политики для объединенного управления поведением всех управляемых устройств 10, формирующих процесс 12, выполняемый в установке 3. Симулятор 40 включает в себя симулятор 42 процесса для симулирования процесса 12, выполняемого в установке 3, и симуляторы 43 устройств управления, которые симулируют каждое из устройств 20 управления, которые управляют множеством управляемых устройств 10, соответственно. Симулятор 42 процесса включает в себя симуляторы 41 управляемых устройств, которые, соответственно, симулируют множество управляемых устройств 10, формирующих процесс 12. Обучающее устройство 2 определяет PID-параметр, который каждый симулятор 43 устройства управления использует для определения манипуляционной переменной для управления, и вводит определенный PID-параметр в симулятор 40. Обучающее устройство 2 повторяет этап получения множества измеренных значений, указывающих результат управления, осуществленного с помощью введенного PID-параметра, множество раз во временной последовательности, чтобы изучать характер работы установки 3. Обучающее устройство 2 изучает политику для объединенного определения PID-параметра, который предоставляет возможность множеству устройств 20 управления работать согласованно, чтобы осуществлять работу установки 3 устойчивым образом.[0046] FIG. 6 schematically shows the configuration of the teaching device according to the embodiment. The
[0047] Фиг. 7 показывает конфигурацию обучающего устройства 2 согласно варианту осуществления. Обучающее устройство 2 снабжается блоком 4 определения действия, блоком 5 получения значения вознаграждения, блоком 6 обновления функции действие-значение, нейронной сетью 7, блоком 8 управления обучением и блоком 9 получения множества измеренных значений. Эти функции могут также быть реализованы множеством способов посредством только аппаратных средств, только программного обеспечения или посредством сочетания аппаратных средств и программного обеспечения.[0047] FIG. 7 shows the configuration of the
[0048] Обучающее устройство 2 изучает, посредством глубокого обучения с подкреплением, политику, посредством которой блок 33 определения PID-параметра устройства 30 поддержки настройки режима работы определяет значения PID-параметров, которые должны быть заданы в соответствующих устройствах 20 управления.[0048] The
[0049] Обучение с подкреплением определяет политику, которая максимизирует поощрение, получаемое посредством действия агента в заданном окружении, предпринятого, исходя из окружения. Этапы, на которых агент предпринимает действие, исходя из окружения, и окружение обновляет состояние, оценивает действие и уведомляет агента о состоянии и вознаграждает, повторяются во временной последовательности. Функция действие-значение и политика оптимизируются, чтобы максимизировать ожидаемое значение полученной суммы вознаграждения.[0049] Reinforcement learning defines a policy that maximizes the reward received by the action of the agent in a given environment, taken based on the environment. The steps in which the agent takes an action based on the environment and the environment updates the state, evaluates the action, and notifies the agent of the state and rewards, repeat in time sequence. The action-value function and policy are optimized to maximize the expected value of the received reward amount.
[0050] В этом варианте осуществления число сочетаний вариантов для состояния s установки 3, определенного по измеренным значениям множества управляемых устройств 10, и действия a ввода PID-параметров во множество устройств 20 управления в состоянии s будет огромным. Следовательно, глубокое обучение с подкреплением, в котором функция действие-значение аппроксимируется посредством нейронной сети 7, выполняется. Алгоритм глубокого обучения с подкреплением может быть сетью глубокого Q-обучения (DQN) или двойной DQN или любым другим произвольным алгоритмом. Нейронная сеть 7 может быть нейронной сетью с прямой связью, такой как многослойная персептронная нейронная сеть, простая персептронная нейронная сеть и сверточная нейронная сеть. Альтернативно, нейронная сеть любой из других произвольных форм может быть использована. Входными данными для входного слоя нейронной сети 7 являются все измеренные значения PVn, указывающие состояния всех управляемых устройств 10, целевые значения SVn для значений, подвергаемых регулированию во всех управляемых устройствах 10, и значения MVn манипуляционных переменных для управления, введенных из всех устройств 20 управления во все управляемые устройства 10. Значения PID-параметра, который может быть задан в устройстве 20 управления, являются выходными данными с выходного слоя. В случае, когда функция действие-значение, используемая для определения PID-параметра, использует значения других параметров в дополнение к или вместо измеренных значений PVn, целевых значений SVn для значений, подвергаемых регулированию, и значений MVn манипуляционных переменных для управления, значения других используемых параметров в равной степени вводятся во входной слой нейронной сети 7.[0050] In this embodiment, the number of combinations of options for the plant state s 3 determined from the measured values of the set of
[0051] Блок 8 управления обучением определяет политику и детали обучения и выполняет глубокое обучение с подкреплением. Блок 8 управления обучением задает первоначальное условие в симуляторе 40 для запуска испытания и повторяет предварительно определенное число раз ввод PID-параметра в симулятор 40 и получение множества измеренных значений, указывающих состояние установки 3, которая управляется посредством введенного PID-параметра, которое возникает после предварительно определенного периода времени. Когда предварительно определенное число этапов завершается, блок 8 управления обучением заканчивает первое испытание и задает первоначальное условие снова, чтобы начинать следующее испытание. Например, в случае, когда характер работы установки 3, возникающий, когда нарушение или изменение в режиме работы происходит во время устойчивой работы установки 3, должен быть изучен, блок 8 управления обучением инструктирует симулятору 11 управляемого устройства и симулятору 43 устройства управления, формирующим симулятор 40, начинать обучение, с помощью измеренных значений, целевых значений и значений манипуляционных переменных для управления во время устойчивой работы, задаваемых в качестве первоначальных значений. Блок 8 управления обучением формирует нарушение или изменение в режиме работы в определенный случайным образом момент времени и вводит значение, соответствующее нарушению или изменению в режиме работы, в симулятор 40. Когда характер работы установки 3 при запуске установки 3 должен быть изучен, блок 8 управления обучением инструктирует симулятору 40 начинать обучение, с помощью значений, возникающих, когда работа останавливается, задаваемых в качестве первоначальных значений. Блок 8 управления обучением инструктирует симулятору 40 изучать характер работы установки 3, возникающий до тех пор, пока система не сведется к постоянной работе. Когда характер работы установки 3, возникающий, когда установка 3 приводится в остановленное состояние, должен быть изучен, блок 8 управления обучением инструктирует симулятору 40 начинать обучение, с помощью значений, возникающих при устойчивой работе, задаваемых в качестве первоначальных значений. Блок 8 управления обучением инструктирует симулятору 40 останавливать работу установки 3 и изучать характер работы установки 3, возникающий до тех пор, пока работа установки 3 не будет остановлена. Если предварительно определенное условие, в котором ясно, что выполняемое испытание не производит благоприятный результат, удовлетворяется, например, когда полученное значение вознаграждения меньше предварительно определенного значения, блок 8 управления обучением может прекращать испытание, прежде чем этапы завершаются предварительно определенное число раз, и начинать следующее испытание.[0051] The learning control unit 8 determines the training policy and details, and performs deep reinforcement learning. The learning control unit 8 sets the initial condition in the
[0052] Блок 4 определения действия определяет множество PID-параметров, введенных в симулятор 40. Блок 4 определения действия определяет PID-параметры случайным образом или на основе функции действие-значение, представленной посредством нейронной сети 7. Блок 4 определения действия может выбирать, в соответствии с публично известным произвольным алгоритмом, таким как ε-каскадный метод, определять ли PID-параметры случайным образом или определять PID-параметры, которые максимизируют оценку, ожидаемую на основе функции действие-значение. Это обеспечивает эффективное обучение, в то же время предоставляя возможность испытать разнообразные и диверсифицированные варианты, следовательно, уменьшает время, прежде чем обучение сводится в одной точке.[0052] The
[0053] Блок 9 получения множества измеренных значений получает множество измеренных значений, указывающих состояния множества симуляторов 41 управляемых устройств, из симулятора 40. Блок 5 получения значения вознаграждения получает значение вознаграждения для состояния установки 3, указанной посредством множества измеренных значений, полученных посредством блока 9 получения множества измеренных значений. Значение вознаграждения представляет индекс устойчивости, указывающий правильность состояния процесса 12, выполняемого в установке 3, в числовых выражениях. Более конкретно, значение вознаграждения представляет индекс устойчивости, указывающий правильность состояния процесса в числовых выражениях согласно одному или более следующим критериям: (1) разница между множеством измеренных значений и целевыми значениями управления является небольшой; (2) множество измеренных значений не колеблются; или (3) время, требуемое для стабилизации множества измеренных значений, является коротким. Например, значение вознаграждения определяется так, что, чем меньше разница между измеренными значениями и целевыми значениями управления, меньше колебание измеренных значений и короче время, требуемое для стабилизации измеренных значений, тем выше значение вознаграждения.[0053] The measurement value plurality acquisition unit 9 acquires a plurality of measured values indicating the states of the plurality of controllable simulators 41 from the
[0054] Блок 6 обновления функции действие-значение обновляет функцию действие-значение, представленную посредством нейронной сети 7, на основе значения вознаграждения, полученного посредством блока 5 получения значения вознаграждения. Блок 6 обновления функции действие-значение инструктирует изучение весовых коэффициентов в нейронной сети 7, так что выходное значение функции действие-значение для набора действий, предпринимаемых блоком 4 определения действия в данном состоянии s, приближается к ожидаемому значению суммы i) значения вознаграждения, полученного посредством блока 5 получения значения вознаграждения в результате действия, предпринятого блоком 4 определения действия в данном состоянии s, и ii) значения вознаграждения, которое будет получено, если оптимальное действие продолжится впоследствии. Другими словами, блок 6 обновления функции действие-значение регулирует весовые коэффициенты соединений в слоях нейронной сети 7, так что погрешность между i) суммой значения вознаграждения, фактически полученного посредством блока 5 получения значения вознаграждения, и значением, полученным из умножения ожидаемого значения для значения вознаграждения, которое будет получено впоследствии, на скидку по времени, и ii) выходным значением функции действие-значение уменьшается. Это предоставляет возможность обновления весовых коэффициентов и облегчает обучение, так что значение действия, вычисленное посредством нейронной сети 7, приближается к истинному значению.[0054] The action-value
[0055] Фиг. 8 показывает пример вида экрана, отображаемого на устройстве отображения пользовательской операционной панели. Экран отображает блок-схему последовательности операций процесса установки 3, текущее значение PID-параметров, заданных в соответствующих PID-контроллерах, и рекомендованные значения PID-параметров, определенные посредством устройства 30 поддержки настройки режима работы. Когда оператор вводит PID-параметр со ссылкой на рекомендованное значение, показанное на устройстве отображения, введенный PID-параметр получается блоком 25 получения PID-параметра устройства 20 управления и используется блоком 26 определения манипуляционной переменной для управления, чтобы определять манипуляционные переменные для управления. Это стабилизирует характер работы установки 3 в короткий срок, даже когда фактор, который может дестабилизировать характер работы установки 3, возникает.[0055] FIG. 8 shows an example of a screen layout displayed on the display device of the user operation panel. The screen displays a flowchart of the
[0056] Выше описано объяснение на основе примерного варианта осуществления. Вариант осуществления предполагается только как иллюстративный, и специалистам в области техники будет понятно, что различные модификации в составляющих элементах и процессах могут быть разработаны, и что такие модификации также находятся в рамках настоящего изобретения.[0056] The above has described an explanation based on an exemplary embodiment. The embodiment is intended to be illustrative only, and those skilled in the art will appreciate that various modifications to the constituent elements and processes may be devised, and that such modifications are also within the scope of the present invention.
[0057] Технология настоящего изобретения может быть использована в установке, в которой множество устройств управления управляют множеством управляемых устройств (устройств, подвергаемых управлению). В то время как установка, которая включает в себя множество систем управления, каждая из которых подвергается PID-регулированию, описывается в варианте осуществления, технология настоящего изобретения в равной степени является применимой к установке, которая включает в себя системы управления, основанные на любой другой произвольной схеме управления, такой как P-регулирование и PI-регулирование.[0057] The technology of the present invention can be used in an installation in which a plurality of control devices control a plurality of controllable devices (devices to be controlled). While an installation that includes a plurality of control systems each subject to PID control is described in the embodiment, the technology of the present invention is equally applicable to an installation that includes control systems based on any other arbitrary control scheme such as P-regulation and PI-regulation.
Описание ссылочных символовDescription of reference symbols
[0058] 1 система поддержки настройки режима работы установки, 2 обучающее устройство, 3 установка, 4 блок определения действия, 5 блок получения значения вознаграждения, 6 блок обновления функции действие-значение, 7 нейронная сеть, 8 блок управления обучением, 9 блок получения множества измеренных значений, 10 управляемое устройство, 11 симулятор управляемого устройства, 12 процесс, 20 устройство управления, 21 блок управления, 22 пользовательская операционная панель, 23 блок получения измеренного значения, 24 блок получения целевого значения, 25 блок получения PID-параметра, 26 блок определения манипуляционной переменной для управления, 27 блок ввода манипуляционной переменной для управления, 30 устройство поддержки настройки режима работы, 31 блок управления, 32 блок получения множества измеренных значений, 33 блок определения PID-параметра, 34 блок вывода PID-параметра, 35 блок переключения режима, 36 блок обновления политики, 40 симулятор, 41 симулятор управляемого устройства, 42 симулятор процесса, 43 симулятор устройства управления[0058] 1 installation mode setting support system, 2 training device, 3 installation, 4 action determination unit, 5 reward value acquisition unit, 6 action-value function update unit, 7 neural network, 8 learning control unit, 9 set acquisition unit measured value, 10 controlled device, 11 controlled device simulator, 12 process, 20 control device, 21 control block, 22 user operation panel, 23 measured value acquisition block, 24 target value acquisition block, 25 PID parameter acquisition block, 26
Промышленная применимостьIndustrial Applicability
[0059] Настоящее изобретение является применимым к системе поддержки настройки режима работы установки для поддержки настройки режима работы установки.[0059] The present invention is applicable to a plant operation mode setting support system for supporting plant operation mode setting.
Claims (38)
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018-089972 | 2018-05-08 |
Publications (2)
Publication Number | Publication Date |
---|---|
RU2020140013A RU2020140013A (en) | 2022-06-08 |
RU2780340C2 true RU2780340C2 (en) | 2022-09-21 |
Family
ID=
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11325433A (en) * | 1998-05-15 | 1999-11-26 | Kobe Steel Ltd | Method and apparatus for controlling fluidized bed type incinerator |
JP2004178492A (en) * | 2002-11-29 | 2004-06-24 | Mitsubishi Heavy Ind Ltd | Plant simulation method using enhanced learning method |
RU2273874C2 (en) * | 2001-08-07 | 2006-04-10 | Сименс Акциенгезелльшафт | Method for operating technical plant and system for controlling operation process of technical plant |
JP2014178853A (en) * | 2013-03-14 | 2014-09-25 | Toshiba Corp | Control parameter adjustment method, control parameter adjustment method and control parameter setting device |
JP2017034844A (en) * | 2015-07-31 | 2017-02-09 | ファナック株式会社 | Machine learning device learning gain optimization, motor control device having the same, and the machine learning method |
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11325433A (en) * | 1998-05-15 | 1999-11-26 | Kobe Steel Ltd | Method and apparatus for controlling fluidized bed type incinerator |
RU2273874C2 (en) * | 2001-08-07 | 2006-04-10 | Сименс Акциенгезелльшафт | Method for operating technical plant and system for controlling operation process of technical plant |
JP2004178492A (en) * | 2002-11-29 | 2004-06-24 | Mitsubishi Heavy Ind Ltd | Plant simulation method using enhanced learning method |
JP2014178853A (en) * | 2013-03-14 | 2014-09-25 | Toshiba Corp | Control parameter adjustment method, control parameter adjustment method and control parameter setting device |
JP2017034844A (en) * | 2015-07-31 | 2017-02-09 | ファナック株式会社 | Machine learning device learning gain optimization, motor control device having the same, and the machine learning method |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11914348B2 (en) | Plant operation condition setting assistance system, learning device, and operation condition setting assistance device | |
US11237531B2 (en) | Method for determining and tuning process characteristic parameters using a simulation system | |
CN101925866B (en) | There is the adaptive model predictive controller of the robust of adjustment for compensation model mismatch | |
Esfandyari et al. | Adaptive fuzzy tuning of PID controllers | |
JP4413563B2 (en) | Integrated model predictive control and optimization in process control systems | |
CN1940780B (en) | On-line adaptive model predictive control in a process control system | |
US8055358B2 (en) | Multi-objective predictive process optimization with concurrent process simulation | |
JP2005292862A (en) | Integrated model prediction control and optimization in process control system | |
CN105589448A (en) | Model predictive controller with tunable integral component to compensate for model mismatch | |
EP2788827A1 (en) | Apparatus and methods for non-invasive closed loop step testing using a tunable trade-off factor | |
Prusty et al. | Implementation of fuzzy-PID controller to liquid level system using LabVIEW | |
Isa et al. | Comparative study of PID controlled modes on automatic water level measurement system | |
JP6867307B2 (en) | Systems and methods to replace live state control / estimation applications with staged applications | |
RU2780340C2 (en) | System for assistance in setting of installation operating mode, training device, and device for assistance in setting of operating mode | |
Kumar et al. | Modeling proportional–integral controllers in tracking and economic model predictive control | |
Nunes et al. | Relay based pid auto-tuning applied to a multivariable level control system | |
JP7213729B2 (en) | Control device and control method | |
CN105159089A (en) | Robust control method for double water troughs | |
Johansen et al. | Stepwise commissioning of a steam boiler with stability guarantees | |
Ciannella et al. | Applied Model Predictive Control | |
Chew et al. | Improved cascade control tuning for temperature control system | |
CN107615185A (en) | System and method for disposing the device service for model predictive controller and estimator | |
CN117073152A (en) | PID parameter determining method and device of air conditioning system and air conditioning system | |
Assani et al. | Evaluating the Performance of the Well-Known Controller Tuning Methods for the Flow Control Using the Process Model | |
Li | Review of PID control design and tuning methods |