RU2022123701A

RU2022123701A - Способ и система управления технической системой или процессом с помощью искусственной нейронной сети, оптимизирующий целевую функцию

Info

Publication number: RU2022123701A
Application number: RU2022123701A
Authority: RU
Inventors: Леонид Сергеевич Чернышев
Original assignee: Общество с ограниченной ответственностью "Матсофт"
Filing date: 2022-09-06
Publication date: 2024-03-06

Claims

1. Способ управления технической системой или процессом, далее - Объектом управления, отличающийся тем, что включает в себя способ идентификации нейросетевой модели объекта управления состоящий из процедуры обучения и процедуры верификации искуственной нейронной сети (ИНС) и способ оптимизации управляющих параметров Объекта управления на требуемых временных срезах горизонта управления (прогнозирования) с целью получения агрегированного максимума (или минимума) целевой функции, в которую входят как параметры состояния объекта управления, так и управляющие параметры объекта управления по сумме ее значений на всех требуемых временных срезах горизонта управления, для чего на 1-м этапе, с использованием искусственной нейронной сети (ИНС), которая в данной реализации изобретения является полносвязной нейронной сетью прямого распространения, состоящей из входного слоя нейронов, одного скрытого слоя и одного выходного слоя нейронов, (но может иметь другую архитектуру и другое количество слоев в других реализациях изобретения), строят модель Объекта управления, при этом для обучения ИНС используется временной ряд прошлых значений как минимум одного параметра состояния Объекта управления в одной реализации изобретения и возможно - нескольких параметров в других реализациях, так же используется временной ряд прошлых и настоящего значений как минимум одного управляющего параметра Объекта управления в одной реализации изобретения и возможно - нескольких параметров в других реализациях, при котором нейросеть проходит обучение одним из стандартных методов, известных на данном уровне техники, например итерационным методом обратного распространения ошибки на данных прошлых значений временных рядов управляющих параметров и параметров состояния Объекта, при этом в одной реализации изобретения начальные весовые синаптические коэффициенты для всех нейронов ИНС выбираются случайным образом в диапазоне значений [-1, 1]; при этом корректировка параметров ИНС, а именно - наборов весовых синаптических коэффициентов для каждого из слоев ИНС может производиться на каждой итерации с использованием, например, известного на данном уровне техники метода градиентного спуска; при этом в одной из реализаций изобретения данные имеющихся значений управляющего параметра и параметра состояния предварительно нормируются, чтобы их значения лежали в диапазоне [-1, 1]; при том, что особенностью обучения ИНС в одном из способов реализации изобретения является использование скользящего окна для формирования обучающей выборки, состоящей в данной реализации изобретения из двух векторов длиной Kx и Ku: (Kx≥Ku) элементов, причем на первой итерации обучения первый вектор формируется из начального отрезка длиной Kx значений временного ряда параметров состояния объекта, подготовленного для обучения ИНС (обучающий ряд), второй вектор формируется из отрезка длиной Ku значений временного ряда управляющих параметров объекта, подготовленного для обучения ИНС, сдвинутых от начала обучающего ряда на величину Kx-Ku+1, при этом результатом прогноза будет значение Y_Kx+1, которое при идеальном обучении должно совпасть со значением X_Kx+1 - параметра состояния объекта на шаге Kx+1 временного ряда параметров состояния объекта управления; при этом на 2-й итерации обучения - в вектора обучающей выборки поступают Kx и Ku элементов подготовленных для обучения ИНС соответствующих временных рядов, временные индексы которых дополнительно сдвинуты вправо по оси времени на 1 единицу временной дискретности этих рядов; на i-й итерации обучения- в вектора поступят отрезки рядов длиной Kx и Ku элементов, отстоящие соответственно на i- и i+(Kx-Ku+1) интервалов дискретности от начала обучающих рядов; при этом, при достижении номера итерации значения i=L-Kx-1 эпоха обучения считается завершенной, индекс i обнуляется, в вектора обучающих выборок снова принимаются отрезки рядов обучения как для 1-й итерации; останавливать процесс обучения можно, если достигнута заданная точность на участке обучения, либо в случае достижения заданного порога по количеству эпох обучения; при этом в одной из реализаций изобретения обучение искусственной нейронной сети (ИНС) производится не по значениям временных рядов наблюдений управляющих параметров и параметров состояния объекта, а по разности их значений в ближайшие моменты времени, соответствующие дискретности обучающего временного ряда; при этом в одной из реализаций изобретения для успешной идентификации нейросетевой модели объекта, параллельно с процессом обучения ИНС идет процесс валидации ИНС, заключающийся в следующем: имеющиеся ряды наблюдаемых в прошлом значений параметров состояния и параметров управления длинной L делят на 2 части - обучающий ряд и ряд валидации, причем длина ряда валидации F должна быть много меньше длины обучающего ряда (в одной реализации изобретения отношение F/L выбрано=0.1); причем обучение и корректировку синаптических коэффициентов проводят только с использованием обучающего ряда; т.е. эпоха обучения заканчивается на итерации i=L-Kx-F-1; после завершения эпохи обучения проводят итеративные процедуры прямого распространения сети ИНС сдвигающимся окном с количеством итераций =L-Kx-1, получая таким образом набор прогнозов Y=[Y_Kx+… Y_L], где значения прогноза [Y_Kx+… Y_L-F],относятся к участку обучения, а прогнозы [Y_L-F+1…Y_L] будут уже относится к значениям прогноза на участке валидации; по разнице между прогнозными значениями параметров состояния на отрезке валидации [Y_L-F+1…Y_L] и реальными значениями [X_L-F+1… X_L] ряда валидации параметров состояния объекта определяют ошибку валидации; при этом в другой реализации изобретения процесс обучения ИНС и валидации производится не по значениям временных рядов наблюдений управляющих параметров и параметров состояния объекта, а по разности их значений в ближайшие моменты времени, соответствующие дискретности обучающего и валидационного рядов; в случае успешной валидации - т.е при достижении суммарной ошибки по ряду валидации параметра состояния объекта значения меньше определенного порога - модель считается верифицированной, а ряды валидации присоединяют к обучающим рядам параметров состояния и управляющих параметров и продолжают обучение ИНС с момента остановки (т.е используя в качестве начальных матриц весовых коэффициентов те, что были получены на момент остановки обучения) уже по полным рядам имеющихся значений, что обеспечит максимальное использование доступной априори информации для построения наиболее точных прогнозов на горизонт управления в будущем; по прошествии некоторого времени с момента использования способа обучения и валидации ИНС модели объекта управления (не менее интервала дискретности обучающего и валидационного рядов) и появлении новых фактических данных в одинаковые временные интервалы по значениям параметров состояния и параметров управления объектом- их так же можно включать в обучающие и валидационные ряды и таким образом уточнять прогноз практически в непрерывном режиме on-line (с временной дискретностью исходных временных рядов); при этом на 2-м этапе на базе прошедшей обучение и валидацию ИНС, составляется прогнозирующая модель (ПМ), имеющая вид:

где θ_t - набор параметров ПМ, соответствующих временному срезу с индексом t: t=(1…N), горизонта управления t_N, U_t - t-элементный вектор, каждый из элементов которого представляет из себя набор сгенерированных значений управляющих параметров для временных срезов t_c, c=(1…t), вплоть до временного среза t горизонта управления t_N, имеющих заданную дискретность и ограничение на значения при этом с помощью ПМ (1) на каждом временном срезе t: t=(1…N), горизонта управления t_N рассчитываются наборы возможных прогнозных значений параметра состояния объекта Y_t, на основе которых на каждом временном срезе t: t=(1…N), горизонта управления t_N рассчитываются наборы значений целевой функции объекта P_t=F(t, Y_t, U_t), которые в дальнейшем участвуют в процедуре оптимизации, заключающуюся в определении набора значений управляющего параметра <Uopt_t>, состоящего из таких оптимальных значений управляющего параметра для каждого временного среза горизонта управления, который максимизирует (при решении задачи максимизации) или - минимизирует - при решении задачи минимизации сумму значений целевой функции по всем временным срезам t (t=1…N) горизонта управления t_N; при этом формула прогнозирующей модели ПМ (1) в развернутом виде для первого временного среза (t=1) имеет вид:

а для каждого последующего из временных срезов t (t=2…N) горизонта управления t_N, ПМ (1) имеет развернутый вид:

где f - функция активации- гиперболический тангенс - для данной реализации изобретения, но может быть другой для других реализаций изобретения; указанный в (1) θ_t, - набор параметров ПМ в (1), соответствующих временному срезу с индексом t включает в себя применительно к (2) и (3): bx, bu - матрицы синаптических коэффициентов перехода на j-й нейрон скрытого слоя с нейронов входного слоя с номерами: от 0 до K-1 и от K до 2*K-1 - соответсвенно для bx и bu; dy(t) - значения обучающего временного ряда параметров состояния Объекта, относящихся к интервалу временного ряда с индексом =L-K+t+i, при i=0… K - t, dp(t) - значения обучающего временного ряда управляющих параметров Объекта, относящихся к интервалу временного ряда с индексом =L-K+t+i+1, при i=0… K-t-1; U_t - наборы значений управляющих параметров, соответствующих временному срезу t горизонта управления, представляющие из себя смоделированные наборы параметров управления объектом, имеющих заданную дискретность и ограничение на значения и по которым будет проводится оптимизация целевой функции объекта для временного среза t горизонта управления;, Y_i- -вектор, состоящий из набора прогнозных значений параметров состояния, вычисленных с использованием ПМ для предыдущих текущему временному срезу с индексом t>1 временных срезов t_i, i=(1…t-1) горизонта управления t_N; таким образом, если на каждом временном срезе t модели по определенному алгоритму (например - равномерным распределением на отрезке) генерируется Nu_t значений управляющих параметров: то число всевозможных прогнозных значений параметров состояний Y_t для временного среза t будет соответствовать произведению т.е. для случая, когда для каждого временного среза с индексом t генерируется одинаковое количество параметров управления =Nu, то число рассчитанных для каждого временного среза с индексом t значений Y_t будет возрастать пропорционально степени t с основанием Nu. Число возможных значений целевой функции P_t=F(t, Y_t, U_t) для каждого временного среза с индексом t в свою очередь будет так же возрастать пропорционально степени t с основанием Nu; на заключительном этапе процедура оптимизации может быть проведена с использованием метода, предложенного в реализации данного изобретениия, и описанного в одном из пунктов формулы изобретения, либо другим методом в других реализациях изобретения, при этом для нахождения оптимального набора управляющих параметров <Uopt_t> может быть применен способ последовательного понижения дискретности генерации U_t, когда на первой итерации выбирают малое число Nu (например, в одной из реализаций Nu=5) и генерируют набор значений управляющего параметра <U_t,z> на заданном диапазоне например по соотношению далее по (2) и (3) рассчитываются Nu^t значений прогноза параметра состояния объекта для временного среза t: Y_t=<Y_t,i,z>, где i=1…Nu^t-1, z=1…Nu, далее для каждого из значений Y_t,i,z и U_t,z из соответствующих наборов рассчитывается набор значений целевой функции размером Nu^t: P_t=F(t, Y_t, U_t), далее для проведения процедуры оптимизации целевой функции необходимо построить отрезки (ребра графа), соединяющие каждую точку набора <P_t,i,z>, i=1…Nu^t-1 временного среза t с каждой точкой набора <P_t+1,j,z>, j=1…Nu^t последующего временного среза t+1; таким образом, каждая точка набора <P_1,i,z> первого среза t=1, может быть соединена с каждой точкой набора набора <P_N,j,z> последнего временного среза t=N набором графов, проходящим через одну любую точку каждого из промежуточных временных срезов t; далее рассчитываются суммы значений целевой функции по узлам Nu^N+Nu^N-1+…Nu построенных уникальных траекторий (графов), далее определяется первая траектория, имеющая оптимальную сумму (максимум или минимум) сумму и вторая траектория, дающая вторую по оптимальному значению сумму, затем учитывая, что индексы z_t оптимальных траекторий по графам с узлами в точках соответствуют значениям , которые использовались для расчета оптимальных узлов то последовательность и будет оптимальным набором для данной итерации процесса оптимизации, далее вычисляют последовательность приводящей суммы целевой функции ко второму результату по оптимальности; на следующей итерации производится сужение диапазона значений U_t за счет изменения предельного значения, ограничивающего диапазон изменения U_t сверху: или снизу: что позволит уменьшить интервалы между соседними значениями U_t,z, а значит - повысить точность расчета оптимальной траектории, при этом вначале определяется положение середины расстояния между значениями первого и второго оптимумов для каждого временного среза. Если то сужение интервала U_t произойдет за счет сдвига нижнего предела диапазона возможных значений U_t на величину Δ_t вправо, если же , то сужение интервала U_t произойдет за счет сдвига верхнего предела диапазона возможных значений U_t на величину Δ_t влево, при этом одним из вариантов величины сдвига может быть значение т.е. 10 процентное уменьшение диапазона и соответствующее уменьшение дискретности тестируемых значений U_t - что означает увеличение точности на каждой оптимизационной итерации; при этом, после изменения диапазонов U_t заново пересчитываются все траектории заново определяются индексы z1_t и z2_t двух наиболее оптимальных траекторий для данной дискретности U_t определяются оптимальные наборы при этом если при изменении дискретности U_t новые рассчитанные значения первого и второго оптимумов целевой функции хуже значений, полученных на предыдущей итерации оптимизации, то процесс оптимизации можно прекратить (в случае, если каждая итерация требует существенных временных затрат), а оптимальное значение, полученное на предыдущей итерации считать локальным оптимумом, набор параметров - считать локально оптимизирующим целевую функцию набором; если же значения первого либо второго оптимумов улучшились на новой итерации, то итерации уменьшения дискретности U_t и перерасчетов оптимальных наборов можно продолжать до тех пор, пока изменения полученных на итерации оптимумов по сравнением с предыдущей итерацией не станут меньше установленной точности ε; тогда, на соответствующей итерации набор - можно считать оптимизирующим целевую функцию набором.

2. Способ по п. 1, в котором для обучения ИНС используются временные ряды известных значений управляющих параметров и параметров состояний Объекта длиной L интервалов временной дискретности, причем на первой итерации обучения используются первые отрезки этих рядов длинной Kx и Ku интервалов временной дискретности в качестве векторов обучающей выборки ИНС, а на каждой i-й итерации обучения ИНС, где i=1…L-Kx, кроме корректировки синаптических коэффициентов ИНС происходит постоянная замена последнего элемента в векторе обучающей выборки параметров состояния на полученное на предыдущем шаге обучения i-1 прогнозное значение параметра состояния Объекта Y_Kx+i-1.

3. Способ по п. 1, в котором для определения момента прекращения дальнейшего обучения ИНС используются особый критерий, отличающийся следующим построением: подсчитывают ошибки обучения ИНС как квадрат разности между прогнозным значением параметра состояния Объекта и известным значением обучающего ряда параметра состояния Объекта для всей длины обучающего ряда параметра состояния Объекта, и части временных интервалов ряда валидации параметра состояния Объекта, эти значения суммируют по всем указанным временным интервалам отдельно для отрезка валидации и отрезка ряда обучения, полученные суммы делят на число временных интервалов, и таким образом получают значения MSE (средний квадрат ошибки) для отрезка валидации и для отрезка обучения, затем для отрезка обучения рассчитывают относительный коэффициент ошибки, заключающийся в отношении MSE на текущей эпохе обучения к MSE на нулевой эпохе обучения, указанное значение будем называть относительным средним квадратом ошибки - ReMSE, затем отдельно для отрезка валидации и для отрезка обучения вычисляют разницы между подсчитанными значениями MSE для текущей и предыдущей эпох (градиенты изменения MSE), затем, опираясь на практику, говорящую, что несмотря на повышение точности прогнозирования нейросетью значений параметра состояния Объекта на участке обучения, точность прогноза на участке валидации начинает существенно ухудшатся, начиная с некоторых значений числа прошедших эпох обучения (переобучение ИНС), из-за чего имеет смысл останавливать обучение и отбраковывать реализацию обучения, если например после увеличения точности обучения не менее чем в 10 раз (ReMSE<0.1) ошибка на участке валидации значительно превышает допустимый уровень, а градиент значения MSE на отрезке валидации не имеет отрицательного знака (т.е. если прогноз на участке валидации не уточняется в процессе обучения), в этом случае валидация считается неуспешной, набор полученных синаптических коэффициентов сбрасывается и заново генерируется случайным образом в пределах [-1, 1], либо в других пределах в других реализациях изобретения, процесс обучения начинается заново; при этом отбраковка реализаций будет проходить до тех пор, пока не будет зафиксирован отрицательный градиент MSE на отрезке валидации в процессе обучения; останавливать процесс обучения можно, если достигнута заданная точность на участке валидации, либо в случае приближения значения градиента MSE на отрезке валидации к нулю, либо в случае достижения заданного порога по количеству эпох обучения.

4. Способ по п. 1, в котором моделируется набор значений параметра управления <U> для последующих расчетов значений целевой функции таким образом, что его максимальная и минимальные границы выбираются по значениям среднего U_сред и по значению стандартного среднеквадратического отклонения σ имеющегося временного ряда измеренных ранее значений управляющего параметра, используя правило 3 сигма, что означает 99% вероятность охвата всех возможных значений управляющего параметра при гауссовом распределении случайной величины его значений, т.e. U_min=U_сред-3*σ, U_max=U_сред+3*σ, а дискретный набор значений управляющего параметра, предъявляемых для дальнейшей оптимизации целевой функции объекта вычисляется равномерным распределением на отрезке [U_min, U_max] по соотношению: где Nu - выбранный размер набора значений управляющего параметра.

5. Система управления технической системой или процессом, далее - Объектом управления, состоящая из взаимосвязанных блоков и подблоков, построенных на основе программных модулей ЭВМ, с возможностью считывания, обработки и хранения данных, обеспечивающие процесс оптимизации управляющих параметров Объекта на требуемых временных срезах горизонта управления с целью получения агрегированного максимума (или минимума) целевой функции, в которую входят параметры состояния и управляющие параметры объекта управления на всех требуемых временных срезах горизонта управления, для чего на 1-м этапе согласно способу, раскрытому в п. 1 изобретения в блоке 101 строится искусственная нейросеть ИНС, которая проходит обучение и валидацию в подблоке 1011 с использованием обучающего временного ряда и временного ряда валидации, состоящих из наблюдаемых в прошлом значений параметра состояния Объекта, записанного и хранящегося в блоке 110, а также обучающего временного ряда и временного ряда валидации, состоящих из наблюдаемых в прошлом значений управляющих параметров Объекта, записанных и хранящихся в блоке 120, и передаваемых на подблок 1011 обучения и валидации нейросети, которая после окончания обучения и расчета ошибки валидации передает набор синаптических коэффициентов ИНС в подблок 1012 использования ИНС в режиме прогноза, где проходит процедуру принятия или отклонения по значениям ошибки валидации, затем, в случае успешного прохождения валидации, прогнозная модель ПМ считается идентифицированной, после чего в блоке 140 задаются (моделируются), например с помощью способа изложенного в п. 4 формулы настоящего изобретения, но возможно - другим способом в других реализациях изобретения - набор из Nu модельных значений параметра управления Объекта U=[U₁…U_Nu] или значения разности параметров управления Объекта согласно п. 1 формулы настоящего изобретения, в требуемом диапазоне и с требуемой дискретностью для каждого временного среза t: t=[1…N] горизонта управления, после чего с использованием ПМ происходит расчет набора значений параметра состояния (или значений разности параметров состояния Объекта) Y_t=<Y_t,i,z>, где i=1…Nu^t-1, z=1…Nu, далее для каждого из значений Y_t,i,z и U_t,z из соответствующих наборов блоком 210 рассчитывается набор значений целевой функции размером Nu^t: P_t=F(t, Y_t, U_t) для каждого временного среза t: t=[1…N] горизонта управления, причем, в случае использования согласно п. 1 формулы изобретения смоделированных значений отклонений управляющих параметров и рассчитанных значений отклонений параметров состояния, то расчет набора значений целевой функции производится по восстановленным по их разностям значениям управляющих параметров и параметров состояния; затем полученные наборы значений целевой функции поступают в блок 300, где происходит определение оптимальных значений параметров управления, каждое из которых соответствует своему временному срезу t: t=[1…N] горизонта управления, и которые при их использовании на обеспечат достижения агрегированного максимума (или минимума) целевой функции Объекта управления суммой по всем временным срезам горизонта управления; при этом результаты записываются и хранятся в блоке 400 Системы.