WO2017195257A1 - 電子制御装置、数式モデル構築方法 - Google Patents

電子制御装置、数式モデル構築方法 Download PDF

Info

Publication number
WO2017195257A1
WO2017195257A1 PCT/JP2016/063777 JP2016063777W WO2017195257A1 WO 2017195257 A1 WO2017195257 A1 WO 2017195257A1 JP 2016063777 W JP2016063777 W JP 2016063777W WO 2017195257 A1 WO2017195257 A1 WO 2017195257A1
Authority
WO
WIPO (PCT)
Prior art keywords
input
output
time
mathematical model
state
Prior art date
Application number
PCT/JP2016/063777
Other languages
English (en)
French (fr)
Inventor
辰也 堀口
広津 鉄平
Original Assignee
株式会社日立製作所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社日立製作所 filed Critical 株式会社日立製作所
Priority to PCT/JP2016/063777 priority Critical patent/WO2017195257A1/ja
Publication of WO2017195257A1 publication Critical patent/WO2017195257A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators

Definitions

  • the present invention relates to an electronic control device.
  • a method of predictive control a method is known in which a control target model that represents the behavior of the control target and its surrounding environment is constructed, and a solution that optimizes an evaluation function that incorporates the control objective and constraints of the control target model is known. ing.
  • a search method an analytical search method or a heuristic search method is known. In these solutions, it is known to predict the future behavior of the controlled object using a mathematical model of the controlled object and its surrounding environment.
  • a mathematical model based on a physical equation is constructed, and behavior prediction is sequentially performed using the model by predictive control calculation.
  • behavior prediction is sequentially performed using the model by predictive control calculation.
  • the output of the physical equation represents the prediction result of the behavior change of the controlled object.
  • Such an operation is hereinafter referred to as a predictive update operation.
  • Predictive control is control that performs state optimization based on such behavior prediction, and the effect of model accuracy on controllability is large. Therefore, it is attempted to improve the model accuracy by increasing the order of the model and fitting with the actual machine.
  • modeling errors always occur due to constraints on computation time, nonlinearity of the controlled object, sensor errors and disturbances, and other factors that are difficult to formulate.
  • control using machine learning technology such as a neural network is devised as a control target modeling technique based on actual operation data of a control target.
  • a neural network is used to control the current state of the control object and the operation amount given to the control object as input, as in the conventional behavior prediction of the control object based on the physical equation, and control that varies depending on the operation amount.
  • the target state quantity is output. This predicts the behavior of the controlled object.
  • the optimal solution is searched by repeating the above behavior prediction calculation several tens to several thousand times.
  • the behavior prediction calculation is a sequential calculation that performs a new calculation based on the previous calculation result as described above.
  • the behavior prediction calculation is performed by parallel processing using, for example, a GPU (Graphics Processing Unit) or an FPGA (Field Programmable Gate Array). Speeding up is difficult. Therefore, behavior prediction calculation that is difficult to speed up becomes a rule, and there is a limit to speeding up control calculation. As a result, predictive control with a high calculation cost is limited to a control target whose application range is relatively long.
  • the present invention has been made in view of the above-described problems, and an object thereof is to improve behavior prediction accuracy without relying on sequential behavior prediction calculation.
  • the mathematical model to be controlled is configured as a function that receives a plurality of operation amounts along a time series as an input and outputs a plurality of state quantities along the time series,
  • the evaluation function expressed as a function of the input and output of the mathematical model the operation amount input to the mathematical model is optimized.
  • the electronic control apparatus can improve the accuracy of behavior prediction of a controlled object without relying on sequential behavior prediction calculation.
  • FIG. 2 is a functional block diagram showing an internal configuration of an electronic control device 1.
  • FIG. 3 is a diagram illustrating a configuration of a control target model 4.
  • FIG. The example which comprised the control object model 4 by the neural network is shown.
  • 3 is a block diagram showing an internal configuration of an optimizer 3.
  • FIG. It is an example of the actual operation data of the hydraulic solenoid system 6.
  • the structure of the conventional control object model is shown.
  • FIG. It is a figure which shows the electronic control apparatus 1 which concerns on Embodiment 2, and its control object.
  • FIG. It is an example of the actual operation data of the multi-link arm 61.
  • FIG. It is a block diagram of the electronic control apparatus 1 which concerns on Embodiment 3.
  • FIG. 3 is a diagram illustrating a configuration of a control target model
  • FIG. 1 is a diagram showing an electronic control device 1 according to Embodiment 1 of the present invention and its controlled object.
  • the electronic control unit 1 calculates the output value 51 using the input value 10 and the feedback value 11 as inputs.
  • the hydraulic solenoid system 6 operates using the output value 51 as an input.
  • the electronic control unit 1 controls the hydraulic solenoid system 6 with the output value 51.
  • the controlled object model 4 will be described later.
  • the input value 10 is given from a host system (not shown).
  • a sensor 9 included in the hydraulic solenoid system 6 detects a state quantity of the hydraulic solenoid system 6 and outputs the detection result as a feedback value 11 to the electronic control unit 1.
  • the output value 51 is an operation amount for the hydraulic solenoid system 6.
  • the hydraulic solenoid system 6 includes a solenoid valve 7 and a hydraulic cylinder 8.
  • the hydraulic cylinder 8 displaces the position of the valve.
  • the solenoid valve 7 adjusts the amount of oil supplied to the hydraulic circuit. Since the solenoid valve 7 adjusts the oil amount according to the output value 51, the operation of the hydraulic solenoid system 6 can be controlled using the output value 51.
  • FIG. 2 is a functional block diagram showing the internal configuration of the electronic control unit 1.
  • the electronic control device 1 includes an initial parameter generation unit 2, an optimizer 3, a control target model 4, and an output selection unit 5.
  • the initial parameter generator 2 generates an initial parameter 21 in the process in which the optimizer 3 searches for an optimal solution.
  • the optimizer 3 searches for an optimal solution according to a procedure described later.
  • the controlled object model 4 describes the behavior of the hydraulic solenoid system 6 that is the controlled object by a mathematical model.
  • the controlled object model 4 is constructed as an optimal mathematical model in advance by, for example, machine learning in advance.
  • the output selection unit 5 selects an optimum output from the optimizer 3 as an output from the electronic control unit 1.
  • FIG. 3A is a diagram showing a configuration of the control target model 4.
  • the control target model 4 receives as input the initial value X0 (value at time 0) of the state quantity of the control target and the operation amounts U0 to Un-1 along the time series from time 0 to time n-1.
  • the control target model 4 outputs state quantities (predicted values) x1 to xn in time series from time 1 to time n. That is, the control target model 4 is configured not to sequentially calculate the operation amount and the state amount for each time, but to input and output them collectively.
  • FIG. 3B shows an example in which the control target model 4 is configured by a neural network.
  • the neural network has an input layer / intermediate layer / output layer.
  • the input layer is composed of neurons that receive input values for the controlled object model 4.
  • the intermediate layer is configured by neurons that receive the output from one or more neurons of the input layer and output the operation result to the next layer (the output layer in FIG. 3B).
  • the output layer is configured by neurons that receive outputs from one or more neurons of the previous layer (intermediate layer in FIG. 3B) and output state quantities.
  • FIG. 4 is a block diagram showing the internal configuration of the optimizer 3.
  • the optimizer 3 includes a mating controller 30 and a population 31.
  • Each individual in the individual group 31 predicts the future state quantity of the controlled object using the controlled object model 4 described in FIG.
  • Each individual further calculates and outputs an evaluation value 32 (F (xi)) given by Equation 1 below.
  • Xi is a state quantity given to the i-th individual. W1 to W3 are weighting factors.
  • Xslim is an upper limit set value of displacement given to prevent collision at the upper end of operation of the solenoid valve.
  • Xctgt is the target displacement of the hydraulic cylinder 8.
  • I (t) is a predicted value of the current of the solenoid valve 7 at time t.
  • Xs (t) is a predicted value of the valve displacement of the solenoid valve 7 at time t.
  • Xc (t) is a predicted value of the valve displacement of the hydraulic cylinder 8 at time t.
  • Xslim and Xctgt may be time-invariant constants or time-variable variables.
  • the mating controller 30 gives the initial parameter 21 as a state quantity x0 to each individual. Further, by changing the operation amount given to each individual among the individuals, the operation amounts u0 to un-1 given to each individual are changed. Each individual calculates the state quantities x1 to xn and the evaluation value 32 anew using the changed operation quantities u0 to un-1. The optimizer 3 repeats this process to search for a combination of the initial value X0 / the manipulated variable u0 to un-1 / the state quantities x1 to xn at which the evaluation value 32 is optimal (minimum in the case of Expression 1). .
  • the evaluation function of Equation 1 is configured as follows.
  • the first term has an effect of suppressing the current I (t) from the viewpoint of reducing energy consumption.
  • the second term has an action of suppressing wear caused by the valve body of the solenoid valve 7 colliding with the upper end.
  • the third term has the effect of causing the valve body of the hydraulic cylinder 8 to follow the target.
  • the operation procedure of the electronic control device 1 will be described.
  • the sensor 9 acquires (a) current flowing through the solenoid valve 7, (b) valve body displacement of the solenoid valve 7, and (c) valve body displacement of the hydraulic cylinder 8 as state quantities of the hydraulic solenoid system 6.
  • the initial parameter generation unit 2 supplies these state quantities at time 0 to the optimizer 3 as X0.
  • the optimizer 3 searches for an operation amount at which the evaluation value 32 is optimal.
  • the output selection unit 5 outputs an optimum operation amount as an output value 51. In these processes, the optimizer 3 can obtain a future state quantity (for example, 32 control cycles) of the hydraulic solenoid system 6 as illustrated in FIGS. 3A to 3B.
  • FIG. 5 is an example of actual operation data of the hydraulic solenoid system 6.
  • the time ID, controller command value, current value of the solenoid valve 7, valve body displacement of the solenoid valve 7, and valve body displacement of the hydraulic cylinder 8 are shown in order from the left of the table. These are the time series of changes in the state quantities of the hydraulic solenoid system 6 when various controller command values are applied to the hydraulic solenoid system 6.
  • the controller command value corresponds to the operation amount u.
  • the controlled object model 4 can be constructed in advance so as to conform to actual operation data as exemplified in FIG.
  • the control target model 4 is adjusted so that the actual operation of the hydraulic solenoid system 6 and the behavior of the neural network are well matched by learning the actual operation data of FIG. Can be built.
  • learning is performed with time ID: 1764 as time 0
  • learning is performed with a portion surrounded by a thick frame line as an input of the neural network and a portion surrounded by a dotted line frame as an output of the neural network.
  • the control target model 4 configured to predict the behavior from time 0 to time n.
  • FIG. 6 shows the configuration of a conventional control target model.
  • the operation amount and the state amount are sequentially input to the control target model every control cycle, and the state amount prediction value of the control target at each time is obtained as an output. Therefore, the same controlled object model is repeatedly used for the prediction period (32 control cycles in FIG. 6). Then, when the control target model has a modeling error, the modeling error is accumulated for 32 prediction computations. Further, if the time required to calculate the state quantity at each time is T, the time required to calculate the state quantity for 32 control cycles is 32T, so a lot of calculation time is required.
  • the electronic control unit 1 can collectively input operation amounts at a plurality of times to the control target model 4 and collectively obtain state quantities at the plurality of times from the control target model 4. .
  • the prediction calculation time is shortened by making the number of calculations only one, and the calculation time required for the control calculation is reduced. This makes it possible to apply predictive control to a control target that operates at a high speed.
  • FIG. 7 is a diagram illustrating a control target of the electronic control device 1 according to the second embodiment of the present invention.
  • the multilink arm 61 shown in FIG. The multi-link arm 61 has a structure in which the motors 0 to 3 are connected by links.
  • the sensor 9 acquires the rotation angles ⁇ 0 to ⁇ 3 of each motor, the tip position coordinates (x, y, z) of the multi-link arm 61, and the position coordinates (xo, yo, zo) of the obstacle 62.
  • FIG. 8 is a diagram illustrating the electronic control device 1 according to the second embodiment and its control target.
  • the electronic control unit 1 plans a trajectory for moving the tip position of the multi-link arm 61 to the target position given by the input value 10, and controls each motor according to the plan.
  • the configuration of the electronic control device 1 is the same as that of the first embodiment except that the control target model 4 is constructed in accordance with the multilink arm 61.
  • FIG. 9 is a diagram illustrating a configuration of the control target model 4 in the second embodiment.
  • the controlled object model 4 in the second embodiment in addition to the input described in the first embodiment, past state quantities x_ ⁇ 1 to x_ ⁇ N before time 0 are input. For example, state quantities for five past control cycles can be input.
  • the operation amount in the second embodiment is an angle change amount instructed to the motors 0 to 3.
  • FIG. 10 is an example of actual operation data of the multi-link arm 61. From the left in the table, the time ID corresponding to the operation data to be controlled, the controller command value (angle change amount) given to each motor (motor 0 to 3), the rotation angle ⁇ 0 to ⁇ 3 of each motor, multilink The tip position coordinates of the arm 61 are shown. These are time-series arrangements of changes in the state quantities of the multilink arm 61 when various controller command values are applied to the multilink arm 61.
  • control target model 4 when the control target model 4 is constructed using a neural network, the control target model 4 is adjusted so that the actual operation of the multilink arm 61 and the behavior of the neural network are well matched by learning the actual operation data of FIG. Can be built.
  • learning is performed with the time ID: 1136 as time 0
  • learning is performed by using a portion surrounded by a thick frame line as an input of the neural network and a portion surrounded by a dotted line frame as an output of the neural network.
  • state quantities at time IDs 1131 to 1135 are added as inputs.
  • Each motor is a servo motor and performs servo control according to the amount of angle change that is a command value given by the controller.
  • it is difficult to respond instantaneously to the command value due to motor characteristics and environmental conditions. Therefore, in the data shown in FIG. 10, there is an error between the controller command value for the angle change amount and the actual angle change. Since such errors are influenced by the characteristics of the actual machine and the actual environment, it is difficult to represent these errors by the physical model to be controlled. On the other hand, such an error can be reflected by constructing the control target model 4 using actual operation data as shown in FIG.
  • each individual in the individual group 31 calculates and outputs an evaluation value 32 (F (xi)) given by the following equation 2.
  • F (xi) ⁇ (W1 * ((xtgt ⁇ x (t)) ⁇ 2+ (ytgt ⁇ y (t)) ⁇ 2+ (ztgt ⁇ z (t)) ⁇ 2) + W2 * ( ⁇ — 0 (t) ⁇ 2 + ⁇ _1 (t) ⁇ 2 + ⁇ _2 (t) ⁇ 2 + ⁇ _3 (t) ⁇ 2) + Fpenalty (Formula 2)
  • Xi is a set value given to the i-th solid.
  • W1 to W2 are weighting factors.
  • xtgt, ytgt, and ztgt are target values of the tip position coordinates.
  • x (t), y (t), and z (t) are predicted values of the tip position coordinates at time t.
  • ⁇ — 3 (t) are the amount of change in angle of each motor at time t.
  • Fpenalty is a penalty function.
  • the penalty function is a function added to prevent the multilink arm 61 from passing through the prohibited area.
  • the penalty function is configured so that the position coordinates of these obstacles are defined as prohibited areas, and a penalty is given to the operation value evaluation value 32 such that the multilink arm 61 passes through the prohibited area. Accordingly, it is possible to increase the probability that an operation amount that prevents entry into the prohibited area is adopted, and to prevent the multilink arm 61 from colliding with the obstacle 62.
  • the penalty function is set as shown in Equation 3 below. W3 is a sufficiently large constant with respect to a value that can be taken by a term other than Fpenalty in Equation 2.
  • the prohibited area can be determined based on the result of the sensor 9 detecting the coordinates of the obstacle 62.
  • Equations 2 to 3 it is possible to plan a trajectory that moves to the target position while changing the behavior of the multilink arm 61 so as to avoid the obstacle 62. Further, when a penalty may occur due to insufficient convergence of the control calculation, the optimizer 3 notifies the output selector 5 of the collision risk, and the output selector 5 avoids the collision avoidance determined in advance. The operation may be forcibly selected.
  • the control target can be adapted to the temporal change even in a surrounding environment that changes with time, such as when the obstacle 62 moves.
  • FIG. 11 is a configuration diagram of the electronic control device 1 according to the third embodiment of the present invention. All or some of the initial parameter generation unit 2, the optimizer 3, the control target model 4, and the output selection unit 5 described in the first and second embodiments use hardware such as a circuit device that implements these functions. It can also be configured by a CPU (Central Processing Unit) 100 executing software having similar functions.
  • FIG. 11 shows an example in which the electronic control device 1 includes the CPU 100 and the storage device 110 as the latter configuration example.
  • the optimizer 3 predicts the future behavior of the controlled object, it is necessary to build the controlled object model 4 in advance. For example, by defining the parameters of the mathematical model of the control target model 4 as variables and adjusting the variables according to the actual operation data, the control target model 4 can be brought close to the actual behavior of the control target.
  • CPU100 and circuit device can be used together.
  • the population 31 can be implemented by hardware such as FPGA, and the optimizer 3 main body and the mating controller 30 can be implemented by software. The same applies to other functional units.
  • the optimizer 3 optimizes the evaluation value 32 so that the controlled object model 4 can accurately output the future behavior of the controlled object.
  • the optimization result can be stored in the storage device 110 as control map data 111 that describes the correspondence between input and output for the controlled object model 4.
  • the electronic control unit 1 determines the operation amount according to the description of the control map data 111 and also determines the future behavior of the control target. Can be predicted.
  • optimization is performed according to the method described in the first and second embodiments, and the result is added to the control map data 111. Good.
  • the present invention is not limited to the above-described embodiments, and includes various modifications.
  • the above-described embodiments have been described in detail for easy understanding of the present invention, and are not necessarily limited to those having all the configurations described.
  • a part of the configuration of a certain embodiment can be replaced with the configuration of another embodiment, and the configuration of another embodiment can be added to the configuration of a certain embodiment.
  • the operation amount and the state amount from time 0 to time n ⁇ 1 are input, and the state amount from time 1 to time n is output, but other combinations of times are input / output.
  • the control target model 4 may be constructed. For example, an operation amount and a state amount from time 0 to time n ⁇ 1 may be input, and a state amount from time 2 to time n + 1 or a state amount from time ⁇ 1 to time n ⁇ 1 may be output. That is, it is possible to use an arbitrary control target model 4 that inputs a plurality of operation amounts along a time series and outputs a plurality of state amounts along a time series.
  • the optimizer 3 minimizes the evaluation value 32.
  • the evaluation value 32 may be maximized depending on the configuration of the evaluation function. That is, the evaluation value 32 may be optimized according to the configuration of the evaluation function.
  • the mating controller 30 mates the inputs between the solids using the artificial bee colony algorithm, but the evaluation value 32 can also be optimized using other optimization algorithms.
  • a particle swarm optimization method, a genetic algorithm, or the like can be used.
  • each individual holds the control target model 4 internally. Since the controlled object model 4 is constructed in advance before the optimization operation by the optimizer 3, for example, data defining the controlled object model 4 is stored in the storage device 110, and each individual stores this data. You may make it read.
  • the actual operation data shown in FIG. 5 can be properly standardized at the time of acquisition, or can be standardized at the time of learning rather than at the time of acquisition. If it is not necessary for processing, it may not be standardized.
  • the hydraulic solenoid system 6 and the multi-link arm 61 are exemplified as the control target.
  • the control target The invention can be applied.
  • the above components, functions, processing units, processing means, etc. may be realized in hardware by designing some or all of them, for example, with an integrated circuit.
  • Each of the above-described configurations, functions, and the like may be realized by software by interpreting and executing a program that realizes each function by the processor.
  • Information such as programs, tables, and files for realizing each function can be stored in a recording device such as a memory, a hard disk, an SSD (Solid State Drive), or a recording medium such as an IC card, an SD card, or a DVD.

Abstract

本発明は、逐次的な挙動予測演算に依拠することなく、挙動予測精度を向上させることを目的とする。本発明に係る電子制御装置において、制御対象の数式モデルは、時系列に沿った複数の操作量を入力として受け取り、時系列に沿って複数の状態量を出力する関数として構成されており、前記数式モデルの入力と出力の関数として表される評価関数を最適化することにより、前記数式モデルに対して入力する操作量を最適化する(図3A)。

Description

電子制御装置、数式モデル構築方法
 本発明は、電子制御装置に関するものである。
 大規模なプラント制御や非線形性の強いアクチュエータ制御で用いられるモデル予測制御、またはロボット制御や自動運転において用いられる軌道計画においては、非線形関数の数理計画に基づく状態最適化により、一定期間の将来に亘る状態最適化を含めた制御を実施する場合がある。これにより、複雑な制御対象や制約条件下で制御対象を好適に制御することができる。以下、本明細書においてこれらの制御を予測制御と呼ぶ。
 予測制御の解法としては、制御対象やその周辺環境の挙動を表す制御対象モデルを構築し、制御対象モデルの制御目的と制約条件を組み込んだ評価関数を最適化する解を探索する手法が知られている。探索手法としては、解析的探索手法やヒューリスティック探索手法が知られている。これら解法においては共通して、制御対象やその周辺環境の数式モデルを用いて、制御対象の将来挙動を予測することが知られている。
 このような制御対象モデルの構築においては、物理方程式に基づいた数式モデルが構築され、予測制御演算によって同モデルを用いて逐次的に挙動予測を実施する。この手法においては、物理方程式に対して、例えば制御系における制御周期毎に(あるいは任意の更新周期毎に)、制御対象に与える操作量と、センサ等により観測される制御対象および周辺環境の状態量を入力する。物理方程式の出力は、制御対象の挙動変化の予測結果を表している。このような演算を、以下予測更新演算と呼ぶ。
 予測制御は、このような挙動予測に基づいた状態最適化を行う制御であり、モデル精度が制御性に与える影響は大きい。そのため、モデルの高次化および実機とのフィッティング等によるモデル精度の向上が試みられる。しかし、演算時間の制約、制御対象の非線形性、センサ誤差や外乱、その他定式化困難な要素の存在により、モデル化誤差が常に発生する。
 下記特許文献1は、上述のような課題に鑑みて、制御対象の実動作データに基づく制御対象モデリング手法として、ニューラルネットワーク等の機械学習技術を用いた制御が考案されている。同文献においては、ニューラルネットワークを用いて、従来の物理方程式に基づく制御対象の挙動予測と同様に、制御対象の現在状態および制御対象に対して与える操作量を入力とし、操作量により変化する制御対象の状態量を出力とする。これにより制御対象の挙動を予測している。
特開2014-038609号公報
 予測制御における挙動予測は、前述のような制御対象モデルを用いた短期間の将来挙動予測を、必要とされる予測期間に達するまで繰り返し用いる。そのため、モデル化誤差の蓄積により、予測期間が長くなるのにともなって予測精度が低下し、所望の制御性が得られないという課題がある。
 予測制御においては、上述の挙動予測演算を数十から数千回繰り返すことにより最適解が探索される。挙動予測演算は先述のように直前の演算結果を基礎として新たな演算を実施する逐次的な演算であり、例えばGPU(Graphics Processing Unit)やFPGA(Field Programmable Gate Array)を用いた演算並列化による高速化は困難である。そのため高速化困難な挙動予測演算が律則となり、制御演算の高速化には限界がある。結果、演算コストの高い予測制御は、その適用範囲が比較的制御周期の長い制御対象に限られる。
 本発明は、上記のような課題に鑑みてなされたものであり、逐次的な挙動予測演算に依拠することなく、挙動予測精度を向上させることを目的とする。
 本発明に係る電子制御装置において、制御対象の数式モデルは、時系列に沿った複数の操作量を入力として受け取り、時系列に沿って複数の状態量を出力する関数として構成されており、前記数式モデルの入力と出力の関数として表される評価関数を最適化することにより、前記数式モデルに対して入力する操作量を最適化する。
 本発明に係る電子制御装置によれば、逐次的な挙動予測演算に依拠することなく、制御対象の挙動予測の精度を向上させることができる。
実施形態1に係る電子制御装置1とその制御対象を示す図である。 電子制御装置1の内部構成を示す機能ブロック図である。 制御対象モデル4の構成を示す図である。 制御対象モデル4をニューラルネットワークによって構成した例を示す。 最適化器3の内部構成を示すブロック図である。 油圧ソレノイドシステム6の実動作データの例である。 従来の制御対象モデルの構成を示す。 実施形態2に係る電子制御装置1の制御対象を示す図である。 実施形態2に係る電子制御装置1とその制御対象を示す図である。 実施形態2における制御対象モデル4の構成を示す図である。 マルチリンクアーム61の実動作データの例である。 実施形態3に係る電子制御装置1の構成図である。
<実施の形態1>
 図1は、本発明の実施形態1に係る電子制御装置1とその制御対象を示す図である。電子制御装置1は、入力値10とフィードバック値11を入力として用いて、出力値51を演算する。油圧ソレノイドシステム6は、出力値51を入力として用いて動作する。電子制御装置1は、出力値51によって油圧ソレノイドシステム6を制御する。制御対象モデル4については後述する。
 入力値10は、図示しない上位システムから与えられる。油圧ソレノイドシステム6が備えるセンサ9は、油圧ソレノイドシステム6の状態量を検出し、その検出結果をフィードバック値11として電子制御装置1に対して出力する。出力値51は、油圧ソレノイドシステム6に対する操作量である。
 油圧ソレノイドシステム6は、ソレノイド弁7と油圧シリンダ8を備える。油圧シリンダ8は、弁の位置を変位させる。ソレノイド弁7は、油圧回路に対して供給する油量を調整する。ソレノイド弁7は、出力値51にしたがって油量を調整するので、出力値51を用いて油圧ソレノイドシステム6の動作を制御することができる。
 図2は、電子制御装置1の内部構成を示す機能ブロック図である。電子制御装置1は、初期パラメータ生成部2、最適化器3、制御対象モデル4、出力選択部5を備える。初期パラメータ生成部2は、最適化器3が最適解を探索する過程における初期パラメータ21を生成する。最適化器3は、後述する手順にしたがって最適解を探索する。制御対象モデル4は、制御対象である油圧ソレノイドシステム6の挙動を数式モデルによって記述したものである。制御対象モデル4は、例えば事前に機械学習するなどによってあらかじめ最適な数式モデルとして構築しておく。出力選択部5は、最適化器3の出力のうち、電子制御装置1の出力として最適なものを選択する。
 図3Aは、制御対象モデル4の構成を示す図である。制御対象モデル4は、制御対象の状態量の初期値X0(時刻0における値)と、時刻0~時刻n-1までの時系列に沿った操作量U0~Un-1とを入力として受け取る。制御対象モデル4は、時刻1~時刻nまでの時系列に沿った状態量(予測値)x1~xnを出力する。すなわち制御対象モデル4は、時刻ごとの操作量と状態量を逐次的に算出するのではなく、これらを一括して入出力するように構成されている。
 図3Bは、制御対象モデル4をニューラルネットワークによって構成した例を示す。ニューラルネットワークは、入力層/中間層/出力層を有する。入力層は、制御対象モデル4に対する入力値をそれぞれ受け取るニューロンによって構成されている。中間層は、入力層の1以上のニューロンからの出力を受け取り、次の層(図3Bにおいては出力層)に対して演算結果を出力するニューロンによって構成されている。出力層は、前の層(図3Bにおいては中間層)の1以上のニューロンからの出力を受け取り、それぞれ状態量を出力するニューロンによって構成されている。
 図4は、最適化器3の内部構成を示すブロック図である。最適化器3は、交配制御器30と個体群31を備える。個体群31内の各個体は、図3で説明した制御対象モデル4を用いて制御対象の将来の状態量を予測する。各個体はさらに、下記式1によって与えられる評価値32(F(xi))を算出して出力する。
 F(xi)=Σ(W1*I^2-W2*ln(Xslim-Xs)+W3*(Xctgt-Xc)^2) (式1)
 xiは、i番目の個体に与えられる状態量である。W1~W3は、重み係数である。Xslimは、ソレノイド弁の動作上端における衝突を防ぐために与えられる変位の上限設定値である。Xctgtは、油圧シリンダ8の目標変位である。I(t)は、時刻tにおけるソレノイド弁7の電流の予測値である。Xs(t)は、時刻tにおけるソレノイド弁7の弁変位の予測値である。Xc(t)は、時刻tにおける油圧シリンダ8の弁変位の予測値である。XslimとXctgtは、時不変な定数であってもよいし時変な変数であってもよい。
 交配制御器30は、各個体に対して初期パラメータ21を状態量x0として与える。また、各個体に対して与える操作量を個体間で交換させることにより、各個体に対して与える操作量u0~un-1を変更する。各個体は、変更された操作量u0~un-1を用いて改めて状態量x1~xnと評価値32を算出する。最適化器3は、この処理を繰り返すことにより、評価値32が最適(式1の場合は最小)となる初期値X0/操作量u0~un-1/状態量x1~xnの組み合わせを探索する。
 式1の評価関数は、以下のように構成されている。第1項は、エネルギー消費量低減の観点から、電流I(t)を抑える作用を有する。第2項は、ソレノイド弁7の弁体が上端に衝突することによる摩耗を抑制する作用を有する。第3項は、油圧シリンダ8の弁体を目標に追従させる作用を有する。式1の評価関数を最小化する操作量を探索することにより、エネルギー消費を抑制しつつ油圧ソレノイドシステム6を目標値に向かって動作させることができる。
 電子制御装置1の動作手順について説明する。センサ9は、油圧ソレノイドシステム6の状態量として、(a)ソレノイド弁7に流れる電流、(b)ソレノイド弁7の弁体変位、(c)油圧シリンダ8の弁体変位、を取得する。初期パラメータ生成部2は、時刻0におけるこれら状態量をX0として最適化器3に対して供給する。最適化器3は、評価値32が最適となる操作量を探索する。出力選択部5は、最適な操作量を出力値51として出力する。これらの過程において最適化器3は、図3A~図3Bに例示したように、油圧ソレノイドシステム6の将来の状態量(例えば32制御周期分)を得ることができる。
 図5は、油圧ソレノイドシステム6の実動作データの例である。表の左から順に、制御対象の動作データに対応する時刻ID、コントローラ指令値、ソレノイド弁7の電流値、ソレノイド弁7の弁体変位、油圧シリンダ8の弁体変位、を示す。これらは、油圧ソレノイドシステム6に対して様々なコントローラ指令値を印加した際の油圧ソレノイドシステム6の各状態量の変化を時系列に並べたものである。コントローラ指令値は、操作量uに対応するものである。
 制御対象モデル4は、図5に例示するような実動作データに適合するようにあらかじめ構築することができる。例えばニューラルネットワークを用いて制御対象モデル4を構築する場合、図5の実動作データを学習することにより、油圧ソレノイドシステム6の実動作とニューラルネットワークの挙動がよく合致するように制御対象モデル4を構築することができる。例えば時刻ID:1764を時刻0として学習する場合、太枠線で囲んだ部分をニューラルネットワークの入力とし、点線枠で囲んだ部分をニューラルネットワークの出力として、学習を実施する。これにより、時刻0~時刻nまでの挙動を予測するように構成された制御対象モデル4を構築することができる。
 図6は、従来の制御対象モデルの構成を示す。従来の制御対象モデルを用いた挙動予測演算は、操作量と状態量を制御対象モデルに対して制御周期毎に逐次的に入力し、各時刻における制御対象の状態量予測値を出力として得る。したがって、同じ制御対象モデルを予測期間(図6においては32制御周期)分だけ繰り返し用いる。そうすると、制御対象モデルがモデル化誤差を有している場合、そのモデル化誤差が32回の予測演算分だけ蓄積する。また、各時刻における状態量を演算するために要する時間をTとすると、32制御周期分の状態量を演算するために要する時間は32Tとなるので、多くの演算時間が必要である。
 これに対し本実施形態1に係る電子制御装置1は、複数時刻における操作量を制御対象モデル4に対してまとめて入力し、複数時刻における状態量を制御対象モデル4からまとめて得ることができる。これにより、図6のように同じ制御対象モデルを繰り返し用いる必要性がなくなり、モデル化誤算の蓄積が防止される。したがって、予測制御における挙動予測精度が向上し、制御性が向上する。また、演算回数を1回のみとすることにより予測演算時間が短縮され、制御演算に要する演算時間が低減される。これにより、高速な周期で動作する制御対象に対して予測制御を適用することが可能となる。
<実施の形態2>
 図7は、本発明の実施形態2に係る電子制御装置1の制御対象を示す図である。本実施形態2においては、図7に示すマルチリンクアーム61を制御対象とする。マルチリンクアーム61は、モータ0~モータ3がリンクによって接続された構造を有する。センサ9は、各モータの回転角θ0~θ3、マルチリンクアーム61の先端位置座標(x,y,z)、障害物62の位置座標(xo,yo,zo)を取得する。
 図8は、本実施形態2に係る電子制御装置1とその制御対象を示す図である。電子制御装置1は、マルチリンクアーム61の先端位置を、入力値10により与えられる目標位置まで移動するための軌道を計画し、その計画にしたがって各モータを制御する。電子制御装置1の構成は、制御対象モデル4がマルチリンクアーム61に合わせて構築されていることを除けば実施形態1と同様である。
 図9は、本実施形態2における制御対象モデル4の構成を示す図である。本実施形態2における制御対象モデル4は、実施形態1で説明した入力に加えて、時刻0よりも前の過去の状態量x_-1~x_-Nが入力される。例えば過去の5制御周期分の状態量を入力することができる。本実施形態2における操作量は、モータ0~3に対して指示する角度変化量である。
 図10は、マルチリンクアーム61の実動作データの例である。表の左から順に、制御対象の動作データに対応する時刻ID、各モータ(モータ0~3)に対して与えられるコントローラ指令値(角度変化量)、各モータの回転角θ0~θ3、マルチリンクアーム61の先端位置座標、を示す。これらは、マルチリンクアーム61に対して様々なコントローラ指令値を印加した際のマルチリンクアーム61の各状態量の変化を時系列に並べたものである。
 例えばニューラルネットワークを用いて制御対象モデル4を構築する場合、図10の実動作データを学習することにより、マルチリンクアーム61の実動作とニューラルネットワークの挙動がよく合致するように制御対象モデル4を構築することができる。例えば時刻ID:1136を時刻0として学習する場合、太枠線で囲んだ部分をニューラルネットワークの入力とし、点線枠で囲んだ部分をニューラルネットワークの出力として、学習を実施する。実施形態1と異なり、時刻ID:1131~1135における状態量が入力として追加されている。
 各モータはサーボモータであり、コントローラより与えられる指令値である角度変化量にしたがってサーボ制御を実施する。しかし、モータ特性や環境条件に起因して、指令値に対して瞬時に応答することは難しい。したがって図10に示すデータにおいては、角度変化量のコントローラ指令値と実際の角度変化との間に誤差が生じている。このような誤差は実機の特性や実環境によって影響されるので、制御対象の物理モデルによってこれら誤差を表すことは困難である。これに対し図10のような実動作データを用いて制御対象モデル4を構築することにより、このような誤差を反映することができる。
 本実施形態2において、個体群31内の各個体は、下記式2によって与えられる評価値32(F(xi))を算出して出力する。
 F(xi)=Σ(W1*((xtgt-x(t))^2+(ytgt-y(t))^2+(ztgt-z(t))^2)+W2*(Δθ_0(t)^2 +Δθ_1(t)^2+Δθ_2(t)^2+Δθ_3(t)^2 )+Fpenalty (式2)
 xiは、i番目の固体に与えられる設定値である。W1~W2は、重み係数である。xtgt、ytgt、ztgtは、先端位置座標の目標値である。x(t)、y(t)、z(t)は、時刻tにおける先端位置座標の予測値である。Δθ_0(t)、Δθ_1(t)、Δθ_2(t)、Δθ_3(t)は、時刻tにおける各モータの角度変化量である。Fpenaltyは、ペナルティ関数である。
 ペナルティ関数は、マルチリンクアーム61が禁止領域を通過しないようにするために加えられる関数である。例えば産業用ロボットアームは、その動作空間内に固定障害物または移動障害物が存在し得るので、これを回避して目的位置に到達する必要がある。ペナルティ関数は、これら障害物の位置座標を禁止領域として定義し、マルチリンクアーム61が禁止領域を通過するような操作量の評価値32に対してペナルティを与えるように構成されている。これにより、禁止領域に対して進入することを防ぐ操作量が採択される確率を高め、マルチリンクアーム61が障害物62と衝突することを防ぐことができる。ペナルティ関数は、下記式3のように設定される。W3は、式2のFpenalty以外の項が取り得る値に対して十分に大きい定数である。禁止領域は、センサ9が障害物62の座標を検出した結果に基づき定めることができる。
 マルチリンクアーム61が禁止領域を通過する場合:Fpenalty=W3、それ以外の場合:Fpenalty=0 (式3)
 式2~式3を評価関数として用いることにより、障害物62を避けるようにマルチリンクアーム61の挙動を変更しつつ目的位置まで移動させる軌道を計画することができる。また、制御演算の収束が不十分であるためペナルティが発生し得る場合は、最適化器3から出力選択部5に対して衝突危険性を通知し、出力選択部5は事前に定めた衝突回避動作を強制的に選択してもよい。本実施形態2によれば、例えば障害物62が移動する場合などのように時間的に変化する周辺環境下においても、制御対象をその時間変化に対して適応させることができる。
<実施の形態3>
 図11は、本発明の実施形態3に係る電子制御装置1の構成図である。実施形態1~2で説明した初期パラメータ生成部2、最適化器3、制御対象モデル4、出力選択部5のうち全部または一部は、これらの機能を実装した回路デバイスなどのハードウェアを用いて構成することもできるし、同様の機能を実装したソフトウェアをCPU(Central Processing Unit)100が実行することにより構成することもできる。図11においては後者の構成例として、電子制御装置1がCPU100と記憶装置110を備える例を示した。
 最適化器3が制御対象の将来挙動を予測する前に、制御対象モデル4をあらかじめ構築しておく必要がある。例えば、制御対象モデル4の数式モデルが有するパラメータを変数として定義しておき、その変数を実動作データにしたがって調整することにより、制御対象モデル4を制御対象の実挙動に近づけることができる。
 CPU100と回路デバイスを併用することもできる。例えば個体群31をFPGAなどのハードウェアによって実装し、最適化器3本体と交配制御器30はソフトウェアによって実装することができる。その他機能部についても同様である。
 最適化器3は、評価値32を最適化することにより、制御対象モデル4が制御対象の将来挙動を正確に出力できるように最適化する。その最適化結果は、制御対象モデル4に対する入力と出力の対応関係を記述する制御マップデータ111として記憶装置110内に格納することができる。電子制御装置1は、制御マップデータ111が記述している対応関係と同様の状態量をセンサ9が検出したときは、制御マップデータ111の記述にしたがって操作量を定めるとともに、制御対象の将来挙動を予測することができる。制御マップデータ111が記述していない状態量をセンサ9が検出したときは、実施形態1~2で説明した手法にしたがって最適化を実施し、その結果を制御マップデータ111に対して追記すればよい。
<本発明の変形例について>
 本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換える事が可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について他の構成の追加・削除・置換をすることができる。
 以上の実施形態においては、時刻0~時刻n-1までの操作量と状態量を入力とし、時刻1~時刻nまでの状態量を出力としたが、その他時刻の組み合わせを入出力するように制御対象モデル4を構築してもよい。例えば時刻0~時刻n-1までの操作量と状態量を入力とし、時刻2~時刻n+1までの状態量あるいは時刻-1~時刻n-1までの状態量を出力してもよい。すなわち、時系列に沿って複数の操作量を入力し、時系列に沿って複数の状態量を出力する、任意の制御対象モデル4を用いることができる。
 以上の実施形態においては、最適化器3は評価値32を最小化することを説明したが、評価関数の構成によっては評価値32を最大化してもよい。すなわち、評価関数の構成に応じて評価値32を最適化すればよい。
 以上の実施形態においては、人工蜂コロニーアルゴリズムを用いて交配制御器30が固体間の入力を交配させることを例示したが、その他最適化アルゴリズムを用いて評価値32を最適化することもできる。例えば粒子群最適化法、遺伝的アルゴリズムなどを用いることができる。
 以上の実施形態においては、各個体が制御対象モデル4を内部的に保持していることを前提とした。制御対象モデル4は最適化器3による最適化演算の前にあらかじめ構築しておくものであるので、例えば記憶装置110に制御対象モデル4を定義したデータを格納しておき、各個体がこれを読み出すようにしてもよい。
 以上の実施形態において、図5に示す実動作データは、取得時に適切に規格化することもできるし、取得時ではなく学習時に規格化することもできる。処理上で必要でなければ規格化しなくてもよい。
 以上の実施形態においては、制御対象として油圧ソレノイドシステム6とマルチリンクアーム61を例示したが、状態量と操作量の関係を数式モデルによって表すことができるのであれば、その他制御対象に対して本発明を適用することができる。
 上記各構成、機能、処理部、処理手段等は、それらの一部や全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリ、ハードディスク、SSD(Solid State Drive)等の記録装置、ICカード、SDカード、DVD等の記録媒体に格納することができる。
1:電子制御装置
2:初期パラメータ生成部
3:最適化器
30:交配制御器
31:個体群
32:評価値
4:制御対象モデル
5:出力選択部
51:出力値
6:油圧ソレノイドシステム
61:マルチリンクアーム
7:ソレノイド弁
8:油圧シリンダ
9:センサ
10:入力値
11:フィードバック値

Claims (8)

  1.  制御対象の状態を表す状態量に対応する操作量を求める電子制御装置であって、
     前記電子制御装置は、前記制御対象に対して与える操作量と前記制御対象の状態量との間の関係を数式によって表した数式モデルに対して時系列に沿って与える複数の前記操作量を最適化する最適化器を備え、
     前記数式モデルは、前記複数の操作量を入力として並列に受け取り、時系列に沿って複数の前記状態量を並列に出力する関数として構成されており、
     前記最適化器は、前記数式モデルに対して入力する前記操作量、前記数式モデルが出力する前記状態量、および前記制御対象の制御目標値の関数として表される評価関数が算出する評価値が最適となる前記操作量と前記状態量の組み合わせを求めることにより、新たな前記状態量に対応して前記制御対象に対して与える前記操作量を最適化する
     ことを特徴とする電子制御装置。
  2.  前記数式モデルは、開始時刻から終了時刻までの時系列に沿った前記操作量と、前記開始時刻における前記状態量とを入力として受け取り、前記開始時刻の次時刻から前記終了時刻の次時刻までの時系列に沿った前記状態量を出力する関数として構成されており、
     前記最適化器は、前記評価値を最適化することにより、前記開始時刻から前記終了時刻までの前記操作量を最適化する
     ことを特徴とする請求項1記載の電子制御装置。
  3.  前記数式モデルは、開始時刻から終了時刻までの時系列に沿った前記操作量、前記開始時刻における前記状態量、および前記開始時刻の1つ前の時刻から遡った過去時刻までの時系列に沿った前記操作量を入力として受け取り、前記開始時刻の次時刻から前記終了時刻の次時刻までの時系列に沿った前記状態量を出力する関数として構成されており、
     前記最適化器は、前記評価値を最適化することにより、前記開始時刻から前記終了時刻までの前記操作量を最適化する
     ことを特徴とする請求項1記載の電子制御装置。
  4.  前記数式モデルは、入力層、中間層、および出力層を有するニューラルネットワークとして構成されており、
     前記入力層は、前記複数の操作量を前記ニューラルネットワークに対する入力として受け取り、
     前記中間層は、前記入力層の出力を入力として受け取り、前記中間層の出力を前記出力層の入力として出力し、
     前記出力層は、前記中間層の出力を入力として受け取り、前記複数の状態量を前記ニューラルネットワークの出力として出力する
     ことを特徴とする請求項1記載の電子制御装置。
  5.  前記電子制御装置は、
      前記最適化器が最適化した前記操作量と前記状態量との間の対応関係を記録した制御マップ、
      前記状態量を検出するセンサから前記状態量を取得する状態量取得部、
     を備え、
     前記電子制御装置は、前記状態量取得部が取得した前記状態量に対応する前記操作量を前記制御マップから取得し、その取得した前記操作量を用いて前記制御対象を制御する
     ことを特徴とする請求項1記載の電子制御装置。
  6.  前記制御対象は、対象物を移動させるアクチュエータであり、
     前記評価関数は、前記対象物が障害物と衝突するとき前記評価値が低くなるように構成されており、
     前記最適化器は、前記評価値を最適化することにより、前記アクチュエータが前記障害物を避けて前記対象物を移動させるように、前記アクチュエータの動作を制御する
     ことを特徴とする請求項1記載の電子制御装置。
  7.  制御対象に対して与える操作量と前記制御対象の状態量との間の関係を数式によって表した数式モデルを構築する方法であって、
     前記数式モデルは、時系列に沿った複数の前記操作量を入力として並列に受け取り、時系列に沿って複数の前記状態量を並列に出力する関数として構成されており、
     前記方法は、
      前記数式モデルが出力する前記状態量と教師データとの間の差分を最小化するように前記数式モデルを修正することを繰り返すことにより、前記数式モデルに対する入力と前記数式モデルからの出力との間の対応関係を前記制御対象の挙動に近づけるステップを有する
     ことを特徴とする数式モデル構築方法。
  8.  前記数式モデルは、入力層、中間層、および出力層を有するニューラルネットワークとして構成されており、
     前記入力層は、前記複数の操作量を前記ニューラルネットワークに対する入力として受け取り、
     前記中間層は、前記入力層の出力を入力として受け取り、前記中間層の出力を前記出力層の入力として出力し、
     前記出力層は、前記中間層の出力を入力として受け取り、前記複数の状態量を前記ニューラルネットワークの出力として出力する
     ことを特徴とする請求項7記載の数式モデル構築方法。
PCT/JP2016/063777 2016-05-09 2016-05-09 電子制御装置、数式モデル構築方法 WO2017195257A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2016/063777 WO2017195257A1 (ja) 2016-05-09 2016-05-09 電子制御装置、数式モデル構築方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2016/063777 WO2017195257A1 (ja) 2016-05-09 2016-05-09 電子制御装置、数式モデル構築方法

Publications (1)

Publication Number Publication Date
WO2017195257A1 true WO2017195257A1 (ja) 2017-11-16

Family

ID=60267715

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2016/063777 WO2017195257A1 (ja) 2016-05-09 2016-05-09 電子制御装置、数式モデル構築方法

Country Status (1)

Country Link
WO (1) WO2017195257A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021143697A (ja) * 2020-03-11 2021-09-24 日立Geニュークリア・エナジー株式会社 液圧駆動装置、液圧駆動装置の制御方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02249004A (ja) * 1989-03-23 1990-10-04 Yokogawa Electric Corp 神経回路網モデルを用いたプロセス制御方法
JPH0581228A (ja) * 1991-09-19 1993-04-02 Hitachi Ltd ニユーラルネツトワークの構成方法および学習/想起システム
JPH09114503A (ja) * 1995-10-13 1997-05-02 Toshiba Corp 制御装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02249004A (ja) * 1989-03-23 1990-10-04 Yokogawa Electric Corp 神経回路網モデルを用いたプロセス制御方法
JPH0581228A (ja) * 1991-09-19 1993-04-02 Hitachi Ltd ニユーラルネツトワークの構成方法および学習/想起システム
JPH09114503A (ja) * 1995-10-13 1997-05-02 Toshiba Corp 制御装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021143697A (ja) * 2020-03-11 2021-09-24 日立Geニュークリア・エナジー株式会社 液圧駆動装置、液圧駆動装置の制御方法
JP7299184B2 (ja) 2020-03-11 2023-06-27 日立Geニュークリア・エナジー株式会社 液圧駆動装置、液圧駆動装置の制御方法

Similar Documents

Publication Publication Date Title
Shin et al. Reinforcement learning–overview of recent progress and implications for process control
Atkeson et al. Locally weighted learning for control
JP6727744B2 (ja) 機械の動作を制御するモデル予測制御システム及び方法
CN109176532B (zh) 一种机械臂路径规划方法、系统及装置
US20220326664A1 (en) Improved machine learning for technical systems
Antsaklis Intelligent control
Liu et al. Multi-kernel online reinforcement learning for path tracking control of intelligent vehicles
CN111857107B (zh) 基于学习组件库的辅助型移动机器人导航控制系统和方法
CN109540163B (zh) 一种基于差分进化和模糊控制相结合的避障路径规划算法
JP6841852B2 (ja) 制御装置及び制御方法
Pal et al. Brief survey of model-based reinforcement learning techniques
Rodríguez-Molina et al. Indirect adaptive control using the novel online hypervolume-based differential evolution for the four-bar mechanism
Das Sharma et al. Harmony search-based hybrid stable adaptive fuzzy tracking controllers for vision-based mobile robot navigation
Kaelbling et al. An introduction to reinforcement learning
Guo et al. Optimal navigation for AGVs: A soft actor–critic-based reinforcement learning approach with composite auxiliary rewards
Ollington et al. Incorporating expert advice into reinforcement learning using constructive neural networks
WO2017195257A1 (ja) 電子制御装置、数式モデル構築方法
US20230090127A1 (en) Device and method for controlling an agent
Tyryshkin et al. GMDH-based modified polynomial neural network algorithm
Keymeulen et al. Comparison between an off-line model-free and an on-line model-based evolution applied to a robotics navigation system using evolvable hardware
Xu et al. Discounted sampling policy gradient for robot multi-objective visual control
Cubuktepe et al. Shared control with human trust and workload models
Wiley et al. A planning and learning hierarchy using qualitative reasoning for the on-line acquisition of robotic behaviors
Fan et al. Rl-art2 neural network based mobile robot path planning
Null et al. Automatically-Tuned Model Predictive Control for an Underwater Soft Robot

Legal Events

Date Code Title Description
NENP Non-entry into the national phase

Ref country code: DE

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16901606

Country of ref document: EP

Kind code of ref document: A1

122 Ep: pct application non-entry in european phase

Ref document number: 16901606

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP