WO2020189235A1 - 学習済みモデル、制御装置、摩擦攪拌接合システム、ニューラルネットワークシステム、及び学習済みモデルの生成方法 - Google Patents

学習済みモデル、制御装置、摩擦攪拌接合システム、ニューラルネットワークシステム、及び学習済みモデルの生成方法 Download PDF

Info

Publication number
WO2020189235A1
WO2020189235A1 PCT/JP2020/008622 JP2020008622W WO2020189235A1 WO 2020189235 A1 WO2020189235 A1 WO 2020189235A1 JP 2020008622 W JP2020008622 W JP 2020008622W WO 2020189235 A1 WO2020189235 A1 WO 2020189235A1
Authority
WO
WIPO (PCT)
Prior art keywords
friction stir
input
stir welding
output
layer
Prior art date
Application number
PCT/JP2020/008622
Other languages
English (en)
French (fr)
Inventor
藤井 英俊
好昭 森貞
Original Assignee
国立大学法人大阪大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 国立大学法人大阪大学 filed Critical 国立大学法人大阪大学
Priority to JP2021507153A priority Critical patent/JPWO2020189235A1/ja
Publication of WO2020189235A1 publication Critical patent/WO2020189235A1/ja

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B23MACHINE TOOLS; METAL-WORKING NOT OTHERWISE PROVIDED FOR
    • B23KSOLDERING OR UNSOLDERING; WELDING; CLADDING OR PLATING BY SOLDERING OR WELDING; CUTTING BY APPLYING HEAT LOCALLY, e.g. FLAME CUTTING; WORKING BY LASER BEAM
    • B23K20/00Non-electric welding by applying impact or other pressure, with or without the application of heat, e.g. cladding or plating
    • B23K20/12Non-electric welding by applying impact or other pressure, with or without the application of heat, e.g. cladding or plating the heat being generated by friction; Friction welding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Definitions

  • the present invention includes a trained model for predicting joint characteristics in friction stir welding, a control device including the trained, a friction stir welding system including the control device, a neural network system for generating a trained model, and a neural network system for generating the trained model. Regarding how to generate a trained model.
  • Friction stir welding is a method in which a rod-shaped tool is rotated at high speed to come into contact with a material, and the friction heat with the material is used for joining (for example, Patent Document 1).
  • Such friction stir welding is a solid-phase joining in which the maximum temperature reached during joining does not reach the melting point of the base metal, the joint efficiency is higher than that of conventional melt welding, and in some cases, the joint portion is stronger than the base metal. This is an epoch-making joining method (see, for example, Patent Document 1).
  • joining conditions such as joining speed and tool rotation speed.
  • appropriate joining conditions differ depending on the material, size, shape, etc. of the material to be joined, and a large number of preliminary experiments are required for each joint in order to determine the joining conditions. In other words, it is difficult to accurately predict the joint characteristics from the joining conditions.
  • an object of the present invention is to accurately predict the joint characteristics from the joining conditions in friction stir welding.
  • the friction stir welding includes all of butt joining, lap joining, line joining, point joining and combinations thereof, and also includes a friction stirring process which is a surface modification technique.
  • the present invention is a trained model for making a computer function so as to output a predicted value of joint characteristics based on input data indicating a joining condition of friction stirring joining, and is an input layer.
  • the neural network is composed of a neural network including an output layer and a hidden layer having a plurality of hidden units represented by a non-linear activation function, which is interposed between the input layer and the output layer.
  • the weight coefficient is learned so as to minimize the function represented by the error between the experimental data and the predicted value by using the variation of the experimental data showing the joint characteristics, and the friction input to the input layer.
  • a computer so as to perform an operation based on the trained model on the input data indicating the joining condition of the stirring joint, output the predicted value of the joint characteristic from the output layer, and output the information indicating the reliability of the predicted value.
  • the trained model may output the joining condition.
  • the trained model may calculate and output the joint conditions for obtaining better joint characteristics by using the predicted value of the joint characteristics.
  • the neural network further learns the weighting coefficient by using the variation of the weighting coefficient, and information indicating the degree of influence of the joining condition on the predicted value. It is preferable to make the computer function so as to further output.
  • the neural network learns the weight coefficient for each of a plurality of models having different numbers of hidden units, and predicts among the plurality of models. It is preferable to use a model that minimizes the error between the value and the experimental data as the prediction model.
  • the neural network learns the weight coefficient for each of a plurality of models having different numbers of hidden units, and predicts the plurality of models.
  • the prediction model should be the model that minimizes the error between the predicted value and the experimental data, out of a plurality of new models that are sequentially combined and generated from the higher-ranked models. , Are preferred.
  • the present invention is based on an input unit for acquiring observation data indicating joining conditions in friction stir welding, a storage unit for storing the trained model, and an application result of the observation data to the trained model.
  • a control device including an arithmetic device for determining an operation amount of the friction stir welding device and an output unit for instructing the determined operation amount to the friction stir welding device is also provided.
  • the present invention includes an input unit for acquiring observation data indicating joining conditions and joint characteristics in friction-stirring joining, a storage unit for storing a predetermined learning algorithm, and an application result of the observation data to the predetermined learning algorithm.
  • a control device including a calculation unit for determining an operation amount of the friction stirring joining device based on the above, and an output unit for instructing the determined operation amount to the friction stirring joining device, wherein the predetermined learning algorithm is ,
  • the input layer, the output layer, and the control device so as to output an appropriate operation amount of the friction stirring joining device based on the joining conditions of the friction stirring joining device and the input data indicating the joint characteristics.
  • the neural network is composed of a neural network including a hidden layer having a plurality of hidden units represented by a non-linear activation function, which is interposed between the input layer and the output layer.
  • the weighting coefficient is learned so as to minimize the error function represented by the value function including the relationship with the joint characteristics, and the input data input to the input layer indicating the joining conditions of friction stirring joining is obtained.
  • a control device that performs calculations based on the trained model and outputs the operation amount of the friction stirring joining device from the output layer.
  • the present invention also includes a friction stir welding system including a friction stir welding device for performing friction stir welding, a measuring instrument for measuring observation data indicating joining conditions in the friction stir welding, and the above control device. provide.
  • the present invention is also a neural network system that generates a trained model for functioning a computer to output predicted values of joint characteristics based on input data indicating joining conditions of friction stirring joining, and is an input layer.
  • the neural network includes, an output layer, and a hidden layer having a plurality of hidden units represented by a non-linear activation function, which is interposed between the input layer and the output layer.
  • the weighting coefficient is learned so as to minimize the function represented by the error between the experimental data and the predicted value, and the friction stirring input to the input layer is performed.
  • a trained model that performs calculations based on the trained model on the input data indicating the joining conditions of the joint, outputs the predicted value of the joint characteristics from the output layer, and outputs the information indicating the reliability of the predicted value. It also provides a neural network system that is configured to generate.
  • the present invention is a method for generating a learning model for making a computer function so as to output a predicted value of joint characteristics based on input data indicating a joining condition of friction stirring joining, and the trained model is used.
  • the training model for generating includes an input layer, an output layer, and a hidden layer that is interposed between the input layer and the output layer and has a plurality of hidden units represented by a non-linear activation function.
  • the weight coefficient is learned so as to minimize the function represented by the error between the experimental data and the predicted value by using the variation of the experimental data showing the joint characteristics in the neural network.
  • the calculation based on the trained model is performed, the predicted value of the joint characteristics is output from the output layer, and the predicted value is output. It also provides a method of generating a training model, including a step of generating a trained model that outputs information indicating the reliability of the.
  • the joint characteristics can be accurately predicted from the joining conditions. Therefore, by applying the present invention to the control of the FSW device, it is possible to easily obtain various joints using the optimum joining conditions without requiring a large number of preliminary experiments and regardless of the technical level of the operator. it can. It is widely known that the joints obtained by FSW have various excellent characteristics, and if the appropriate joining conditions can be automatically grasped, the number of users of friction stir welding will increase dramatically. Expected.
  • the friction stir welding (FSW) system 1 is for joining various materials 40 by friction stir welding.
  • the material 40 to be joined is typically a metal material such as aluminum, magnesium, copper, titanium, zinc, lead, steel, nickel, cobalt, and an alloy or composite material of these materials. It may be a resin material such as plastic or CFRP.
  • the FSW system 1 includes a friction stir welding (FSW) device 10 that performs friction stir welding, a control device 20 that controls the FSW device 10, and a measuring instrument 30.
  • the measuring instrument 30 is a general term for one or more types of measuring instruments that measure the joining conditions and joint characteristics of the FSW. For example, the state of the FSW device 10 and the material 40 (for example, the rotational speed of the rotating tool 11, the pressing load, and the like). Measure the angle / moving speed, the temperature / width of the joint, etc.).
  • the measuring instrument 30 includes an imaging device for photographing the joint portion. The measuring instrument 30 may be included in the FSW device 10 and the control device 20.
  • the FSW device 10 attaches a rotation tool 11 that rotates at a desired rotation speed to perform friction stir welding.
  • the rotation tool 11 includes a columnar shoulder 12 and a probe 13 located at the tip of the shoulder 12 and having a diameter smaller than that of the shoulder 12.
  • any type of rotation tool 11 is used, one is a type in which the probe 13 and the shoulder 12 are driven integrally, and the other is a type in which the probe 13 and the shoulder 12 are driven independently. be able to.
  • the probe 13 is pushed into the material 40 and moves along the butt surface to be joined. At this time, the materials are restrained by the backing plate and are joined by the plastic flow by the rotating tool 11 while maintaining the solid state.
  • the rotary tool 11 press-fitted into the material 40 does not necessarily have to be laterally moved, and point bonding can be achieved by pulling it out as it is.
  • the probe 13 has a screw 14.
  • the length of the probe 13 is substantially equal to the plate thickness of the material 40, but is preferably slightly shorter (for example, about 0.05 mm to 0.2 mm) so as not to come into contact with the backing plate.
  • the cross-sectional shape of the probe 13 is generally cylindrical, but other shapes such as an ellipse may be used.
  • the shoulder 12 plays a role of preventing the softened material 40 from popping out and generating and maintaining frictional heat.
  • the shoulder 12 rotates while being in contact with the material 40, and moves at a desired moving speed (joining speed) toward the joining direction X.
  • the FSW device 10 also has a tool holder for holding the rotation tool 11, a motor for driving the rotation tool 11, a pressing mechanism for pressing the rotation tool 11 toward the material 40, and a joining direction (X direction) and a joining direction for the rotation tool 11. It includes a moving mechanism for moving in a direction (Y direction) orthogonal to the material 40, and a material holder (neither shown) for holding the material 40.
  • the tool holder can hold the rotation tool 11 in a state where the rotation tool 11 is tilted by a certain angle with respect to the material. Therefore, at the time of joining, the rotation tool 11 is tilted by a predetermined angle (for example, about 1 to 5 degrees) so that the tip of the probe 13 precedes the shoulder 12.
  • the cross-sectional structure of the material 40 (41, 42) joined by FSW is divided into several regions. That is, in the center of the joining portion, there is a stirring portion (joining portion) 43 having a recrystallized structure usually composed of equiaxed grains of several ⁇ m. On the outside of the stirring unit 43, there is a heat-affected zone 44 having a shape in which crystal grains are elongated due to plastic deformation, and further on the outside of the heat-affected zone 44, which is not subjected to plastic deformation but is affected by heat. (HAZ) 45 is present.
  • the state of the stirring portion 43, the heat processing affected portion 44, and the HAZ 45 affects the joint characteristics.
  • the joining conditions such as the shape, pressing load, angle, rotation speed, and joining speed of the rotation tool 11. It is important to get a good fitting.
  • the joining conditions differ depending on the type of material, the plate thickness, and the joining shape.
  • the quality of the joint that is, the joint characteristics, can be evaluated by, for example, the mechanical properties of the joint (tensile strength, bending strength, fatigue strength, corrosion resistance, etc.), the amount of burrs generated, the amount of energy input, the joint speed, and the like. it can.
  • the control device 20 acquires measurement data from the measuring device 30 and controls the FSW device 10 based on the measurement data.
  • the control device 20 can be configured as a computer including an arithmetic unit (CPU, GPU, etc.) and a storage device (RAM, ROM, etc.).
  • the control device 20 may be a single computer or may be composed of a plurality of computers.
  • the control of the FSW device 10 by the control device 20 can be performed using the trained prediction model.
  • the prediction model may be generated in the control device 20 or in an external computer such as cloud computing.
  • Neural networks can express complex relationships by combining nonlinear functions. In this embodiment, paying attention to the flexibility of such a neural network, the neural network is applied to data processing of joint characteristics in which many elements are intricately intertwined.
  • the inventors decided to introduce the concept of Bayesian estimation into the neural network. This makes it possible to predict statistical error bars.
  • the size of the error bar depends on the input conditions at that time, and when the data variation is large and the reliability is low, the error bar becomes large.
  • FIG. 4 shows an outline of the structure of the neural network.
  • the neural network includes an input layer and an output layer.
  • various joining conditions FSW conditions
  • the predicted value y of the joint characteristics is obtained as the output.
  • the output y may be one or a plurality, but here, for convenience of explanation, it is assumed that the output y is one.
  • the joining conditions to be input include, for example, the chemical composition of the sample, the rotation speed of the rotation tool 11, the moving speed, the applied load (or the insertion amount of the probe 13), the advance angle, the shape of the sample, the thickness of the sample, and the presser foot jig.
  • pre-joining parameters such as shape and tool shape
  • measuring joining parameters such as joint temperature, tool torque during joining, tool load during joining, and tool position during joining.
  • the output joint characteristics are numerical values that quantitatively represent the characteristics of the joint, and include, for example, the joint strength, the width of the stirring portion 43, the amount of burrs generated, the HAZ softening, the hardness distribution, the maximum hardness, and the corrosion resistance. ..
  • a hidden layer with multiple hidden units is placed between the input layer and the output layer, enabling the expression of complex functions.
  • the hidden unit constitutes one hidden layer, but as a matter of course, the hidden unit can form a plurality of hidden layers. It should be noted that not all hidden units need to be represented by a non-linear function, and may include units represented by a linear function.
  • relationship between the input x j and the i-th hidden unit h i can be expressed as follows using the non-linear activation function.
  • w ij (1) is the weight between the x j and h i
  • ⁇ i (1) is a threshold.
  • the hyperbolic tangent function tanh is an example of a nonlinear function, and other nonlinear functions such as a sigmoid function and a rectified linear function (ReLU) may be used.
  • w i (2) is the weight of between h i and y
  • ⁇ (2) is a threshold
  • the input variable x may be standardized in the range of ⁇ 0.5 by the following equation, and the output variable y may also be standardized by the same method.
  • x N is the standardized x
  • x max is the maximum value of the original data
  • x min is the minimum value.
  • Energy function M (w) In order to determine the weighting coefficient w and the threshold value ⁇ described above, it is considered to minimize the energy function M (w) represented by the following equation.
  • E D is the error function
  • E w (c) suitably estuary (regularization term), Otte described in detail.
  • the parameter vector w includes the weighting coefficient w and the threshold value ⁇ .
  • ⁇ c and ⁇ are parameters that control the complexity of the model.
  • variable measurement method can be used, and in order to calculate the gradient of M (w), for example, the inverse error propagation method can be used. You can, but I won't go into details here.
  • Energy function M (w) as in the above equation, consists the error function E D and appropriate estuary E w (c).
  • the error function E D is the predicted value y of the prediction model as follows; can be expressed as the sum of the squared differences between (x m w) and experimental values t m.
  • ⁇ x m , t m ⁇ is a data set
  • x m indicates an input variable
  • t m indicates experimental data, that is, a target.
  • m is the label of the combination of data and target.
  • the optimization term E w then serves to make the model output y (x; w) a smooth function of the input x.
  • the optimization term encourages a smaller weighting factor w to prevent the predictive model from overfitting the variability of the dataset, i.e. overfitting.
  • the optimization term E w may be represented by the sum of a plurality of optimization terms E w (c) .
  • one class is created by the weighting coefficient between the input x and the hidden unit h
  • one class is created by the weighting coefficient between the hidden unit h and the output y
  • one class is created by the threshold value of the hidden unit h.
  • the conversion factor E w (c) may be calculated.
  • the appropriate estuary E w (c) is represented by the square sum of the coefficients w i belonging to each class.
  • Equation 4 the parameter ⁇ c has the effect of reducing the weighting factor w. Therefore, a large ⁇ w means that the corresponding input has a large change in output. From this, ⁇ w can be used as an index showing the importance of each input. In addition, ⁇ ⁇ indicates the variation of data and can be used as an error bar as described later.
  • the parameters ⁇ c and ⁇ can be calculated using the concept of Bayesian estimation.
  • the initial value of each parameter may be appropriately determined by the user, and for example, the initial value may be set with a small variation in the weighting coefficient w.
  • D) at which a combination w can occur with respect to the weighting factor w and the threshold value ⁇ under the condition that a certain data D occurs is expressed as follows.
  • D) is obtained.
  • the normal distribution f (x) is expressed by the following equation, where m is the mean and ⁇ is the standard deviation. Therefore, the variation of the data when the weight coefficient w and the threshold value ⁇ are represented by the vector w is expressed by the following equation.
  • x (m) is the input variable
  • t (m) is the experimental data, that is, the target
  • Z D is the standardized constant
  • ⁇ ⁇ is the variation of the data.
  • Equation 5 when the probability p (w) is obtained, there are variations in p (w), and the probability is determined in consideration of Equation 5. It is represented by.
  • Z w is a normalized constant
  • ⁇ w is a variation from the true value of w.
  • Training procedure From the above, training for generating a predictive model is performed by the following procedure.
  • the training may be performed through the execution of the training program in the control device 20, or may be performed by an external computer capable of executing the training program.
  • step S11 in FIG. 5 to obtain training data (x m, t m).
  • x m is a joining condition that is an input variable
  • t m is a target joint characteristic (experimental data).
  • the parameter vector w is set.
  • the vector w may include the weighting coefficient w and the threshold value ⁇ .
  • step S13 the variation ⁇ ⁇ of the training data (x m , t m ) and the variation ⁇ w of the parameter vector w are calculated.
  • step S14 the parameter vector w that minimizes the energy function M (w) is calculated.
  • the variable measurement method can be used for this calculation, and for example, the inverse error propagation method can be used for the calculation of the gradient of M (w).
  • step S15 the parameter vector w is updated according to the calculation result of the previous procedure, and the variation ⁇ w is calculated and updated.
  • steps S14 and S15 are repeated a predetermined number of times to end the series of procedures.
  • the end condition may be that the parameter vector w converges within a preset range.
  • the parameter vector w thus obtained is used as a parameter of the prediction model.
  • half of the data may be randomly selected, the neural network may be trained with only half of the data, and the other half may be used as test data for examining the generalization performance of the model.
  • the test data is used to measure the error between the predicted value of the model and the test data, that is, the test error. If the number of datasets is small, most of the data may be used for training and the remaining data may be used for testing. For example, when the number of data sets is 30, it is preferable that 27 of them are for training and the remaining 3 are for testing.
  • the test error becomes the minimum. If the model at this time is judged to be optimal and used as a trained model, the prediction accuracy will be improved.
  • step S22 a test error is calculated for each prediction model, and in step S23, the number k * that minimizes the test error is determined, and the corresponding prediction model is set as the optimum model.
  • the optimum model, the second optimum model, the third optimum model, and the like may be ordered in ascending order of test error.
  • a plurality of prediction models are set as an optimum model, a second optimum model, a third optimum model, and the like by using an error function (or a comparison result of the test errors described above). To rank.
  • step S32 the average value of the predicted value of the optimum model and the predicted value of the second optimum model is set as the predicted value of the new model according to the following equation, and in step S33, the error between this predicted value and the experimental data is calculated. ..
  • step S34 it is determined whether or not the previously calculated error is minimized. If it is determined that it is not the minimum, in step S35, the next-order models are combined according to the above equation, and steps S33 and S34 are executed again.
  • the combination of the models at that time is adopted as the prediction model in step S36.
  • the prediction model For example, when the error is reduced by combining up to the 4th optimum model, but the error becomes large when the 5th and subsequent optimum models are added together, the combination of the optimum model to the 4th optimum model is called the prediction model. do it.
  • the error bar ⁇ of the new prediction may be calculated using the following equation.
  • N the number of models
  • y i , ⁇ i the predicted value and the error bar of each model.
  • the prediction model of the present embodiment it is possible to output a predicted value of joint characteristics and an error bar for a certain joining condition.
  • the relationship between the joint speed and the predicted value of the joint strength is represented by a curve L, and is represented by a curve D indicating the upper limit and the lower limit of the error bar so as to sandwich the curve L.
  • the error bar may be represented by a line segment E having a length corresponding to the variation ⁇ ⁇ .
  • the predicted value and the error bar may be expressed numerically.
  • the user can obtain a reasonable prediction of the joint characteristics and know the certainty of the prediction.
  • a large error bar means that the number of experimental data is insufficient or the accuracy of the experiment is insufficient, so the user can increase the experimental data or improve the accuracy in the area where the error bar is large.
  • Higher experiments are often performed (reinforcement experiments), which can increase the reliability of model predictions and further deepen research on the material.
  • highly accurate and stable control can be expected by preferentially adopting the predicted value in the region where the error bar is small.
  • the prediction model can show the importance (degree of influence) of each joining condition on the joint characteristics, for example, as shown in FIG. 9, based on the variation ⁇ w of the parameter vector w.
  • the prediction model may output the joining conditions.
  • the prediction model may calculate and output the joint conditions for obtaining better joint characteristics by using the predicted value of the joint characteristics.
  • the prediction model may refer to the error bars and importance mentioned above in selecting better joining conditions. This allows the user to get suggestions for obtaining a better fitting.
  • the output is a response characteristic to the specific input. Will be shown.
  • the trend of the output with respect to the input can be grasped. Therefore, a joining condition having excellent response characteristics with or in place of the variation ⁇ w of the parameter vector w. Can be grasped. This finding can be used to control the FSW device 10 or can be used for research on the material.
  • Reinforcement learning is a learning control framework that adapts to the environment through trial and error.
  • the agent which is the learning subject, makes a decision at time t according to the observed value s (t) of the state of the environment to be controlled, and outputs the action a (t).
  • the agent By the action of the agent, the environment transitions to s (t + 1), and the reward r (t) corresponding to the transition is given to the agent.
  • the agent learns the policy ⁇ from the state observation to the action output for the purpose of maximizing the gain.
  • Q learning which is a type of reinforcement learning
  • an agent takes various actions a under a certain state s by trial and error, and uses the reward at that time to obtain the optimum action value Q (s, a). learn.
  • the update formula of the action value function Q (s, a) is expressed by the following formula. Here, it s t and a t is the state s and the action a of the environment at time t.
  • the environment transitions to the state st + 1 , and the reward rt + 1 is calculated accordingly.
  • the term of maxQ (st + 1 , a) is the Q value corresponding to the action a having the highest Q value under the state st + 1
  • the discount rate ⁇ ( ⁇ is 0 ⁇ ⁇ 1) is It is multiplied.
  • ⁇ (0 ⁇ ⁇ 1) is a learning coefficient.
  • the action a may correspond to, for example, the operation amount of the joining condition
  • the state s may correspond to, for example, various observation data.
  • conditions related to reward include, for example, joining quality, joining speed, and energy consumption, and it is advisable to construct a value function that changes according to these factors. For example, when the strength of the joint approaches or matches the target value, the reward increases, and as the distance from the target value increases, the reward decreases or decreases. Also, if the amount of burr generated is small, the reward will increase, and if it is large, it will decrease. In addition, the higher the energy consumption, the lower the reward, and the lower the energy consumption, the higher the reward.
  • the action value function Q (s, a) is expressed by a function approximation rather than a table.
  • the action value function Q (s, a) is first modeled as a function Q'(s, a; w) represented by the parameter vector w. To do. Then, it is assumed that the parameter vector w of Q'is updated instead of updating the Q value itself during learning.
  • neural networks can be used, for example. For example, when the state s is input, a neural network that outputs a value function Q for all possible actions a may be prepared and used as a function approximation Q'(s, a; w) (Q network).
  • the parameter w of the function approximation corresponds to the weight parameter of the neural network.
  • the weight parameter may be adjusted so as to minimize the error function of the following equation.
  • y t (s, a) is a target value (target). Therefore, it is possible to use the error function E D energy function M (w) and Formula 5 Formula 4 described above.
  • the target value y t (s, a) is a reinforcement learning because the teacher data is not provided to be used as the target value y t of the above formula, for example, replaced with actually sampled state and reward from the environment, the following formula May be used.
  • the update of the parameter w of the value function Q' is, for example, the following equation. It may be done using.
  • the parameter w and the evaluation function Q' may be updated at each joining, for example.
  • Various methods have been proposed as methods for realizing the Q network, and such methods can be incorporated into the present embodiment.
  • the execution process is performed after modifying the above equation as appropriate.
  • the FSW device 10 is controlled by using the above-mentioned trained model or the learning model.
  • the control device may determine the operation amount of the FSW device based on the predicted value output by the trained model (prediction model) (configuration example 1), or the optimum operation for the learning model of reinforcement learning. The amount may be determined (configuration example 2).
  • Control device function configuration example 1 First, a control device 20 of a type that determines the operation amount of the FSW device based on the predicted value of the prediction model will be described. As shown in FIG. 10, the control device 20 includes each functional unit of the input unit 21, the calculation unit 22, the storage unit 23, and the output unit 24.
  • the input unit 21 acquires the observation amount (observation data) related to FSW.
  • the input unit may measure and acquire the observation data by itself, for example, may be acquired from the FSW device 10 or another measuring instrument, or may be acquired by user input. Further, the observation data may be acquired during the execution of the FSW, or may be acquired after the execution. Further, the observable data may be obtained by calculating a plurality of observables, such as energy consumption.
  • the observation data includes those related to the FSW joint conditions and those related to the joint characteristics.
  • the observation data regarding the joint conditions and the observation data regarding the joint characteristics may overlap.
  • the observation data regarding the joining conditions include, for example, the rotation speed of the rotation tool, the movement speed, the applied load (or the tool insertion amount), and the advance angle.
  • the adjustment amount of each joining condition is determined by the control device 20.
  • joint characteristics include, for example, the joining temperature in FSW, tool rotation torque, tool Y-axis (joining direction) load, tool Z-axis (vertical direction) load, stirring part width, and around the construction part. There are burrs generated, joint strength, HAZ softening, hardness distribution, maximum hardness, corrosion resistance, etc. Most of these physical quantities are information about the stirring part and change depending on the joining conditions.
  • the calculation unit 22 reads the control program stored in the storage unit 23 into the memory and executes it to predict the joint characteristics based on the observation data, and is optimal based on the prediction result. Determine the joining conditions.
  • the calculation unit 22 includes a setting unit 25, a prediction unit 26, and an update unit 27.
  • the setting unit 25 initially sets the joining conditions based on user input and the like.
  • the conditions to be set include, for example, information on the material to be joined, information on the target joint characteristics (strength, etc.), working time, and energy consumption. Further, the setting unit 25 may grasp the joining condition satisfying the target joint characteristic by using the learned prediction model, and set this condition as the initial setting.
  • the prediction unit 26 inputs the observation data into the prediction model and obtains the prediction value regarding the joint characteristics. Then, the update unit 27 compares this predicted value with the target value, and updates the operation amount of the joining condition based on the comparison result. For example, when the joint strength is less than the target, the update unit 27 inputs an amount obtained by adding a small amount ⁇ to the joint condition into the prediction model to grasp the change in the predicted value, and the joint strength approaches the target value.
  • the joining conditions may be adjusted as described above.
  • the renewal unit 27 may consider the degree of influence and reliability (variation) of the corresponding joining conditions.
  • the calculation unit 22 repeats observation and adjustment of the joining conditions at preset time intervals, and instructs the FSW device 10 of the determined adjustment amount via the output unit 24.
  • the storage unit 23 stores, for example, a learned prediction model, a control program of the FSW device 10, and various data. Examples of various data include observation data, setting of joining conditions, setting of rewards, and the like.
  • the storage unit 23 may also store construction conditions such as a joint shape, a plate thickness, a base material posture, and a gap amount. All or part of the storage unit 23 may be incorporated in the control device 20, or may be, for example, a storage area of an external computer.
  • the output unit 24 may output the instruction from the calculation unit 22 to the FSW device 10, and may display, for example, the prediction result of the calculation unit 22 and the content of the instruction to the FSW device 10 on a display (not shown).
  • step S41 the setting unit 25 sets the joining conditions according to the user input.
  • step S42 the input unit 21 acquires the observation data and stores it in the storage unit 23 or an external storage device.
  • the prediction unit 26 calculates the predicted value of the joint characteristic using the trained prediction model.
  • step S44 the updating unit 27 refers to the prediction result of the prediction unit 25, adjusts and updates the joining conditions so that the joint characteristics approach the target value, and outputs the adjusted joining conditions.
  • control device 20 repeatedly executes these steps S42 to S44 at the set time interval.
  • appropriate joining conditions can be automatically determined according to the joint characteristics desired by the user.
  • the prediction model is generated by a neural network that includes hidden units expressed by nonlinear functions, it is possible to appropriately represent joining phenomena involving complex relationships. As a result, the prediction accuracy of the joint characteristics is improved, and at the same time, by incorporating this prediction model into the control device 20, it is possible to set more appropriate joining conditions according to the user's request. Then, the prediction accuracy of the prediction model is further increased as the learning opportunities are increased, and more appropriate joining conditions can be set. Therefore, various joints can be easily obtained by using the optimum joining conditions without requiring a large number of preliminary experiments and regardless of the technical level of the operator.
  • the prediction model can provide error bars for the predicted values. Variations in the predicted values mean lack of data used and / or lack of reliability, and it is possible to clarify the target for which data should be actively collected. Further, by performing control based on this error bar, highly reliable control can be realized.
  • the control device 120 calculates the reward based on the result of determining the joining condition (state transition of the environment), updates the evaluation function based on the calculated reward, and repeats the update of the evaluation function to obtain the reward. It is programmed to determine the (more preferred) joining conditions that are most likely to be obtained. As shown in FIG. 12, the control device 120 includes each functional unit of the input unit 121, the calculation unit 122, the storage unit 123, and the output unit 124.
  • the input unit 121 acquires observation data related to FSW in the same manner as the input unit 21 described above.
  • the storage unit 123 stores, for example, a learning model, a control program, observation data, setting information, and the like. Further, the output unit 124 instructs the FSW device 10 of the operation amount of the joining condition determined by the calculation unit 122.
  • the calculation unit 122 executes machine learning based on the observation data and determines the optimum joining condition. That is, the arithmetic unit 122 plays a role corresponding to an agent in reinforcement learning.
  • the calculation unit 122 includes a setting unit 125, a function update unit 126, a reward calculation unit 127, and a policy determination unit 128.
  • the setting unit 125 sets the initial setting of the joining condition based on the user input and the like, and also sets the reward (for example, the initial value of the reward and the value function, the condition for granting the reward, etc.).
  • the setting unit 125 grasps the joining conditions satisfying the target joint characteristics by using the learned prediction model stored in the storage unit 123 or the external storage device.
  • the condition may be the initial setting
  • the function update unit 126 selects the maximum value function Q * for the possible action a by updating the parameter vector w using, for example, the observation data and the equation 21, and updates the value function Q'. ..
  • the reward calculation unit 127 calculates the reward using the updated value function Q'based on the observed environmental state s.
  • the policy determination unit 128 determines the policy ⁇ corresponding to the updated value function Q'.
  • the calculation unit 22 repeats the observation and the adjustment of the joining condition at a preset time interval, and instructs the FSW device 10 via the output unit 24 the determined policy, that is, the adjustment amount of the joining condition.
  • step S51 the setting unit 125 performs initial settings such as joining conditions in response to user input. Then, in step S52, the policy determination unit 128 determines the policy ⁇ based on the value function Q'. At the same time, in step S53, the function update unit 126 updates the parameter vector w of the value function Q'using the learning model, thereby updating the value function Q'.
  • step S54 the control unit 120 causes the FSW device 10 to execute the policy ⁇ , and acquires a new state s of the environment from the measuring instrument 30.
  • step S55 the reward calculation unit 127 calculates the reward using the new state s of the observed environment and the updated value function Q'.
  • the control device 20 repeatedly executes these steps S52 to S55 at the set time interval.
  • the joining conditions can be optimized according to the state of the environment.
  • the reliability of the action value function is increased by repeating such processing, and the joining condition is determined by determining the policy so as to obtain more reward based on the highly reliable action value function. It becomes possible to determine the setting more optimally.
  • control device 20 learns the relationship between various joint conditions and the joint portion obtained under the joint conditions through the concept of reward, and the appropriate joint conditions according to the joint characteristics desired by the user. Can be determined automatically. Therefore, various joints can be easily obtained by using the optimum joining conditions without requiring a large number of preliminary experiments and regardless of the technical level of the operator.
  • Friction stir welding (FSW) system 10 ... Friction stir welding (FSW) device, 20 ... Control device, 30 ... Measuring instrument.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Mechanical Engineering (AREA)
  • Pressure Welding/Diffusion-Bonding (AREA)

Abstract

摩擦攪拌接合において、接合条件から継手特性を精度よく予測する。摩擦攪拌接合の接合条件を示す入力データに基づいて継手特性の予測値を出力するよう、コンピュータを機能させるための学習済みモデルであって、入力層、出力層、及び、前記入力層と前記出力層との間に介在し、非線形の活性化関数で表される複数の隠れユニットを有する隠れ層、を含むニューラルネットワークから構成され、前記ニューラルネットワークが、前記継手特性を示す実験データのバラツキを示す情報を用いて、前記実験データと前記予測値との誤差で表される関数を最小化するように重み係数を学習し、前記入力層に入力された、摩擦攪拌接合の接合条件を示す入力データに対し、前記学習済みモデルに基づく演算を行い、継手特性の予測値を前記出力層から出力するとともに当該予測値の信頼性を示す情報を出力するよう、コンピュータを機能させるための学習済みモデルである。

Description

学習済みモデル、制御装置、摩擦攪拌接合システム、ニューラルネットワークシステム、及び学習済みモデルの生成方法
 本発明は、摩擦攪拌接合における継手特性を予測するための学習済みモデル、その学習済みを含む制御装置、その制御装置を含む摩擦攪拌接合システム、学習済みモデルを生成するためのニューラルネットワークシステム、及び学習済みモデルの生成方法に関する。
 摩擦攪拌接合は、棒状のツールを高速で回転させながら材料と接触させ、材料との摩擦熱を利用して接合する手法である(例えば特許文献1)。かかる摩擦攪拌接合は、接合中の最高到達温度が母材の融点に到達しない固相接合であり、従来の溶融溶接と比べて継手効率が高く、場合によっては接合部が母材よりも高強度化されるという画期的な接合法である(例えば、特許文献1参照)。
特許第2712838号公報
 摩擦攪拌接合では、接合速度やツール回転速度等の接合条件を設定すれば、基本的に同じ継手を再現性良く得ることができる。しかし、適切な接合条件は、被接合材の材質、サイズ、形状等によって異なり、接合条件を決定するためには接合部ごとに多数の予備実験が必要となる。換言すれば、接合条件から継手特性を精度よく予測することは困難である。
 そこで、本発明は、摩擦攪拌接合において、接合条件から継手特性を精度よく予測することを目的とする。なお、本発明において、摩擦攪拌接合は、突合せ接合、重ね接合、線接合、点接合及びこれらの組合せを全て含み、表面改質技術である摩擦攪拌プロセスも含むものである。
 上述した課題を解決すべく、本発明は、摩擦攪拌接合の接合条件を示す入力データに基づいて継手特性の予測値を出力するよう、コンピュータを機能させるための学習済みモデルであって、入力層、出力層、及び、前記入力層と前記出力層との間に介在し、非線形の活性化関数で表される複数の隠れユニットを有する隠れ層、を含むニューラルネットワークから構成され、前記ニューラルネットワークが、前記継手特性を示す実験データのバラツキを用いて、前記実験データと前記予測値との誤差で表される関数を最小化するように重み係数を学習し、前記入力層に入力された、摩擦攪拌接合の接合条件を示す入力データに対し、前記学習済みモデルに基づく演算を行い、継手特性の予測値を前記出力層から出力するとともに当該予測値の信頼性を示す情報を出力するよう、コンピュータを機能させるための学習済みモデルを提供する。
 ここで、学習済みモデルは接合条件を出力してもよい。例えば、学習済みモデルは、継手特性の予測値を用いて、より良い継手特性を得るための接合条件を算出し、出力してもよい。
 上記のような構成を有する本発明の学習済みモデルでは、前記ニューラルネットワークが、更に前記重み係数のバラツキを用いて、前記重み係数を学習し、前記予測値に対する前記接合条件の影響度合いを示す情報を更に出力するよう、コンピュータを機能させること、が好ましい。
 また、上記のような構成を有する本発明の学習済みモデルでは、前記ニューラルネットワークは、異なる数の隠れユニットを有する複数のモデルのそれぞれについて前記重み係数を学習し、前記複数のモデルのうち、予測値と実験データとの誤差が最小となるモデルを予測モデルとすること、が好ましい。
 また、上記のような構成を有する本発明の学習済みモデルでは、前記ニューラルネットワークは、異なる数の隠れユニットを有する複数のモデルのそれぞれについて前記重み係数を学習し、前記複数のモデルを、予測値と実験データとの誤差に基づいて順位付け、高順位のモデルから順次組み合わせて生成される新たな複数のモデルのうち、予測値と実験データとの誤差が最小となるモデルを予測モデルとすること、が好ましい。
 また、本発明は、摩擦攪拌接合における接合条件を示す観測データを取得する入力部と、上記の学習済みモデルを記憶する記憶部と、前記観測データの前記学習済みモデルへの適用結果に基づいて摩擦攪拌接合装置の操作量を決定する演算装置と、決定された前記操作量を前記摩擦攪拌接合装置に指示する出力部と、を含む制御装置をも提供する。
 また、本発明は、摩擦攪拌接合における接合条件及び継手特性を示す観測データを取得する入力部と、所定の学習アルゴリズムを記憶する記憶部と、前記観測データの前記所定の学習アルゴリズムへの適用結果に基づいて摩擦攪拌接合装置の操作量を決定する演算部と、決定された前記操作量を前記摩擦攪拌接合装置に指示する出力部と、を含む制御装置であって、前記所定の学習アルゴリズムは、前記摩擦攪拌接合装置の接合条件及び前記継手特性を示す入力データに基づいて前記摩擦攪拌接合装置の適切な操作量を出力するように前記制御装置を機能させるべく、入力層、出力層、及び、前記入力層と前記出力層との間に介在し、非線形の活性化関数で表される複数の隠れユニットを有する隠れ層、を含むニューラルネットワークから構成され、前記ニューラルネットワークが、前記接合条件と前記継手特性との関係性を含む価値関数で表される誤差関数を最小化するように重み係数を学習し、前記入力層に入力された、摩擦攪拌接合の接合条件を示す入力データに対し、前記学習済みモデルに基づく演算を行い、前記摩擦攪拌接合装置の操作量を前記出力層から出力する、制御装置をも提供する。
 更に、本発明は、摩擦攪拌接合を実行する摩擦攪拌接合装置と、前記摩擦攪拌接合における接合条件を示す観測データを計測する計測器と、上記の制御装置と、を含む摩擦攪拌接合システムをも提供する。
 また、本発明は、摩擦攪拌接合の接合条件を示す入力データに基づいて継手特性の予測値を出力するようにコンピュータを機能させるための学習済みモデルを生成するニューラルネットワークシステムであって、入力層、出力層、及び、前記入力層と前記出力層との間に介在し、非線形の活性化関数で表される複数の隠れユニットを有する隠れ層、を含むニューラルネットワークを含み、前記ニューラルネットワークは、前記継手特性を示す実験データのバラツキを用いて、前記実験データと前記予測値との誤差で表される関数を最小化するように重み係数を学習し、前記入力層に入力された、摩擦攪拌接合の接合条件を示す入力データに対し、前記学習済みモデルに基づく演算を行い、継手特性の予測値を前記出力層から出力するとともに当該予測値の信頼性を示す情報を出力する学習済みモデルを生成するように構成されているニューラルネットワークシステムをも提供する。
 更に、本発明は、摩擦攪拌接合の接合条件を示す入力データに基づいて継手特性の予測値を出力するようにコンピュータを機能させるための学習用モデルの生成方法であって、前記学習済みモデルを生成するための学習用モデルは、入力層、出力層、及び、前記入力層と前記出力層との間に介在し、非線形の活性化関数で表される複数の隠れユニットを有する隠れ層、を含むニューラルネットワークを含み、前記ニューラルネットワークにおいて、前記継手特性を示す実験データのバラツキを用いて、前記実験データと前記予測値との誤差で表される関数を最小化するように重み係数を学習するステップと、前記入力層に入力された、摩擦攪拌接合の接合条件を示す入力データに対し、前記学習済みモデルに基づく演算を行い、継手特性の予測値を前記出力層から出力するとともに当該予測値の信頼性を示す情報を出力する学習済みモデルを生成するステップと、を含む、学習用モデルの生成方法をも提供する。
 本発明によれば、摩擦攪拌接合において、接合条件から継手特性を精度よく予測することができる。したがって、本発明をFSW装置の制御に適用することで、多数の予備実験を必要とせず、また作業者の技術レベルによらずに、最適な接合条件を用いて各種継手を簡単に得ることができる。FSWで得られる継手が種々の優れた特性を有していることは広く知られており、適切な接合条件を自動的に把握することができれば、摩擦攪拌接合の利用者は飛躍的に増加すると見込まれる。
本発明の実施形態に係る摩擦攪拌接合システム1の概略図である。 摩擦攪拌接合において使用される回転ツール11の一例を示す図である。 材料41,42の接合部の一例を示す断面図である。 ニューラルネットワークの一例を示す概念図である。 学習済みモデルの生成手順の一例を示すフローチャートである。 ニューラルネットワークの層数の決定手順例を示すフローチャートである。 複数の予測モデルを組み合わせてより適切なモデルを生成する手順例を示すフローチャートである。 予測モデルから出力される予測値及びエラーバーの一例を示すグラフである。 予測モデルから出力される接合条件の重要度の一例を示すグラフである。 制御装置20の機能構成例を示すブロック図である。 制御装置20の動作例を示すフローチャートである。 制御装置120の機能構成例を示すブロック図である。 制御装置120の動作例を示すフローチャートである。
 以下、本発明の代表的な実施形態を、図面を参照しつつ詳細に説明する。ただし、本発明はこれら図面に限定されるものではない。また、図面は、本発明を概念的に説明するためのものであるから、理解容易のために、必要に応じて寸法、比又は数を誇張又は簡略化して表している場合もある。
 ここでは、摩擦攪拌接合システムの全体像を説明したうえで、継手特性の予測モデル(学習済みモデル)及びその学習法、並びに当該モデルの制御への適用について説明することとする。
1.摩擦攪拌接合システムの全体構成
 本実施形態に係る摩擦攪拌接合(FSW)システム1は、種々の材料40を摩擦攪拌により接合するためのものである。ここで、接合対象となる材料40は、典型的には、アルミニウム、マグネシウム、銅、チタン、亜鉛、鉛、鉄鋼、ニッケル、コバルト及びこれら材料の合金や複合材料などの金属材料であるが、例えばプラスチックやCFRPなどの樹脂材料でもよい。
 図1に示されるように、FSWシステム1は、摩擦攪拌接合を実行する摩擦攪拌接合(FSW)装置10、FSW装置10を制御する制御装置20、及び計測器30を含んでいる。計測器30は、FSWの接合条件及び継手特性を計測する1種又は複数種類の計測機器の総称であり、例えば、FSW装置10及び材料40の状態(例えば回転ツール11の回転速度・押圧荷重・角度・移動速度や、接合部の温度・幅等)を計測する。計測器30は、接合部を撮影する撮像デバイスを含むものである。なお、計測器30はFSW装置10及び制御装置20に含まれていてもよい。
1-1.摩擦攪拌接合装置の概要
 FSW装置10は、所望の回転速度で回転する回転ツール11を取り付けて摩擦攪拌接合を実施するものである。
 図2に示すように、回転ツール11は、柱状のショルダ12と、ショルダ12の先端に配置されてショルダ12よりも小さい径を持つプローブ13と、を含む。回転ツール11としては、プローブ13とショルダ12とが一体的に駆動されるタイプと、プローブ13とショルダ12とが各々独立して駆動されるタイプとの、いずれのタイプの回転ツール11を使用することができる。
 プローブ13は、図1に示すように、材料40中に押し入れられ、接合すべき突合せ面に沿って移動する。このとき、材料は裏当て板に拘束され、固体の状態を維持しながら、回転ツール11による塑性流動によって接合されることになる。なお、材料40中に圧入した回転ツール11は必ずしも横移動させる必要はなく、そのまま引き抜くことで点接合を達成することができる。
 材料40がアルミニウム合金やマグネシウム合金等の摩擦攪拌が容易な材料の場合、プローブ13にはネジ14が形成されていることが好ましい。プローブ13の長さは、材料40の板厚とほぼ等しいが、裏当ての板と接触しないように僅かに(例えば0.05mm~0.2mm程度)短いことが好ましい。プローブ13の断面形状としては、円柱状が一般的であるが、楕円状等の他の形状でもよいものとする。
 ショルダ12は、軟化した材料40が飛び出すのを防止するとともに、摩擦熱を発生及び維持する役割を担う。ショルダ12は、材料40に接触しながら回転するとともに、接合方向Xに向かって所望の移動速度(接合速度)で移動する。
 FSW装置10はまた、回転ツール11を保持するツールホルダ、回転ツール11を駆動するモータ、回転ツール11を材料40に向かって押圧する押圧機構、回転ツール11を接合方向(X方向)及び接合方向と直交する方向(Y方向)に移動させる移動機構、並びに、材料40を保持する材料ホルダ(いずれも図示せず)を含んでいる。なお、ツールホルダは、回転ツール11を材料に対して一定の角度だけ傾けた状態で回転ツール11を保持することができる。したがって、接合時には、回転ツール11は、プローブ13の先端がショルダ12よりも先行するように、所定の角度(例えば1~5度程度)だけ傾けられる。
 図3に示すように、FSWにより接合された材料40(41,42)の断面組織は、幾つかの領域に分けられる。つまり、接合部位の中央には、通常は数μmの等軸粒からなる再結晶組織を有する攪拌部(接合部)43が存在する。攪拌部43の外側には、塑性変形により結晶粒が伸びた形状を持つ熱加工影響部44が存在し、更にその外側には、塑性変形は受けていないが熱の影響を受けた熱影響部(HAZ)45が存在する。なお、攪拌部43、熱加工影響部44及びHAZ45の状態(例えば幅、軟化の程度など)は継手特性に影響を及ぼす。
 したがって、FSWでは、接合対象となる材料40の確実な保持のほか、回転ツール11の形状、押圧荷重、角度、回転速度、接合速度等の接合条件(FSW条件)を適切に調節することが、良い継手を得るために重要となる。ただし、接合条件は、材料の種類、板厚及び接合形状に応じて異なる。また、接合の良し悪し、つまり継手特性は、例えば、継手の機械的性質(引張強度、曲げ強度、疲労強度、耐食性など)、バリの発生量、エネルギー投入量、接合速度等で評価することができる。
1-2.制御装置の概要
 制御装置20は、計測器30から計測データを取得し、この計測データに基づいてFSW装置10を制御する。かかる制御装置20は、演算装置(CPU、GPUなど)及び記憶装置(RAM、ROMなど)を含むコンピュータとして構成することができる。制御装置20は、1台のコンピュータでもよいし、複数台のコンピュータで構成されてもよい。
 制御装置20によるFSW装置10の制御は、学習済みの予測モデルを用いて行うことができる。予測モデルは、制御装置20において生成されてもよいし、例えばクラウドコンピューティングのように外部コンピュータにおいて生成されてもよい。
 以下、制御装置20の詳細を説明するに先立ち、本実施形態における機会学習について説明することとする。
2.予測モデルの構築
2-1.ニューラルネットワークによる学習
 ニューラルネットワークは、非線形関数を組み合わせることで複雑な関係性を表現することができる。本実施形態では、このようなニューラルネットワークの柔軟性に注目し、ニューラルネットワークを、多くの要素が複雑に絡み合う継手特性のデータ処理に適用することとしている。
 ただし、ニューラルネットワークを継手特性の予測に直ちに適用することは容易ではなく、データのバラツキ及びフィッティングによる誤差を適切に処理する必要がある。そこで、発明者らは、ニューラルネットワークにベイズ推定の考え方を導入することとした。これにより、統計的なエラーバーを予測することができる。エラーバーの大きさはその時の入力条件に依存し、データのバラツキが大きく信頼性の低い場合には、エラーバーは大きくなる。
 詳細に説明すると、図4に、ニューラルネットワークの構造の概略を示す。図示のとおり、ニューラルネットワークは、入力層及び出力層を含んでいる。入力xとして各種の接合条件(FSW条件)を与えると、出力として継手特性の予測値yを得る。出力yは1つでも複数でもよいが、ここでは説明の便宜上、出力yが1つであるものとしている。
 入力される接合条件としては、例えば、試料の化学組成、回転ツール11の回転速度、移動速度、印加荷重(又はプローブ13の挿入量)、前進角、試料の形状、試料の厚さ、押え冶具形状、ツール形状等の「接合前パラメータ」と、接合部の温度、接合中のツールトルク、接合中のツール荷重、接合中のツール位置等の「接合中パラメータ」がある。また、出力される継手特性は、接合部の特性を定量的に表した数値であり、例えば継手強度、攪拌部43の幅、バリ発生量、HAZ軟化、硬度分布、最高硬度、耐食性などがある。
 入力層と出力層との間には、複数の隠れユニットを有する隠れ層が配置され、複雑な関数の表現を可能にしている。ここでは、説明の便宜上、隠れユニットは1層の隠れ層を構成するものとしているが、当然のことながら、隠れユニットは複数層の隠れ層を構成することができる。なお、全ての隠れユニットが非線形関数で表される必要はなく、線形関数で表されるユニットを含んでいてもよい。
 このようなニューラルネットワークにおいて、入力xとi番目の隠れユニットhとの間の関係式は、非線形な活性化関数を用いて次のように表せる。
Figure JPOXMLDOC01-appb-M000001
ただし、wij (1)はxとhとの間の重みであり、θ (1)はしきい値である。双曲線正接関数tanhは非線形関数の一例であり、例えばシグモイド関数、正規化線形関数(ReLU)などの他の非線形関数を用いてもよい。
 また、隠れユニットhと出力yの間の関係は次のように線形関数で表せる。
Figure JPOXMLDOC01-appb-M000002
ただし、w (2)はhとyとの間の重みであり、θ(2)はしきい値である。
 上記式1のように入力xと隠れユニットhとの関係を非線形関数で表現することにより、複雑な関係を表現できるネットワークを構成することができる。以下、式1,2における重みwij (1)及びw (2)を単に重み係数wと言い、しきい値θ (1)及びθ(2)を単にしきい値θと言うがある。
 ここで、入力変数xを次式で±0.5の範囲に規格化してもよく、出力変数yもまた同じ手法で規格化してもよい。
Figure JPOXMLDOC01-appb-M000003
ただし、xは規格化されたx、xmaxは元のデータの最大値、xminは最小値である。
2-2.エネルギー関数M(w)
 上述した重み係数w及びしきい値θを決定するために、次式で表されるエネルギー関数M(w)を最小にすることを考える。
Figure JPOXMLDOC01-appb-M000004
ここで、Eは誤差関数、Ew(c)は適切化項(正則化項)であり、追って詳しく述べる。また、パラメータベクトルwは、重み係数w及びしきい値θを含むものとする。α及びβは、モデルの複雑さを制御するパラメータである。
 エネルギー関数M(w)の最小化をコンピュータ上で実現するためには、例えば可変計量法を用いることができ、また、M(w)の勾配の計算には例えば逆誤差伝播法を用いることができるが、ここでは詳細に立ち入らない。
 上式のようにエネルギー関数M(w)は、誤差関数Eと適切化項Ew(c)とからなる。そして、誤差関数Eは、次式のように予測モデルの予測値y(x;w)と実験値tの差の二乗和で表すことができる。
Figure JPOXMLDOC01-appb-M000005
ここで{x、t}はデータセットであり、xは入力変数を、tは実験データすなわちターゲットを示す。mはデータとターゲットの組合せのラベルである。
 上式から、予測モデルの予測結果が実験データに良く一致するとき、すなわちy(x;w)がtに近いとき、誤差関数Eは最小となる。
 次いで、適切化項Eは、モデル出力y(x;w)を入力xの滑らかな関数にする働きがある。換言すれば、適切化項は重み係数wを小さくすることを促し、予測モデルがデータセットのばらつきにオーバーフィットすること、つまり過学習を抑制する。
 適切化項Eは複数の適切化項Ew(c)の和で表されてもよい。例えば、入力xと隠れユニットh間の重み係数で一つのクラス、隠れユニットhと出力yとの間の重み係数で一つのクラス、隠れユニットhのしきい値で一つのクラスをつくり、各適切化項Ew(c)を計算してもよい。この場合、各適切化項Ew(c)は、次式で示されるように、各クラスに属する係数wの二乗和で表される。
Figure JPOXMLDOC01-appb-M000006
 次いで、パラメータα及びβは、隠れユニットhの個数とともに、モデルの複雑さをコントロールしている。例えばデータがσνの標準偏差で示されるガウス分布でばらついているとすると、βはデータのバラツキσν =1/βを規定し、αは重み係数wのバラツキσw(c) =1/αを規定していることになる。
 式4から、パラメータαは重み係数wを減少させる効果がある。したがって、大きなσは、それに対応する入力が出力に大きな変化を与えることを意味している。このことから、σを、各入力の重要性を示す指標とすることができる。また、σνはデータのバラツキを示し、後述するようにエラーバーとして使用できる。
 本実施形態では、追って詳しく述べるように、パラメータαおよびβは、ベイズ推定の考え方を用いて算出できる。各パラメータの初期値は、ユーザが適宜決定してもよく、例えば、重み係数wに小さなバラツキを持たせて初期値を設定してもよい。
2-3.パラメータα 、βの決定
 次いで、パラメータα、βについて詳細に説明する。
 パラメータβが大きすぎると関数の自由度が大きくなり、オーバーフィッティングが起こりやすくなる。逆に、パラメータα(以下、単にαと表記する)が大きくなると関数が滑らかになりすぎ、データにフィットしなくなる。このようなα、βの重要性を考慮し、発明者らは、ベイズ推定の考え方を導入してα、βに統計的な意味を持たせることとした。
 一般に、あるデータDが起こるという条件のもとで、重み係wおよびしきい値θに対してある組合せwが起こりうる条件付き確率p(w|D)は、次のように表される。
Figure JPOXMLDOC01-appb-M000007
 最も確からしい重み係数wやしきい値θを決定するには、p(w|D)が最大になるようにすれば良い。つまり、上式より、
Figure JPOXMLDOC01-appb-M000008
の関係があるので、右辺に含まれる確率p(w|D)、p(w)について正規分布に従ったばらつきがあるものとして、各確率を求めることとする。
 まず確率p(w|D)を求める。
 一般に、正規分布f(x)は、平均をm、標準偏差をσとすると、次式で表される。
Figure JPOXMLDOC01-appb-M000009
したがって、重み係数w及びしきい値θがあるベクトルwで表される場合のデータのばらつきは、次式で表される。
Figure JPOXMLDOC01-appb-M000010
このとき、x(m)は入力変数を、t(m)は実験データすなわちターゲットであり、Zは規格化定数、σνはデータのバラツキである。
 ここで、式5で表される誤差関数E(w)を式10に代入すると、次式を得る。
Figure JPOXMLDOC01-appb-M000011
 次いで確率p(w)を求めると、p(w)にもバラツキがあり、その確率は、式5を考慮すると、
Figure JPOXMLDOC01-appb-M000012
で表される。ここでZは規格化定数であり、σは真のwの値からのバラツキである。
 式11、12を式8に代入すると、
Figure JPOXMLDOC01-appb-M000013
となる。
 したがって、p(w|D)を最大にするには、
Figure JPOXMLDOC01-appb-M000014
を最小にすれば良い。
 そして、式4で表されるエネルギー関数M(w)を最小にすることと比較すると、パラメータα、βは
Figure JPOXMLDOC01-appb-M000015
という統計的意味を持つことがわかる。これにより的確なトレーニングが可能になる。
 このとき、エラーバーσは、次式で表される。
Figure JPOXMLDOC01-appb-M000016
2-4.トレーニング手順
 以上から、予測モデル生成のためのトレーニングは、次の手順で行われる。トレーニングは、制御装置20におけるトレーニング用プログラムの実行を介して行われてもよいし、トレーニング用プログラムを実行可能な外部コンピュータで行われてもよい。
 具体的に説明すると、図5のステップS11において、訓練データ(x,t)を取得する。ここで、xは入力変数となる接合条件であり、tはターゲットとなる継手特性(実験データ)である。併せて、ステップS12において、パラメータベクトルwを設定する。ここでベクトルwは、重み係数w及びしきい値θを含んでいてもよい。
 次いで、ステップS13において、訓練データ(x,t)のバラツキσν及びパラメータベクトルwのバラツキσを算出する。
 そして、ステップS14において、エネルギー関数M(w)を最小化するようなパラメータベクトルwを算出する。この計算には可変計量法を用いることができ、M(w)の勾配の計算には例えば逆誤差伝播法を用いることができる
 ステップS15において、前手順の計算結果にしたがってパラメータベクトルwを更新するとともに、そのバラツキσを算出及び更新する。
 そして、ステップS14,S15を所定の回数だけ繰り返し、一連の手順を終了する。あるいは、パラメータベクトルwが予め設定した範囲内に収束することを終了条件にしてもよい。このようにして得られたパラメータベクトルwを、予測モデルのパラメータとして用いる。
 この作業を、隠れユニットhの個数、つまりパラメータベクトルwの要素数を調整しながら繰り返す。そうすると、隠れユニットの個数が増えるにしたがって、予測モデルの予測値と実験データとの差が単調に減少する。ここで、入力と出力の関係が複雑であるほど、多くの隠れユニットが必要であるが、実験データは常に誤差を含んでいるため、隠れユニットhの個数を増やし過ぎるとオーバーフィット(過学習)が生じ、予測精度つまり汎化性能が逆に低下する。
 そこで、例えば、データの半分をランダムに選択し、その半分のデータだけでニューラルネットワークをトレーニングし、残りの半分をモデルの汎化性能を調べるためのテストデータとしてもよい。テストデータを用いて、モデルの予測値とテストデータとの間の誤差、つまりテストエラーを測定するのである。なお、データセットの数が少ない場合には、大部分のデータをトレーニング用とし、残りのデータをテスト用としてよい。例えば、データセット数が30個の場合、その内の27個をトレーニング用に、残りの3個をテスト用とすることが好ましい。
 隠れユニットhが、ある個数となるとき、テストエラーは最小となる。この時のモデルを最適と判断し、学習済みモデルとして用いると予測精度が向上する。
 したがって、隠れユニットhの適切な個数kを決定する手順は次のようにすればよい。
 まず図6のステップS21において、前述したトレーニングを繰り返すことで、k個(k=1,2,・・・)の隠れユニットhを持つ複数の予測モデルを準備する。
 次いで、ステップS22において、各予測モデルについてテストエラーを算出し、ステップS23において、テストエラーが最小となる個数kを決定し、それに対応する予測モデルを最適モデルとする。なお、次に述べる予測モデルの組合せのために、テストエラーが小さい順に、最適モデル、第2最適モデル、第3最適モデル・・・のように順序付けしておいてもよい。
2-5.予測モデルの組合せによる最適化
 予測精度を更に向上させるために、複数のモデルを組み合わせてもよい。つまり、ニューラルネットワークでは、誤差の点では最適モデルとあまり変わらないが、全く異なった構造を持つモデルを数多く作ることができる。これらモデルを組み合わせることで、単体モデルの欠点を相互に補うことができ、予測精度を更に向上させることができる。
 具体的には、図7のステップS31において、誤差関数(又は上述したテストエラーの比較結果)を用いて、複数の予測モデルを最適モデル、第2最適モデル、第3最適モデル・・・のように順位付けする。
 ステップS32において、次式に従い、最適モデルの予測値と第2最適モデルの予測値との平均値を新たなモデルの予測値とし、ステップS33において、この予測値と実験データとの誤差を算出する。
Figure JPOXMLDOC01-appb-M000017
 そして、ステップS34において、先に算出した誤差が最小となるかどうかを判定する。最小でないと判定されると、ステップS35において、上式にしたがって次順位のモデルを組み合わせて、再度ステップS33,S34を実行する。
 誤差が最小と判定されると、ステップS36において、そのときのモデルの組合せを予測モデルとして採用する。例えば、第4最適モデルまでを組み合わせることによって誤差が小さくなるが、第5最適モデル以降を足し合わせると逆に誤差が大きくなるとき、最適モデルから第4最適モデルまでを組み合わせたものを予測モデルとすればよい。
 このとき、新たな予測のエラーバーσは、次式を用いて計算すればよい。
Figure JPOXMLDOC01-appb-M000018
ただし、N:モデル数、y、σ:個々のモデルの予測値及びエラーバーである。
 ところで、本実施形態の予測モデルでは、ある接合条件に対して継手特性の予測値及びエラーバーを出力することができる。例えば図8の例では、接合速度と接合強度の予測値との関係が曲線Lで表されるとともに、曲線Lを挟むようにエラーバーの上限及び下限を示す曲線Dで表されている。あるいは、エラーバーはバラツキσνに対応する長さを持つ線分Eで表されてもよい。もちろん、予測値及びエラーバーは数値で表されてもよい。
 このような予測値及びエラーバーを得ることで、ユーザは、継手特性の妥当な予測を得るとともに予測の確かさを知ることができる。エラーバーが大きいことは、実験データの数が不足しているか又は実験の精度が不十分であることを意味しているから、ユーザは、エラーバーの大きい領域において実験データを増やすか又は精度の高い実験を行うとよく(補強実験の実施)、これによりモデルの予測の信頼性を高めたり、当該材料に関する研究を更に深めたりすることができる。あるいは、予測モデルをFSW装置10の制御のために利用する場合に、エラーバーの小さい領域にある予測値を優先的に採用することで、高精度かつ安定的な制御を期待できる。
 また、予測モデルは、パラメータベクトルwのバラツキσに基づいて、例えば図9のように、継手特性に対する接合条件ごとの重要度(影響度合い)を示すことができる。これにより、ユーザは、該当する継手特性に対して影響力のある接合条件を把握することができ、これを研究・開発の指針として利用できる。また、FSW装置10の制御においては、例えば、重要度の高い接合条件を優先的に調整することで目標値に素早くかつ効率的に近づけることも可能である。
 あるいは、予測モデルは接合条件を出力してもよい。例えば、予測モデルは、継手特性の予測値を用いて、より良い継手特性を得るための接合条件を算出し、出力してもよい。予測モデルは、より良い接合条件の選定に際して、上述したエラーバー及び重要度を参照してもよい。これによりユーザは、より優れた継手を得るための示唆を得ることができる。
 このようにして得られた予測モデルについて、複数の入力変数(接合条件)のうち特定の入力を変化させ、残りの入力を変化させないと、出力(予測値)は、その特定の入力に対する応答特性を示すことになる。このような出力の応答特性を全ての入力変数について調べると、入力に対する出力のトレンドを把握することができるから、パラメータベクトルwのバラツキσとともに又はこれに代えて、応答特性に優れた接合条件を把握することができる。この知見をFSW装置10の制御のために利用することもできるし、当該材料に関する研究に使用することもできる。
3.制御手法の例
 上述したモデルはFSW装置の制御にも適用することができる。幾つかの適用形態が考えられ、その中には強化学習を利用した制御があるので、まず強化学習の概略を述べることとする。
3-1.強化学習
 強化学習とは、試行錯誤を通じて環境に適応する学習制御の枠組である。
 学習主体であるエージェントは、時刻tにおいて、制御対象である環境の状態の観測値s(t)に応じて意志決定を行い、行動a(t)を出力する。エージェントの行動により、環境はs(t+1)へ状態遷移し、その遷移に応じた報酬r(t)をエージェントへ与える。この一連の流れが繰り返されて、エージェントは、利得の最大化を目的として、状態観測から行動出力への方策πを学習する。
 例えば、強化学習の一種であるQ学習では、エージェントが、試行錯誤により、ある状態sの下で様々な行動aをとり、そのときの報酬を用いて最適な行動価値Q(s,a)を学習する。行動価値関数Q(s,a)の更新式は、次式で表される。
Figure JPOXMLDOC01-appb-M000019
ここで、s及びaは、時刻tにおける環境の状態s及び行動aである。
 行動aにより、環境は状態st+1に遷移し、それに伴って報酬rt+1が算出される。上式において、maxQ(st+1,a)の項は、状態st+1の下で、最もQ値の高い行動aに対応するQ値であり、割引率γ(γは0<γ≦1)が乗算されている。また、α(0<α≦1)は学習係数である。
 この更新式は、状態sにおける行動aの評価値Q(s、a)よりも、次の状態st+1における最良の行動の評価値maxQ(st+1、a)の方が大きければ、Q(s、a)を増加させ、逆に小さければ、Q(s、a)を減少させる。
 ところで、Q学習などの強化学習をFSW装置の制御に適用する場合、行動aを例えば接合条件の操作量に対応させ、状態sを例えば種々の観測データに対応させればよい。また、報酬に関する条件としては、例えば接合の品質、接合速度、エネルギー消費量が挙げられ、これら要素に応じて変化する価値関数を構築するとよい。例えば接合の強度が目標値に近付くか一致すると報酬が増え、目標値から離れるほど報酬は小さくなるか減る。また、バリ発生量が少なければ報酬が増え、多ければ減る。さらに、エネルギー消費量が多ければ報酬は減り、少なければ増える。
 FSWが複雑な現象を伴うことを踏まえれば、行動価値関数Q(s,a)は、テーブルよりもむしろ、関数近似で表現されることが好ましい。行動価値関数Q(s,a)の関数近似を行うためには、まず行動価値関数Q(s,a)を、パラメータベクトルwで表される関数Q’(s,a;w)としてモデル化する。そして、学習中はQ値そのものを更新するのではなく、Q’のパラメータベクトルwを更新するものとする。
 そして、パラメータwの学習のために、教師あり学習を応用することができる。摩擦攪拌接合のように複雑な問題に対処するためには、例えばニューラルネットワークを利用することができる。例えば、状態sを入力すると、可能な全ての行動aに対する価値関数Qを出力するニューラルネットワークを準備し、これを関数近似Q’(s,a;w)として用いればよい(Qネットワーク)。
 ここで、関数近似のパラメータwはニューラルネットワークの重みパラメータに対応している。そして、重みパラメータの調整は、次式の誤差関数を最小化するように行えばよい。
Figure JPOXMLDOC01-appb-M000020
ここで、y(s,a)は標的値(ターゲット)である。
 したがって、先に述べた式4のエネルギー関数M(w)や式5の誤差関数Eを利用することができる。
 もっとも、強化学習では標的値y(s,a)として用いる教師データは与えられないので、上式の標的値yを、例えば、環境から実際にサンプリングされた状態及び報酬で置き換えた、次式
Figure JPOXMLDOC01-appb-M000021
を用いてもよい。
 そうすると、価値関数Q’のパラメータwの更新は、例えば次式
Figure JPOXMLDOC01-appb-M000022
を用いて行えばよい。
 そして、パラメータw及び評価関数Q’の更新は、例えば接合の度に行えばよい。なお、Qネットワークの実現方法として様々な手法が提案されており、このような手法を本実施形態に取り入れることができる。その際、上式を適宜修正したうえで実行処理が行われることになる。
4.制御装置の詳細
 本実施形態では、上述の学習済みモデル又は学習モデルを用いてFSW装置10を制御している。例えば、制御装置は、学習済みモデル(予測モデル)が出力した予測値に基づいてFSW装置の操作量を決定してもよいし(構成例1)、あるいは、強化学習の学習モデルに最適な操作量を判断させてもよい(構成例2)。
4-1.制御装置の機能構成例1
 まず、予測モデルの予測値に基づいてFSW装置の操作量を決定するタイプの制御装置20について説明する。制御装置20は、図10に示すように、入力部21、演算部22、記憶部23及び出力部24の各機能部を含む。
 入力部21は、FSWに関する観測量(観測データ)を取得する。入力部は、観測データを自ら計測して取得してもよいし、例えばFSW装置10や他の計測器から取得してもよいし、更にはユーザ入力によって取得してもよい。また、観測データは、FSWの実行中に取得されてもよいし、実行後に取得されてもよい。更に、観測データは、例えばエネルギー消費量のように、複数の観測量の演算により得られるものでもよい。
 ここで、観測データは、FSWの接合条件に関するものと、継手特性に関するものを含む。ただし、接合条件に関する観測データと継手特性に関する観測データとは重複していてもよい。
 具体的には、接合条件に関する観測データとして、例えば、回転ツールの回転速度、移動速度、印加荷重(又はツール挿入量)、前進角がある。なお、各接合条件の調整量は、制御装置20により決定される。
 また、継手特性に関する観測データしては、例えば、FSW中の接合温度、ツール回転トルク、ツールY軸(接合方向)荷重、ツールZ軸(垂直方向)荷重、攪拌部幅、施工部周辺でのバリ発生量、継手強度、HAZ軟化、硬度分布、最高硬度、耐食性等がある。これらの物理量の多くは攪拌部に関する情報であり、接合条件に応じて変化する。
 次いで演算部22について説明すると、演算部22は、記憶部23に記憶された制御プログラムをメモリに読み込んで実行することで、観測データに基づいて継手特性を予測し、予測結果に基づいて最適な接合条件を決定する。演算部22は、設定部25、予測部26及び更新部27を含んでいる。
 設定部25は、ユーザ入力等に基づいて接合条件の初期設定を行う。設定される条件としては、例えば、接合対象となる材料の情報、目標とする継手特性(強度等)・作業時間・エネルギー消費量といった情報がある。また、設定部25は、学習済みの予測モデルを用いて、目標となる継手特性を満たす接合条件を把握し、この条件を初期設定としてもよい。
 次いで、予測部26は、予測モデルに観測データを入力し、継手特性に関する予測値を得る。そして、更新部27は、この予測値を目標値と比較し、比較結果に基づいて接合条件の操作量を更新する。例えば、接合強度が目標より不足している場合、更新部27は、接合条件に微少量Δを加えた量を予測モデルに入力して予測値の変化を把握し、接合強度が目標値に近付くようにその接合条件を調整すればよい。このとき、更新部27は、該当する接合条件の影響度合い及び信頼性(バラツキ)を考慮してもよい。
 そして、演算部22は、予め設定された時間間隔で、観測と接合条件の調整とを繰り返し、決定した調整量を、出力部24を介してFSW装置10に指示する。
 次いで、記憶部23は、例えば、学習済みの予測モデル、FSW装置10の制御プログラム及び各種データを記憶している。各種データとしては、例えば、観測データ、接合条件の設定、報酬設定等がある。記憶部23はまた、例えば継手形状、板厚、母材姿勢、ギャップ量などの施工条件を記憶してもよい。なお、記憶部23の全部又は一部は、制御装置20内に組み込まれていてもよいし、例えば外部コンピュータの記憶領域でもよい。
 出力部24は、演算部22からの指示をFSW装置10に出力するほか、例えば、演算部22の予測結果及びFSW装置10への指示内容を、図示しないディスプレイに表示させてもよい。
 次いで、図11を参照して、制御装置20の動作例を説明する。
 まずステップS41において、設定部25は、ユーザ入力に応じて接合条件を設定する。次いで、ステップS42において、入力部21は観測データを取得し、記憶部23又は外部の記憶装置に記憶する。そして、ステップS43において、予測部26は、学習済みの予測モデルを用いて継手特性の予測値を算出する。更に、ステップS44において、更新部27は、予測部25の予測結果を参照し、継手特性を目標値に近付けるように接合条件を調整及び更新するとともに、調整後の接合条件を出力する。
 そして、制御装置20は、これらステップS42~S44を設定された時間間隔で繰り返し実行する。これにより、ユーザの所望する継手特性に応じて適切な接合条件を自動的に決定することができる。
 つまり、予測モデルは、非線形関数で表現された隠れユニットを含むニューラルネットワークにより生成されるから、複雑な関係を伴う接合現象を適切に表現できる。これにより継手特性の予測精度が高まると同時に、この予測モデルが制御装置20に組み込まれることで、ユーザの要望に応じて、より適切な接合条件を設定することが可能となる。そして、予測モデルの予測精度は、学習機会の増加に伴って更に高まり、更に適切な接合条件の設定が可能になる。したがって、多数の予備実験を必要とせず、また作業者の技術レベルによらずに、最適な接合条件を用いて各種継手を簡単に得ることができる。
 加えて、予測モデルは予測値にエラーバーを設けることができる。予測値のバラツキは使用したデータの不足及び/又は信頼性の不足を意味しており、積極的にデータを収集するべき対象を明確にすることができる。また、このエラーバーを踏まえた制御を行うことで、信頼性の高い制御を実現できる。
4-2.制御装置の機能構成例2
 次に、強化学習の学習モデルに最適な操作量を判断させるタイプの制御装置120について説明する。
 制御装置120は、接合条件を決定した結果(環境の状態遷移)に基づいて報酬を計算し、計算された報酬に基づいて評価関数を更新し、かかる評価関数の更新を繰り返すことによって、報酬が最も多く得られるような(より好適な)接合条件を決定するようにプログラムされている。制御装置120は、図12に示すように、入力部121、演算部122、記憶部123及び出力部124の各機能部を含む。
 入力部121は、先に述べた入力部21と同様に、FSWに関する観測データを取得する。記憶部123は、例えば、学習モデル、制御プログラム、観測データ、設定情報等を記憶している。また、出力部124は、演算部122が決定した接合条件の操作量をFSW装置10に指示する。
 演算部122は、観測データに基づいて機械学習を実行し、最適な接合条件を決定する。つまり、演算部122は、強化学習におけるエージェントに相当する役割を果たす。かかる演算部122は、設定部125、関数更新部126、報酬計算部127及び方策決定部128を含んでいる。
 設定部125は、ユーザ入力等に基づいて接合条件の初期設定を行うとともに、報酬に関する設定(例えば報酬及び価値関数の初期値、報酬の付与条件など)を行う。なお、接合条件の初期設定に当たっては、設定部125は、記憶部123又は外部の記憶装置に記憶された学習済みの予測モデルを用いて、目標となる継手特性を満たす接合条件を把握し、この条件を初期設定としてもよい
 関数更新部126は、例えば、観測データ及び式21を用いてパラメータベクトルwを更新することで、可能な行動aに対して最大となる価値関数Qを選択し、価値関数Q’を更新する。報酬計算部127は、観測された環境の状態sに基づき、更新された価値関数Q’を用いて報酬を計算する。方策決定部128は、更新された価値関数Q’に対応する方策πを決定する。
 そして、演算部22は、予め設定された時間間隔で、観測と接合条件の調整とを繰り返し、決定した方策つまり接合条件の調整量を、出力部24を介してFSW装置10に指示する。
 次いで、図13を参照して、制御装置120の動作例を説明する。
 まずステップS51において、設定部125は、ユーザ入力に応じて接合条件等の初期設定を行う。次いで、ステップS52において、方策決定部128は価値関数Q’に基づいて方策πを決定する。併せて、ステップS53において、関数更新部126は、学習モデルを用いて価値関数Q’のパラメータベクトルwを更新し、これにより価値関数Q’を更新する。
 ステップS54において、制御部120は、FSW装置10に方策πを実行させ、計測器30から環境の新たな状態sを取得する。ステップS55において、報酬計算部127は、観測された環境の新たな状態s及び更新された価値関数Q’を用いて報酬を計算する。
 そして、制御装置20は、これらステップS52~S55を設定された時間間隔で繰り返し実行する。これにより環境の状態に応じて接合条件を最適化することができる。つまり、このような処理が繰返されることで行動価値関数の信頼度が高められ、また、信頼性の高い行動価値関数に基づいてより多くの報酬を得るように方策を決定することで接合条件の設定をより最適に決定することが可能となる。
 換言すれば、制御装置20は、種々の接合条件と当該接合条件の下で得られる接合部との関係を報酬の概念を介して学習し、ユーザの所望する継手特性に応じて適切な接合条件を自動的に決定することができる。したがって、多数の予備実験を必要とせず、また作業者の技術レベルによらずに、最適な接合条件を用いて各種継手を簡単に得ることができる。
 以上、本発明の代表的な実施形態について説明したが、本発明はこれらに限定されるものではなく、種々の設計変更が可能であり、それらも本発明に含まれる。
  1・・・摩擦攪拌接合(FSW)システム、
 10・・・摩擦攪拌接合(FSW)装置、
 20・・・制御装置、
 30・・・計測器。

 

Claims (9)

  1.  摩擦攪拌接合の接合条件を示す入力データに基づいて継手特性の予測値を出力するよう、コンピュータを機能させるための学習済みモデルであって、
     入力層、出力層、及び、前記入力層と前記出力層との間に介在し、非線形の活性化関数で表される複数の隠れユニットを有する隠れ層、を含むニューラルネットワークから構成され、
     前記ニューラルネットワークが、前記継手特性を示す実験データのバラツキを示す情報を用いて、前記実験データと前記予測値との誤差で表される関数を最小化するように重み係数を学習し、
     前記入力層に入力された、摩擦攪拌接合の接合条件を示す入力データに対し、前記学習済みモデルに基づく演算を行い、継手特性の予測値を前記出力層から出力するとともに当該予測値の信頼性を示す情報を出力するよう、コンピュータを機能させるための学習済みモデル。
  2.  前記ニューラルネットワークが、更に前記重み係数のバラツキを示す情報を用いて、前記重み係数を学習し、
     前記予測値に対する前記接合条件の影響度合いを示す情報を更に出力するよう、コンピュータを機能させるための請求項1に記載の予測済みモデル。
  3.  前記ニューラルネットワークは、
     異なる数の隠れユニットを有する複数のモデルのそれぞれについて前記重み係数を学習し、
     前記複数のモデルのうち、予測値と実験データとの誤差が最小となるモデルを予測モデルとする、請求項1又は2に記載の学習済みモデル。
  4.  前記ニューラルネットワークは、
     異なる数の隠れユニットを有する複数のモデルのそれぞれについて前記重み係数を学習し、
     前記複数のモデルを、予測値と実験データとの誤差に基づいて順位付け、
     高順位のモデルから順次組み合わせて生成される新たな複数のモデルのうち、予測値と実験データとの誤差が最小となるモデルを予測モデルとする、請求項1又は2に記載の学習済みモデル。
  5.  摩擦攪拌接合における接合条件を示す観測データを取得する入力部と、
     請求項1~4のいずれかに記載の学習済みモデルを記憶する記憶部と、
     前記観測データの前記学習済みモデルへの適用結果に基づいて摩擦攪拌接合装置の操作量を決定する演算部と、
     決定された前記操作量を前記摩擦攪拌接合装置に指示する出力部と、
     を含む制御装置。
  6.  摩擦攪拌接合における接合条件及び継手特性を示す観測データを取得する入力部と、
     所定の学習アルゴリズムを記憶する記憶部と、
     前記観測データの前記所定の学習アルゴリズムへの適用結果に基づいて摩擦攪拌接合装置の操作量を決定する演算部と、
     決定された前記操作量を前記摩擦攪拌接合装置に指示する出力部と、
     を含む制御装置であって、
     前記所定の学習アルゴリズムは、
     前記摩擦攪拌接合装置の接合条件及び前記継手特性を示す入力データに基づいて前記摩擦攪拌接合装置の適切な操作量を出力するように前記制御装置を機能させるべく、
     入力層、出力層、及び、前記入力層と前記出力層との間に介在し非線形の活性化関数で表される隠れ層を含むニューラルネットワークから構成され、
     前記ニューラルネットワークが、前記接合条件と前記継手特性との関係性を含む価値関数で表される誤差関数を最小化するように重み係数を学習し、
     前記入力層に入力された、摩擦攪拌接合の接合条件を示す入力データに対し、前記学習済みモデルに基づく演算を行い、前記摩擦攪拌接合装置の操作量を前記出力層から出力する、制御装置。
  7.  摩擦攪拌接合を実行する摩擦攪拌接合装置と、
     前記摩擦攪拌接合における接合条件を示す観測データを計測する計測器と、
     請求項5又は6に記載の制御装置と、
     を含む摩擦攪拌接合システム。
  8.  摩擦攪拌接合の接合条件を示す入力データに基づいて継手特性の予測値を出力するようにコンピュータを機能させるための学習済みモデルを生成するニューラルネットワークシステムであって、
     入力層、出力層、及び、前記入力層と前記出力層との間に介在し、非線形の活性化関数で表される複数の隠れユニットを有する隠れ層、を含むニューラルネットワークを含み、
     前記ニューラルネットワークは、
     前記継手特性を示す実験データのバラツキを示す情報を用いて、前記実験データと前記予測値との誤差で表される関数を最小化するように重み係数を学習し、
     前記入力層に入力された、摩擦攪拌接合の接合条件を示す入力データに対し、前記学習済みモデルに基づく演算を行い、継手特性の予測値を前記出力層から出力するとともに当該予測値の信頼性を示す情報を出力する学習済みモデルを生成する
     ように構成されているニューラルネットワークシステム。
  9.  摩擦攪拌接合の接合条件を示す入力データに基づいて継手特性の予測値を出力するようにコンピュータを機能させるための学習用モデルの生成方法であって、
     前記学習済みモデルを生成するための学習用モデルは、入力層、出力層、及び、前記入力層と前記出力層との間に介在し、非線形の活性化関数で表される複数の隠れユニットを有する隠れ層、を含むニューラルネットワークを含み、
     前記ニューラルネットワークにおいて、前記継手特性を示す実験データのバラツキを示す情報を用いて、前記実験データと前記予測値との誤差で表される関数を最小化するように重み係数を学習するステップと、
     前記入力層に入力された、摩擦攪拌接合の接合条件を示す入力データに対し、前記学習済みモデルに基づく演算を行い、継手特性の予測値を前記出力層から出力するとともに当該予測値の信頼性を示す情報を出力する学習済みモデルを生成するステップと、
     を含む、学習用モデルの生成方法。
     
PCT/JP2020/008622 2019-03-20 2020-03-02 学習済みモデル、制御装置、摩擦攪拌接合システム、ニューラルネットワークシステム、及び学習済みモデルの生成方法 WO2020189235A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021507153A JPWO2020189235A1 (ja) 2019-03-20 2020-03-02

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019-052234 2019-03-20
JP2019052234 2019-03-20

Publications (1)

Publication Number Publication Date
WO2020189235A1 true WO2020189235A1 (ja) 2020-09-24

Family

ID=72520885

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/008622 WO2020189235A1 (ja) 2019-03-20 2020-03-02 学習済みモデル、制御装置、摩擦攪拌接合システム、ニューラルネットワークシステム、及び学習済みモデルの生成方法

Country Status (2)

Country Link
JP (1) JPWO2020189235A1 (ja)
WO (1) WO2020189235A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112733406A (zh) * 2021-01-20 2021-04-30 昆山六丰机械工业有限公司 利用有限元素法建立摩擦搅拌焊接结构缺陷预测模型
CN112836867A (zh) * 2021-01-21 2021-05-25 上海电机学院 一种海上风力发电机组制动闸磨损量的检测方法及系统
CN114266435A (zh) * 2021-11-08 2022-04-01 国网河南省电力公司电力科学研究院 一种乡村智慧能源管理平台
CN116140786A (zh) * 2023-03-06 2023-05-23 四川艾庞机械科技有限公司 搅拌摩擦焊接方法及其系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0112627B2 (ja) * 1983-06-11 1989-03-01 Hitachi Shipbuilding Eng Co
JP2008065836A (ja) * 1996-02-09 2008-03-21 Adeza Biomedical Corp ニューラルネットワーク関連アプリケーションを使用して医療診断テストおよび生化学診断テストを選択する方法
JP2015075706A (ja) * 2013-10-10 2015-04-20 日本放送協会 誤り修正モデル学習装置、及びプログラム
JP2016212273A (ja) * 2015-05-11 2016-12-15 国立研究開発法人情報通信研究機構 リカレント型ニューラルネットワークの学習方法及びそのためのコンピュータプログラム、並びに音声認識装置
JP2018156473A (ja) * 2017-03-17 2018-10-04 ヤフー株式会社 解析装置、解析方法、およびプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0112627B2 (ja) * 1983-06-11 1989-03-01 Hitachi Shipbuilding Eng Co
JP2008065836A (ja) * 1996-02-09 2008-03-21 Adeza Biomedical Corp ニューラルネットワーク関連アプリケーションを使用して医療診断テストおよび生化学診断テストを選択する方法
JP2015075706A (ja) * 2013-10-10 2015-04-20 日本放送協会 誤り修正モデル学習装置、及びプログラム
JP2016212273A (ja) * 2015-05-11 2016-12-15 国立研究開発法人情報通信研究機構 リカレント型ニューラルネットワークの学習方法及びそのためのコンピュータプログラム、並びに音声認識装置
JP2018156473A (ja) * 2017-03-17 2018-10-04 ヤフー株式会社 解析装置、解析方法、およびプログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112733406A (zh) * 2021-01-20 2021-04-30 昆山六丰机械工业有限公司 利用有限元素法建立摩擦搅拌焊接结构缺陷预测模型
CN112836867A (zh) * 2021-01-21 2021-05-25 上海电机学院 一种海上风力发电机组制动闸磨损量的检测方法及系统
CN114266435A (zh) * 2021-11-08 2022-04-01 国网河南省电力公司电力科学研究院 一种乡村智慧能源管理平台
CN116140786A (zh) * 2023-03-06 2023-05-23 四川艾庞机械科技有限公司 搅拌摩擦焊接方法及其系统
CN116140786B (zh) * 2023-03-06 2023-07-14 四川艾庞机械科技有限公司 搅拌摩擦焊接方法及其系统

Also Published As

Publication number Publication date
JPWO2020189235A1 (ja) 2020-09-24

Similar Documents

Publication Publication Date Title
WO2020189235A1 (ja) 学習済みモデル、制御装置、摩擦攪拌接合システム、ニューラルネットワークシステム、及び学習済みモデルの生成方法
Suresh et al. Sustainable friction stir spot welding of 6061-T6 aluminium alloy using improved non-dominated sorting teaching learning algorithm
US11574192B2 (en) Controller training based on historical data
CN109828532B (zh) 一种基于ga-gbrt的表面粗糙度预测方法及工艺参数优化方法
CN108568596B (zh) 激光加工装置以及机器学习装置
US20170091667A1 (en) Machine learning device and method for optimizing frequency of tool compensation of machine tool, and machine tool having the machine learning device
CA2636898C (en) Apparatus and method for constructing prediction model
WO1998006550A1 (fr) Procede de conception de materiau multicomposant, analyseur d'optimisation et support d'information sur lequel le programme d'analyse d'optimisation de materiau multicomposant est enregistre
JP2008112288A (ja) 予測式作成装置、結果予測装置、品質設計装置、予測式作成方法及び製品の製造方法
US20190291270A1 (en) Controller, machine learning device, and system
Alsamhan et al. Prediction of formation force during single-point incremental sheet metal forming using artificial intelligence techniques
WO2020152993A1 (ja) 金属材料の設計支援方法、予測モデルの生成方法、金属材料の製造方法、及び設計支援装置
JP2009151383A (ja) 製造プロセスにおける操業と品質の関連解析装置、解析方法、プログラム、及びコンピュータ読み取り可能な記録媒体
Wahed et al. Parameter optimisation in V-bending process at elevated temperatures to minimise spring back in Ti-6Al-4V alloy
Nouira et al. Comparative fracture prediction study for two materials under a wide range of stress states using seven uncoupled models
Zirngibl et al. Application of reinforcement learning for the optimization of clinch joint characteristics
CN111132596B (zh) 过度致动迟滞系统和用于控制过度致动迟滞系统的方法
CN110893515B (zh) 加工条件调整装置以及机器学习装置
Gondo et al. Effect and control of path parameters on thickness distribution of cylindrical cups formed via multi-pass conventional spinning
CN115815751A (zh) 焊接参数量化表征的自学习方法、装置、设备及存储介质
Datta et al. Optimisation of percent dilution and HAZ width of submerged arc weldment using Taguchi philosophy coupled with fuzzy inference system
Nicoletti et al. A Theoretical and Experimental Study of Predicting Forming-Limit Diagrams for Face-Centered Cubic, Body-Centered Cubic and Hexagonal Close-Packed Metals Using the Marciniak–Kuczynski Visco-Plastic Self-consistent Model
WO2020239641A1 (en) Hierarchical policies for multitask transfer
Chen Machine learning-based characterization of friction stir welding in aluminum alloys
US20240019826A1 (en) Tube bending method and tube bending system

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20773999

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021507153

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20773999

Country of ref document: EP

Kind code of ref document: A1