WO2021171720A1 - 情報処理装置、制御システム、制御変数決定方法、および制御変数決定プログラム - Google Patents

情報処理装置、制御システム、制御変数決定方法、および制御変数決定プログラム Download PDF

Info

Publication number
WO2021171720A1
WO2021171720A1 PCT/JP2020/044442 JP2020044442W WO2021171720A1 WO 2021171720 A1 WO2021171720 A1 WO 2021171720A1 JP 2020044442 W JP2020044442 W JP 2020044442W WO 2021171720 A1 WO2021171720 A1 WO 2021171720A1
Authority
WO
WIPO (PCT)
Prior art keywords
control
control variable
distribution
crane
information processing
Prior art date
Application number
PCT/JP2020/044442
Other languages
English (en)
French (fr)
Inventor
馨 川端
照司 平林
由樹雄 小貫
英達 戴
崇充 松原
佐々木 光
Original Assignee
日立造船株式会社
国立大学法人 奈良先端科学技術大学院大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日立造船株式会社, 国立大学法人 奈良先端科学技術大学院大学 filed Critical 日立造船株式会社
Priority to CN202080097673.7A priority Critical patent/CN115175868A/zh
Priority to EP20922289.2A priority patent/EP4112498A4/en
Publication of WO2021171720A1 publication Critical patent/WO2021171720A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B19/00Programme-control systems
    • G05B19/02Programme-control systems electric
    • G05B19/04Programme control other than numerical control, i.e. in sequence controllers or logic controllers
    • G05B19/042Programme control other than numerical control, i.e. in sequence controllers or logic controllers using digital processors
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B66HOISTING; LIFTING; HAULING
    • B66CCRANES; LOAD-ENGAGING ELEMENTS OR DEVICES FOR CRANES, CAPSTANS, WINCHES, OR TACKLES
    • B66C13/00Other constructional features or details
    • B66C13/18Control systems or devices
    • B66C13/48Automatic control of crane drives for producing a single or repeated working cycle; Programme control
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]

Definitions

  • the present invention relates to an information processing device and the like that can be used for automatic control of a crane that carries garbage.
  • the waste brought into the waste treatment facility is temporarily stored in a storage facility called a pit, and then sent to an incinerator for incineration.
  • a crane is used to move the waste stored in the pit. Basically, the crane is manually operated by the operator, but attempts have been made to automate the control of the crane.
  • Patent Document 1 discloses a technique for quantifying the degree of agitation of waste and automatically controlling the crane based on the quantified degree of agitation of the waste.
  • the degree of agitation is quantified based on the number of agitations, and automatic control is realized by generating a crane control instruction that specifies the position where the garbage is grabbed and the position where the grabbed garbage is dropped. doing.
  • the garbage gripping position For example, just by specifying the garbage gripping position, depending on the nature of the garbage at that position, a large amount of garbage may be caught, or only a small amount of garbage may be caught. If the amount of dust that can be grasped is not stable, the difference between the actual amount of dust movement and the assumed movement amount will be cumulatively widened during the automatic control period of the crane. Therefore, in the end, the expected stirring effect may not be obtained. Further, even when the expected dust is grasped, it is conceivable that the expected stirring effect cannot be obtained due to the variation in the properties of the grasped dust. These are not limited to agitation, but are also the same for control in any work such as lifting, scattering, dropping, etc. of garbage by a crane.
  • One aspect of the present invention is to realize an information processing device or the like capable of determining a control variable in which a desired control result can be expected for a crane that carries garbage.
  • the information processing device is an information processing device including a prediction distribution calculation unit, a control variable search unit, and a control variable determination unit.
  • the distribution calculation unit uses the control result data in which the control variable of the crane that carries the garbage and the control result of controlling the crane using the control variable are associated with each other, and the relationship between the control variable and the control result.
  • the prediction distribution of the function indicating the above is calculated, the control variable search unit searches for a candidate control variable that is a candidate for the optimum value of the control variable based on the prediction distribution, and the prediction distribution calculation unit searches for the control variable.
  • the prediction distribution is updated using the candidate control variable detected by the search unit and the control result of controlling the crane using the candidate control variable, and the control variable determination unit updates the prediction after the update.
  • the optimum value of the above control variable is determined by using a function constructed based on the distribution.
  • control variable determination method is a control variable determination method executed by one or a plurality of information processing devices, and controls a crane that carries garbage.
  • Predictive distribution calculation that calculates the predicted distribution of the function indicating the relationship between the control variable and the control result using the control result data in which the variable and the control result of controlling the crane using the control variable are associated with each other.
  • the optimum value of the control variable is determined by using the control result of controlling the crane using, the update step of updating the predicted distribution using, and the function constructed based on the predicted distribution after the update. Includes control variable determination steps to be performed.
  • FIG. 2 is a diagram showing an outline of the control system 9.
  • the control system 9 includes an information processing device 1A, a control device 3, and a crane 5.
  • the control system 9 is a system that controls the operation of the crane 5 by the control device 3.
  • the information processing device 1A calculates a control variable that defines the content of the control executed by the control device 3.
  • the information processing device 1A calculates an appropriate control variable, appropriate automatic control of the crane 5 by the control device 3 is realized.
  • Crane 5 is a crane used for transporting waste, for example, used in a waste treatment facility or the like.
  • the crane 5 may include, for example, a bucket having a plurality of claws for catching dust, an opening / closing mechanism for opening / closing the claws of the bucket, an elevating mechanism for raising / lowering the bucket, a moving mechanism for moving the bucket in the horizontal direction, and the like.
  • the control device 3 can cause the crane 5 to perform operations such as stirring dust by controlling the opening / closing mechanism, the elevating mechanism, and the moving mechanism.
  • control system 9 when the information processing device 1A calculates the optimum control variable, first, the task to be executed by the crane 5 is set and the control variable is set when the crane 5 executes the task.
  • a control variable that enables the dust to be evenly distributed that is, a control variable that can specify the timing of bucket opening / closing control may be set.
  • the closing operation of closing the bucket is started when a predetermined amount of dust falls from the bucket, and the opening operation is started again after the predetermined time.
  • Garbage can be scattered by repeating this series of controls. Therefore, the predetermined amount and the predetermined time may be used as control variables.
  • the weight of garbage that has fallen during the period from the start of opening operation to the start of closing operation of the bucket may be used as a control variable.
  • the closing operation may be automatically started after the opening operation is completed, and the above period may be a period from the opening operation start to the closing operation end.
  • the time for performing the open operation, the time for performing the closing operation, and the like may be used as control variables.
  • the data used when the control device 3 controls the crane 5 using the above control variables is not particularly limited.
  • information indicating the amount of water, the type, the degree of stirring, the surface state may be used when controlling the crane 5.
  • the data format of such data is not particularly limited, and may be numerical data, image data, or the like.
  • the control device 3 controls the crane 5 to execute the set task. Then, the appropriateness of the control result is evaluated, and the evaluation result is input to the information processing apparatus 1A together with the control variables in the control. For example, in the case of a task of evenly distributing and stirring dust, the evaluation value may be higher as the amount of dust scattered on the moving path of the bucket is equal.
  • the information processing device 1A optimizes the control variables based on the input control variables and the evaluation values, and the control device 3 causes the crane 5 to execute the task again using the optimized control variables. By repeating such processing, the information processing apparatus 1A can determine a control variable in which a desired control result can be expected. As a result, appropriate automatic control of the crane 5 by the control device 3 is realized.
  • FIG. 1 is a block diagram showing an example of a main configuration of the information processing apparatus 1A.
  • the information processing apparatus 1A determines a control variable in which a desired control result can be expected by Bayesian optimization (hereinafter referred to as BO), that is, an example in which the control variable is optimized by BO will be described. ..
  • BO Bayesian optimization
  • the information processing device 1A receives inputs to the control unit 10A that controls and controls each part of the information processing device 1A, the storage unit 20 that stores various data used by the information processing device 1A, and the information processing device 1A.
  • the receiving input unit 30 and the output unit 40 for the information processing device 1A to output data are provided.
  • the control unit 10A includes a data acquisition unit 101, a prediction distribution calculation unit 102, a control variable search unit 103, and a control variable determination unit 104. Further, the control result data 201 is stored in the storage unit 20.
  • the data acquisition unit 101 acquires learning data used for optimization by BO. Specifically, since the control variables used for controlling the crane 5 and the evaluation values of the control results are stored as the control result data 201, the data acquisition unit 101 uses the control result data 201 as training data. get.
  • control result data 201 contains control variables at N points, those control variables are
  • the prediction distribution calculation unit 102 calculates the prediction distribution of the function indicating the relationship between the control variable and the control result by using the control result data 201 acquired by the data acquisition unit 101.
  • this function is referred to as an evaluation function f ( ⁇ ).
  • the prediction distribution calculation unit 102 updates the prediction distribution so that the data is reflected.
  • control variable The relationship between the control variable and the control result is determined using Gaussian noises ⁇ n to ⁇ (0, ⁇ ).
  • K * k ( ⁇ , ⁇ )
  • the parameter of the kernel function is ⁇ k .
  • the average function ⁇ ( ⁇ ) indicates the average value of the evaluation functions predicted from the control result data 201.
  • the variance function ⁇ ( ⁇ ) is the variance of the evaluation function predicted from the control result data 201.
  • ⁇ ( ⁇ ) indicates the uncertainty of prediction, and its value tends to be large in the region where the control result data 201 is insufficient.
  • the light gray portion in FIG. 4, which will be described later, indicates the variance ⁇ .
  • indicates the variance ⁇ .
  • the kernel function included in the variance function ⁇ ( ⁇ ) and the kernel function parameter ⁇ k influence the calculation of the predicted distribution.
  • the parameter ⁇ k is optimized when calculating the predicted distribution.
  • the control variable search unit 103 searches for the optimum control variable candidate (candidate control variable) in order to obtain the optimum control variable. Specifically, the control variable search unit 103 searches for a control variable that maximizes the following acquisition function a ( ⁇ ) by using the average function ⁇ ( ⁇ ) and the variance function ⁇ ( ⁇ ). The control variables detected by this search are candidates for the optimum control variables. This search is based on the UCB (Upper Confidence Bound) strategy. In addition, ⁇ in the mathematical formula (5) is a parameter for adjusting the search and utilization. Of course, it is also possible to search for new control variables by other methods. For example, a PI (Probability of Improvement) strategy or an EI (Expected Improvement) strategy may be used to search for the optimum control variable candidate.
  • a PI Probability of Improvement
  • EI Exected Improvement
  • control variable that minimizes the value of the evaluation function is obtained as the optimum control variable (for example, for a task that is preferable to be completed in a short time, the time required to complete the task is used as the evaluation value).
  • the control variable that minimizes the acquisition function a ( ⁇ ) may be searched.
  • the optimum control variable candidate detected by the control variable search unit 103 is used for controlling the crane 5. Then, the control result (more specifically, the evaluation value of the control result) is obtained and input to the information processing apparatus 1A. The input data (optimal control variable candidates and evaluation values) is added to the control result data 201. After that, the prediction distribution is updated using the control result data 201 to which the data is added.
  • the evaluation value may be calculated by the information processing device 1A, or by another device or a user.
  • the control variable determination unit 104 determines the optimum value of the control variable based on the evaluation function configured based on the predicted distribution updated by the prediction distribution calculation unit 102.
  • the optimum value of the control variable is a value inferred to be optimum from the updated predicted distribution, and can be said to be a solution of the control variable optimization operation executed by the information processing apparatus 1A. By setting the value of the control variable when controlling the crane 5 to this optimum value, the best control result can be expected.
  • the method for determining the optimum value is not particularly limited, and various methods can be applied. For example, if the control variable candidate detected by the control variable search unit 103 has already been evaluated, the control variable determination unit 104 may determine the candidate as the optimum control variable. If the optimum control variable candidate detected by the control variable search unit 103 has already been evaluated, the control variable corresponds to the maximum value (or minimum value) instead of the extreme value of the evaluation function. This is because there is a high possibility that it is present.
  • the information processing apparatus 1A has a prediction distribution calculation unit 102 that calculates the prediction distribution of the evaluation function using the control result data 201, and a candidate that is a candidate for the optimum value of the control variable based on the prediction distribution. It includes a control variable search unit 103 that searches for control variables. Further, the prediction distribution calculation unit 102 updates the prediction distribution using the new candidate control variable detected by the control variable search unit 103 and the control result of controlling the crane 5 using the candidate control variable. Then, the information processing apparatus 1A includes a control variable determination unit 104 that determines the optimum value of the control variable by using a function configured based on the updated prediction distribution. More specifically, the function is constructed based on the mean and variance of the predicted distribution after the update (Formula (5)).
  • the optimum value of the control variable is determined based on the predicted distribution of the function that associates the control variable with the control result. As a result, it is possible to determine a control variable in which a desired control result can be expected for a crane that carries garbage having inconsistent properties.
  • the candidate control variable since the candidate control variable is searched based on the predicted distribution, even if the detected candidate control variable is not the optimum control variable, the candidate control variable updates the predicted distribution appropriately. It will be useful data for. Therefore, it is possible to reduce the number of trials as compared with the case where, for example, the control variable of the crane 5 is randomly selected and the trial of observing the control result of the crane 5 is repeated to determine the optimum control variable. ..
  • FIG. 3 is a flowchart showing an example of a process of determining a control variable of the crane 5.
  • control result data 201 may include a control result based on at least one trial (one control variable and an evaluation value that evaluates the result of control using the control variable).
  • the prediction distribution calculation unit 102 optimizes the parameters of the kernel function.
  • the parameter of the kernel function is ⁇ k .
  • the optimization method is not particularly limited, and for example, an optimization method applied in a general BO can be applied.
  • the prediction distribution calculation unit 102 uses the initial data set in S1 and the kernel function parameters optimized in S2 to evaluate the control result of the crane 5. Calculate the predicted distribution. As described above, this predicted distribution is represented by mathematical formulas (1) to (3).
  • control variable search unit 103 searches for the control variable ⁇ * of the crane 5 having the maximum acquisition function.
  • the control variable ⁇ * is a candidate for the optimum value of the control variable ⁇ . As described above, this process is represented by the above mathematical formulas (4) and (5).
  • the control variable determination unit 104 determines whether or not the control variable ⁇ * specified in S4 is the optimum value.
  • the method for determining whether or not the value is the optimum value is not particularly limited. For example, when the control variable ⁇ * detected in the latest S4 matches the control variable detected before that , the control variable determination unit 104 determines that the control variable ⁇ * is the optimum value and matches. If not, it may be determined that the value is not the optimum value.
  • the control variables detected before that are the control variables included in the control result data 201, and the control of the crane 5 using the control variables and the calculation of the evaluation value for the control have been completed. Refers to what is.
  • control variable determination unit 104 determines the optimum value of the control variable of the crane 5 to ⁇ * , whereby the process of FIG. 3 ends.
  • control variable determination unit 104 may output the determined ⁇ * to the output unit 40.
  • the control variable determination unit 104 outputs the control variable ⁇ * to the output unit 40, for example, and causes the information processing device 1A. Notify the user of. Based on this notification, the user causes the control device 3 to control the crane 5 according to the control variable ⁇ *, and observes and evaluates the control result.
  • the evaluation method is not particularly limited, and for example, an error between the ideal control result and the actual control result may be calculated as an evaluation value.
  • the evaluation result is input to the information processing device 1A via the input unit 30.
  • the data acquisition unit 101 acquires the evaluation result input as described above. Then, in S7, the data acquisition unit 101 associates the evaluation result acquired in S6 with the control variable ⁇ * determined in the latest S4, and adds the evaluation result to the control result data 201.
  • the prediction distribution calculation unit 102 optimizes the parameters of the kernel function using the control result data 201 to which the evaluation result and the control variable ⁇ * are added in S7. Then, in S9 (update step), the prediction distribution calculation unit 102 evaluates using the control result data 201 to which the evaluation result and the control variable ⁇ * are added in S7 and the parameters of the kernel function optimized in S8. Calculate the predicted distribution of the function. This post-processing returns to S4, and the control variable search unit 103 searches for the control variable. By repeating the addition of the control variable and the update of the predicted distribution in this way, the control variable in which the desired control result can be expected can be determined.
  • FIG. 5 is a block diagram showing an example of the main configuration of the information processing apparatus 1B.
  • the information processing device 1B includes a control unit 10B that controls and controls each part of the information processing device 1B.
  • the difference between the control unit 10A and the control unit 10B of the information processing device 1A shown in FIG. 1 is that the control unit 10B includes the prediction distribution calculation unit 301 instead of the prediction distribution calculation unit 102.
  • the prediction distribution calculation unit 301 calculates and updates the prediction distribution using the control result data 201. As described below, the calculation and update method is the prediction distribution calculation unit 102. Is different.
  • the prediction distribution calculation unit 301 calculates or updates the prediction distribution with the contribution of each of the plurality of control result data in the calculation of the prediction distribution as the contribution according to the reliability of the control result data. Therefore, even if the control result data used for calculating or updating the predicted distribution contains unreliable data, the influence of such control result data on the predicted distribution can be relatively low. can. This makes it possible to quickly determine a valid control variable.
  • the reliability of the control result data is an index indicating whether the control result data is a valid value from the viewpoint of the entire prediction distribution. For example, when a certain control result data is excluded from a plurality of control result data and the predicted distribution of the remaining control result data approaches the Gaussian distribution, the excluded control result data is a true function (evaluation). There is a high possibility that the value is outlier from the function), and it can be said that the reliability is low. On the contrary, when the predicted distribution is closer to the Gaussian distribution than excluding a certain control result data from a plurality of control result data, it can be said that the reliability of the control result data is high.
  • the predicted distribution calculation unit 102 of the first embodiment calculates and updates the predicted distribution by the Gaussian process regression
  • the predicted distribution calculation unit 301 of the present embodiment calculates and updates the predicted distribution by the robust Gaussian process regression which is a robust version of the Gaussian process regression. Is calculated and updated. By robusting the Gaussian process regression, it is possible to stably calculate and update the predicted distribution even if the control result data contains outliers.
  • FIG. 4 shows a comparative example of robust Gaussian process regression and Gaussian process regression.
  • FIG. 4 shows a function constructed based on the mean and variance of the predicted distribution calculated by Gaussian process (GP) regression, and a function constructed based on the mean and variance of the predicted distribution calculated by Robust Gaussian process (RGP) regression. Is shown.
  • GP Gaussian process
  • RGP Robust Gaussian process
  • the prediction distribution When the prediction distribution is calculated by performing Gaussian process regression using control result data including outliers, the prediction distribution that is inconsistent with the true function (evaluation function) may be calculated due to the influence of the outliers. Even when GP is applied, it is possible to bring the predicted distribution closer to a true function by using a large number of control result data. However, in the case of FIG. 4 in which the function is constructed based on the same number of control result data, the one constructed by RGP matches the true function very well, and the one constructed by GP often deviates from the true function. The result is that.
  • a function that substantially matches the true function is constructed in RGP, it can be obtained that the value of ⁇ that maximizes the evaluation value is 2.0 by using the function constructed in RGP.
  • the GP may not be able to find the ⁇ that maximizes the evaluation value, and the RGP may be able to find the ⁇ that maximizes the evaluation value. .. This is because, as will be described later, RGP uses the Student's t distribution as the likelihood function, which makes it possible to reduce the contribution of control result data with low reliability as an outlier. ..
  • control result data 201 contains the control variables of N points, those control variables are set.
  • a robust distribution for outliers is used instead of the Gaussian distribution.
  • Student's t distribution may be used as the likelihood function.
  • the likelihood function is represented by the following mathematical formula (7).
  • a and b are parameters of the likelihood function
  • represents a gamma function.
  • the Gaussian distribution is not the conjugate prior distribution of the Student's t distribution. Therefore, the posterior distribution cannot be calculated analytically. Therefore, the analytical solution of the posterior distribution is approximately obtained.
  • the variational Bayesian method can be used to approximate the analytical solution of the posterior distribution.
  • the scale-mixture representation is used to express the student's t distribution, which is a likelihood function, with the following Gaussian distribution and gamma distribution.
  • the likelihood function can be regarded as a Gaussian distribution having a gamma distribution as a prior distribution to the reciprocal of the variance.
  • ⁇ n in the equations (8) to (10) is the reciprocal of the variance of the Gaussian distribution with respect to the nth control result data 201.
  • ⁇ n indicates the reliability of the nth control result data 201.
  • the prediction distribution calculation unit 301 approximately obtains an analytical solution of the posterior distribution of this model by variational inference. Specifically, the prediction distribution calculation unit 301 obtains a variational distribution that maximizes the lower bound of logarithmic marginal likelihood. Since this variational distribution is an approximation of the posterior distribution, the prediction distribution calculation unit 301 can approximately obtain the posterior distribution.
  • the prediction distribution calculation unit 301 can obtain the lower bound F ⁇ by the following mathematical formula (12).
  • the prediction distribution calculation unit 301 obtains a variational distribution that maximizes the lower bound of marginal likelihood using the above mathematical formula (12). This variational distribution is an approximation of the posterior distribution as described above.
  • the update rule of the variational distributions q (f) and q ( ⁇ n ) can be obtained analytically as follows.
  • ⁇ n indicates the reliability of the nth control result data 201. Therefore, the prediction distribution calculation unit 301 derives the posterior distribution of q ( ⁇ n ), that is, ⁇ n , which maximizes the lower bound F ⁇ , and then obtains the prediction distribution (mean and variance) of the evaluation function to obtain the reliability.
  • the predicted distribution based on it can be calculated.
  • the posterior distribution of ⁇ n which indicates the reliability of the control result data 201, acts like a weight for the control result data 201 in the calculation of the predicted distribution, so that the control result data 201, which has a relatively low reliability, has a relatively low reliability.
  • the degree of contribution to the calculation of the predicted distribution can be reduced.
  • the influence of the control result data 201, which has a relatively low reliability, on the predicted distribution can be eliminated or reduced.
  • the prediction distribution calculation unit 301 obtains the average function and the variance function of the prediction of the evaluation function for an arbitrary input ⁇ * by using the approximation of the posterior distribution obtained by the above mathematical formula. Specifically, the prediction distribution calculation unit 301 calculates the average function and the variance function by the following mathematical formulas (20) and (21).
  • control variable search unit 103 searches for the point where the acquisition function is maximized, that is, the optimum control variable candidate, using the above average function and variance function. For example, when applying the UCB strategy, the control variable search unit 103 calculates the acquisition function by the mathematical formula (5) as in the first embodiment, and searches for the point where the acquisition function is maximized.
  • the task in this embodiment is an operation or work to be executed by the crane 5. If the task changes, the optimum control variable also changes. However, even if it is another task, if it is a similar task (hereinafter referred to as a similar task), the prediction distribution of the evaluation function may be similar. In such a case, the control result data of the similar task can be used. The method of calculating or updating the predicted distribution using the control result data of other tasks will be described below.
  • the prediction distribution calculation unit 301 determines the degree of contribution of the control result data of the other task in the calculation of the prediction distribution in the calculation and update of the prediction distribution for a certain task.
  • the predicted distribution is calculated or updated as the degree of contribution according to the degree of similarity between the task and the above-mentioned task.
  • the above other tasks include similar tasks.
  • the above other tasks may include dissimilar tasks.
  • the prediction distribution is calculated and updated using the control result data of other tasks. Therefore, an appropriate control variable is determined with a smaller number of updates as compared with the case where only the control result data of a certain task is used. Will be possible. Further, since the control result data of other tasks is reflected in the prediction distribution calculation with the degree of contribution according to the degree of similarity with a certain task, it is not necessary to select similar tasks from a plurality of tasks.
  • the prediction distribution calculation unit 301 uses the control variables searched so far.
  • the task label When dealing with M tasks, the task label is t n ⁇ ⁇ 1, ..., M ⁇ . Then, the same real value is assigned to the task label of the control result data of the same task. That is, the task label indicates which task the control result data of ⁇ and Y is the data when the task is executed. In other words, the task label is a label for distinguishing the same task.
  • the product of the input kernel k ( ⁇ , ⁇ ') and the task kernel t n (t, t') is used as the kernel function.
  • k (( ⁇ , t), ( ⁇ ', t')) k t (t, t') k ⁇ ( ⁇ , ⁇ ') (22)
  • the task kernel is a function indicating task similarity
  • the input task label t n is a label for distinguishing the same task. Therefore, the similarity of tasks cannot be calculated from the value of task label t n.
  • the output of the task kernel is a pattern of M ⁇ M. Therefore, the task kernel is represented by using the M-th order square matrix K t, and the value of the element indicated by the task label input to the task kernel is used as the output of the task kernel.
  • K t (t, t ') [K t] t, t' (23)
  • M (M + 1) / 2 elements of the lower triangular matrix L are set as the parameter ⁇ t of the task kernel, and this parameter ⁇ t is optimized within the framework of variational inference, and the control result data is used between tasks.
  • learning the similarity between tasks means that the similarity between tasks is reflected (the contribution of the control result data of similar tasks is larger than the contribution of the control result data of dissimilar tasks). ) Means to update the posterior distribution.
  • the parameter ⁇ t optimized in this way indicates the degree of contribution (which can also be called a weight) of the control result data of other tasks. Therefore, the prediction distribution calculation unit 301 obtains the prediction distribution of the evaluation function using the optimized parameter ⁇ t, and sets the contribution of the control result data of the other task to the other task and the target task.
  • the predicted distribution can be calculated as the degree of contribution according to the degree of similarity of. This also applies to the update of the predicted distribution.
  • FIG. 6 is a flowchart showing an example of the process of optimizing the parameters of the kernel function.
  • the process of FIG. 6 is a process performed after the same process as S1 of FIG. 3, that is, after the initial data is set by the data acquisition unit 101, and corresponds to the process of S2 of FIG. Further, the information processing apparatus 1B executes the process of FIG. 6 instead of the process of S8 of FIG.
  • the prediction distribution calculation unit 301 initializes the parameters of the kernel function. There are two parameters of the kernel function to be initialized, ⁇ k and ⁇ t. Subsequently, in S22, the prediction distribution calculation unit 301 updates the variational distributions q (f) and q ( ⁇ n).
  • the updating rules of the variational distributions q (f) and q ( ⁇ n ) are as shown in the above mathematical formulas (13) to (19).
  • the prediction distribution calculation unit 301 determines whether or not the variational lower bound has converged. Variational distributions q (f) and q ( ⁇ n ) when the lower bound converges are the optimized variational distributions.
  • the convergence conditions may be set as appropriate. For example, F ⁇ may be calculated before and after the update of q (f) and q ( ⁇ n ), and it may be determined that the difference has converged when the difference falls below a predetermined value (for example, 0.1).
  • the prediction distribution calculation unit 301 specifies the parameters ⁇ k * and ⁇ t * of the kernel function that maximizes the variational lower bound.
  • the above-mentioned mathematical formula (12) is used for this calculation.
  • the q (f), q (T), and p (f) of the mathematical formula (12) include the matrix K obtained by the kernel function. Therefore, F ⁇ can be treated as a function having ⁇ k and ⁇ t as parameters. Therefore, for example, it can be optimized by an arbitrary nonlinear optimization method.
  • An example of a non-linear optimization method is the gradient method.
  • the prediction distribution calculation unit 301 determines whether or not the optimization is completed.
  • the end conditions may be set as appropriate. For example, F ⁇ may be calculated before and after the processing of S22 to S25, and it may be determined that the optimization is completed when the difference falls below a predetermined value (for example, 0.1).
  • the calculation of the variational distribution that maximizes the variational lower bound and the optimization of the parameters of the kernel function are alternately performed. This makes it possible to obtain a variational distribution that is an approximation of the posterior distribution. Further, in the process of FIG. 6, since the parameter ⁇ k of the kernel function is optimized and ⁇ t is also optimized, the similarity between tasks can be learned.
  • variational lower bound F ⁇ is an approximate calculation of whether the robust Gaussian process that introduced multitasking can express the control result data 201 well. Therefore, by obtaining the parameter ⁇ t that maximizes the variational lower bound F ⁇ , it is possible to obtain the degree of similarity suitable for the control result data 201.
  • control result data 201 of similar tasks is used, and the parameter ⁇ t is optimized so that the contribution of the control result data 201 of dissimilar tasks is low.
  • the control result data of the other task is weighted according to the degree of similarity with the target task.
  • the control result data of the other task is appropriately considered by the degree of contribution according to the similarity between the other task and the above-mentioned task. Can be reused. Therefore, it is possible to determine an appropriate control variable while suppressing the number of control result data of a certain task.
  • FIG. 7 is a diagram showing the experimental results.
  • FIG. 8 is a diagram showing a task kernel at the end of optimization in Experiments 10 to 12.
  • the task to be executed by the crane was to grab the garbage with the crane, lift it, and then move it a predetermined distance while evenly distributing the garbage. Specifically, after the opening operation of opening the bucket holding the dust is started, the closing operation of closing the bucket is started when the dust having a weight of ⁇ 1 falls from the bucket, and the opening operation is performed again after that time ⁇ 2.
  • the crane was made to perform the operation of starting.
  • the above ⁇ 1 and ⁇ 2 are control variables.
  • the ideal transition was that the weight of the garbage held by the bucket decreased at a constant rate while the moving distance of the crane increased. Then, the evaluation value was calculated based on the difference between this ideal transition and the actual transition. Specifically, the crane was normalized by the weight of the garbage grabbing, calculated in the actual gripping weight series data w, ideal grasp differences the root mean square of the weight of the series data w I (RMS) , Evaluated by the following formula (24).
  • the weight of the first garbage to be grasped was 120 to 300 g, and the moving distance was 40 cm.
  • the optimized control variables ⁇ 1 and ⁇ 2 were applied, the task was executed 10 times, and the control results were evaluated by the above equation (24).
  • the control variables ⁇ 1 and ⁇ 2 were optimized by the information processing device 1A.
  • the control variables ⁇ 1 and ⁇ 2 were optimized by the information processing device 1B.
  • the data of similar tasks are not used.
  • the control variables ⁇ 1 and ⁇ 2 were optimized by using the data of similar tasks by the information processing device 1B.
  • a similar task is a task in which the moving distance of the crane is 30 cm.
  • control variables ⁇ 1 and ⁇ 2 optimized in Experiments 1 to 12 vary, the evaluation values are all high levels, and it is confirmed that appropriate optimization was performed. confirmed.
  • FIG. 8 shows the task kernel at the end of optimization in Experiments 10 to 12.
  • the vertical and horizontal axes of the figure indicate task labels, and the numerical values indicate the degree of similarity between each task.
  • the value of the off-diagonal component 9-2 (contribution in the calculation of the predicted distribution) indicating the similarity (contribution in the calculation of the predicted distribution) between the task having a moving distance of 40 cm and the task having a moving distance of 30 cm (similar task) ( 1.35) is a higher value than one of the values of the diagonal component 9-1 (0.96). From this, it can be seen that the control result data of similar tasks are used in the calculation of the predicted distribution.
  • the moving distance of the crane in the above task was changed to 20 cm, and a task having a moving distance of 30 cm and a task having a moving distance of 40 cm were set as similar tasks, and the same experiment was performed.
  • the control variables ⁇ 1 and ⁇ 2 having the same accuracy as the above-mentioned results could be calculated with a small number of trials of about 10 times. It was found that the task kernel at the end of optimization in this case also had a large value of the off-diagonal component as in the example of FIG. 8, and the control result data of the similar task was used.
  • control blocks (particularly each part included in the control unit 10A and the control unit 10B) of the information processing devices 1A and 1B may be realized by a logic circuit (hardware) formed in an integrated circuit (IC chip) or the like. It may be realized by software.
  • the information processing devices 1A and 1B include a computer that executes an instruction of a program (control variable determination program) that is software that realizes each function.
  • the computer includes, for example, one or more processors and a computer-readable recording medium that stores the program. Then, in the computer, the processor reads the program from the recording medium and executes it, thereby achieving the object of the present invention.
  • the processor for example, a CPU (Central Processing Unit) can be used.
  • the recording medium in addition to a “non-temporary tangible medium” such as a ROM (Read Only Memory), a tape, a disk, a card, a semiconductor memory, a programmable logic circuit, or the like can be used.
  • a RAM RandomAccessMemory
  • the program may be supplied to the computer via an arbitrary transmission medium (communication network, broadcast wave, etc.) capable of transmitting the program.
  • a transmission medium communication network, broadcast wave, etc.
  • one aspect of the present invention can also be realized in the form of a data signal embedded in a carrier wave, in which the above program is embodied by electronic transmission.
  • optimization using control result data of a similar task can be performed.
  • the kernel function represented by the mathematical formula (22) may be used, and the parameter ⁇ t of the kernel function may be optimized in S2 and 8 of FIG.
  • control variable calculation method shown in FIG. 3 may be executed by a plurality of information processing devices.
  • control variable determination method shown in FIG. 6 may be executed by a plurality of information processing devices.
  • the task may be executed by a crane that carries the garbage, and the content thereof is particularly limited. Not done.
  • control variables such as a task of causing a crane to perform an action of grabbing garbage, a task of causing an action of lifting the caught garbage, and a task of causing an action of dropping the lifted garbage.

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mechanical Engineering (AREA)
  • Feedback Control In General (AREA)
  • Refuse Collection And Transfer (AREA)
  • Control And Safety Of Cranes (AREA)
  • Testing And Monitoring For Control Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

所望の制御結果が期待できる制御変数を決定する。情報処理装置(1A)は、ごみを運搬するクレーンの制御結果データ(201)を用いて評価関数の予測分布を算出・更新する予測分布算出部(102)と、上記予測分布に基づき制御変数の最適値の候補を探索する制御変数探索部(103)と、更新後の予測分布に基づく評価関数を用いて制御変数を決定する制御変数決定部(104)と、を備える。

Description

情報処理装置、制御システム、制御変数決定方法、および制御変数決定プログラム
 本発明は、ごみを運搬するクレーンの自動制御に利用可能な情報処理装置等に関する。
 ごみ処理施設に搬入されたごみは、ピットと呼ばれる貯留設備に一時的に貯留された後、焼却炉に送り込まれて焼却される。一般的なごみ処理施設では、ピット内に貯留されているごみの移動にはクレーンが用いられている。基本的にクレーンはオペレータが手動で操作しているが、その制御を自動化する試みも従来から行われている。
 例えば、下記の特許文献1には、ごみの撹拌度合いを定量化し、定量化したごみの撹拌度合いに基づいてクレーンを自動制御する技術が開示されている。この文献に記載の技術では、撹拌度合いの定量化は撹拌回数に基づいて行い、自動制御はごみをつかむ位置と、つかみあげたごみの投下位置とを指定したクレーン制御指示を生成することで実現している。
日本国特開2010-275064号公報
 しかしながら、ごみピットに貯留されるごみは、材質も状態も様々なごみが入り混じったものであり、その性質が一定しない。このため、特許文献1の技術を実際のごみピットにおけるごみの撹拌に適用した場合、想定通りの撹拌ができない場合が生じると想定される。
 例えば、ごみのつかみ位置を指定するだけでは、その位置のごみの性質によっては、多量のごみをつかめる場合もあり、少量のごみしかつかめない場合もある。そして、ごみをつかめる量が安定しなければ、クレーンの自動制御期間中、実際のごみの移動量と想定した移動量との差は累積的に開く。よって、最終的には想定した撹拌効果を得ることができなくなるおそれがある。また、想定通りのごみをつかめた場合であっても、つかんだごみの性質のばらつきにより、想定した撹拌効果を得ることができなくなることも考えられる。これらは、撹拌に限られず、クレーンによるごみの持ち上げ、ばらまき、投下、等の任意の作業における制御においても同様である。
 このように、性質が一定しないごみを運搬するクレーンを自動制御する場合、所望の制御結果が得られるようにクレーンの制御変数を決定する必要があるが、従来技術ではそのような制御変数を決定することはできないという問題があった。本発明の一態様は、ごみを運搬するクレーンについて、所望の制御結果が期待できる制御変数を決定することができる情報処理装置等を実現することを目的とする。
 上記の課題を解決するために、本発明の一態様に係る情報処理装置は、予測分布算出部と、制御変数探索部と、制御変数決定部と、を備える情報処理装置であって、上記予測分布算出部は、ごみを運搬するクレーンの制御変数と、該制御変数を用いて上記クレーンを制御した制御結果とを対応付けた制御結果データを用いて、当該制御変数と当該制御結果との関係を示す関数の予測分布を算出し、上記制御変数探索部は、上記予測分布に基づいて上記制御変数の最適値の候補である候補制御変数を探索し、上記予測分布算出部は、上記制御変数探索部が検出した上記候補制御変数と、当該候補制御変数を用いて上記クレーンを制御した制御結果と、を用いて上記予測分布を更新し、上記制御変数決定部は、上記更新後の上記予測分布に基づいて構成される関数を用いて、上記制御変数の最適値を決定する。
 また、上記の課題を解決するために、本発明の一態様に係る制御変数決定方法は、1または複数の情報処理装置によって実行される制御変数決定方法であって、ごみを運搬するクレーンの制御変数と、該制御変数を用いて上記クレーンを制御した制御結果とを対応付けた制御結果データを用いて、当該制御変数と当該制御結果との関係を示す関数の予測分布を算出する予測分布算出ステップと、上記予測分布に基づいて上記制御変数の最適値の候補である候補制御変数を探索する制御変数探索ステップと、上記制御変数探索ステップで検出した上記候補制御変数と、当該候補制御変数を用いて上記クレーンを制御した制御結果と、を用いて上記予測分布を更新する更新ステップと、上記更新後の上記予測分布に基づいて構成される関数を用いて、上記制御変数の最適値を決定する制御変数決定ステップと、を含む。
 本発明の一態様によれば、所望の制御結果が期待できる制御変数を決定することができる。
本発明の実施形態1に係る情報処理装置の要部構成の一例を示すブロック図である。 上記情報処理装置を含む制御システムの概要を示す図である。 クレーンの制御変数を決定する処理の一例を示すフローチャートである。 ガウス過程回帰により算出した予測分布の平均と分散に基づいて構成した関数と、ロバストガウス過程回帰により算出した予測分布の平均と分散に基づいて構成した関数を示す図である。 本発明の実施形態2に係る情報処理装置の要部構成の一例を示すブロック図である。 カーネル関数のパラメータを最適化する処理の一例を示すフローチャートである。 上記情報処理装置の効果を検証する実験の結果を示す図である。 実験10~12における最適化終了時のタスクカーネルを示す図である。
 〔実施形態1〕
  (システム概要)
 本発明の一実施形態に係る制御システム9の概要を図2に基づいて説明する。図2は、制御システム9の概要を示す図である。図示のように、制御システム9には、情報処理装置1Aと、制御装置3と、クレーン5とが含まれる。
 制御システム9は、制御装置3によりクレーン5の動作を制御するシステムである。情報処理装置1Aは、制御装置3が実行する制御の内容を規定する制御変数を算出する。情報処理装置1Aが適切な制御変数を算出することにより、制御装置3によるクレーン5の適切な自動制御が実現される。
 クレーン5は、ごみの運搬に用いられるクレーンであり、例えばごみ処理施設等で用いられるものである。クレーン5は、例えば、ごみをつかむ複数の爪を備えたバケット、バケットの爪を開閉させる開閉機構、バケットを昇降させる昇降機構、バケットを水平方向に移動させる移動機構等を備えていてもよい。この場合、制御装置3は、開閉機構、昇降機構、および移動機構を制御することにより、クレーン5にごみの撹拌等の動作を行わせることができる。
 制御システム9では、情報処理装置1Aに最適な制御変数を算出させるにあたり、まず、クレーン5に実行させるタスクの設定と、そのタスクをクレーン5に実行させる際の制御変数の設定とが行われる。
 例えば、バケットでつかんだごみを持ち上げた後、バケットを水平方向に移動させながら開閉させて、バケットの移動経路上にごみをばらまくことにより、当該ごみを撹拌するタスクをクレーン5に実行させるとする。この場合、ごみを均等にばらまくことができるようにするための制御変数、つまり、バケットの開閉制御のタイミングを特定できるような制御変数を設定すればよい。
 上記の場合、ごみをつかんでいるバケットを開放する開動作の開始後、所定量のごみがバケットから落ちたときにバケットを閉じる閉動作を開始し、その所定時間後に再度開動作を開始する、という一連の制御を繰り返せばごみをばらまくことができる。よって、上記所定量と、上記所定時間とを制御変数としてもよい。
 また、例えば、バケットの開動作開始から閉動作開始までの期間に落下したごみの重量、同期間におけるバケット内のごみの残量または重量の変化率、同期間の長さ、および同期間におけるバケットの移動距離などを制御変数としてもよい。また、例えば、開動作の終了後、自動的に閉動作を開始することとして、上記期間を開動作開始から閉動作終了までの期間としてもよい。この他にも、開動作を行う時間、閉動作を行う時間等を制御変数としてもよい。
 また、制御装置3が上記制御変数を用いてクレーン5を制御する際に使用するデータも特に限定されない。例えば、つかんだごみの重量の他、水分量、種類、撹拌度合い、表面状態を示す情報(例えばごみの表面を撮影した画像)等を、クレーン5を制御する際に使用してもよい。このようなデータのデータ形式は特に限定されず、数値データであってもよいし、画像データ等であってもよい。
 制御変数が設定された後、制御装置3によりクレーン5を制御して設定されたタスクを実行させる。そして、その制御結果の適切さを評価し、その評価結果をその制御における制御変数と共に情報処理装置1Aに入力する。例えば、ごみを均等にばらまいて撹拌するというタスクであれば、バケットの移動経路上にばらまかれたごみの量が均等であるほど評価値が高くなるように評価すればよい。
 情報処理装置1Aは、入力された制御変数と評価値に基づいて制御変数の最適化を行い、制御装置3は最適化された制御変数を用いて再度クレーン5にタスクを実行させる。このような処理を繰り返すことにより、情報処理装置1Aは、所望の制御結果が期待できる制御変数を決定することができる。そして、これにより、制御装置3によるクレーン5の適切な自動制御が実現される。
  (要部構成)
 情報処理装置1Aの構成を図1に基づいて説明する。図1は、情報処理装置1Aの要部構成の一例を示すブロック図である。なお、以下では、情報処理装置1Aが、ベイズ最適化(以下、BOと呼ぶ)により、所望の制御結果が期待できる制御変数を決定する例、つまりBOで制御変数を最適化する例を説明する。
 図示のように、情報処理装置1Aは、情報処理装置1Aの各部を統括して制御する制御部10A、情報処理装置1Aが使用する各種データを記憶する記憶部20、情報処理装置1Aに対する入力を受け付ける入力部30、および情報処理装置1Aがデータを出力するための出力部40を備えている。
 制御部10Aには、データ取得部101、予測分布算出部102、制御変数探索部103、および制御変数決定部104が含まれる。また、記憶部20には制御結果データ201が記憶されている。
 データ取得部101は、BOによる最適化に使用する学習データを取得する。具体的には、クレーン5の制御に用いられた制御変数とその制御結果の評価値とが制御結果データ201として記憶されているので、データ取得部101は、この制御結果データ201を学習データとして取得する。
 制御結果データ201にN点の制御変数が含まれていた場合、それらの制御変数は、
Figure JPOXMLDOC01-appb-M000001
と表され、
それに対する評価値は、
Figure JPOXMLDOC01-appb-M000002
と表される。
 予測分布算出部102は、データ取得部101が取得する制御結果データ201を用いて、制御変数と制御結果との関係を示す関数の予測分布を算出する。なお、この関数を以下では評価関数f(θ)と呼ぶ。また、制御結果データ201に新たなデータが追加されたときには、予測分布算出部102は、そのデータが反映されるように予測分布を更新する。
 制御変数と制御結果との関係を、ガウスノイズε~Ν(0,β)を用いて
Figure JPOXMLDOC01-appb-M000003
と仮定すると、ガウス過程による評価関数の予測分布として以下の分布が得られる。
Figure JPOXMLDOC01-appb-M000004
Figure JPOXMLDOC01-appb-M000005
Figure JPOXMLDOC01-appb-M000006
 ここで、k=k(θ,θ)であり、KΘは[KΘi,j=k(θ,θ)で得られるグラム行列である。また、
Figure JPOXMLDOC01-appb-M000007
である。kΘ,*は、[kΘ,*=k(θ,θ)の縦ベクトルであり、k(・,・)は、カーネル関数である。ここではカーネル関数のパラメータをαとする。
 平均関数μ(θ)は、制御結果データ201から予測される評価関数の平均値を示す。また、分散関数σ(θ)は、制御結果データ201から予測される評価関数の分散である。σ(θ)は、予測の不確実性を示し、制御結果データ201が不足している領域ではその値が大きくなる傾向がある。なお、後述する図4の薄い灰色部分が分散σを示している。σが大きいと、この灰色部分の幅が広がり、予測が不確実であることを把握できる。すなわち、予測の確実性を上げるために必要な制御結果データが不足していることがわかる。数式(3)から明らかなように、分散関数σ(θ)に含まれるカーネル関数およびカーネル関数のパラメータαは、予測分布の算出に影響を与える。詳細は後述するが、予測分布の算出の際には、パラメータαの最適化が行われる。
 制御変数探索部103は、最適な制御変数を求めるために、最適な制御変数の候補(候補制御変数)を探索する。具体的には、制御変数探索部103は、平均関数μ(θ)と分散関数σ(θ)を用いて、下記の獲得関数a(θ)を最大にする制御変数を探索する。この探索で検出された制御変数が、最適な制御変数の候補となる。この探索は、UCB(Upper Confidence Bound)戦略に基づいている。なお、数式(5)におけるκは探索と利用を調節するためのパラメータである。無論、他の方法で新たな制御変数を探索することも可能である。例えば、PI(Probability of Improvement)戦略や、EI(Expected Improvement)戦略で最適な制御変数の候補を探索してもよい。
 なお、評価関数の値を最小化する制御変数を最適な制御変数として求める場合(例えば短時間で完了させることが好ましいタスクについて、タスク完了までの所要時間を評価値とする場合等)には、獲得関数a(θ)を最小にする制御変数を探索すればよい。
Figure JPOXMLDOC01-appb-M000008
Figure JPOXMLDOC01-appb-M000009
 制御変数探索部103が検出した最適な制御変数の候補は、クレーン5の制御に用いられる。そして、その制御結果(より詳細には制御結果の評価値)が得られて、情報処理装置1Aに入力される。入力されたデータ(最適な制御変数の候補と評価値)は、制御結果データ201に追加される。その後、当該データが追加された制御結果データ201を用いて予測分布の更新が行われる。なお、評価値の算出は情報処理装置1Aが行ってもよいし、他の装置またはユーザが行ってもよい。
 制御変数決定部104は、予測分布算出部102による更新後の予測分布に基づいて構成される評価関数に基づき、制御変数の最適値を決定する。制御変数の最適値とは、更新後の予測分布からみて最適であると推論される値であり、情報処理装置1Aが実行する、制御変数の最適化演算の解であるともいえる。クレーン5を制御する際の制御変数の値をこの最適値に設定することにより、最善の制御結果が期待できる。
 最適値の決定方法は特に限定されず、種々の方法を適用可能である。例えば、制御変数決定部104は、制御変数探索部103が検出した制御変数の候補が、既に評価済みであった場合には、その候補を最適な制御変数と決定してもよい。制御変数探索部103が検出した最適な制御変数の候補が、既に評価済みであった場合には、その制御変数は、評価関数の極値ではなく、最大値(または最小値)に対応している可能性が高いためである。
 以上のように、情報処理装置1Aは、制御結果データ201を用いて評価関数の予測分布を算出する予測分布算出部102と、上記予測分布に基づいて上記制御変数の最適値の候補である候補制御変数を探索する制御変数探索部103と、を備えている。また、予測分布算出部102は、制御変数探索部103が検出した新たな候補制御変数と当該候補制御変数を用いてクレーン5を制御した制御結果とを用いて予測分布を更新する。そして、情報処理装置1Aは、上記更新後の予測分布に基づいて構成される関数を用いて、上記制御変数の最適値を決定する制御変数決定部104を備える。なお、より詳細には、上記関数は、上記更新後の予測分布の平均と分散に基づいて構成される(数式(5))。
 ここで、「発明が解決しようとする課題」で説明したように、ごみピット内のごみの性質は一定しない。このため、クレーン5の制御変数と制御結果との関係は、定式化することが困難である。
 そこで、上記の構成によれば、制御変数と制御結果とを対応付ける関数の予測分布に基づいて、制御変数の最適値を決定する構成としている。これにより、性質が一定しないごみを運搬するクレーンについて、所望の制御結果が期待できる制御変数を決定することができる。
 また、上記の構成によれば、予測分布に基づいて候補制御変数を探索するので、検出した候補制御変数が最適な制御変数ではなかったとしても、その候補制御変数は予測分布を適切に更新するための有用なデータとなる。よって、例えばクレーン5の制御変数をランダムに選定してクレーン5の制御結果を観察するという試行を繰り返して最適な制御変数を決定する場合と比べて、試行の回数を少なく抑えることが可能になる。
  (処理の流れ)
 情報処理装置1Aがクレーン5の制御変数を決定する処理(制御変数決定方法)の流れを図3に基づいて説明する。図3は、クレーン5の制御変数を決定する処理の一例を示すフローチャートである。
 S1では、データ取得部101が記憶部20に記憶されている制御結果データ201を読み出して、これを初期データに設定する。この段階では、制御結果データ201には、少なくとも1回の試行に基づく制御結果(1つの制御変数と、その制御変数を用いた制御の結果を評価した評価値)が含まれていればよい。
 S2では、予測分布算出部102が、カーネル関数のパラメータを最適化する。上述のように、カーネル関数のパラメータはαである。最適化の方法は特に限定されず、例えば一般的なBOで適用されている最適化手法を適用することもできる。
 S3(予測分布算出ステップ)では、予測分布算出部102は、S1で設定された初期データと、S2で最適化したカーネル関数のパラメータとを用いて、クレーン5の制御結果を評価する評価関数の予測分布を算出する。上述のように、この予測分布は数式(1)~(3)で表される。
 S4(制御変数探索ステップ)では、制御変数探索部103が、獲得関数が最大となるクレーン5の制御変数θを探索する。制御変数θは、制御変数θの最適値の候補である。上述のように、この処理は上述の数式(4)(5)で表される。
 S5では、制御変数決定部104が、S4で特定された制御変数θが最適値であるか否かを判定する。最適値であるか否かの判定方法は特に限定されない。例えば、制御変数決定部104は、直近のS4で検出された制御変数θが、それ以前に検出された制御変数と一致した場合に、制御変数θが最適値であると判定し、一致しない場合には最適値ではないと判定してもよい。なお、それ以前に検出された制御変数とは、制御結果データ201に含まれている制御変数であり、その制御変数を用いたクレーン5の制御と、その制御についての評価値の算出が済んでいるものを指す。
 S5にて最適値であると判定された場合(S5でYES)には処理はS10に進む。S10(制御変数決定ステップ)では、制御変数決定部104は、クレーン5の制御変数の最適値をθに決定し、これにより図3の処理は終了する。なお、S10において、制御変数決定部104は、決定したθを出力部40に出力させてもよい。
 一方、S5にて制御変数θが最適値ではないと判定した場合(S5でNO)、制御変数決定部104は、当該制御変数θを出力部40に出力させる等して情報処理装置1Aのユーザに通知する。ユーザは、この通知に基づいて、当該制御変数θに従ったクレーン5の制御を制御装置3に実行させ、その制御結果を観測し、評価する。評価方法は特に限定されず、例えば理想的な制御結果と実際の制御結果との誤差を評価値として算出してもよい。評価結果は、入力部30を介して情報処理装置1Aに入力される。
 S6では、データ取得部101が、上述のようにして入力された評価結果を取得する。そして、S7では、データ取得部101は、S6で取得した評価結果と、直近のS4で決定された制御変数θとを対応付けて、制御結果データ201に追加する。
 S8では、予測分布算出部102が、S7で評価結果と制御変数θが追加された制御結果データ201を用いてカーネル関数のパラメータを最適化する。そして、S9(更新ステップ)では、予測分布算出部102は、S7で評価結果と制御変数θが追加された制御結果データ201と、S8で最適化したカーネル関数のパラメータとを用いて、評価関数の予測分布を算出する。この後処理はS4に戻り、制御変数探索部103による制御変数の探索が行われる。このように、制御変数の追加と予測分布の更新とを繰り返すことにより、所望の制御結果が期待できる制御変数を決定することができる。
 〔実施形態2〕
 本発明の他の実施形態について、以下に説明する。なお、説明の便宜上、上記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を繰り返さない。
  (装置構成)
 本実施形態に係る情報処理装置1Bの構成を図5に基づいて説明する。図5は、情報処理装置1Bの要部構成の一例を示すブロック図である。図示のように、情報処理装置1Bは、情報処理装置1Bの各部を統括して制御する制御部10Bを備えている。図1に示す情報処理装置1Aの制御部10Aと、制御部10Bとの相違点は、制御部10Bには予測分布算出部102の代わりに予測分布算出部301が含まれている点にある。
 予測分布算出部301は、予測分布算出部102と同様に、制御結果データ201を用いて予測分布を算出および更新するが、以下説明するように、その算出および更新の方法が予測分布算出部102とは異なっている。
 予測分布算出部301は、複数の制御結果データのそれぞれの予測分布算出における寄与度を、当該制御結果データの信頼度に応じた寄与度として、予測分布を算出または更新する。よって、予測分布の算出または更新に用いる制御結果データに信頼性の低いものが含まれていた場合であっても、そのような制御結果データが予測分布に与える影響を相対的に低くすることができる。そして、これにより妥当な制御変数を速やかに決定することが可能になる。
 なお、制御結果データの信頼度とは、その制御結果データが、予測分布の全体からみて、妥当な値であるかを示す指標である。例えば、複数の制御結果データの中からある制御結果データを除いたときに、残りの制御結果データの予測分布がガウス分布に近付くような場合には、除いた制御結果データは真の関数(評価関数)から外れた外れ値である可能性が高く、信頼度は低いといえる。逆に、複数の制御結果データの中からある制御結果データを除かない方が、除くよりも予測分布がガウス分布に近付くような場合には、その制御結果データの信頼度は高いといえる。
 実施形態1の予測分布算出部102はガウス過程回帰により予測分布の算出および更新を行うのに対し、本実施形態の予測分布算出部301はガウス過程回帰をロバスト化したロバストガウス過程回帰により予測分布の算出および更新を行う。ガウス過程回帰をロバスト化することにより、制御結果データに外れ値が含まれていても、安定して予測分布の算出および更新を行うことが可能になる。
 ロバストガウス過程回帰とガウス過程回帰との比較例を図4に示す。図4には、ガウス過程(GP)回帰により算出した予測分布の平均と分散に基づいて構成した関数と、ロバストガウス過程(RGP)回帰により算出した予測分布の平均と分散に基づいて構成した関数を示している。
 これらの関数は何れも同じ制御結果データに基づいて構成したものである。ただし、GPでは全ての制御結果データを用いて関数を構成するのに対し、RGPでは図示のような外れ値の影響を低減または除外して関数を構成する。
 外れ値を含む制御結果データを用いてガウス過程回帰を行って予測分布を算出した場合、外れ値の影響により、真の関数(評価関数)と齟齬のある予測分布が算出されることがある。GPを適用する場合でも、多数の制御結果データを用いれば、予測分布を真の関数に近付けることが可能である。しかし、同数の制御結果データに基づいて関数を構成した図4の場合、RGPで構成したものは真の関数に極めてよく一致し、GPで構築したものは真の関数から外れている部分が多いという結果となっている。
 そして、図4に示すように、GPで構築した関数はθ=0.4のとき最大値となるが、真の関数によればθ=0.4のときには実際には最大値とはならない。一方、RGPでは真の関数と略一致する関数が構築されているので、RGPで構築した関数を用いることにより、評価値が最大となるθの値が2.0であると求めることができる。
 このように、同じ制御結果データに基づいて関数を構成した場合、GPでは評価値が最大となるθを求めることができず、RGPでは評価値が最大となるθを求めることができる場合がある。これは、後述するように、RGPでは尤度関数としてスチューデントのt分布を用いており、これにより、信頼度の低い制御結果データを外れ値として、その寄与度を低くすることができるからである。
  (予測分布の算出および更新に用いる数式について)
 実施形態1と同じく、制御結果データ201にN点の制御変数が含まれていた場合、それらの制御変数は、
Figure JPOXMLDOC01-appb-M000010
と表され、
それに対する評価値は、
Figure JPOXMLDOC01-appb-M000011
と表される。
 また、入出力データ間の関数は下記のように表される。
Figure JPOXMLDOC01-appb-M000012
 ここで、上記関数の事前分布を下記のように設定する。
Figure JPOXMLDOC01-appb-M000013
 本実施形態では、外れ値が存在しても安定して評価関数の回帰を行うことができるようにするため、ガウス過程回帰における尤度関数として、ガウス分布の代わりにより外れ値に頑健な分布を適用する。例えば、尤度関数としてスチューデントのt分布を用いてもよい。この場合、尤度関数は下記の数式(7)で表される。なお、数式(7)におけるa、bは尤度関数のパラメータであり、Γはガンマ関数を表す。
Figure JPOXMLDOC01-appb-M000014
 ここで、ガウス分布は、スチューデントのt分布の共役事前分布ではない。このため、事後分布を解析的に計算することはできない。そこで、事後分布の解析解を近似的に求める。例えば、以下説明するように、変分ベイズ法を用いて、事後分布の解析解を近似的に求めることができる。
 まず、スケールミクスチャーレプレゼンテーション(scale-mixture representation)により、尤度関数であるスチューデントのt分布を、以下のようなガウス分布とガンマ分布で表現する。
Figure JPOXMLDOC01-appb-M000015
Figure JPOXMLDOC01-appb-M000016
Figure JPOXMLDOC01-appb-M000017
 これにより、尤度関数を、分散の逆数に事前分布としてガンマ分布を持つガウス分布とみなすことができる。なお、数式(8)~(10)におけるτはn番目の制御結果データ201に対するガウス分布の分散の逆数である。τは、n番目の制御結果データ201の信頼度を示している。
 予測分布算出部301は、変分推論により、このモデルの事後分布の解析解を近似的に求める。具体的には、予測分布算出部301は、対数周辺尤度の下界を最大化する変分分布を求める。この変分分布は事後分布の近似であるから、予測分布算出部301は、事後分布を近似的に求めることができる。
Figure JPOXMLDOC01-appb-M000018
 ここで、
Figure JPOXMLDOC01-appb-M000019
である。
 f、Tの分布が独立であると仮定し、変分分布q(f)と、
Figure JPOXMLDOC01-appb-M000020
を導入すれば、予測分布算出部301は、下記の数式(12)により下界Fνを求めることができる。
Figure JPOXMLDOC01-appb-M000021
 そして、予測分布算出部301は、上記数式(12)を用いて周辺尤度の下界を最大化する変分分布を求める。この変分分布は上述のように事後分布の近似である。
 変分分布q(f)、q(τ)の更新則は、以下のように解析的に求めることができる。上述のように、τは、n番目の制御結果データ201の信頼度を示している。よって、予測分布算出部301は、下界Fνを最大にするq(τ)すなわちτの事後分布を導出した上で、評価関数の予測分布(平均と分散)を求めることにより、信頼度に基づいた予測分布を算出することができる。言い換えれば、制御結果データ201の信頼度を示すτの事後分布が、予測分布の算出において、当該制御結果データ201に対する重みのように働くので、信頼度が相対的に低い制御結果データ201の予測分布算出への寄与度を下げることができる。これにより、信頼度が相対的に低い制御結果データ201が予測分布に与える影響をゼロにするかまたは低減させることができる。
Figure JPOXMLDOC01-appb-M000022
Figure JPOXMLDOC01-appb-M000023
Figure JPOXMLDOC01-appb-M000024
Figure JPOXMLDOC01-appb-M000025
Figure JPOXMLDOC01-appb-M000026
Figure JPOXMLDOC01-appb-M000027
Figure JPOXMLDOC01-appb-M000028
 予測分布算出部301は、上記の数式により求めた事後分布の近似を用いて、任意の入力θに対する評価関数の予測の平均関数と分散関数を求める。具体的には、予測分布算出部301は、平均関数と分散関数を以下の数式(20)(21)で算出する。
Figure JPOXMLDOC01-appb-M000029
Figure JPOXMLDOC01-appb-M000030
 そして、制御変数探索部103は、上記の平均関数と分散関数を用いて獲得関数が最大となる点、すなわち最適な制御変数の候補を探索する。例えば、UCB戦略を適用する場合、制御変数探索部103は、実施形態1と同様に数式(5)により獲得関数を計算し、この獲得関数が最大となる点を探索する。
  (類似タスクの制御結果データの利用)
 上述のように、本実施形態におけるタスクは、クレーン5に実行させる動作あるいは作業である。タスクが変われば最適な制御変数も変わる。しかし、他のタスクであっても類似したタスク(以下、類似タスクと呼ぶ)であれば評価関数の予測分布も類似する場合がある。そのような場合には、当該類似タスクの制御結果データを利用することができる。以下では、他のタスクの制御結果データを利用して予測分布を算出または更新する方法について述べる。
 他のタスクの制御結果データを利用する場合、予測分布算出部301は、あるタスクについての予測分布の算出および更新において、他のタスクの制御結果データの予測分布算出における寄与度を、当該他のタスクと上記あるタスクとの類似度に応じた寄与度として、予測分布を算出または更新する。なお、上記他のタスクは類似タスクを含む。また、上記他のタスクは非類似のタスクを含んでいてもよい。
 この構成によれば、他のタスクの制御結果データを用いて予測分布の算出および更新を行うので、あるタスクの制御結果データのみを用いる場合と比べて、少ない更新回数で妥当な制御変数を決定することが可能になる。また、他のタスクの制御結果データは、あるタスクとの類似度に応じた寄与度で予測分布算出に反映されるから、複数のタスクの中から類似タスクを選別するといった手間も不要である。
 以下、他のタスクの制御結果データを利用する方法について具体的に説明する。他のタスクの制御結果データを利用する場合、予測分布算出部301は、これまでに探索した制御変数
Figure JPOXMLDOC01-appb-M000031
と、評価値
Figure JPOXMLDOC01-appb-M000032
と、データ点に対するタスクラベル
Figure JPOXMLDOC01-appb-M000033
と、を学習データとして、類似タスクの評価関数を回帰する。
 M個のタスクを扱う場合、タスクラベルをt∈{1,…,M}とする。そして、同じタスクの制御結果データのタスクラベルには、同じ実数値を割り当てる。つまり、タスクラベルは、ΘとYの制御結果データが、何れのタスクを実行したときのデータであるかを示す。言い換えれば、タスクラベルは、同一タスクを区別するためのラベルである。
 タスクごとに評価関数を回帰するために、タスクラベルをロバストガウス過程の入力として扱う。そのため、下記の数式(22)に示すように、入力カーネルk(θ,θ’)とタスクカーネルt(t,t’)との積をカーネル関数とする。
k((θ,t),(θ’,t’))=k(t,t’)kθ(θ,θ’)   (22)
 タスクカーネルは、タスク類似度を示す関数であるが、入力であるタスクラベルtが同一タスクを区別するためのラベルである。このため、タスクラベルtの値からタスクの類似度を計算することはできない。また、タスク数がM個であるため、タスクカーネルの出力はM×M個のパターンである。そのため、M次正方行列Kを用いてタスクカーネルを表現し、タスクカーネルに入力されたタスクラベルが示す要素の値を、タスクカーネルの出力とする。
(t,t’)=[Kt,t’     (23)
 また、タスクカーネルをカーネル関数として用いるためには、Kが正定行列である必要がある。そこで、コレスキー分解を利用して、Kを下三角行列LによってK=LLと分解する。これにより、下三角行列LのM(M+1)/2個の要素をタスクカーネルのパラメータαとし、このパラメータαを変分推論の枠組みの中で最適化して、制御結果データからタスク間の類似度を学習することができる。なお、タスク間の類似度を学習するとは、タスク間の類似度が反映されるように(類似タスクの制御結果データの寄与度が非類似タスクの制御結果データの寄与度よりも大きくなるように)事後分布を更新することを意味する。
 このようにして最適化されたパラメータαは、他のタスクの制御結果データのそれぞれの寄与度(重みと呼ぶこともできる)を示している。よって、予測分布算出部301は、最適化されたパラメータαを用いて評価関数の予測分布を求めることにより、他のタスクの制御結果データの寄与度を、当該他のタスクと対象のタスクとの類似度に応じた寄与度として、予測分布を算出することができる。これは予測分布の更新においても同様である。
  (処理の流れ)
 情報処理装置1Bがクレーン5の制御変数を決定する処理の流れを説明する。この処理の流れは、図3に示した情報処理装置1Aの処理の流れと概ね同様であるが、S2およびS8とS3の処理が相違している。以下ではこの相違点を中心に説明する。
 図6は、カーネル関数のパラメータを最適化する処理の一例を示すフローチャートである。図6の処理は、図3のS1と同様の処理の後、すなわちデータ取得部101による初期データの設定後に行われる処理であり、図3のS2の処理に対応している。また、情報処理装置1Bは、図3のS8の処理の代わりに、図6の処理を実行する。
 S21では、予測分布算出部301が、カーネル関数のパラメータを初期化する。初期化するカーネル関数のパラメータは、αとαの2つである。続いて、S22では、予測分布算出部301は、変分分布q(f)、q(τ)を更新する。変分分布q(f)、q(τ)の更新則は、上記数式(13)~(19)のとおりである。
 S23では、予測分布算出部301は、変分下界が収束したか否かを判定する。変分下界が収束したときの変分分布q(f)、q(τ)が、最適化された変分分布である。なお、収束条件は適宜設定すればよい。例えば、q(f)とq(τ)の更新の前後でFνを計算し、その差分が所定の値(例えば0.1)を下回ったときに収束したと判定してもよい。
 S23で収束したと判定された場合(S23でYES)には、処理はS24に進む。一方、収束していないと判定された場合(S23でNO)には、処理はS22に戻り、変分分布が再度更新される。
 S24では、予測分布算出部301は、変分下界が最大となるカーネル関数のパラメータα 、α を特定する。この演算には、上述の数式(12)が使用される。なお、数式(12)のq(f)、q(T)、p(f)にはカーネル関数によって求める行列Kが含まれている。このため、Fνはα、αをパラメータとして持つ関数として扱うことができる。よって、例えば、任意の非線形最適化手法によって最適化することができる。非線形最適化手法の一例としては勾配法が挙げられる。
 S25では、予測分布算出部301は、最適化を終了するか否かを判定する。終了条件は適宜設定すればよい。例えば、S22~S25の処理の前後でFνを計算し、その差分が所定の値(例えば0.1)を下回ったときに最適化を終了すると判定してもよい。
 S25で終了すると判定された場合(S25でYES)には、図6の処理は終了する。この後、図3のS3以降と同様の処理が行われる。一方、終了しないと判定された場合(S25でNO)には、処理はS22に戻り、変分分布が再度更新される。
 以上のように、図6の処理では、変分下界を最大化する変分分布の計算と、カーネル関数のパラメータの最適化が交互に行われる。これにより、事後分布の近似である変分分布を求めることができる。また、図6の処理では、カーネル関数のパラメータαが最適化されると共に、αも最適化されるので、タスク間の類似度を学習することができる。
 なお、変分下界Fνは、マルチタスク化を導入したロバストガウス過程が、制御結果データ201をうまく表現できているかを近似的に計算したものであるといえる。そのため、変分下界Fνを最大化するパラメータαを求めることにより、制御結果データ201に適した類似度を求めることができる。
 S22~S25の処理を繰り返すことにより、類似したタスクの制御結果データ201は利用され、類似していないタスクの制御結果データ201の寄与度は低くなるように、パラメータαが最適化される。言い換えれば、S22~S25の処理を繰り返すことにより、他のタスクの制御結果データは、対象のタスクとの類似度に応じて重み付けされる。
 以上の処理によれば、あるタスクについての予測分布を算出する際に、他のタスクの制御結果データを、当該他のタスクと上記あるタスクとの類似度に応じた寄与度で適切に考慮して再利用することができる。したがって、あるタスクの制御結果データの数を抑えつつ、妥当な制御変数を決定することができる。
 〔実施例〕
 情報処理装置1Aおよび1Bの効果を検証するための実験を行った。その結果を図7および図8に基づいて説明する。図7は、実験結果を示す図である。図8は、実験10~12における最適化終了時のタスクカーネルを示す図である。
 なお、実験は、実機のクレーン5ではなく、実験室内で使用できる程度に小型の模擬クレーンを用い、模擬的なごみとしてシュレッダーによって裁断された紙と、玩具用ゴムボールを混ぜ合わせたものを用いた。
 クレーンに実行させるタスクは、クレーンでごみをつかんで持ち上げた後、所定距離を移動させながら、その間に均一にごみをばらまくというものとした。具体的には、ごみをつかんでいるバケットを開放する開動作の開始後、重量θのごみがバケットから落ちたときにバケットを閉じる閉動作を開始し、その時間θ後に再度開動作を開始する、という動作をクレーンに実行させた。上記θとθが制御変数である。
 制御結果の評価においては、クレーンの移動距離が増加する間、バケットがつかんでいるごみの重量が一定の割合で減少することを理想の推移とした。そして、この理想の推移と実際の推移との差に基づいて評価値を算出した。具体的には、クレーンがつかんだごみの重量で正規化した、実際のつかみ重量の系列データwと、理想的なつかみ重量の系列データwとの差を二乗平均平方根(RMS)で計算し、以下の数式(24)で評価した。E(θ)=5-10×RMS(w(θ)-w)    (24)
 上述のように、模擬的なごみも実際のごみピットに貯留されているごみと同様に不均質であるから、同じ動作パラメータでもw(θ)が大きく異なる場合があり、評価値E(θ)に影響する。
 また、最初につかむごみの重量は120~300gとし、移動距離は40cmとした。1回の実験では、最適化後の制御変数θとθを適用してタスクを10回実行し、それらの制御結果を上記数式(24)で評価した。
 実験は1~12の全12回行った。このうち、実験1~3では、情報処理装置1Aにより制御変数θ、θの最適化を行った。また、実験4~9では、情報処理装置1Bにより制御変数θ、θの最適化を行った。ただし、実験4~9では、類似タスクのデータは利用していない。そして、実験10~12では、情報処理装置1Bにより、類似タスクのデータを利用して制御変数θ、θの最適化を行った。類似タスクは、クレーンの移動距離を30cmとしたタスクである。
 図7に示すように、実験1~12で最適化された制御変数θ、θにはばらつきがあるが、評価値は何れも高水準であり、妥当な最適化が行われたことが確認された。
 実験1~3と4~6の結果を比較すると、最適化に要した試行回数に差が生じていることがわかる。つまり、情報処理装置1Bによる最適化では、情報処理装置1Aによる最適化と比べて、少ない試行回数で妥当な制御変数を算出できることがわかった。なお、最適化に要した試行回数とは、最適な制御変数を決定するまで(図3のS5でYESと判定されるまで)に、獲得関数により決定した制御変数を用いてクレーンを動作させ、新たな制御結果を取得した回数である。
 また、実験7~9と10~12の結果を比較しても、最適化に要した試行回数に差が生じていることがわかる。つまり、類似タスクの制御結果データを利用することにより、さらに少ない試行回数で妥当な制御変数を算出できることがわかった。
 また、図8には、実験10~12における最適化終了時のタスクカーネルを示している。同図の縦軸および横軸はタスクラベルを示し、数値はそれぞれのタスク間の類似度を示している。図8に示すように、移動距離が40cmのタスクと、移動距離が30cmのタスク(類似タスク)との類似度(予測分布の算出における寄与度)を示す非対角成分9-2の値(1.35)が、対角成分9-1の値の一方(0.96)と比べて高い数値となっている。このことから、予測分布の算出において、類似タスクの制御結果データが利用されていることがわかる。
 なお、図には示していないが、上記タスクにおけるクレーンの移動距離を20cmに変更し、類似タスクとしてクレーンの移動距離が30cmのタスクと、40cmのタスクを設定して同様の実験を行った。その結果、上述の各結果と同精度の制御変数θ、θを10回程度の少ない試行回数で算出することができた。この場合における最適化終了時のタスクカーネルも、図8の例と同様に非対角成分の値が大きく、類似タスクの制御結果データが利用されていることがわかった。
 また、実機のクレーン5を用いてごみピット内でごみをばらまく実験についても行った。結果は、上述の各例と同様であり、情報処理装置1Aにより妥当な制御変数を算出できること、情報処理装置1Bによればより少ない試行回数で妥当な制御変数を算出できることがわかった。
 また、実機のクレーン5を用いた実験では、オペレータにもタスクを実行してもらい、その結果を上記数式(24)で評価した。そして、情報処理装置1Bが最適化した制御変数を用いた制御結果の評価値と、オペレータによる制御結果の評価値とについて、t検定を行ったところ有意差なしとの結果となった。つまり、情報処理装置1Bが最適化した制御変数を用いた制御は、オペレータによる制御と同程度の高水準な制御であったといえる。
 〔ソフトウェアによる実現例〕
 情報処理装置1Aおよび1Bの制御ブロック(特に制御部10Aおよび制御部10Bに含まれる各部)は、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、ソフトウェアによって実現してもよい。
 後者の場合、情報処理装置1Aおよび1Bは、各機能を実現するソフトウェアであるプログラム(制御変数決定プログラム)の命令を実行するコンピュータを備えている。このコンピュータは、例えば1つ以上のプロセッサを備えていると共に、上記プログラムを記憶したコンピュータ読み取り可能な記録媒体を備えている。そして、上記コンピュータにおいて、上記プロセッサが上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記プロセッサとしては、例えばCPU(Central Processing Unit)を用いることができる。上記記録媒体としては、「一時的でない有形の媒体」、例えば、ROM(Read Only Memory)等の他、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムを展開するRAM(Random Access Memory)などをさらに備えていてもよい。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記コンピュータに供給されてもよい。なお、本発明の一態様は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
 〔変形例〕
 本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。
 例えば、実施形態1の情報処理装置1Aにおいて、類似タスクの制御結果データを利用した最適化を行うこともできる。この場合、数式(22)で示されるカーネル関数を使用し、図3のS2、8でカーネル関数のパラメータαについても最適化すればよい。
 また、上述の各実施形態で説明した各処理の実行主体は、適宜変更することが可能である。図3に示される制御変数算出方法は、複数の情報処理装置によって実行されてもよい。同様に、図6に示される制御変数決定方法も複数の情報処理装置によって実行されてもよい。
 また、上述の各実施形態では、ごみをばらまいて撹拌するタスクにおける制御変数を最適化する例を説明したが、タスクはごみを運搬するクレーンに実行させるものであればよく、その内容は特に限定されない。例えば、クレーンにごみをつかむ動作を行わせるタスク、つかんだごみを持ち上げる動作を行わせるタスク、持ち上げたごみを投下する動作を行わせるタスクなどの制御変数を最適化することも可能である。
1A    情報処理装置
102   予測分布算出部
103   制御変数探索部
104   制御変数決定部
201   制御結果データ
1B    情報処理装置
301   予測分布算出部
3     制御装置
5     クレーン
9     制御システム

Claims (6)

  1.  予測分布算出部と、
     制御変数探索部と、
     制御変数決定部と、を備える情報処理装置であって、
     上記予測分布算出部は、ごみを運搬するクレーンの制御変数と、該制御変数を用いて上記クレーンを制御した制御結果とを対応付けた制御結果データを用いて、当該制御変数と当該制御結果との関係を示す関数の予測分布を算出し、
     上記制御変数探索部は、上記予測分布に基づいて上記制御変数の最適値の候補である候補制御変数を探索し、
     上記予測分布算出部は、上記制御変数探索部が検出した上記候補制御変数と、当該候補制御変数を用いて上記クレーンを制御した制御結果と、を用いて上記予測分布を更新し、
     上記制御変数決定部は、上記更新後の上記予測分布に基づいて構成される関数を用いて、上記制御変数の最適値を決定する、情報処理装置。
  2.  上記予測分布算出部は、複数の上記制御結果データのそれぞれの上記予測分布算出における寄与度を、当該制御結果データの信頼度に応じた寄与度として、上記予測分布を算出または更新する、請求項1に記載の情報処理装置。
  3.  上記予測分布算出部は、上記制御変数を用いて上記クレーンに行わせるタスクとは異なる他のタスクの制御結果データの上記予測分布算出における寄与度を、当該他のタスクと上記タスクとの類似度に応じた寄与度として、上記予測分布を算出または更新する、請求項1または2に記載の情報処理装置。
  4.  請求項1から3の何れか1項に記載の情報処理装置と、
     上記制御変数を用いて上記クレーンを制御する制御装置と、
     上記クレーンと、を含む制御システム。
  5.  1または複数の情報処理装置によって実行される制御変数決定方法であって、
     ごみを運搬するクレーンの制御変数と、該制御変数を用いて上記クレーンを制御した制御結果とを対応付けた制御結果データを用いて、当該制御変数と当該制御結果との関係を示す関数の予測分布を算出する予測分布算出ステップと、
     上記予測分布に基づいて上記制御変数の最適値の候補である候補制御変数を探索する制御変数探索ステップと、
     上記制御変数探索ステップで検出した上記候補制御変数と、当該候補制御変数を用いて上記クレーンを制御した制御結果と、を用いて上記予測分布を更新する更新ステップと、
     上記更新後の上記予測分布に基づいて構成される関数を用いて、上記制御変数の最適値を決定する制御変数決定ステップと、を含む制御変数決定方法。
  6.  請求項1に記載の情報処理装置としてコンピュータを機能させるための制御変数決定プログラムであって、上記予測分布算出部、上記制御変数探索部、および上記制御変数決定部としてコンピュータを機能させるための制御変数決定プログラム。
PCT/JP2020/044442 2020-02-28 2020-11-30 情報処理装置、制御システム、制御変数決定方法、および制御変数決定プログラム WO2021171720A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202080097673.7A CN115175868A (zh) 2020-02-28 2020-11-30 信息处理装置、控制系统、控制变量确定方法、及控制变量确定程序
EP20922289.2A EP4112498A4 (en) 2020-02-28 2020-11-30 INFORMATION PROCESSING DEVICE, CONTROL SYSTEM, CONTROL VARIABLE DETERMINATION METHOD, AND CONTROL VARIABLE DETERMINATION PROGRAM

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020033904A JP7450212B2 (ja) 2020-02-28 2020-02-28 情報処理装置、制御システム、制御変数決定方法、および制御変数決定プログラム
JP2020-033904 2020-02-28

Publications (1)

Publication Number Publication Date
WO2021171720A1 true WO2021171720A1 (ja) 2021-09-02

Family

ID=77490828

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/044442 WO2021171720A1 (ja) 2020-02-28 2020-11-30 情報処理装置、制御システム、制御変数決定方法、および制御変数決定プログラム

Country Status (4)

Country Link
EP (1) EP4112498A4 (ja)
JP (1) JP7450212B2 (ja)
CN (1) CN115175868A (ja)
WO (1) WO2021171720A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2024023054A (ja) * 2022-08-08 2024-02-21 日立造船株式会社 情報処理装置、制御システム、探索方法、および探索プログラム
CN116703893B (zh) * 2023-08-01 2023-09-29 四川深山农业科技开发有限公司 一种基于机器视觉的魔芋凝胶测控方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0592891A (ja) * 1991-09-30 1993-04-16 Kawasaki Steel Corp アンローダの掴み量制御方法
JPH1121077A (ja) * 1997-07-01 1999-01-26 Toshiba Corp クレーン制御装置
JP2003176093A (ja) * 2001-12-11 2003-06-24 Toshiba Ge Automation Systems Corp クレーンの振れ止め・位置制御装置及び旋回振れ止め・旋回位置制御装置
JP2010275064A (ja) 2009-05-28 2010-12-09 Kobe Steel Ltd ごみ攪拌評価方法及びごみ攪拌評価プログラム、並びにごみ攪拌評価装置
WO2017188328A1 (ja) * 2016-04-28 2017-11-02 日立造船株式会社 計算装置、計算装置の制御方法、制御プログラム、および記録媒体
WO2019244474A1 (ja) * 2018-06-19 2019-12-26 株式会社島津製作所 パラメータ探索方法、パラメータ探索装置、及びパラメータ探索用プログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6625500B1 (en) * 1999-03-16 2003-09-23 Chou H. Li Self-optimizing method and machine
US10139809B2 (en) * 2016-01-14 2018-11-27 Rockwell Automation Technologies, Inc. Optimization based controller tuning systems and methods
JP6659474B2 (ja) * 2016-06-09 2020-03-04 日立造船株式会社 クレーン制御装置、クレーン制御装置の制御方法、制御プログラム、および記録媒体

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0592891A (ja) * 1991-09-30 1993-04-16 Kawasaki Steel Corp アンローダの掴み量制御方法
JPH1121077A (ja) * 1997-07-01 1999-01-26 Toshiba Corp クレーン制御装置
JP2003176093A (ja) * 2001-12-11 2003-06-24 Toshiba Ge Automation Systems Corp クレーンの振れ止め・位置制御装置及び旋回振れ止め・旋回位置制御装置
JP2010275064A (ja) 2009-05-28 2010-12-09 Kobe Steel Ltd ごみ攪拌評価方法及びごみ攪拌評価プログラム、並びにごみ攪拌評価装置
WO2017188328A1 (ja) * 2016-04-28 2017-11-02 日立造船株式会社 計算装置、計算装置の制御方法、制御プログラム、および記録媒体
WO2019244474A1 (ja) * 2018-06-19 2019-12-26 株式会社島津製作所 パラメータ探索方法、パラメータ探索装置、及びパラメータ探索用プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP4112498A4

Also Published As

Publication number Publication date
JP7450212B2 (ja) 2024-03-15
EP4112498A4 (en) 2024-04-10
JP2021135940A (ja) 2021-09-13
CN115175868A (zh) 2022-10-11
EP4112498A1 (en) 2023-01-04

Similar Documents

Publication Publication Date Title
WO2021171720A1 (ja) 情報処理装置、制御システム、制御変数決定方法、および制御変数決定プログラム
Ma et al. Continuous control of a polymerization system with deep reinforcement learning
Uchendu et al. Jump-start reinforcement learning
Guo et al. Autosem: Automatic task selection and mixing in multi-task learning
Kim et al. Imitation learning via kernel mean embedding
Malik et al. Calibrated model-based deep reinforcement learning
Nguyen et al. Large-scale online kernel learning with random feature reparameterization
US20180210406A1 (en) Numerical controller and machine learning device
Petelin et al. Control system with evolving Gaussian process models
Liang et al. Evolutionary bilevel optimization for complex control tasks
WO2023024920A1 (zh) 模型训练方法、系统、集群及介质
Lakhani et al. Stability-preserving automatic tuning of PID control with reinforcement learning
US11628562B2 (en) Method, device and computer program for producing a strategy for a robot
WO2021130915A1 (ja) 学習装置、学習方法および学習プログラム
Lazaridis et al. Rein-2: Giving birth to prepared reinforcement learning agents using reinforcement learning agents
JP7371535B2 (ja) 自動運転制御装置、自動運転制御システム、自動運転制御方法、および廃棄物処理施設
Kuzmin et al. Hierarchical reinforcement learning with options and united neural network approximation
Azizzadenesheli Maybe a few considerations in Reinforcement Learning Research?
Jha et al. Data efficient learning of robust control policies
Dantas et al. The impact of state representation on approximate Q-learning for a selection hyper-heuristic
US20220176554A1 (en) Method and device for controlling a robot
US12005580B2 (en) Method and device for controlling a robot
US20230169239A1 (en) Device and method for improving simulator parameter
Duh Multi-objective hyperparameter search for fast and accurate neural machine translation-progress report
Péron et al. A continuous time formulation of stochastic dual control to avoid the curse of dimensionality

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20922289

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2020922289

Country of ref document: EP

Effective date: 20220928