WO2023233664A1 - 最適化装置、最適化方法、およびプログラム - Google Patents

最適化装置、最適化方法、およびプログラム Download PDF

Info

Publication number
WO2023233664A1
WO2023233664A1 PCT/JP2022/022680 JP2022022680W WO2023233664A1 WO 2023233664 A1 WO2023233664 A1 WO 2023233664A1 JP 2022022680 W JP2022022680 W JP 2022022680W WO 2023233664 A1 WO2023233664 A1 WO 2023233664A1
Authority
WO
WIPO (PCT)
Prior art keywords
belief distribution
objective function
optimization
optimal variable
inverse temperature
Prior art date
Application number
PCT/JP2022/022680
Other languages
English (en)
French (fr)
Inventor
達哉 森
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to PCT/JP2022/022680 priority Critical patent/WO2023233664A1/ja
Publication of WO2023233664A1 publication Critical patent/WO2023233664A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N99/00Subject matter not provided for in other groups of this subclass

Definitions

  • the present invention relates to technology for solving nonlinear optimization problems.
  • Non-Patent Documents 1 and 2 describe Information Theoretic Model Predictive Control (ITMPC), which is an example thereof.
  • ITMPC (i) calculates the weight for Bayesian updating by referring to the objective function value and inverse temperature for each of the plurality of optimal variable candidates generated based on the belief distribution; The belief distribution is updated by referring to the candidates and their respective weights.
  • the ITMPC also refers to the belief distribution updated by repeating the processes (i) and (ii) and outputs an approximate solution.
  • the inverse temperature is a parameter that determines the efficiency and accuracy of the optimization system.
  • an appropriate value for the inverse temperature may vary depending on the situation at the time, such as the generation result of the optimal variable candidate, the contents of the objective function, or the shape of the belief distribution. If the inverse temperature is not appropriate, the effective sample size will not be appropriate and Bayesian updates will have problems.
  • the techniques described in Non-Patent Documents 1 and 2 have a problem in that it is difficult to adjust the reverse temperature because the appropriate value of the reverse temperature is not known.
  • One aspect of the present invention has been made in view of the above problems, and one example of its purpose is to provide a technique for adjusting the inverse temperature used in a nonlinear optimization problem to a more appropriate value.
  • An optimization device includes: an optimal variable candidate generation unit that generates a plurality of optimal variable candidates based on a belief distribution; and an objective function evaluator that evaluates an objective function for each of the plurality of optimal variable candidates.
  • means inverse temperature optimization means for calculating, using an optimization method, an inverse temperature such that the input target effective sample size and the effective sample size of the weight for the objective function are approximately the same;
  • the apparatus includes a weight evaluation means for calculating a weight for the objective function based on the inverse temperature, and a belief distribution updating means for updating the belief distribution based on the optimal variable candidate, the weight, and the belief distribution.
  • An optimization method includes the steps of: generating a plurality of optimal variable candidates based on a belief distribution; evaluating an objective function for each of the plurality of optimal variable candidates; Calculating an inverse temperature using an optimization method such that the effective sample size and the effective sample size of the weight for the objective function are approximately the same, and calculating the weight for the objective function based on the inverse temperature. and updating the belief distribution based on the optimal variable candidate, the weight, and the belief distribution.
  • a program is a program for causing a computer to function as an optimization device, the program including: optimal variable candidate generation means for generating a plurality of optimal variable candidates based on a belief distribution; For each of the plurality of optimal variable candidates, an objective function evaluation means that evaluates the objective function, and an inverse temperature such that the input target effective sample size and the effective sample size of the weight for the objective function are approximately the same. , an inverse temperature optimization means for calculating using an optimization method; a weight evaluation means for calculating a weight for the objective function based on the inverse temperature; and a weight evaluation means for calculating a weight for the objective function based on the optimal variable candidate, the weight, and the belief distribution. , and a belief distribution updating means for updating the belief distribution.
  • the inverse temperature used in a nonlinear optimization problem can be adjusted to a more appropriate value.
  • FIG. 1 is a block diagram showing the configuration of an optimization device according to exemplary embodiment 1 of the present invention.
  • FIG. FIG. 2 is a flow diagram showing the flow of an optimization method according to exemplary embodiment 1 of the present invention.
  • FIG. 2 is a block diagram showing the configuration of an optimization system according to a second exemplary embodiment of the present invention.
  • FIG. 3 is a flow diagram showing the flow of an optimization method according to exemplary embodiment 2 of the present invention.
  • FIG. 2 is a block diagram showing the configuration of an optimization system according to a third exemplary embodiment of the present invention.
  • FIG. 7 is a flow diagram showing the flow of an optimization method according to exemplary embodiment 3 of the present invention.
  • FIG. 1 is a block diagram showing the configuration of an optimization system according to an application example of the present invention.
  • FIG. 2 is a flow diagram showing the flow of an optimization method according to an application example of the present invention.
  • FIG. 3 is a schematic diagram for explaining a reference trajectory in an application example of the present invention. It is a graph for comparing related technology and an application example of the present invention. 7 is another graph for comparing related technology and an application example of the present invention. It is a table for comparing related technology and application examples of the present invention. 7 is another table for comparing related technology and application examples of the present invention.
  • FIG. 1 is a block diagram showing the configuration of an optimization system according to related technology.
  • 16 is a flow diagram showing the flow of processing by the optimization system shown in FIG. 15.
  • FIG. FIG. 3 is a diagram illustrating an example hardware configuration of each device in each exemplary embodiment and application example.
  • FIG. 15 is a block diagram showing the configuration of an optimization system 9 that solves nonlinear optimization problems using ITMPC.
  • FIG. 16 is a flow diagram showing the flow of processing by the optimization system 9.
  • the optimization system 9 includes an optimization device 90, an input device 93, and an output device 94.
  • Optimization device 90 includes a control section 91 and a storage section 92.
  • the control unit 91 includes an optimal variable candidate generation unit 911, an objective function evaluation unit 912, a weight evaluation unit 914, and a belief distribution update unit 915.
  • the storage unit 92 includes an optimal variable candidate storage unit 921, an objective function value storage unit 922, an inverse temperature storage unit 924, a weight storage unit 925, and a belief distribution storage unit 926.
  • the optimization system 9 operates as shown in FIG. 16, for example.
  • the control unit 91 acquires an arbitrary inverse temperature input by the user via the input device 93 and records it in the inverse temperature storage unit 924 . Further, the control unit 91 acquires an arbitrary belief distribution input by the user via the input device 93 and records it in the belief distribution storage unit 926.
  • step S92 the optimal variable candidate generation unit 911 generates a plurality of optimal variable candidates based on the belief distribution recorded in the belief distribution storage unit 926, and records them in the optimal variable candidate storage unit 921.
  • the belief distribution used for generation is the input initial belief distribution input in step S91 in the first iteration.
  • the belief distribution used for generation is the belief distribution updated in step S95, which will be described later, from the second iteration onwards.
  • the objective function evaluation unit 912 evaluates the objective function for each optimal variable candidate recorded in the optimal variable candidate storage unit 921, and records each evaluation value in the objective function value storage unit 922.
  • the evaluation value obtained by evaluating the objective function will also be referred to as an objective function value.
  • the objective function value may be simply referred to as an objective function.
  • the weight evaluation unit 914 refers to each objective function value recorded in the objective function value storage unit 922 and the inverse temperature recorded in the inverse temperature storage unit 924, and evaluates each optimal variable candidate in the Bayesian update.
  • the weight that is, the amount obtained by dividing the likelihood by the marginal likelihood, is evaluated and recorded in the weight storage unit 925.
  • step S95 the belief distribution updating unit 915 updates each weight recorded in the weight storage unit 925, each optimal variable candidate recorded in the optimal variable candidate storage unit 921, and the belief distribution recorded in the belief distribution storage unit 926.
  • the posterior belief distribution is approximately calculated as a new belief distribution, and is recorded in the belief distribution storage unit 926.
  • step S96 the control unit 91 determines whether a predetermined termination condition is satisfied.
  • the predetermined termination condition may be specified by the user. If it is determined to be true in this step, the control unit 91 outputs the belief distribution recorded in the belief distribution storage unit 926 to the output device 94 in step S97. Further, the control unit 91 employs the optimal variable candidate that becomes the mode of the belief distribution as an approximate solution of the target optimization problem, that is, an approximate optimal variable, and outputs the approximate solution.
  • control unit 91 refers to the belief distribution recorded in the belief distribution storage unit 926 and repeats the processing from step S92.
  • the likelihood function L in ITMPC is defined by the following equation (A1).
  • v is an optimal variable candidate and S is an objective function.
  • the likelihood function L is the probability that v is the optimal variable, and the probability approaches 1 as the objective function value becomes smaller than ⁇ , and approaches 0 as the objective function value becomes larger than ⁇ , exponentially.
  • the inverse temperature ⁇ can be interpreted as a kind of threshold that determines whether the optimal variable candidate v is optimal.
  • the inverse temperature ⁇ can also be interpreted as a hyperparameter that adjusts the amount of variation in the belief distribution for one Bayesian update. Equation (A1) suggests that the smaller the inverse temperature ⁇ , the larger the amount of variation, and the larger ⁇ , the smaller the amount of variation. However, in practical applications, it is necessary to approximate the posterior belief distribution, and the smaller ⁇ , the worse the approximation accuracy becomes, so it lacks accuracy as an optimization method. In this way, the inverse temperature ⁇ is also a parameter that determines the efficiency and accuracy of the optimization system 9, and its adjustment is important for application.
  • the problem with such ITMPC is that although adjustment of the inverse temperature is important in order to obtain high-quality approximate optimal variables, it is difficult to adjust it.
  • the reason is that in Bayesian updating, the appropriate value of the inverse temperature varies depending on the situation at the time, such as the generation result of the optimal variable candidate, the contents of the objective function, and the shape of the belief distribution.
  • the effective sample size in importance sampling will not be appropriate.
  • the inverse temperature ⁇ is too small, there will be many samples for which the likelihood L(v) is zero, and the effective sample size will become small.
  • the error involved in Bayesian updating using sample approximation increases.
  • the inverse temperature ⁇ is too large, the number of samples for which the likelihood L(v) is 1 increases, and no difference occurs between the samples, so that Bayesian updating does not proceed.
  • the inventor of the present application found that in order to accurately solve a nonlinear optimization problem, it is sufficient to estimate the inverse temperature ⁇ at which the effective sample size number becomes the target value, and use the estimated inverse temperature. .
  • embodiments of the present invention based on this knowledge will be described.
  • FIG. 1 is a block diagram showing the configuration of an optimization device 100.
  • the optimization device 100 includes an optimal variable candidate generation section 101, an objective function evaluation section 102, an inverse temperature optimization section 103, a weight evaluation section 104, and a belief distribution update section 105.
  • the optimal variable candidate generation unit 101 may realize the optimal variable candidate generation means described in the claims, the present invention is not limited thereto.
  • the objective function evaluation unit 102 may realize the objective function evaluation means described in the claims, but is not limited thereto.
  • the inverse temperature optimization unit 103 may realize the inverse temperature optimization means described in the claims, the present invention is not limited thereto.
  • the weight evaluation unit 104 may implement the weight evaluation means described in the claims, it is not limited thereto.
  • the belief distribution updating unit 105 may implement the belief distribution updating means described in the claims, but is not limited thereto.
  • the optimal variable candidate generation unit 101 generates a plurality of optimal variable candidates based on the belief distribution.
  • the objective function evaluation unit 102 evaluates the objective function for each of the plurality of optimal variable candidates.
  • the inverse temperature optimization unit 103 uses an optimization method to calculate an inverse temperature such that the input target effective sample size and the effective sample size of the weight for the objective function are approximately the same.
  • the weight evaluation unit 104 calculates the weight for the objective function based on the inverse temperature.
  • the belief distribution updating unit 105 updates the belief distribution based on the optimal variable candidates, weights, and belief distribution.
  • FIG. 2 is a flow diagram showing the flow of optimization method M100. As shown in FIG. 2, optimization method M100 includes steps S1001 to S1005.
  • step S1001 the optimal variable candidate generation unit 101 generates a plurality of optimal variable candidates based on the belief distribution.
  • the objective function evaluation unit 102 evaluates the objective function for each of the plurality of optimal variable candidates.
  • the inverse temperature optimization unit 103 uses an optimization method to calculate an inverse temperature such that the input target effective sample size and the effective sample size of the weight for the objective function are approximately the same. .
  • the weight evaluation unit 104 calculates the weight for the objective function based on the inverse temperature.
  • the belief distribution updating unit 105 updates the belief distribution based on the optimal variable candidate, weight, and belief distribution.
  • This program is a program for causing a computer to function as an optimization device 100, and includes an optimal variable candidate generation unit 101 that generates a plurality of optimal variable candidates based on a belief distribution, and an optimal variable candidate generation unit 101 that generates a plurality of optimal variable candidates based on a belief distribution.
  • the objective function evaluation unit 102 that evaluates the objective function uses an optimization method to determine the inverse temperature such that the input target effective sample size and the effective sample size of the weight for the objective function are approximately the same.
  • an inverse temperature optimization unit 103 that calculates weights for an objective function based on the inverse temperature; a belief distribution update unit that updates a belief distribution based on optimal variable candidates, weights, and belief distributions; 105.
  • the optimization method M100 described above is realized by the computer reading the program from memory and executing it.
  • a plurality of optimal variable candidates are generated based on the belief distribution, an objective function is evaluated for each of the plurality of optimal variable candidates, and the input target effective sample size is Using an optimization method, calculate the inverse temperature such that the effective sample size of the weight for the objective function and the weight for the objective function are approximately the same, calculate the weight for the objective function based on the inverse temperature, A configuration is adopted in which the belief distribution is updated based on the weight and the belief distribution.
  • Example Embodiment 2 A second exemplary embodiment of the invention will be described in detail with reference to the drawings. Note that components having the same functions as those described in the first exemplary embodiment are denoted by the same reference numerals, and the description thereof will be omitted as appropriate.
  • FIG. 3 is a block diagram showing the configuration of the optimization system 1.
  • the optimization system 1 includes an optimization device 10, an input device 13, and an output device 14.
  • Optimization device 10 includes a control section 11 and a storage section 12.
  • the control unit 11 controls each part of the optimization device 10.
  • the control unit 11 also includes an optimal variable candidate generation unit 111, an objective function evaluation unit 112, an inverse temperature optimization unit 113, a weight evaluation unit 114, and a belief distribution update unit 115. Further, the control unit 11 controls the storage unit 12 and performs reference to data in the storage unit 12 and recording of data in the storage unit 12.
  • the storage unit 12 includes an optimal variable candidate storage unit 121, an objective function value storage unit 122, a target effective sample size storage unit 123, an inverse temperature storage unit 124, a weight storage unit 125, a belief distribution storage unit 126, Equipped with.
  • the input device 13 accepts input operations by the user.
  • the input device 13 may be, for example, a keyboard, a mouse, a touch pad, or the like, but is not limited to these.
  • the input device 13 accepts an operation to input information indicating a target effective sample size and an initial belief distribution.
  • the output device 14 outputs information under the control of the control unit 11.
  • the output device 14 may be, for example, a liquid crystal display or a speaker, but is not limited to these.
  • the output device 14 outputs information indicating the belief distribution finally calculated by the control unit 11.
  • the optimal variable candidate generation unit 111 generates a plurality of optimal variable candidates based on the belief distribution in the belief distribution storage unit 126, and records them in the optimal variable candidate storage unit 121.
  • the optimal variable candidate generating section 111 generates a plurality of optimal variable candidates based on the initial belief distribution input from the input device 13 or the belief distribution updated by the belief distribution updating section 115.
  • the initial belief distribution is referred to in order to generate a plurality of optimal variable candidates at the first time of loop processing, which will be described later.
  • the updated belief distribution is referred to in order to generate a plurality of optimal variable candidates from the second time onward of the loop processing.
  • the objective function evaluation unit 112 evaluates the objective function for each optimal variable candidate in the optimal variable candidate storage unit 121 and records it in the objective function value storage unit 122.
  • the inverse temperature optimization unit 113 uses an optimization method to determine the inverse temperature such that the target effective sample size input from the input device 13 and the effective sample size of the weights are approximately the same in the target effective sample size storage unit 123.
  • the temperature is calculated and recorded in the reverse temperature storage section 124.
  • the target effective sample size and the weight effective sample size being comparable may mean, for example, that they are equal.
  • being at the same level may mean, for example, that the difference between them is within a predetermined range. However, being at the same level is not limited to these.
  • the weight evaluation unit 114 evaluates the weight for each objective function value in the objective function value storage unit 122 based on the inverse temperature in the inverse temperature storage unit 124, and records it in the weight storage unit 125.
  • the belief distribution update unit 115 approximately calculates the posterior belief distribution based on each optimal variable candidate in the optimal variable candidate storage unit 121, each weight in the weight storage unit 125, and the belief distribution in the belief distribution storage unit 126. This is then recorded in the belief distribution storage unit 126 as a new belief distribution.
  • FIG. 4 is a flow diagram showing the flow of the optimization method M10. As shown in FIG. 4, the optimization method M10 includes steps S1 to S8.
  • step S1 the control unit 11 receives input of the target effective sample size and the initial belief distribution via the input device 13. Further, the control unit 11 records the acquired target effective sample size in the target effective sample size storage unit 123. Further, the control unit 11 records the acquired initial belief distribution in the belief distribution storage unit 126.
  • control unit 11 repeats steps S2 to S8.
  • the processing of steps S2 to S8 is also referred to as loop processing.
  • step S2 the optimal variable candidate generation unit 111 generates a plurality of optimal variable candidates based on the belief distribution.
  • the belief distribution used for generation is the initial belief distribution in the belief distribution storage unit 126.
  • the belief distribution used for generation is the belief distribution updated in step S7 of the previous loop processing. Note that the updated belief distribution is recorded in the belief distribution storage unit 126.
  • the optimal variable candidate generation unit 111 records the generated plurality of optimal variable candidates in the optimal variable candidate storage unit 121.
  • step S3 the objective function evaluation unit 112 evaluates the objective function for each optimal variable candidate in the optimal variable candidate storage unit 121, and records the objective function value that is the evaluation result in the objective function value storage unit 122.
  • step S4 the inverse temperature optimization unit 113 uses an optimization method to calculate an inverse temperature such that the target effective sample size in the target effective sample size storage unit 123 is equal to the effective sample size of the weight, and stores the inverse temperature. 124.
  • step S5 the weight evaluation unit 114 evaluates the weight for each objective function value in the objective function value storage unit 122 based on the inverse temperature in the inverse temperature storage unit 124, and records it in the weight storage unit 125.
  • step S6 the belief distribution updating unit 115 updates the a posteriori belief based on each optimal variable candidate in the optimal variable candidate storage unit 121, each weight in the weight storage unit 125, and the belief distribution in the belief distribution storage unit 126.
  • the distribution is approximated and recorded in the belief distribution storage unit 126 as a new belief distribution.
  • the belief distribution from which the posterior belief distribution is approximately calculated is the initial belief distribution in the belief distribution storage unit 126.
  • the belief distribution from which the posterior belief distribution is approximately calculated is the belief distribution updated in the relevant step of the previous loop processing.
  • step S7 the control unit 11 determines whether a predetermined termination condition is satisfied.
  • the predetermined termination condition may be a termination condition specified by the user.
  • control unit 11 If it is determined to be true in step S7, the control unit 11 outputs the belief distribution to the output device 14 in step S8, and ends the optimization method M10.
  • control unit 11 repeats the loop processing of steps S2 to S8 based on the updated belief distribution.
  • ⁇ Effects of this exemplary embodiment> a configuration is adopted in which the inverse temperature optimization unit 113 calculates the inverse temperature so that the target effective sample size and the effective sample size of the weights are approximately the same.
  • the effective sample size can be fixed, so the magnitude of the sampling error that occurs in the approximate calculation of the posterior belief distribution can be adjusted, and stable updating can be performed. Further, by setting the target effective sample size as small as possible within the range where the sampling error is allowable, both stability and efficiency of updating can be ensured in a well-balanced manner. Alternatively, it is possible to emphasize update stability by setting a larger target effective sample size. Overall, the difficulty of adjusting the inverse temperature can be improved by automatically adjusting the inverse temperature to fix the effective sample size.
  • the optimal variable candidate generation unit 111 generates a plurality of optimal variables based on the initial belief distribution input from the input device 13 or the belief distribution updated by the belief distribution updating unit 115. A configuration is adopted in which candidates are generated.
  • the inverse temperature for calculating the weights used for updating is adjusted to an appropriate value. It has the effect that it can be done.
  • Example Embodiment 3 A third exemplary embodiment of the invention will be described in detail with reference to the drawings. Note that components having the same functions as those described in the exemplary embodiments 1 and 2 are denoted by the same reference numerals, and the description thereof will not be repeated.
  • FIG. 5 is a block diagram showing the configuration of the optimization system 2.
  • the optimization system 2 includes an optimization device 20, an input device 13, a controlled object 25, and a state observation device 26.
  • the optimization device 20 includes a control section 21 and a storage section 12.
  • the storage unit 12 is as described in the second exemplary embodiment.
  • the control unit 21 is configured in substantially the same manner as the control unit 11 in the second exemplary embodiment, except that it includes an objective function evaluation unit 212 instead of the objective function evaluation unit 112, and newly includes a control input conversion unit 216 and a belief. The difference is that a distributed processing section 217 is included.
  • the objective function evaluation unit 212 is basically configured in the same manner as the objective function evaluation unit 112, but it calculates an objective function depending on the state of the controlled object 25 observed by the state observation device 26 for each of the plurality of optimal variable candidates. evaluate. For example, the objective function evaluation unit 212 may evaluate the objective function for each of the plurality of optimal variable candidates using information on the state of the controlled object 25 transmitted from the observation device 24. Note that when a plurality of states are observed for the controlled object 25, the objective function evaluation unit 212 may evaluate the objective function using the state according to the user's purpose of use. The user's purpose of use may be specified by user input.
  • the control input conversion unit 216 calculates a control input according to a predetermined conversion rule based on the belief distribution recorded in the belief distribution storage unit 126 by the belief distribution update unit 115, and transmits the calculated control input to the controlled object 25.
  • the conversion rules may vary depending on the user's purpose of use.
  • the predetermined conversion rule may be a conversion rule specified by user input.
  • the control input is information input to control the controlled object 25.
  • the control input may be an optimal variable candidate that obtains the mode of the belief distribution.
  • the controlled object 25 receives the control input from the control input converter 216 and operates according to the control input.
  • the controlled object 25 refers to any controllable device or system, and includes, but is not limited to, a robot, an automobile, an excavator, a ship, a chemical plant system, an electric power plant system, a trading system, and the like.
  • the controlled object 25 may have a function of autonomously controlling its own device according to the received control input.
  • the controlled object 25 may have a function of controlling its own device through an operator's operation. In this case, the operator may control the controlled object 25 according to the control input received by the controlled object 25.
  • the state observation device 26 observes the state of the controlled object 25 and transmits the observed state to the objective function evaluation unit 212.
  • the belief distribution processing unit 217 processes the belief distribution recorded in the belief distribution storage unit 126 by the belief distribution updating unit 115 through the next series of processing, that is, the optimal variable candidate generation unit 111, the objective function evaluation unit 112, and the inverse temperature It is processed for loop processing by the optimization unit 113, the weight evaluation unit 114, and the belief distribution update unit 115, and is recorded in the belief distribution storage unit 126. Such processing is performed, for example, when it is necessary to modify the definition of an optimal variable and to prepare a belief distribution corresponding to the modified optimal variable.
  • the belief distribution processing unit 217 may process the belief distribution according to the purpose of use by the user. The user's purpose of use may be specified by user input.
  • FIG. 6 is a flow diagram showing the flow of the optimization method M20.
  • the optimization method M20 differs from the optimization method M10 according to the second exemplary embodiment in the following points.
  • steps S100 to S101 are executed after executing step S1 and before executing step S2.
  • steps S108 to S110 are executed instead of executing step S8.
  • step S100 the state observation device 26 observes the state of the controlled object 25 and transmits the observed state to the objective function evaluation unit 212.
  • step S101 the control unit 21 determines whether the control end condition is satisfied.
  • the control termination condition may be specified by user input.
  • step S101 the optimization system 2 executes a loop process from step S2. If it is determined to be true in step S101, the optimization system 2 ends the optimization method M20.
  • step S100 the state corresponding to the user's purpose of use is used when the objective function evaluation unit 212 evaluates the objective function in step S3.
  • step S108 the control input conversion unit 216 converts the belief distribution into a control input.
  • step S109 the control input conversion unit 216 transmits the converted control input to the controlled object 25.
  • step S110 the belief distribution processing section 217 processes the belief distribution updated by the belief distribution updating section 115 according to the user's purpose of use, and records it in the belief distribution storage section 126.
  • the user's purpose of use is specified by the user's input.
  • the objective function depending on the state of the controlled object 25 observed by the state observation device 26 is set for each of the plurality of optimal variable candidates.
  • the structure is adopted as follows: Further, according to the present exemplary embodiment, a configuration is adopted in which a control input is calculated according to a predetermined conversion rule based on the updated belief distribution, and the calculated control input is transmitted to the controlled object 25. There is.
  • the belief distribution updated in a certain step is used in the optimal variable candidate generation unit 111, objective function evaluation unit 212, inverse temperature optimization unit 113, weight evaluation unit 114, and processed for loop processing by the belief distribution updating unit 115.
  • control input conversion unit 216 transmits to the controlled object 25 the control input calculated according to the conversion rule specified by the user based on the belief distribution updated by the belief distribution update unit 115.
  • the controlled object 25 operates in accordance with the control input.
  • the state observation device 26 observes the state of the controlled object 25, transmits the observed state to the objective function evaluation unit 212, and the belief distribution processing unit 217 uses the updated belief distribution to calculate the next series of optimal It is also processed according to the purpose of use by the user.
  • the user of the optimization system 2 can perform optimal control with automatic adjustment of inverse temperature, model predictive control, online optimization, etc. .
  • the objective function and objective variable generally change as the state of the controlled object 25 changes, making it more difficult to manually set an appropriate inverse temperature.
  • the inverse temperature is automatically adjusted so that the effective sample size of the weights is always constant even in response to such changes, thereby improving the efficiency and stability of Bayesian updating. can be kept constant.
  • the optimization system 2A is an example in which a hydraulic excavator car MV is applied as the control target 25 in the optimization system 2A described above.
  • the optimization system 2A can be used to automate the soil conditioning operation by the bucket B of the hydraulic shovel car MV.
  • FIG. 7 is a block diagram showing the configuration of the optimization system 2A.
  • the optimization system 2A is configured in substantially the same manner as the optimization system 2, but includes a hydraulic excavator car MV as a controlled object 25.
  • the optimization device 20 is configured by a computer.
  • a computer constituting the optimization device 20 includes at least a processor, a memory, and a network interface.
  • the optimization device 20 may include a reading device, a magnetic storage device, and the like.
  • the reading device is a device for reading a computer-readable recording medium such as a USB (Universal Serial Bus) memory or a CD-ROM (Compact Disc Read Only Memory).
  • the control unit 21 is configured by a processor.
  • the control unit 21 loads the program code received from the network interface onto the memory, or reads the program code stored in a recording medium or magnetic storage device, and loads it onto the memory.
  • the processor interprets and executes the expanded program code, thereby generating the optimal variable candidate generation unit 111, objective function evaluation unit 212, inverse temperature optimization unit 113, weight evaluation unit 114, belief distribution update unit 115,
  • the computer functions as a control input conversion section 216 and a belief distribution processing section 217.
  • the optimization device 20 is a so-called personal computer (hereinafter referred to as PC).
  • This PC includes a CPU (central processing unit) with a clock frequency of 3.20 [GHz (gigahertz)] and a GPU (graphical processing unit) including 10,496 NVIDIA CUDA cores.
  • the storage unit 12 is configured by, for example, a memory and a magnetic storage device provided in the optimization device 20.
  • the storage unit 12 includes an optimal variable candidate storage unit 121, an objective function value storage unit 122, a target effective sample size storage unit 123, an inverse temperature storage unit 124, a weight storage unit 125, and a belief distribution storage unit 126.
  • the storage unit 12 is a GPU memory with a storage capacity of 16 [GB (gigabytes)].
  • the input device 13 is a keyboard, mouse, touch pad, or the like connected to the optimization device 20.
  • the hydraulic excavator car MV is equipped with a remote control system.
  • the hydraulic excavator car MV will also be simply referred to as an excavator car MV.
  • This remote control system is connected to the optimization device 20 through wireless communication such as WiFi (registered trademark).
  • the remote control system receives control input from the optimization device 20 and remotely controls the operating lever of the excavator car MV in accordance with the control input.
  • FIG. 8 is a schematic diagram showing an example of the movable range of the operating lever.
  • an XY coordinate system is defined in which the horizontal direction on the rotating surface on which the bucket, arm, and boom of the excavator car MV can rotate is the X axis, and the vertical direction is the Y axis.
  • the shovel car MV has a bucket B and an operation lever (not shown).
  • the movable range of the operating lever is limited to a range corresponding to rotational movement around the bucket axis a1, arm axis a2, and boom axis a3 of the excavator car MV.
  • control input u t at a discrete time t expressed by an arbitrary natural number is defined as in the following equation (1).
  • Each component represents the inclination corresponding to the rotational movement of the operating lever around the bucket axis a1, arm axis a2, and boom axis a3, and is expressed as a numerical value from -1.0 to 1.0.
  • the positive and negative values of the values represent the direction of the rotational operation (the direction in which the operating lever is tilted).
  • the absolute value of the value represents the degree of slope. For example, a value of zero indicates no slope. Moreover, when the value is 1, it represents that the slope is the maximum.
  • the control period is 80 milliseconds.
  • the state observation device 26 observes the state of the excavator MV and transmits the observed state to the optimization device 20.
  • the state observation device 26 is an inertial measurement device (hereinafter referred to as IMU) provided in the shovel car MV.
  • the IMU observes the joint angles of the excavator MV, that is, the three angles ⁇ bucket, ⁇ arm, and ⁇ boom shown in FIG. 8, at discrete times t.
  • ⁇ bucket indicates an angle around the bucket axis a1.
  • ⁇ arm indicates an angle around the arm axis a2.
  • ⁇ boom indicates an angle around the boom axis a3.
  • these three angles are defined as the state xt of the excavator MV at a discrete time t, and are expressed as in the following equation (2).
  • observation cycle is synchronized with the control cycle, so that the observation timing is immediately after the control input timing.
  • all angles are [deg. ].
  • optimization method M20A is a specific example in which optimization method M20 is executed for shovel car MV.
  • the optimization method M20A will be explained with reference to FIG.
  • FIG. 9 is a flow diagram showing the flow of optimization method M20A. The details of each step will be explained below. Note that the same explanation as the optimization method M20 will not be repeated in detail, and the explanation will focus on the different points.
  • step S1 the user uses the input device 13 to input the target effective sample size and initial belief distribution.
  • Nefftarget 300 is input as the target effective sample size.
  • step S100 the condition observation device 26 observes the condition of the excavator MV.
  • control termination condition determined in step S101 is true when the observed state xt reaches the final target coordinates of the reference trajectory. Details of reference activation and target coordinates will be described later.
  • the objective variable is defined as the control input for H steps from the current discrete time t to t + H - 1, and it is expressed as the following equation (3). .
  • vt:H is an optimal variable candidate.
  • is a d-dimensional covariance matrix.
  • all components of ut:H are set to 0, all off-diagonal components of ⁇ are set to 0, and all diagonal components are set to 0.09.
  • step S2 the optimal variable candidate generation unit 111 uses the initial belief distribution given by the input device 13 in the belief distribution storage unit 126 for the first time, and the belief distribution updated by the belief distribution update unit 115 in subsequent loop processing. Based on the above, a plurality of optimal variable candidates are generated and recorded in the optimal variable candidate storage section 121.
  • step S3 the objective function evaluation unit 212 evaluates the objective function for each optimal variable candidate in the optimal variable candidate storage unit 121, and records it in the objective function value storage unit 122.
  • the objective function in this application example predicts the state transition (trajectory) when control inputs from the current state x t to vt:H are sequentially executed, and evaluates the predicted trajectory.
  • the state transition function is modeled as shown in equation (5) below.
  • f(xt, vt) is a fully connected neural network, which is a model consisting of two fully connected layers with 64 nodes, and uses the tanh function as the activation function.
  • xt+1:H is calculated from xt and vt:H. It is assumed that the model parameters have been trained in advance using operating data of the excavator MV.
  • the total cost function for xt+1:H and vt:H is defined as shown in equation (6) below.
  • Equation (7) In this application example, in order to construct a trajectory-following control system, an immediate cost function is defined as shown in equation (7) below.
  • px,s+1, py,s+1, p ⁇ ,s+1 are the X, Y coordinates [m] and azimuth of the tip point P of bucket B shown in Figure 8 at discrete time s+1.
  • px,s+1, py,s+1, p ⁇ ,s+1 are calculated geometrically based on ⁇ s+1 from the structure of the shovel car.
  • prefx,s+1, prefy,s+1, pref ⁇ ,s+1 are target coordinates at discrete time s+1.
  • FIG. 10 is a schematic diagram for explaining the reference trajectory. As shown in FIG. 10, it is constructed so that the blade of the bucket B always moves horizontally while maintaining the height of the tip P of the bucket B from the ground plane.
  • the reference trajectory is constructed so that the tip P of bucket B moves horizontally between 0.63 m and 1.43 m in the X-axis direction from the rotation axis of excavator MV, while maintaining the height of 0.89 m from the ground plane. be done.
  • each arrow in FIG. 10 represents the target coordinates forming the reference trajectory
  • the arrow tip represents prefx, prefy
  • the direction of the arrow represents pref ⁇ .
  • FIG. 10 shows an example of a task that moves horizontally in the forward direction
  • reference trajectories for backward tasks are also constructed using the same concept.
  • ax, ay, and a ⁇ are coefficients that determine the weight of the cost of each term, and are set to 10000, 10000, and 10, respectively, in this application example.
  • a composite function of the total cost function and the state transition function as described above is defined as the objective function S in this application example.
  • step S4 the inverse temperature optimization unit 113 uses an optimization method to calculate an inverse temperature ⁇ such that the target effective sample size Nefftarget in the target effective sample size storage unit 123 is equal to the effective sample size of the weight, and The temperature is recorded in the temperature storage section 124.
  • the weight for each optimal variable candidate is the value obtained by dividing the likelihood by the marginal likelihood, so it is as shown in equation (8) below.
  • S(vt:H(k)) is the objective function value evaluated for the k-th optimal variable candidate in step S3.
  • Smin is the minimum value among all K objective function values, and is added to improve the accuracy of numerical calculation.
  • Kish's approximate effective sample size in equation (9) below is employed as the effective sample size.
  • the horizontal bar above the symbol represents the arithmetic mean of all K weights.
  • step S5 the weight evaluation unit 114 evaluates the weight (Equation (8)) for each objective function value in the objective function value storage unit 122 based on the inverse temperature in the inverse temperature storage unit 124, and stores the weight. 125.
  • step S6 the belief distribution updating unit 115 calculates moment matching based on each optimal variable candidate in the optimal variable candidate storage unit 121, each weight in the weight storage unit 125, and the belief distribution in the belief distribution storage unit 126.
  • the posterior belief distribution is approximately calculated using the method, and this is recorded in the belief distribution storage unit 126 as a new belief distribution. Since the moment matching method is used, the approximate posterior belief distribution also becomes a Gaussian distribution as shown in Equation (4), and its average parameter (control input) ut:H is updated as shown in Equation (11) below.
  • step S7 false branch
  • the series of loop processing from steps S2 to S6 is performed again.
  • the termination condition of this application example is true if the elapsed time from step S100 is 60 milliseconds or more at the time of condition confirmation in step S7. In other words, updates are repeated as long as there is time.
  • step S108 the control input conversion unit 216 converts the belief distribution updated in step S6 into a control input. The conversion is performed as follows.
  • the belief distribution is a Gaussian distribution, so the optimal variable candidate with the maximum probability density matches the average parameter ut:H of the Gaussian distribution, that is, ut:H is the most promising optimal variable candidate.
  • the control input conversion unit 216 extracts only the first time element of the optimal variable candidate, that is, the element ut at the discrete time t, and transmits it to the excavator car MV.
  • step S110 the belief distribution processing section 217 processes the belief distribution and records it in the belief distribution storage section 126. Then, the loop processing from step S100 is repeated again.
  • This application example assumes application to model predictive control. Therefore, processing is performed to create a belief distribution shifted by one time step, that is, a belief distribution for control inputs from discrete times t+1 to t+H.
  • the elements from discrete time t+1 to t+H-1 are adopted as they are.
  • a three-dimensional 0 vector is adopted, just as when setting the initial belief distribution.
  • ut+1:H configured in this way is adopted as a parameter for the next initial belief distribution. Note that when proceeding to step S100 by loop processing, t ⁇ t+1.
  • FIGS. 11 and 12 are diagrams for comparing the performance of the control system when the reverse temperature is fixed (related techniques in Non-Patent Documents 1 and 2) and when the reverse temperature is automatically adjusted (this application example).
  • Figures and tables are evaluations of the task of horizontally moving the tip P of the bucket B in the forward direction.
  • the graph in FIG. 12 and the table in FIG. 14 are evaluations of the task of horizontally moving the tip P of the bucket B in the backward direction.
  • This performance evaluation was performed by simulating the excavator MV, and the average value and 1 ⁇ confidence interval were calculated based on 300 trials for each of the following settings.
  • the Failure Rate in the graphs of Figures 11 and 12 and the tables of Figures 13 and 14 is the difference between the target coordinates and the current coordinates (
  • the minimum failure rate for lam-based settings is 3%, while all ess-based settings are below 3%, especially ess300 and ess1000, which are 0%.
  • the minimum regret in the ESS system (ess1000, 13,933) is improved by about 1.14 times compared to the minimum regret in the lam system (lam300, 15,933).
  • the minimum failure rate in the lam system setting is 1.7%, while for ess300 and ess1000 it is 1% and 0.7%.
  • the minimum regret in the ESS system (ess300, 35,655) is improved by about 2.59 times compared to the minimum regret in the lam system (lam300, 92,227).
  • the optimization system 2A of this application example can be used as an application of model predictive control, and improves the difficulty of adjusting the inverse temperature by automatically adjusting the inverse temperature so as to keep the effective sample size constant. I was able to do that.
  • Some or all of the functions of the optimization devices 10 and 20 may be realized by hardware such as an integrated circuit (IC chip), or may be realized by software.
  • the optimization devices 10 and 20 are realized, for example, by a computer that executes instructions of a program that is software that implements each function.
  • a computer that executes instructions of a program that is software that implements each function.
  • An example of such a computer (hereinafter referred to as computer C) is shown in FIG.
  • Computer C includes at least one processor C1 and at least one memory C2.
  • a program P for operating the computer C as the optimization device 10, 20 is recorded in the memory C2.
  • the processor C1 reads the program P from the memory C2 and executes it, thereby realizing each function of the optimization devices 10 and 20.
  • Examples of the processor C1 include a CPU (Central Processing Unit), GPU (Graphic Processing Unit), DSP (Digital Signal Processor), MPU (Micro Processing Unit), FPU (Floating Point Number Processing Unit), and PPU (Physics Processing Unit). , a microcontroller, or a combination thereof.
  • a flash memory for example, a flash memory, an HDD (Hard Disk Drive), an SSD (Solid State Drive), or a combination thereof can be used.
  • the computer C may further include a RAM (Random Access Memory) for expanding the program P during execution and temporarily storing various data. Further, the computer C may further include a communication interface for transmitting and receiving data with other devices. Further, the computer C may further include an input/output interface for connecting input/output devices such as a keyboard, a mouse, a display, and a printer.
  • RAM Random Access Memory
  • the program P can be recorded on a non-temporary tangible recording medium M that is readable by the computer C.
  • a recording medium M for example, a tape, a disk, a card, a semiconductor memory, or a programmable logic circuit can be used.
  • Computer C can acquire program P via such recording medium M.
  • the program P can be transmitted via a transmission medium.
  • a transmission medium for example, a communication network or broadcast waves can be used.
  • Computer C can also obtain program P via such a transmission medium.
  • optimal variable candidate generation means for generating a plurality of optimal variable candidates based on a belief distribution; objective function evaluation means for evaluating an objective function for each of the plurality of optimal variable candidates; an inverse temperature optimization means that uses an optimization method to calculate an inverse temperature such that the input target effective sample size and the effective sample size of the weight for the objective function are approximately the same; weight evaluation means for calculating weights for the objective function based on the inverse temperature; belief distribution updating means for updating the belief distribution based on the optimal variable candidate, the weight, and the belief distribution; Optimization device equipped with.
  • the optimal variable candidate generating means generates the plurality of optimal variable candidates based on the input initial belief distribution or the belief distribution updated by the belief distribution updating means. Optimization device according to supplementary note 1.
  • control input conversion means for calculating a control input according to a predetermined conversion rule based on the belief distribution updated by the belief distribution updating means, and transmitting the calculated control input to a controlled object;
  • a program for causing a computer to function as an optimization device comprising: optimal variable candidate generation means for generating a plurality of optimal variable candidates based on a belief distribution; objective function evaluation means for evaluating an objective function for each of the plurality of optimal variable candidates; an inverse temperature optimization means that uses an optimization method to calculate an inverse temperature such that the input target effective sample size and the effective sample size of the weight for the objective function are approximately the same; weight evaluation means for calculating weights for the objective function based on the inverse temperature; belief distribution updating means for updating a belief distribution based on the optimal variable candidate, the weight, and the belief distribution; A program that functions as
  • the processor comprising at least one processor, the processor generating a plurality of optimal variable candidates based on a belief distribution; objective function evaluation processing for evaluating an objective function for each of the plurality of optimal variable candidates; Inverse temperature optimization processing that uses an optimization method to calculate an inverse temperature such that the input target effective sample size and the effective sample size of the weight for the objective function are approximately the same; a weight evaluation process that calculates a weight for the objective function based on the inverse temperature; An optimization device that executes a belief distribution update process of updating a belief distribution based on the optimal variable candidate, the weight, and the belief distribution.
  • this optimization device may further include a memory, in which the optimal variable candidate generation process, the objective function evaluation process, the inverse temperature optimization process, and the weight evaluation process are stored.
  • the belief distribution updating process and a program for causing the processor to execute the belief distribution updating process may be stored. Further, this program may be recorded on a computer-readable non-transitory tangible recording medium.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

非線形最適化問題において用いる逆温度をより適切な値に調整する、との課題を解決するために、最適化装置(100)は、信念分布に基づき、複数の最適変数候補を生成する最適変数候補生成部(101)と、複数の最適変数候補の各々について、目的関数を評価する目的関数評価部(102)と、入力された目標有効サンプルサイズと、目的関数についての重みの有効サンプルサイズとが同程度となるような逆温度を、最適化手法を用いて算出する逆温度最適化部(103)と、逆温度に基づき、目的関数についての重みを計算する重み評価部(104)と、最適変数候補、重み、および信念分布に基づき、信念分布を更新する信念分布更新部(105)と、を備える。

Description

最適化装置、最適化方法、およびプログラム
 本発明は、非線形最適化問題を解く技術に関する。
 非線形最適化問題において、目的関数の勾配値を用いずに最適変数を近似計算する技術が知られている。例えば、非特許文献1、2には、その一例であるInformation Theoretic Model Predictive Control(ITMPC)が記載されている。ITMPCは、(i)信念分布に基づいて生成した複数の最適変数候補の各々について、目的関数値と、逆温度とを参照して、ベイズ更新における重みを求め、(ii)、複数の最適変数候補と、それぞれの重みとを参照して信念分布を更新する。また、ITMPCは、(i)(ii)の処理を繰り返すことにより更新された信念分布を参照して、近似解を出力する。
Grady Williams, et al.著、「Information Theoretic MPC for Model-Based Reinforcement Learning」、ICRA2017 Grady Williams, et al.著、「Information Theoretic Model Predictive Control:Theory and Applications to Autonomous Driving」、IEEE Transactions on Robotics (Volume: 34, Issue: 6, 2018年12月)
 ここで、逆温度は、最適化システムの効率性と正確性を決めるパラメータである。また、ベイズ更新において、逆温度の適切な値は、最適変数候補の生成結果、目的関数の内容、または、信念分布の形状等の、その時々の状況次第で異なり得る。逆温度が適切でない場合、有効サンプルサイズが適切でなくなり、ベイズ更新に問題が生じる。非特許文献1、2に記載された技術においては、逆温度の適切な値まではわからないため、逆温度の調整が難しい、という問題がある。
 本発明の一態様は、上記の問題に鑑みてなされたものであり、その目的の一例は、非線形最適化問題において用いる逆温度をより適切な値に調整する技術を提供することである。
 本発明の一側面に係る最適化装置は、信念分布に基づき、複数の最適変数候補を生成する最適変数候補生成手段と、前記複数の最適変数候補の各々について、目的関数を評価する目的関数評価手段と、入力された目標有効サンプルサイズと、前記目的関数についての重みの有効サンプルサイズとが同程度となるような逆温度を、最適化手法を用いて算出する逆温度最適化手段と、前記逆温度に基づき、前記目的関数についての重みを計算する重み評価手段と、前記最適変数候補、前記重み、および前記信念分布に基づき、前記信念分布を更新する信念分布更新手段と、を備える。
 本発明の一側面に係る最適化方法は、信念分布に基づき、複数の最適変数候補を生成することと、前記複数の最適変数候補の各々について、目的関数を評価することと、入力された目標有効サンプルサイズと、前記目的関数についての重みの有効サンプルサイズとが同程度となるような逆温度を、最適化手法を用いて算出することと、前記逆温度に基づき、前記目的関数についての重みを計算することと、前記最適変数候補、前記重み、および前記信念分布に基づき、前記信念分布を更新することと、を含む。
 本発明の一側面に係るプログラムは、コンピュータを最適化装置として機能させるためのプログラムであって、前記コンピュータを、信念分布に基づき、複数の最適変数候補を生成する最適変数候補生成手段と、前記複数の最適変数候補の各々について、目的関数を評価する目的関数評価手段と、入力された目標有効サンプルサイズと、前記目的関数についての重みの有効サンプルサイズとが同程度となるような逆温度を、最適化手法を用いて算出する逆温度最適化手段と、前記逆温度に基づき、前記目的関数についての重みを計算する重み評価手段と、前記最適変数候補、前記重み、および前記信念分布に基づき、前記信念分布を更新する信念分布更新手段と、として機能させる。
 本発明の一態様によれば、非線形最適化問題において用いる逆温度をより適切な値に調整することができる。
本発明の例示的実施形態1に係る最適化装置の構成を示すブロック図である。 本発明の例示的実施形態1に係る最適化方法の流れを示すフロー図である。 本発明の例示的実施形態2に係る最適化システムの構成を示すブロック図である。 本発明の例示的実施形態2に係る最適化方法の流れを示すフロー図である。 本発明の例示的実施形態3に係る最適化システムの構成を示すブロック図である。 本発明の例示的実施形態3に係る最適化方法の流れを示すフロー図である。 本発明の適用例に係る最適化システムの構成を示すブロック図である。 本発明の適用例における操作レバーの可動範囲の一例を示す模式図である。 本発明の適用例に係る最適化方法の流れを示すフロー図である。 本発明の適用例における参照軌道を説明するための模式図である。 関連技術と本発明の適用例とを比較するためのグラフである。 関連技術と本発明の適用例とを比較するための他のグラフである。 関連技術と本発明の適用例とを比較するための表である。 関連技術と本発明の適用例とを比較するための他の表である。 関連技術に係る最適化システムの構成を示すブロック図である。 図15に示す最適化システムによる処理の流れを示すフロー図である。 各例示的実施形態および適用例における各装置のハードウェア構成例を示す図である。
 〔本発明の基礎となる知見〕
 本願発明者は、非線形最適化問題を解くためのベイズ更新において、逆温度と有効サンプルサイズとの相関関係に着目することで、逆温度の適切な値を得ることができるとの知見を得た。以下、当該知見の詳細に説明する。
 まず、非特許文献1、2に記載された関連技術であるITMPCについて、図15、図16を参照して説明する。図15は、ITMPCを用いて非線形最適化問題を解く最適化システム9の構成を示すブロック図である。図16は、最適化システム9による処理の流れを示すフロー図である。
 図15に示すように、最適化システム9は、最適化装置90と、入力装置93と、出力装置94とを含む。最適化装置90は、制御部91と、記憶部92と、を含む。制御部91は、最適変数候補生成部911と、目的関数評価部912と、重み評価部914と、信念分布更新部915と、を含む。記憶部92は、最適変数候補記憶部921と、目的関数値記憶部922と、逆温度記憶部924と、重み記憶部925と、信念分布記憶部926と、を含む。
 最適化システム9は、例えば、図16に示すように動作する。ステップS91において、制御部91は、ユーザが入力装置93を介して入力した、任意の逆温度を取得し、逆温度記憶部924に記録する。また、制御部91は、ユーザが入力装置93を介して入力した、任意の信念分布を取得し、信念分布記憶部926に記録する。
 次に、制御部91は、ステップS92~S96を繰り返し実行する。ステップS92において、最適変数候補生成部911は、信念分布記憶部926に記録された信念分布を元に最適変数候補を複数生成し、最適変数候補記憶部921に記録する。生成に用いる信念分布は、繰り返し処理の1回目は、ステップS91で入力された入力初期信念分布である。また、生成に用いる信念分布は、繰り返し処理の2回目以降は、後述するステップS95において更新された信念分布である。
 ステップS93において、目的関数評価部912は、最適変数候補記憶部921に記録される各最適変数候補について目的関数を評価し、各評価値を目的関数値記憶部922に記録する。以降、目的関数を評価した評価値を、目的関数値とも記載する。また、目的関数値を、単に目的関数と記載する場合もある。
 ステップS94において、重み評価部914は、目的関数値記憶部922に記録される各目的関数値と、逆温度記憶部924に記録される逆温度を参照し、各最適変数候補について、ベイズ更新における重み、すなわち尤度を周辺尤度で割った量、を評価し、重み記憶部925に記録する。
 ステップS95において、信念分布更新部915は、重み記憶部925に記録される各重みと、最適変数候補記憶部921に記録される各最適変数候補および信念分布記憶部926に記録される信念分布を参照し、新たな信念分布として事後信念分布を近似計算し、信念分布記憶部926に記録する。
 ステップS96において、制御部91は、所定の終了条件が満たされるか否かを判断する。所定の終了条件は、ユーザによって指定されたものであってもよい。当ステップで真と判断した場合、ステップS97において、制御部91は、信念分布記憶部926に記録された信念分布を、出力装置94に出力する。また、制御部91は、当該信念分布の最頻値となる最適変数候補を、対象とする最適化問題の近似解、すなわち近似最適変数として採用し、当該近似解を出力する。
 ステップS96において偽と判断した場合、制御部91は、信念分布記憶部926に記録された信念分布を参照して、ステップS92からの処理を繰り返す。
 ここで、ITMPCにおける尤度関数Lは次式(A1)で定義される。
Figure JPOXMLDOC01-appb-M000001
 式(A1)において、vは最適変数候補であり、Sは目的関数である。また、λは逆温度であり、正の実数値を持つハイパーパラメータである。なお、1/λ=βを逆温度と呼称してもよいが、本明細書では、λを逆温度と称する。尤度関数Lはvが最適変数である確率であり、目的関数値がλより小さくなるほど確率が1に、λより大きくなるほど0に、指数関数的に近づく。つまり、逆温度λは、最適変数候補vが最適であるかどうかを決めるある種の閾値である、と解釈できる。
 また、逆温度λは、ベイズ更新1回に対する信念分布の変動量を調節するハイパーパラメータである、とも解釈できる。式(A1)より、逆温度λが小さいほど変動量が大きく、λが大きいほど変動量が小さいことが示唆される。ただし、実応用上は事後信念分布を近似計算する必要があり、λが小さいほど近似精度が悪化するため、最適化方法としての正確性に欠ける。このように、逆温度λは、最適化システム9の効率性と正確性を決めるパラメータでもあり、その調節が応用上重要である。
 このようなITMPCの問題点は、良質な近似最適変数を得るために逆温度の調整が重要であるにも関わらず、その調整が難しい、ということである。理由は、ベイズ更新において、最適変数候補の生成結果、目的関数の内容、信念分布の形状等の、その時々の状況次第で逆温度の適切な値が異なるからである。
 ここで、逆温度が適切ではない場合、重要度サンプリングにおける有効サンプルサイズが適切でなくなる可能性が高い。例えば、逆温度λが小さすぎる場合、尤度L(v)がゼロとなるサンプルが多くなり、有効サンプルサイズが小さくなる。その結果、サンプル近似によるベイズ更新に乗る誤差が大きくなる。また、例えば、逆温度λが大きすぎる場合、尤度L(v)が1となるサンプルが多くなり、サンプル間の差が生じないため、ベイズ更新が進まない。
 そこで、本願発明者は、非線形最適化問題を精度よく解くためには、有効サンプルサイズ数が目標値となる逆温度λを推定し、推定した逆温度を用いればよい、との知見を得た。以下、当該知見に基づく本発明の実施形態について説明する。
 〔例示的実施形態1〕
 本発明の第1の例示的実施形態について、図面を参照して詳細に説明する。本例示的実施形態は、後述する例示的実施形態の基本となる形態である。
 <最適化装置100の構成>
 本例示的実施形態に係る最適化装置100の構成について、図1を参照して説明する。図1は、最適化装置100の構成を示すブロック図である。
 図1に示すように、最適化装置100は、最適変数候補生成部101と、目的関数評価部102と、逆温度最適化部103と、重み評価部104と、信念分布更新部105と、を含む。最適変数候補生成部101によって、請求の範囲に記載した最適変数候補生成手段が実現されてもよいが、これに限られない。目的関数評価部102によって、請求の範囲に記載した目的関数評価手段が実現されてもよいが、これに限られない。逆温度最適化部103によって、請求の範囲に記載した逆温度最適化手段が実現されてもよいが、これに限られない。重み評価部104によって、請求の範囲に記載した重み評価手段が実現されてもよいが、これに限られない。信念分布更新部105によって、請求の範囲に記載した信念分布更新手段が実現されてもよいが、これに限られない。
 最適変数候補生成部101は、信念分布に基づき、複数の最適変数候補を生成する。目的関数評価部102は、複数の最適変数候補の各々について、目的関数を評価する。逆温度最適化部103は、入力された目標有効サンプルサイズと、目的関数についての重みの有効サンプルサイズとが同程度となるような逆温度を、最適化手法を用いて算出する。重み評価部104は、逆温度に基づき、目的関数についての重みを計算する。信念分布更新部105は、最適変数候補、重み、および信念分布に基づき、信念分布を更新する。
 <最適化方法M100の流れ>
 以上のように構成された最適化装置100は、本例示的実施形態に係る最適化方法M100を実行する。最適化方法M100の流れについて、図2を参照して説明する。図2は、最適化方法M100の流れを示すフロー図である。図2に示すように、最適化方法M100は、ステップS1001~S1005を含む。
 ステップS1001において、最適変数候補生成部101は、信念分布に基づき、複数の最適変数候補を生成する。ステップS1002において、目的関数評価部102は、複数の最適変数候補の各々について、目的関数を評価する。ステップS1003において、逆温度最適化部103は、入力された目標有効サンプルサイズと、目的関数についての重みの有効サンプルサイズとが同程度となるような逆温度を、最適化手法を用いて算出する。ステップS1004において、重み評価部104は、逆温度に基づき、目的関数についての重みを計算する。ステップS1005において、信念分布更新部105は、最適変数候補、重み、および信念分布に基づき、信念分布を更新する。
 <プログラムによる実現例>
 最適化装置100をコンピュータによって構成する場合、当該コンピュータが参照するメモリには、以下のプログラムが記憶される。当該プログラムは、コンピュータを最適化装置100として機能させるためのプログラムであって、コンピュータを、信念分布に基づき、複数の最適変数候補を生成する最適変数候補生成部101と、複数の最適変数候補の各々について、目的関数を評価する目的関数評価部102と、入力された目標有効サンプルサイズと、目的関数についての重みの有効サンプルサイズとが同程度となるような逆温度を、最適化手法を用いて算出する逆温度最適化部103と、逆温度に基づき、目的関数についての重みを計算する重み評価部104と、最適変数候補、重み、および信念分布に基づき、信念分布を更新する信念分布更新部105と、として機能させる。
 コンピュータが当該プログラムをメモリから読み込んで実行することにより、上述した最適化方法M100が実現される。
 <本例示的実施形態の効果>
 以上のように、本例示的実施形態によれば、信念分布に基づき、複数の最適変数候補を生成し、複数の最適変数候補の各々について、目的関数を評価し、入力された目標有効サンプルサイズと、目的関数についての重みの有効サンプルサイズとが同程度となるような逆温度を、最適化手法を用いて算出し、逆温度に基づき、目的関数についての重みを計算し、最適変数候補、重み、および信念分布に基づき、信念分布を更新する、との構成が採用されている。
 このため、非線形最適化問題において用いる逆温度をより適切な値に調整することができる、との効果が得られる。
 〔例示的実施形態2〕
 本発明の第2の例示的実施形態について、図面を参照して詳細に説明する。なお、例示的実施形態1にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付し、その説明を適宜省略する。
 <最適化システム1の構成>
 本例示的実施形態に係る最適化システム1の構成について、図3を参照して説明する。図3は、最適化システム1の構成を示すブロック図である。図3に示すように、最適化システム1は、最適化装置10と、入力装置13と、出力装置14とを含む。最適化装置10は、制御部11と、記憶部12とを含む。
 制御部11は、最適化装置10の各部を制御する。また、制御部11は、最適変数候補生成部111と、目的関数評価部112と、逆温度最適化部113と、重み評価部114と、信念分布更新部115と、を備える。また、制御部11は、記憶部12を制御し、記憶部12内のデータの参照および記憶部12へのデータの記録を行う。
 記憶部12は、最適変数候補記憶部121と、目的関数値記憶部122と、目標有効サンプルサイズ記憶部123と、逆温度記憶部124と、重み記憶部125と、信念分布記憶部126と、を備える。
 入力装置13は、ユーザによる入力操作を受け付ける。入力装置13は、例えば、キーボード、マウス、またはタッチパッド等であってもよいが、これらに限られない。例えば、入力装置13は、目標有効サンプルサイズと、初期信念分布とを示す情報を入力する操作を受け付ける。
 出力装置14は、制御部11の制御のもとに情報を出力する。出力装置14は、例えば、液晶ディスプレイ、またはスピーカ等であってもよいが、これらに限られない。例えば、出力装置14は、制御部11が最終的に算出した信念分布を示す情報を出力する。
 最適変数候補生成部111は、信念分布記憶部126内の信念分布を元に、複数の最適変数候補を生成し、最適変数候補記憶部121に記録する。なお、最適変数候補生成部111は、入力装置13から入力された初期信念分布、または、信念分布更新部115により更新された信念分布に基づき、複数の最適変数候補を生成する。例えば、初期信念分布は、後述するループ処理の初回において、複数の最適変数候補を生成するために参照される。また、更新された信念分布は、当該ループ処理の2回目以降において、複数の最適変数候補を生成するために参照される。
 目的関数評価部112は、最適変数候補記憶部121内の各最適変数候補について目的関数を評価し、目的関数値記憶部122に記録する。
 逆温度最適化部113は、目標有効サンプルサイズ記憶部123内の、入力装置13から入力された目標有効サンプルサイズと、重みの有効サンプルサイズが同程度となるような逆温度を最適化手法で算出し、逆温度記憶部124に記録する。ここで、目標有効サンプルサイズと、重みの有効サンプルサイズが同程度であるとは、例えば、これらが等しいことであってもよい。また、同程度であるとは、例えば、これらの差が所定範囲内であることであってもよい。ただし、同程度であるとは、これらに限られない。
 重み評価部114は、目的関数値記憶部122内の各目的関数値についての重みを、逆温度記憶部124内の逆温度を元に評価し、重み記憶部125に記録する。
 信念分布更新部115は、最適変数候補記憶部121内の各最適変数候補と、重み記憶部125内の各重みと、信念分布記憶部126内の信念分布を元に、事後信念分布を近似計算し、これを新たな信念分布として信念分布記憶部126に記録する。
 <最適化方法M10の流れ>
 以上のように構成された最適化システム1は、本例示的実施形態に係る最適化方法M10を実行する。最適化方法M10の流れについて、図4を参照して説明する。図4は、最適化方法M10の流れを示すフロー図である。図4に示すように、最適化方法M10は、ステップS1~S8を含む。
 ステップS1において、制御部11は、入力装置13を介して、目標有効サンプルサイズ、および初期信念分布の入力を受け付ける。また、制御部11は、取得した目標有効サンプルサイズを、目標有効サンプルサイズ記憶部123に記録する。また、制御部11は、取得した初期信念分布を、信念分布記憶部126に記録する。
 以降、制御部11は、ステップS2~S8を繰り返す。ステップS2~S8の処理を、ループ処理とも記載する。
 ステップS2において、最適変数候補生成部111は、信念分布を元に、複数の最適変数候補を生成する。なお、初回のループ処理では、生成に用いる信念分布は、信念分布記憶部126内の初期信念分布である。また、2回目以降のループ処理では、生成に用いる信念分布は、前回のループ処理のステップS7で更新された信念分布である。なお、更新された信念分布は、信念分布記憶部126に記録されている。また、最適変数候補生成部111は、生成した複数の最適変数候補を、最適変数候補記憶部121に記録する。
 ステップS3において、目的関数評価部112は、最適変数候補記憶部121内の各最適変数候補について目的関数を評価し、評価結果である目的関数値を、目的関数値記憶部122に記録する。
 ステップS4において、逆温度最適化部113は、目標有効サンプルサイズ記憶部123内の目標有効サンプルサイズと、重みの有効サンプルサイズが等しくなるような逆温度を最適化手法で算出し、逆温度記憶部124に記録する。
 ステップS5において、重み評価部114は、目的関数値記憶部122内の各目的関数値についての重みを、逆温度記憶部124内の逆温度を元に評価し、重み記憶部125に記録する。
 ステップS6において、信念分布更新部115は、最適変数候補記憶部121内の各最適変数候補と、重み記憶部125内の各重みと、信念分布記憶部126内の信念分布を元に、事後信念分布を近似計算し、これを新たな信念分布として信念分布記憶部126に記録する。なお、初回のループ処理では、事後信念分布を近似計算する元になる信念分布は、信念分布記憶部126内の初期信念分布である。また、2回目以降のループ処理では、事後信念分布を近似計算する元になる信念分布は、前回のループ処理の当該ステップで更新した信念分布である。
 ステップS7において、制御部11は、所定の終了条件が満たされたか否かを判断する。所定の終了条件は、ユーザによって指定された終了条件であってもよい。
 ステップS7で真と判断した場合、ステップS8において、制御部11は、信念分布を出力装置14に出力し、最適化方法M10を終了する。
 ステップS7で偽と判断した場合、制御部11は、更新された信念分布を元に、ステップS2~S8のループ処理を繰り返す。
 <本例示的実施形態の効果>
 本例示的実施形態によれば、逆温度最適化部113が、目標有効サンプルサイズと、重みの有効サンプルサイズが同程度となるよう逆温度を算出する、との構成が採用されている。
 これにより、有効サンプルサイズを固定できるため、事後信念分布の近似計算で生じるサンプリング誤差の大きさを調節することができ、安定した更新を行うことができる。また、上記サンプリング誤差が許容できる範囲において、目標有効サンプルサイズを可能な限り小さく取ることで、更新の安定性と効率性の両方をバランス良く担保できる。あるいは、より大きく目標有効サンプルサイズを取ることで、更新の安定性を重視することもできる。総じて、有効サンプルサイズを固定するように逆温度を自動調整することで、逆温度の調整困難性を改善することができる。
 また、本例示的実施形態によれば、最適変数候補生成部111は、入力装置13から入力された初期信念分布、または、信念分布更新部115により更新された信念分布に基づき、複数の最適変数候補を生成する、との構成が採用されている。
 このため、本例示的実施形態によれば、例示的実施形態1と同様の効果に加えて、信念分布を更新する度に、更新に用いる重みを計算するための逆温度を適切な値に調整することができる、との効果を奏する。
 〔例示的実施形態3〕
 本発明の第3の例示的実施形態について、図面を参照して詳細に説明する。なお、例示的実施形態1~2にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付記し、その説明を繰り返さない。
 <最適化システム2の構成>
 本例示的実施形態に係る最適化システム2の構成について、図5を参照して説明する。図5は、最適化システム2の構成を示すブロック図である。図5に示すように、最適化システム2は、最適化装置20と、入力装置13と、制御対象25と、状態観測装置26とを含む。最適化装置20は、制御部21と、記憶部12とを含む。記憶部12については、例示的実施形態2で説明した通りである。制御部21は、例示的実施形態2における制御部11とほぼ同様に構成されるが、目的関数評価部112に替えて目的関数評価部212を含む点と、新たに制御入力変換部216および信念分布加工部217を含む点とが異なる。
 目的関数評価部212は、基本的に目的関数評価部112と同様に構成されるが、状態観測装置26が観測する制御対象25の状態に依存した目的関数を、複数の最適変数候補の各々について評価する。例えば、目的関数評価部212は、観測装置24から送信される制御対象25の状態の情報を用いて、複数の最適変数候補の各々について目的関数を評価してもよい。なお、当該制御対象25について複数の状態が観測される場合、目的関数評価部212は、ユーザの使用目的に応じた状態を用いて目的関数を評価してもよい。ユーザの使用目的は、ユーザの入力により指定されてもよい。
 制御入力変換部216は、信念分布更新部115が信念分布記憶部126に記録した信念分布に基づき、所定の変換規則に従って制御入力を算出し、算出された制御入力を制御対象25に送信する。ここで、変換規則は、ユーザの使用目的に応じて異なり得る。例えば、所定の変換規則は、ユーザの入力によって指定された変換規則であってもよい。また、制御入力は、制御対象25を制御するために入力される情報である。例えば、制御入力は、信念分布の最頻値を得る最適変数候補であってもよい。
 制御対象25は、制御入力変換部216からの制御入力を受信し、その制御入力に従って動作する。制御対象25は、任意の制御可能な装置またはシステムを指し、例えば、ロボット、自動車、ショベルカー、船、化学プラントシステム、電力プラントシステム、トレーディングシステム等であるが、これらに限られない。なお、制御対象25は、受信した制御入力に応じて自律的に自装置を制御する機能を有していてもよい。また、制御対象25は、オペレータの操作によって自装置を制御する機能を有していてもよい。この場合、オペレータは、制御対象25が受信した制御入力に従って制御対象25を制御してもよい。
 状態観測装置26は、制御対象25の状態を観測し、観測した状態を目的関数評価部212に送信する。
 信念分布加工部217は、信念分布更新部115が信念分布記憶部126に記録した信念分布を、次回の一連の処理、すなわち、最適変数候補生成部111と、目的関数評価部112と、逆温度最適化部113と、重み評価部114と、信念分布更新部115によるループ処理のために加工し、信念分布記憶部126に記録する。このような加工は、例えば、最適変数の定義を修正する必要があり、その修正された最適変数に対応する信念分布を用意しなければならない時に行われる。なお、信念分布加工部217は、ユーザの使用目的に応じて当該信念分布を加工してもよい。ユーザの使用目的は、ユーザの入力により指定されてもよい。
 <最適化方法M20の流れ>
 以上のように構成された最適化システム2は、本例示的実施形態に係る最適化方法M20を実行する。最適化方法M20の流れについて、図6を参照して説明する。図6は、最適化方法M20の流れを示すフロー図である。
 最適化方法M20は、以下の点で、例示的実施形態2に係る最適化方法M10と異なる。
 1点目は、ステップS1の実行後、ステップS2の実行前に、ステップS100~S101を実行する点である。2点目は、ステップS7で真と判断した場合に、ステップS8を実行する代わりにステップS108~S110を実行する点である。以下では、最適化方法M10と異なるこれらのステップについて説明し、同一のステップについては説明を繰り返さない。
 ステップS100において、状態観測装置26は、制御対象25の状態を観測し、観測した状態を目的関数評価部212に送信する。
 ステップS101において、制御部21は、制御終了条件を満たすか否かを判断する。制御終了条件は、ユーザの入力により指定されたものであってもよい。
 ステップS101で偽と判断した場合、最適化システム2は、ステップS2からのループ処理を実行する。ステップS101で真と判断した場合、最適化システム2は、最適化方法M20を終了する。
 なお、ステップS100で複数の状態が観測される場合、ユーザの使用目的に応じた状態が、ステップS3にて、目的関数評価部212による目的関数評価時に用いられる。
 ステップS108において、制御入力変換部216は、信念分布を制御入力に変換する。
 ステップS109において、制御入力変換部216は、変換した制御入力を、制御対象25に送信する。
 ステップS110において、信念分布加工部217は、信念分布更新部115により更新された信念分布をユーザの使用目的に応じて加工し、信念分布記憶部126に記録する。例えば、ユーザの使用目的は、ユーザの入力により指定される。
 <本例示的実施形態の効果>
 本例示的実施形態によれば、例示的実施形態1、2と同様の構成に加えて、状態観測装置26が観測する制御対象25の状態に依存した目的関数を、複数の最適変数候補の各々について評価する、との構成が採用されている。また、本例示的実施形態によれば、更新された信念分布に基づき、所定の変換規則に従って制御入力を算出し、算出された制御入力を制御対象25に送信する、との構成が採用されている。また、本例示的実施形態によれば、あるステップにおいて更新された信念分布を、次ステップにおける、最適変数候補生成部111、目的関数評価部212、逆温度最適化部113、重み評価部114、および信念分布更新部115によるループ処理のために加工する、との構成が採用されている。
 換言すると、本例示的実施形態によれば、制御入力変換部216が、信念分布更新部115が更新した信念分布を元に、ユーザ指定の変換規則に従って算出した制御入力を制御対象25に送信し、制御対象25がその制御入力に従って動作するようにしている。加えて、状態観測装置26によって制御対象25の状態を観測し、観測した状態を目的関数評価部212に送信し、信念分布加工部217によって、上記更新された信念分布を、次回の一連の最適化処理のためにユーザの使用目的に応じて加工するようにもしている。
 このため、本例示的実施形態によれば、最適化システム2のユーザは、逆温度の自動調整を有する最適制御、モデル予測制御、オンライン最適化等を実施することができる、との効果を奏する。
 特に、これらの用途においては、一般的に制御対象25の状態変化に伴い、目的関数および目的変数の変化が生じるため、適切な逆温度を手動で設定することが一層難しくなる。これに対して、本例示的実施形態では、このような変化に対しても、常に重みの有効サンプルサイズが一定になるよう逆温度が自動調整されるので、ベイズ更新の効率性と安定性を一定に保つことができる。
 〔例示的実施形態3の適用例〕
 以下では、例示的実施形態3の適用例である最適化システム2Aについて説明する。最適化システム2Aは、上述した最適化システム2Aにおける制御対象25として、油圧式ショベルカーMVを適用した例である。例えば、最適化システム2Aは、油圧式ショベルカーMVのバケットBによる土慣らし動作の自動化に活用することができる。
 <最適化システム2Aの構成>
 本適用例に係る最適化システム2Aの構成について、図7を参照して説明する。図7は、最適化システム2Aの構成を示すブロック図である。図7に示すように、最適化システム2Aは、最適化システム2とほぼ同様に構成されるが、制御対象25として油圧式ショベルカーMVを含む。
 また、本適用例では、最適化装置20が、コンピュータにより構成される例について説明する。最適化装置20を構成するコンピュータは、少なくともプロセッサ、メモリおよびネットワークインタフェースを備える。最適化装置20は、読取装置、磁気記憶装置等を備える場合もある。読取装置は、USB(Universal Serial Bus)メモリ、CD-ROM(Compact Disc Read Only Memory)等のコンピュータで読み取り可能な記録媒体を読み取るための装置である。
 制御部21は、プロセッサによって構成される。制御部21は、ネットワークインタフェースから受信したプログラムコードをメモリ上に展開し、あるいは、記録媒体又は磁気記憶装置などに記憶されたプログラムコードを読み出してメモリ上に展開する。そして、プロセッサは、展開されたプログラムコードをプロセッサが解釈実行することで、最適変数候補生成部111、目的関数評価部212、逆温度最適化部113、重み評価部114、信念分布更新部115、制御入力変換部216、および信念分布加工部217、としてコンピュータを機能させる。
 例えば、最適化装置20は、いわゆるパーソナルコンピュータ(以下、PCと記載)である。このPCは、クロック周波数が3.20[GHz(ギガヘルツ)]のCPU(central processing unit)、およびNVIDIA CUDAコア10496個を備えるGPU(Graphical Processing Unit)を備えている。
 記憶部12は、例えば、最適化装置20に備えられたメモリ、磁気記憶装置によって構成される。記憶部12は、最適変数候補記憶部121と、目的関数値記憶部122と、目標有効サンプルサイズ記憶部123と、逆温度記憶部124と、重み記憶部125と、信念分布記憶部126を備える。本適用例では、記憶部12は、16[GB(ギガバイト)]の記憶容量を備えるGPUメモリである。
 入力装置13は、最適化装置20に接続されたキーボード、マウス、またはタッチパッド等である。
 油圧式ショベルカーMVは、遠隔操縦システムを備える。以下、油圧式ショベルカーMVを、単にショベルカーMVとも記載する。この遠隔操縦システムは、例えばWiFi(登録商標)等の無線通信により最適化装置20と接続している。遠隔操縦システムは、最適化装置20からの制御入力を受信し、その制御入力に従ってショベルカーMVの操作レバーを遠隔操作する。
 本適用例における操作レバーの可動範囲を、図8を参照して説明する。図8は、操作レバーの可動範囲の一例を示す模式図である。図8では、ショベルカーMVのバケット、アーム、およびブームが回転動作可能な回転面における水平方向をX軸とし、垂直方向をY軸とするXY座標系を定義している。図8に示すように、ショベルカーMVは、バケットBおよび図示しない操作レバーを有する。操作レバーの可動範囲は、ショベルカーMVのバケット軸a1、アーム軸a2、ブーム軸a3周りの回転動作に対応する範囲に限定される。各軸の回転動作の方向および強弱は操作レバーの傾きで決まるので、制御入力により操作レバーの傾き加減を指定する。便宜のため、任意の自然数で表される離散時間tにおける制御入力uを下記の式(1)のように定義する。
Figure JPOXMLDOC01-appb-M000002
 各成分は、操作レバーの、バケット軸a1、アーム軸a2、ブーム軸a3回りの回転動作に対応する傾きを表し、-1.0から1.0までの数値で表される。なお、値の正負は、回転動作の方向(操作レバーを傾ける方向)を表す。また、値の絶対値は、傾き加減を表す。例えば、値がゼロである場合は、傾斜が無いことを表す。また、値が1である場合は、傾斜が最大であることを表す。また、制御周期は80ミリ秒とする。
 状態観測装置26は、ショベルカーMVの状態を観測し、観測した状態を最適化装置20に送信する。本適用例では、状態観測装置26は、ショベルカーMVに備えられた慣性計測装置(以下、IMUと記載)である。IMUは、離散時間tにおいて、ショベルカーMVの関節角度、すなわち、図8に示す3つの角度θbucket、θarm、θboomを観測する。θbucketは、バケット軸a1回りの角度を示す。θarmは、アーム軸a2回りの角度を示す。θboomは、ブーム軸a3回りの角度を示す。本適用例では、これらの3つの角度を、離散時間tにおけるショベルカーMVの状態xとして定義し、下記の式(2)のように表す。
Figure JPOXMLDOC01-appb-M000003
 また、観測周期は制御周期に同期しており、制御入力タイミングの直後が観測タイミングとなるようにする。以下、特に断りのない限り、角度は全て[deg.]の単位とする。
 <最適化方法M20Aの流れ>
 以上のように構成された最適化システム2Aは、最適化方法M20Aを実行する。最適化方法M20Aは、最適化方法M20を、ショベルカーMVを対象として実行した具体例である。最適化方法M20Aについて、図9を参照して説明する。図9は、最適化方法M20Aの流れを示すフロー図である。以下、各ステップの詳細について説明する。なお、最適化方法M20と同様の説明については詳細を繰り返さず、異なる点を中心に説明する。
 ステップS1において、ユーザは、入力装置13を用いて、目標有効サンプルサイズおよび初期信念分布を入力する。ここでは、目標有効サンプルサイズとしてNefftarget = 300が入力されたとする。
 ステップS100において、状態観測装置26はショベルカーMVの状態を観測する。
 ステップS101において判定される制御終了条件は、観測された状態xが、参照軌道の最終目標座標に到達した場合に真であるとする。参照起動および目標座標の詳細については後述する。
 ここで、信念分布を定義するために、まず目的変数を定義する。本適用例では、モデル予測制御における予測ホライズンH = 20とし、目的変数を現在離散時間tからt+H-1までのHステップ分の制御入力と定義し、下記の式(3)のように表記する。
Figure JPOXMLDOC01-appb-M000004
 以後、制御入力に限らず他の変数についても、Hステップ先までの各時刻の変数を含むことを表すために「離散時刻:ステップ数」で表す。ここで、信念分布を下記の式(4)のような、多変量ガウス分布で定義する。
Figure JPOXMLDOC01-appb-M000005
 ここで、vt:Hは最適変数候補である。dはutの次元数で、本適用例ではd = 3である。Σはd次元の共分散行列である。本適用例では、初期信念分布としてut:Hの成分を全て0とし、Σの非対角成分を全て0、対角成分を全て0.09に設定する。
 ステップS2において、最適変数候補生成部111は、信念分布記憶部126内の、初回は入力装置13で与えられた初期信念分布、それ以降のループ処理では信念分布更新部115によって更新された信念分布を元に、最適変数候補を複数生成し、最適変数候補記憶部121に記録する。本適用例では、最適変数候補生成数K=64000として、モンテカルロサンプリング(MCサンプリング)を用いて最適変数候補を生成する。
 ステップS3において、目的関数評価部212は、最適変数候補記憶部121内の各最適変数候補について目的関数を評価し、目的関数値記憶部122に記録する。本適用例における目的関数は、現在の状態xからvt:Hの制御入力を順次実行した時の状態の推移(軌道)を予想し、予想した軌道について評価する。まず、状態遷移関数は、下記の式(5)のようにモデル化される。
Figure JPOXMLDOC01-appb-M000006
 f(xt, vt)は例えば、全結合ニューラルネットワークで、ノード数64を持つ全結合層を2層で構成され、tanh関数を活性化関数として使用するモデルである。この状態遷移モデルを再帰的に用いることで、xtとvt:Hから、xt+1:Hが算出される。モデルパラメータは、予めショベルカーMVの運転データを用いて訓練済みであるとする。このxt+1:Hとvt:Hについての総コスト関数を、下記の式(6)のように定義する。
Figure JPOXMLDOC01-appb-M000007
 ここでcは即時コスト関数である。本適用例では軌道追従型の制御システムを構築するため、即時コスト関数を下記の式(7)のように定義する。
Figure JPOXMLDOC01-appb-M000008
 ここでpx,s+1, py,s+1, pθ,s+1は、離散時刻s+1における、図8に示すバケットBの先端点PのX,Y座標[m]および方位角である。px,s+1, py,s+1, pθ,s+1は、ショベルカーの構造からθs+1を元に幾何学的に算出される。prefx,s+1, prefy,s+1, prefθ,s+1は、離散時刻s+1における目標座標である。
 本適用例における参照軌道について、図10を参照して説明する。図10は、参照軌道を説明するための模式図である。図10に示すように、バケットBの先端Pの地平面からの高さを維持しながら、常にバケットBの刃を水平方向に保ちつつ水平移動するように構築される。例えば、参照軌道は、バケットBの先端Pの地平面からの高さ0.89mを維持しながら、ショベルカーMVの旋回軸からX軸方向に0.63m、1.43mの間を水平移動するように構築される。なお、図10の各矢印は参照軌道を構成する目標座標を表し、矢印先端がprefx, prefyを表し、矢印の方向がprefθを表す。なお、急発進、急停止を避けるため、加速・等速・減速の3フェーズを持つように目標座標の配置が調整される。また、図10は、前方向に水平移動するタスクの例だが、後ろ方向タスク用の参照軌道についても、同様の考え方で構築される。ax, ay, aθは、各項のコストの重みを決める係数であり、本適用例ではそれぞれ10000, 10000, 10とする。上記のような総コスト関数と状態遷移関数の合成関数を、本適用例における目的関数Sと定義する。
 ステップS4において、逆温度最適化部113は、目標有効サンプルサイズ記憶部123内の目標有効サンプルサイズNefftargetと、重みの有効サンプルサイズが等しくなるような逆温度λを最適化手法で算出し、逆温度記憶部124に記録する。各最適変数候補についての重みは、尤度を周辺尤度で割った値なので、下記の式(8)のようになる。
Figure JPOXMLDOC01-appb-M000009
 ここでS(vt:H(k))は、ステップS3において、k番目の最適変数候補について評価された目的関数値である。Sminは、全K個の目的関数値における最小の値であり、数値計算の精度を改善するために加えている。本適用例では、下記の式(9)の、Kishの近似有効サンプルサイズを有効サンプルサイズとして採用する。
Figure JPOXMLDOC01-appb-M000010
 ここで記号上部の横棒は、K個の全重みについての算術平均を表す。本適用例では、逆温度最適化部113は、非線形最適化の一種であるブレント法を用いて、下記の式(10)の目的関数を最小化することで、Neff(λ)=Nefftargetとなるようなλを算出し、逆温度記憶部124に記録する。
Figure JPOXMLDOC01-appb-M000011
 ステップS5において、重み評価部114は、目的関数値記憶部122内の各目的関数値についての重み(式(8))を、逆温度記憶部124内の逆温度を元に評価し、重み記憶部125に記録する。
 ステップS6において、信念分布更新部115は、最適変数候補記憶部121内の各最適変数候補と、重み記憶部125内の各重みと、信念分布記憶部126内の信念分布を元に、モーメント一致法で事後信念分布を近似計算し、これを新たな信念分布として信念分布記憶部126に記録する。モーメント一致法を用いるため、近似事後信念分布も式(4)のようなガウス分布になり、その平均パラメータ(制御入力)のut:Hが下記の式(11)のように更新される。
Figure JPOXMLDOC01-appb-M000012
 上記更新後、ユーザ指定の終了条件を満たさない場合(ステップS7・偽の分岐)は、ステップS2からS6までの一連のループ処理が再度実施される。本適用例の終了条件は、ステップS100からの経過時間がステップS7の条件確認の時点で60ミリ秒以上である場合に真であるとする。つまり、時間の猶予がある限りは、更新が繰り返される。
 一方、ユーザ指定の終了条件を満たす場合(ステップS7・真の分岐)には、ステップS108が実行される。ステップS108において、制御入力変換部216は、ステップS6で更新された信念分布を制御入力に変換する。当該変換は下記の通り行われる。
 本適用例では信念分布がガウス分布なので、確率密度が最大となる最適変数候補がガウス分布の平均パラメータut:Hに一致し、すなわちut:Hが最も有望な最適変数候補である。本適用例ではモデル予測制御への応用を想定している。そこで、ステップS109において、制御入力変換部216は、最適変数候補の最初の時刻の要素、つまり離散時刻tの要素utのみを取り出し、これをショベルカーMVに送信する。
 ステップS110において、信念分布加工部217は、信念分布を加工し、信念分布記憶部126に記録する。そして、再びステップS100からのループ処理が繰り返される。本適用例では、モデル予測制御への応用を想定している。そのため、タイムステップを一つずらした信念分布、すなわち離散時刻t+1からt+Hの制御入力についての信念分布への加工が行われる。まず離散時刻t+1からt+H-1の要素については、ut:Hの離散時刻t+1からt+H-1の要素をそのまま採用する。t+Hの要素は初期信念分布を設定した時と同様に、3次元の0ベクトルを採用する。このように構成したut+1:Hを次回の初期信念分布のパラメータとして採用する。なお、ループ処理によりステップS100に移行する際はt←t+1とする。
 <本適用例の効果>
 本適用例の効果について、図11、図12のグラフ、および図13、図14の表を参照して説明する。図11~図14は、逆温度を固定した場合(非特許文献1および2の関連技術)と、逆温度を自動調整した場合(本適用例)とにおける制御システムとしての性能を比較するための図および表である。また、図11のグラフおよび図13の表は、バケットBの先端Pを前方向に水平移動させるタスクについて評価したものである。また、図12のグラフおよび図14の表は、バケットBの先端Pを後ろ方向に水平移動させるタスクについて評価したものである。
 本性能評価はショベルカーMVのシミュレーションによって行い、以下の各設定について300回の試行を元に、平均値と1σ信頼区間を算出した。なお、図13、図14の表において1σ信頼区間は丸括弧で表記している。設定は合計8種であり、λ=30, 100, 300, 1000で固定した場合と、本適用例のように逆温度を自動調整する際のNefftarget=30, 100, 300, 1000にした場合について実験を行った。図11、図12のグラフおよび図13、図14の表において、上記設定をそれぞれlam30, lam100, lam300, lam1000, ess30, ess100, ess300、ess1000と表記することにする。
 なお、本シミュレーションでは、疑似的なパルス型の外乱を20タイムステップ毎に加算する。このパルス型の外乱は、外乱が発生する離散時刻tにおいて、(θbucket,t, θarm,t, θboom,t) の値に (+4.5, -4.5, +7.5)[deg.]の量だけ変化させる。この外乱は事前に予知できないものと仮定して、目的関数評価部212における軌道推定時において外乱を考慮できない設定とする。つまり、外乱が発生する際は必ず予想していた軌道から大きくずれるため、信念分布を迅速かつ正確に修正することが要求される。
 図11、図12のグラフおよび図13、図14の表におけるFailure Rate(失敗率)は、目標座標と現在の座標との差分(|px-prefx|, |py-prefy|, |pθ-prefθ|) について、いずれかが (0.1m, 0.1m, 10deg.)を超えた際に失敗とみなし、その時点でタスクを終了する。主に失敗は、外乱発生後に、信念分布を迅速かつ正確に修正できない場合に生じやすい。なお、ess300、ess1000については、全試行300回中に1回も失敗しなかったため、図11、図13において失敗率は0と表記することとする。Regret(後悔)は、最適な制御則に対する総コストの差分を表す。ただし、本タスク設定における最適な制御則を予め知ることは難しいため、本評価では全設定全試行の中で最も低かった総コストからの差分を表すことにする。なお、後悔は、失敗しなかったタスクについてのみ評価する。このため、失敗率の高い設定においてはサンプルサイズが小さくなるため、1σ信頼区間が大きくなっている。また、図13、図14の表において、網掛けの文字および斜線パターンの文字は、失敗率、後悔の各カテゴリーにおけるトップ2および3~4位を表す。
 図11、図12のグラフおよび図13、図14の表に示される結果によれば、失敗率、後悔の観点で、前方向・後ろ方向タスクの両方共に優れている設定は全体的にess系であり、特にess300又はess1000は両タスクの失敗率、後悔の観点で共にトップ2の性能であることが分かる。
 前方向タスクにおいては、lam系の設定における最小の失敗率が3%であるのに対し、ess系の設定は全て3%以下であり、特にess300、ess1000は0%である。後悔についても、lam系での最小の後悔(lam300、15,933)に対し、ess系での最小の後悔(ess1000、13,933)は約1.14倍改善している。
 後ろ方向タスクにおいては、lam系の設定における最小の失敗率1.7%であるのに対し、ess300、ess1000は1%, 0.7%である。後悔についても、lam系での最小の後悔(lam300、92,227)に対し、ess系での最小の後悔(ess300、35,655)は約2.59倍改善している。
 また、ess系の目標有効サンプルサイズが増加するに従い、失敗率が減少する傾向があることも分かる。この傾向は、本適用例の最適化システム2Aにおいては、目標有効サンプルサイズが増加するにつれ、サンプリング誤差が減少するからである。また、上記サンプリング誤差が許容できる範囲において、目標有効サンプルサイズを可能な限り小さく取ることで、更新の安定性と効率性の両方をバランス良く担保でき、ess300のように失敗率を低く保ちながら後悔も小さくすることができた。あるいは、より大きく目標有効サンプルサイズを取ることで、更新の安定性を重視することもでき、ess1000のように失敗率をより低くすることもできた。総じて、本適用例の最適化システム2Aは、モデル予測制御の応用として活用でき、かつ、有効サンプルサイズを一定に保つように逆温度を自動調整することで、逆温度の調整困難性を改善することができた。
 以上、これまで述べてきた各例示的実施形態および適用例は、本発明の好適な実施形態であり、各例示的実施形態および適用例のみに本発明の範囲を限定する物ではなく、本発明の要旨を逸脱しない範囲において諸々の変更を施した形態での実施が可能である。
 〔ソフトウェアによる実現例〕
 最適化装置10、20の一部又は全部の機能は、集積回路(ICチップ)等のハードウェアによって実現してもよいし、ソフトウェアによって実現してもよい。
 後者の場合、最適化装置10、20は、例えば、各機能を実現するソフトウェアであるプログラムの命令を実行するコンピュータによって実現される。このようなコンピュータの一例(以下、コンピュータCと記載する)を図17に示す。コンピュータCは、少なくとも1つのプロセッサC1と、少なくとも1つのメモリC2と、を備えている。メモリC2には、コンピュータCを最適化装置10、20として動作させるためのプログラムPが記録されている。コンピュータCにおいて、プロセッサC1は、プログラムPをメモリC2から読み取って実行することにより、最適化装置10、20の各機能が実現される。
 プロセッサC1としては、例えば、CPU(Central Processing Unit)、GPU(Graphic Processing Unit)、DSP(Digital Signal Processor)、MPU(Micro Processing Unit)、FPU(Floating point number Processing Unit)、PPU(Physics Processing Unit)、マイクロコントローラ、又は、これらの組み合わせなどを用いることができる。メモリC2としては、例えば、フラッシュメモリ、HDD(Hard Disk Drive)、SSD(Solid State Drive)、又は、これらの組み合わせなどを用いることができる。
 なお、コンピュータCは、プログラムPを実行時に展開したり、各種データを一時的に記憶したりするためのRAM(Random Access Memory)を更に備えていてもよい。また、コンピュータCは、他の装置との間でデータを送受信するための通信インタフェースを更に備えていてもよい。また、コンピュータCは、キーボードやマウス、ディスプレイやプリンタなどの入出力機器を接続するための入出力インタフェースを更に備えていてもよい。
 また、プログラムPは、コンピュータCが読み取り可能な、一時的でない有形の記録媒体Mに記録することができる。このような記録媒体Mとしては、例えば、テープ、ディスク、カード、半導体メモリ、又はプログラマブルな論理回路などを用いることができる。コンピュータCは、このような記録媒体Mを介してプログラムPを取得することができる。また、プログラムPは、伝送媒体を介して伝送することができる。このような伝送媒体としては、例えば、通信ネットワーク、又は放送波などを用いることができる。コンピュータCは、このような伝送媒体を介してプログラムPを取得することもできる。
 〔付記事項1〕
 本発明は、上述した実施形態に限定されるものでなく、請求項に示した範囲で種々の変更が可能である。例えば、上述した実施形態に開示された技術的手段を適宜組み合わせて得られる実施形態についても、本発明の技術的範囲に含まれる。
 〔付記事項2〕
 上述した実施形態の一部又は全部は、以下のようにも記載され得る。ただし、本発明は、以下の記載する態様に限定されるものではない。
 (付記1)
 信念分布に基づき、複数の最適変数候補を生成する最適変数候補生成手段と、
 前記複数の最適変数候補の各々について、目的関数を評価する目的関数評価手段と、
 入力された目標有効サンプルサイズと、前記目的関数についての重みの有効サンプルサイズとが同程度となるような逆温度を、最適化手法を用いて算出する逆温度最適化手段と、
 前記逆温度に基づき、前記目的関数についての重みを計算する重み評価手段と、
 前記最適変数候補、前記重み、および前記信念分布に基づき、前記信念分布を更新する信念分布更新手段と、
 を備える最適化装置。
 (付記2)
 前記最適変数候補生成手段は、入力された初期信念分布、または前記信念分布更新手段により更新された信念分布に基づき、前記複数の最適変数候補を生成する、
付記1に記載の最適化装置。
 (付記3)
 前記目的関数評価手段は、状態観測装置が観測する制御対象の状態に依存した前記目的関数を、前記複数の最適変数候補の各々について評価する
付記1または2に記載の最適化装置。
 (付記4)
 前記信念分布更新手段により更新された信念分布に基づき、所定の変換規則に従って制御入力を算出し、算出された制御入力を制御対象に送信する制御入力変換手段、
をさらに備えている付記1から3の何れか1つに記載の最適化装置。
 (付記5)
 あるステップにおいて前記信念分布更新手段により更新された信念分布を、次ステップにおける、前記最適変数候補生成手段、前記目的関数評価手段、前記逆温度最適化手段、前記重み評価手段、および前記信念分布更新手段による処理のために加工する信念分布加工手段、
をさらに備えている付記1から4の何れか1つに記載の最適化装置。
 (付記6)
 信念分布に基づき、複数の最適変数候補を生成することと、
 前記複数の最適変数候補の各々について、目的関数を評価することと、
 入力された目標有効サンプルサイズと、前記目的関数についての重みの有効サンプルサイズとが同程度となるような逆温度を、最適化手法を用いて算出することと、
 前記逆温度に基づき、前記目的関数についての重みを計算することと、
 前記最適変数候補、前記重み、および前記信念分布に基づき、前記信念分布を更新することと、
 を含む最適化方法。
 (付記7)
 前記複数の最適変数候補を生成する工程の前に、
 目標有効サンプルサイズおよび初期信念分布の入力を受け付けること、
をさらに含む付記6に記載の最適化方法。
 (付記8)
 前記更新する工程の後に、
 所定の終了条件を満たす場合に、前記更新後の信念分布を出力することと、
 所定の終了条件を満たさない場合に、前記複数の最適変数候補を生成する工程からループ処理を実行することと、
をさらに含む付記6または7に記載の最適化方法。
 (付記9)
 コンピュータを最適化装置として機能させるためのプログラムであって、前記コンピュータを、
 信念分布に基づき、複数の最適変数候補を生成する最適変数候補生成手段と、
 前記複数の最適変数候補の各々について、目的関数を評価する目的関数評価手段と、
 入力された目標有効サンプルサイズと、前記目的関数についての重みの有効サンプルサイズとが同程度となるような逆温度を、最適化手法を用いて算出する逆温度最適化手段と、
 前記逆温度に基づき、前記目的関数についての重みを計算する重み評価手段と、
 前記最適変数候補、前記重み、および前記信念分布に基づき、信念分布を更新する信念分布更新手段と、
として機能させるプログラム。
 〔付記事項3〕
 上述した実施形態の一部又は全部は、更に、以下のように表現することもできる。
 少なくとも1つのプロセッサを備え、前記プロセッサは、信念分布に基づき、複数の最適変数候補を生成する最適変数候補生成処理と、
 前記複数の最適変数候補の各々について、目的関数を評価する目的関数評価処理と、
 入力された目標有効サンプルサイズと、前記目的関数についての重みの有効サンプルサイズとが同程度となるような逆温度を、最適化手法を用いて算出する逆温度最適化処理と、
 前記逆温度に基づき、前記目的関数についての重みを計算する重み評価処理と、
 前記最適変数候補、前記重み、および前記信念分布に基づき、信念分布を更新する信念分布更新処理と、を実行する最適化装置。
 なお、この最適化装置は、更にメモリを備えていてもよく、このメモリには、前記最適変数候補生成処理と、前記目的関数評価処理と、前記逆温度最適化処理と、前記重み評価処理と、前記信念分布更新処理と、を前記プロセッサに実行させるためのプログラムが記憶されていてもよい。また、このプログラムは、コンピュータ読み取り可能な一時的でない有形の記録媒体に記録されていてもよい。
1、2、2A、9 最適化システム
10、20、90、100 最適化装置
11、21、91、911 制御部
12、92
13、93 入力装置
14、94 出力装置
24 観測装置
125、925 重み記憶部
25 制御対象
26 状態観測装置
101、111、911 最適変数候補生成部
102、112、212、912 目的関数評価部
103、113 逆温度最適化部
104、114、914 重み評価部
105、115、915 信念分布更新部
121、921 最適変数候補記憶部
122、922 目的関数値記憶部
123 目標有効サンプルサイズ記憶部
124、924 逆温度記憶部
126、926 信念分布記憶部
216 制御入力変換部
217 信念分布加工部
C1 プロセッサ
C2 メモリ

 

Claims (9)

  1.  信念分布に基づき、複数の最適変数候補を生成する最適変数候補生成手段と、
     前記複数の最適変数候補の各々について、目的関数を評価する目的関数評価手段と、
     入力された目標有効サンプルサイズと、前記目的関数についての重みの有効サンプルサイズとが同程度となるような逆温度を、最適化手法を用いて算出する逆温度最適化手段と、
     前記逆温度に基づき、前記目的関数についての重みを計算する重み評価手段と、
     前記最適変数候補、前記重み、および前記信念分布に基づき、前記信念分布を更新する信念分布更新手段と、
     を備える最適化装置。
  2.  前記最適変数候補生成手段は、入力された初期信念分布、または前記信念分布更新手段により更新された信念分布に基づき、前記複数の最適変数候補を生成する、
    請求項1に記載の最適化装置。
  3.  前記目的関数評価手段は、状態観測装置が観測する制御対象の状態に依存した前記目的関数を、前記複数の最適変数候補の各々について評価する
    請求項1または2に記載の最適化装置。
  4.  前記信念分布更新手段により更新された信念分布に基づき、所定の変換規則に従って制御入力を算出し、算出された制御入力を制御対象に送信する制御入力変換手段、
    をさらに備えている請求項1または2に記載の最適化装置。
  5.  あるステップにおいて前記信念分布更新手段により更新された信念分布を、次ステップにおける、前記最適変数候補生成手段、前記目的関数評価手段、前記逆温度最適化手段、前記重み評価手段、および前記信念分布更新手段による処理のために加工する信念分布加工手段、
    をさらに備えている請求項1または2に記載の最適化装置。
  6.  信念分布に基づき、複数の最適変数候補を生成することと、
     前記複数の最適変数候補の各々について、目的関数を評価することと、
     入力された目標有効サンプルサイズと、前記目的関数についての重みの有効サンプルサイズとが同程度となるような逆温度を、最適化手法を用いて算出することと、
     前記逆温度に基づき、前記目的関数についての重みを計算することと、
     前記最適変数候補、前記重み、および前記信念分布に基づき、前記信念分布を更新することと、
     を含む最適化方法。
  7.  前記複数の最適変数候補を生成する工程の前に、
     前記目標有効サンプルサイズおよび初期信念分布の入力を受け付けること、
    をさらに含む請求項6に記載の最適化方法。
  8.  前記更新する工程の後に、
     所定の終了条件を満たす場合に、前記更新後の信念分布を出力することと、
     所定の終了条件を満たさない場合に、前記複数の最適変数候補を生成する工程からループ処理を実行することと、
    をさらに含む請求項6または7に記載の最適化方法。
  9.  コンピュータを最適化装置として機能させるためのプログラムであって、前記コンピュータを、
     信念分布に基づき、複数の最適変数候補を生成する最適変数候補生成手段と、
     前記複数の最適変数候補の各々について、目的関数を評価する目的関数評価手段と、
     入力された目標有効サンプルサイズと、前記目的関数についての重みの有効サンプルサイズとが同程度となるような逆温度を、最適化手法を用いて算出する逆温度最適化手段と、
     前記逆温度に基づき、前記目的関数についての重みを計算する重み評価手段と、
     前記最適変数候補、前記重み、および前記信念分布に基づき、前記信念分布を更新する信念分布更新手段と、
    として機能させるプログラム。

     
PCT/JP2022/022680 2022-06-03 2022-06-03 最適化装置、最適化方法、およびプログラム WO2023233664A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/022680 WO2023233664A1 (ja) 2022-06-03 2022-06-03 最適化装置、最適化方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/022680 WO2023233664A1 (ja) 2022-06-03 2022-06-03 最適化装置、最適化方法、およびプログラム

Publications (1)

Publication Number Publication Date
WO2023233664A1 true WO2023233664A1 (ja) 2023-12-07

Family

ID=89026218

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/022680 WO2023233664A1 (ja) 2022-06-03 2022-06-03 最適化装置、最適化方法、およびプログラム

Country Status (1)

Country Link
WO (1) WO2023233664A1 (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021511584A (ja) * 2018-01-17 2021-05-06 アンラーン.エーアイ, インコーポレイテッド 確率分布をモデル化するためのシステムおよび方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021511584A (ja) * 2018-01-17 2021-05-06 アンラーン.エーアイ, インコーポレイテッド 確率分布をモデル化するためのシステムおよび方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
RYOTA HASEGAWA, MASATO OKADA, SEIJI MIYOSHI: "Image restoration / image segmentation / region-based latent variables / belief propagation / variational Bayesian method", IEICE TECHNICAL RESEARCH REPORT; NC, IEICE, JP, vol. 111, no. 157 (NC2011-35), 18 July 2011 (2011-07-18), JP, pages 81 - 86, XP009551043 *
WILLIAMS GRADY; DREWS PAUL; GOLDFAIN BRIAN; REHG JAMES M.; THEODOROU IEVANGELOS A.: "Information-Theoretic Model Predictive Control: Theory and Applications to Autonomous Driving", IEEE TRANSACTIONS ON ROBOTICS., IEEE SERVICE CENTER, PISCATAWAY, NJ., US, vol. 34, no. 6, 1 December 2018 (2018-12-01), US , pages 1603 - 1622, XP011700245, ISSN: 1552-3098, DOI: 10.1109/TRO.2018.2865891 *

Similar Documents

Publication Publication Date Title
Arbabi et al. A data-driven koopman model predictive control framework for nonlinear partial differential equations
Meyer et al. Taming an autonomous surface vehicle for path following and collision avoidance using deep reinforcement learning
Hong et al. Novel chaotic bat algorithm for forecasting complex motion of floating platforms
JP6824382B2 (ja) 複数の機械学習タスクに関する機械学習モデルのトレーニング
VanDyke et al. Unscented Kalman filtering for spacecraft attitude state and parameter estimation
Steinbring et al. LRKF revisited: The smart sampling Kalman filter (S2KF)
Spall An overview of the simultaneous perturbation method for efficient optimization
US8346711B2 (en) Method for identifying multi-input multi-output Hammerstein models
US6665651B2 (en) Control system and technique employing reinforcement learning having stability and learning phases
US20220326664A1 (en) Improved machine learning for technical systems
KR20200031163A (ko) 신경 네트워크 구조의 생성 방법 및 장치, 전자 기기, 저장 매체
Kretchmar et al. Robust reinforcement learning control with static and dynamic stability
Rückert et al. Learned graphical models for probabilistic planning provide a new class of movement primitives
Van Hoof et al. Learning of non-parametric control policies with high-dimensional state features
Martinez-Cantin Bayesian optimization with adaptive kernels for robot control
CN101819682A (zh) 基于马尔科夫链蒙特卡洛粒子滤波的目标跟踪方法
CN104462015B (zh) 处理非高斯Lévy噪声的分数阶线性离散系统状态更新方法
CN104376581A (zh) 一种采用自适应重采样的高斯混合无迹粒子滤波算法
US20210192111A1 (en) Neural Reparameterization for Optimization of Physical Designs
JP7416267B2 (ja) 調整システム、調整方法および調整プログラム
JP2017049907A (ja) ニューラルネットワーク、その学習方法、及びコンピュータプログラム
WO2023233664A1 (ja) 最適化装置、最適化方法、およびプログラム
Zhang et al. A double-loop control framework for AUV trajectory tracking under model parameters uncertainties and time-varying currents
Sustika et al. Nonlinear-filtering with interacting multiple-model algorithm for coastal radar target tracking system
CN115793438A (zh) 一种基于srsm和nipc的飞行器鲁棒轨迹优化方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22944941

Country of ref document: EP

Kind code of ref document: A1