WO2021161374A1 - 制御装置及び学習装置 - Google Patents

制御装置及び学習装置 Download PDF

Info

Publication number
WO2021161374A1
WO2021161374A1 PCT/JP2020/005098 JP2020005098W WO2021161374A1 WO 2021161374 A1 WO2021161374 A1 WO 2021161374A1 JP 2020005098 W JP2020005098 W JP 2020005098W WO 2021161374 A1 WO2021161374 A1 WO 2021161374A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
learning
control amount
moving body
dynamic obstacle
Prior art date
Application number
PCT/JP2020/005098
Other languages
English (en)
French (fr)
Inventor
沙織 松永
卓爾 森本
利貞 毬山
Original Assignee
三菱電機株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 三菱電機株式会社 filed Critical 三菱電機株式会社
Priority to PCT/JP2020/005098 priority Critical patent/WO2021161374A1/ja
Priority to JP2020535671A priority patent/JP6896179B1/ja
Priority to CN202080089967.5A priority patent/CN115039048A/zh
Priority to TW109121547A priority patent/TW202132932A/zh
Publication of WO2021161374A1 publication Critical patent/WO2021161374A1/ja
Priority to US17/720,835 priority patent/US20220234195A1/en

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1674Programme controls characterised by safety, monitoring, diagnostic
    • B25J9/1676Avoiding collision or forbidden zones
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • B25J9/163Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/39Robotics, robotics to robotics hand
    • G05B2219/39091Avoid collision with moving obstacles
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/40Robotics, robotics mapping to robotics vision
    • G05B2219/40201Detect contact, collision with human

Definitions

  • This disclosure relates to a control device and a learning device.
  • Patent Document 1 discloses such a technique.
  • the conventional technique predicts the movement of a dynamic obstacle based on a predetermined rule by using the information collected by the sensors. That is, the prior art predicts the movement of dynamic obstacles on a so-called "rule basis”. Therefore, it is required to set rules for prediction.
  • the present disclosure has been made to solve the above-mentioned problems, and an object of the present disclosure is to correctly control the movement of an autonomous moving body according to the movement of a dynamic obstacle.
  • the control device indicates movement speed information indicating the movement speed of the autonomous moving body, relative position information indicating the relative position of the dynamic obstacle with respect to the autonomous moving body, and relative speed of the dynamic obstacle with respect to the autonomous moving body.
  • the data acquisition unit that acquires the inference data including the relative speed information and the inference data or the preprocessed inference data corresponding to the inference data
  • the movement of the autonomous moving body is made according to the movement of the dynamic obstacle.
  • a control amount calculation unit that calculates a control amount for control and a control unit that controls the movement of an autonomous moving body using the control amount are provided, and the control amount calculation unit uses a trained model by machine learning.
  • the trained model accepts the input of the inference data or the preprocessed inference data and outputs the control amount.
  • the movement of the autonomous moving body can be correctly controlled according to the movement of the dynamic obstacle.
  • FIG. It is a block diagram which shows the main part of the control device which concerns on Embodiment 1.
  • FIG. It is a block diagram which shows the main part of the learning apparatus which concerns on Embodiment 1.
  • FIG. It is explanatory drawing which shows the example of the bird's-eye view image. It is explanatory drawing which shows the example of the neural network.
  • It is a block diagram which shows the hardware composition of the main part of the control device which concerns on Embodiment 1.
  • FIG. It is a block diagram which shows the other hardware configuration of the main part of the control device which concerns on Embodiment 1.
  • FIG. It is a block diagram which shows the other hardware configuration of the main part of the control device which concerns on Embodiment 1.
  • FIG. It is a block diagram which shows the other hardware configuration of the main part of the control device which concerns on Embodiment 1.
  • FIG. 1 It is a block diagram which shows the hardware composition of the main part of the learning apparatus which concerns on Embodiment 1.
  • FIG. It is a block diagram which shows the other hardware configuration of the main part of the learning apparatus which concerns on Embodiment 1.
  • FIG. It is a block diagram which shows the other hardware configuration of the main part of the learning apparatus which concerns on Embodiment 1.
  • FIG. It is a flowchart which shows the operation of the control device which concerns on Embodiment 1.
  • FIG. It is a flowchart which shows the operation of the learning apparatus which concerns on Embodiment 1.
  • FIG. It is a block diagram which shows the main part of another control device which concerns on Embodiment 1.
  • FIG. It is a block diagram which shows the main part of another learning apparatus which concerns on Embodiment 1.
  • FIG. It is a block diagram which shows the main part of another learning apparatus which concerns on Embodiment 1.
  • FIG. It is a block diagram which shows the main part of another learning apparatus which concerns on Embodi
  • FIG. 1 is a block diagram showing a main part of the control device according to the first embodiment.
  • FIG. 2 is a block diagram showing a main part of the learning device according to the first embodiment.
  • the control device according to the first embodiment will be described with reference to FIG. Further, the learning device according to the first embodiment will be described with reference to FIG.
  • the control device 100 includes a data acquisition unit 21, a data preprocessing unit 22, a control amount calculation unit 23, and a control unit 24.
  • the data acquisition unit 21 includes information indicating the moving speed V1 of the autonomous moving body 1 (hereinafter referred to as “moving speed information”) and information indicating the relative position P of each dynamic obstacle O with respect to the autonomous moving body 1 (hereinafter referred to as “moving speed information”).
  • moving speed information information indicating the relative position P of each dynamic obstacle O with respect to the autonomous moving body 1
  • relative velocity information information indicating the relative velocity V2 of each dynamic obstacle O with respect to the autonomous moving body 1
  • inference data it acquires D1.
  • the inference data D1 includes movement speed information indicating a plurality of movement speeds V1 corresponding to a plurality of consecutive time Ts, and a plurality of relative positions P corresponding to a plurality of consecutive time Ts. It includes relative position information indicating a plurality of relative velocities V2 indicating a plurality of relative velocities V2 corresponding to a plurality of consecutive time Ts. That is, the inference data D1 is formed by associating a plurality of moving speeds V1, a plurality of relative positions P, and a plurality of relative speeds V2 in time series. In other words, the inference data D1 is composed of time series data.
  • the inference data D1 is acquired by using the information source 2.
  • the information source 2 includes, for example, a laser radar, a camera, a millimeter wave radar, a sonar, an inertial sensor, a GPS (Global Positioning System) receiver, and a wheel speed sensor. That is, the information source 2 may be mounted on the autonomous mobile body 1.
  • the autonomous mobile body 1 is, for example, an automatic guided vehicle that runs in a factory.
  • each dynamic obstacle O is, for example, a manned mobile body for work traveling in the same factory or a worker moving in the same factory.
  • the manned mobile for work is, for example, a forklift.
  • an example will be mainly described in which the autonomous mobile body 1 is an automatic guided vehicle and each dynamic obstacle O is a manned mobile body or a worker for work.
  • the data preprocessing unit 22 generates preprocessed data (hereinafter referred to as "preprocessed inference data") D2 by executing preprocessing on the inference data D1.
  • the preprocessed inference data D2 includes image data D3 showing a bird's-eye view image I1 of the region R including the autonomous moving body 1.
  • the image data D3 shows a plurality of bird's-eye view images I1 corresponding to a plurality of consecutive time Ts. That is, the image data D3 is composed of time series data. As a result, the image data D3 shows the time change of the relative position P and the time change of the relative velocity V2 for each dynamic obstacle O. In other words, the image data D3 shows the movement of each dynamic obstacle O.
  • the data preprocessing unit 22 uses the inference data D1 to generate the following image I2. That is, the data preprocessing unit 22 generates an image I2 centered on the position of the autonomous moving body 1 and has an angle of looking down on the plane on which the autonomous moving body 1 moves from directly above.
  • the autonomous mobile body 1 may be represented by an abstract illustration i1.
  • each dynamic obstacle O may be represented by an abstract illustration i2.
  • the individual pixels in the image I2 may have color values, may have luminance values, or may have color and luminance values. That is, the image I2 may be a color image or a monochrome image.
  • the data preprocessing unit 22 generates a bird's-eye view image I1 by cutting out a portion of the image I2 corresponding to the region R.
  • the cutout range is set according to the moving speed V1 and the relative speed V2. That is, the size of the region R is set according to the moving speed V1 and the relative speed V2.
  • FIG. 3 shows an example of the bird's-eye view image I1 generated in this way.
  • the autonomous mobile body 1 is represented by a square-shaped illustration i1.
  • one dynamic obstacle O is represented by the circular illustration i2.
  • the control amount calculation unit 23 calculates the control amount A for controlling the movement of the autonomous moving body 1 according to the movement of the dynamic obstacle O by using the preprocessed inference data D2. More specifically, the control amount calculation unit 23 has a control amount A for avoiding the occurrence of path obstruction to the dynamic obstacle O by the autonomous moving body 1, or a collision by the autonomous moving body 1 and the dynamic obstacle O. The control amount A for avoiding the occurrence of As a result, the control amount A for avoiding the occurrence of work obstruction to the dynamic obstacle O by the autonomous mobile body 1 is calculated.
  • control amount calculation unit 23 uses the trained model M by machine learning.
  • the trained model M is stored in the trained model storage unit 11 of the storage device 3.
  • the storage device 3 is composed of a memory.
  • the trained model M accepts the input of the preprocessed inference data D2 and outputs the control amount A as described above.
  • the trained model M is composed of, for example, a neural network N.
  • FIG. 4 shows an example of the neural network N.
  • the neural network N has an input layer X, an intermediate layer (so-called “hidden layer”) Y, and an output layer Z.
  • the input layer X has a plurality of nodes x_1 to x_3.
  • the intermediate layer Y has a plurality of nodes y_1 and y_2.
  • the output layer Z has a plurality of nodes z_1 to z_3.
  • the link L_1 between the input layer X and the intermediate layer Y corresponds to the weight W_1. More specifically, the plurality of links L_1_1 to L_1_6 correspond to the plurality of weights W_1_1 to W_1_6, respectively.
  • the link L_2 between the intermediate layer Y and the output layer Z corresponds to the weight W_2. More specifically, the plurality of links L_1 to L_2_6 correspond to the plurality of weights W_2_1 to W_2_6, respectively.
  • the individual nodes x, y, z correspond to the operation of adding the input values. Further, each link L corresponds to an operation of multiplying the corresponding weights W. Therefore, the correspondence between the value input to the input layer X and the value output by the output layer Z differs depending on the individual weights W.
  • the neural network N may have a plurality of intermediate layers Y.
  • the control unit 24 controls the movement of the autonomous moving body 1 by using the control amount ⁇ calculated by the control amount calculation unit 23 (that is, the control amount ⁇ output by the trained model M). As a result, the movement of the autonomous mobile body 1 is controlled according to the movement of the dynamic obstacle O.
  • control unit 24 executes control for operating the steering in the autonomous moving body 1 based on the control amount A.
  • control unit 24 executes control to operate the brake in the autonomous mobile body 1 based on the control amount A.
  • the movement of the autonomous moving body 1 so as to avoid the occurrence of path obstruction to the dynamic obstacle O by the autonomous moving body 1 or to avoid the occurrence of a collision by the autonomous moving body 1 and the dynamic obstacle O. is controlled.
  • the movement of the autonomous moving body 1 is controlled so as to avoid the occurrence of work obstruction to the dynamic obstacle O by the autonomous moving body 1.
  • the control device 100 may be mounted on the autonomous mobile body 1.
  • the control device 100 may be provided outside the autonomous mobile body 1 and may be capable of communicating with the autonomous mobile body 1. That is, the control device 100 may be configured by, for example, a server capable of communicating with the autonomous mobile body 1. Such a server may use a cloud server. The same applies to the storage device 3.
  • the learning device 200 has a data acquisition unit 31, a data preprocessing unit 32, a data selection unit 33, and a model generation unit 34.
  • the data acquisition unit 31 has a first data acquisition unit 41 and a second data acquisition unit 42.
  • the model generation unit 34 has a learning model M'and a learning device 43.
  • the first data acquisition unit 41 includes information indicating the moving speed V1'of the autonomous moving body 1 (that is, moving speed information) and information indicating the relative position P'of each dynamic obstacle O'with respect to the autonomous moving body 1 (that is,).
  • Data hereinafter referred to as "first learning data"
  • D11 including information (relative position information) and information indicating the relative velocity V2'of each dynamic obstacle O'with respect to the autonomous moving body 1 (that is, relative velocity information) is acquired. Is what you do.
  • the first learning data D11 includes movement speed information indicating a plurality of movement speeds V1'corresponding to a plurality of consecutive times T', and a plurality of data D11 corresponding to a plurality of consecutive times T'. It includes relative position information indicating the relative positions P'and relative velocity information indicating a plurality of relative velocities V2'corresponding to a plurality of consecutive time T's. That is, the first learning data D11 is formed by associating a plurality of moving speeds V1', a plurality of relative positions P', and a plurality of relative speeds V2'in time series. In other words, the first learning data D11 is composed of time series data.
  • the second data acquisition unit 42 acquires data (hereinafter referred to as "second learning data") D12 including the correct answer value of the control amount A'in the state corresponding to the first learning data D11. More specifically, the second learning data D12 includes the correct answer value of the control amount ⁇ 'for controlling the movement of the autonomous moving body 1 according to the movement of the dynamic obstacle O'. That is, the second learning data D12 is the correct answer value of the control amount ⁇ 'for avoiding the occurrence of the course obstruction to the dynamic obstacle O'by the autonomous moving body 1, or the autonomous moving body 1 and the dynamic obstacle O. It includes the correct answer value of the control amount ⁇ 'to avoid the occurrence of collision due to'. In other words, the second learning data D12 includes the correct answer value of the control amount ⁇ 'for avoiding the occurrence of work obstruction to the dynamic obstacle O'by the autonomous mobile body 1.
  • second learning data D12 includes the correct answer value of the control amount ⁇ 'for avoiding the occurrence of work obstruction to the dynamic obstacle O'by the autonomous mobile body 1.
  • the first learning data D11 is, for example, collected by using the actual machine of the autonomous mobile body 1.
  • the first learning data D11 is, for example, collected using a dedicated simulator.
  • the second learning data D12 is, for example, input by a person.
  • the data preprocessing unit 32 generates preprocessed data (hereinafter referred to as "preprocessed learning data") D13 by executing preprocessing on the first learning data D11.
  • the preprocessed learning data D13 includes image data D14 showing a bird's-eye view image I11 of the region R including the autonomous moving body 1.
  • the image data D14 shows a plurality of bird's-eye view images I11 corresponding to a plurality of consecutive time T'. That is, the image data D14 is composed of time series data. As a result, the image data D14 shows the time change of the relative position P'and the time change of the relative velocity V2'for each dynamic obstacle O'. In other words, the image data D14 shows the movement of individual dynamic obstacles O'.
  • the method of generating the bird's-eye view image I11 by the data preprocessing unit 32 is the same as the method of generating the bird's-eye view image I1 by the data preprocessing unit 22. Therefore, detailed description thereof will be omitted.
  • the data selection unit 33 selects unnecessary data (hereinafter referred to as "unnecessary data") D15 among the preprocessed learning data D13.
  • the unnecessary data D15 includes data corresponding to a state in which work obstruction to the dynamic obstacle O'by the autonomous mobile body 1 cannot occur (hereinafter referred to as "non-occurrence state").
  • the unnecessary data D15 includes image data D14 showing a bird's-eye view image I11 that does not include any dynamic obstacle O'.
  • the data selection unit 33 outputs data D16 excluding unnecessary data D15 among the preprocessed learning data D13 (hereinafter, may be referred to as “selected learning data”).
  • the output sorted learning data D16 is stored in the learning data storage unit 12 of the storage device 4.
  • the storage device 4 is composed of a memory.
  • the learning model M' accepts the input of the selected learning data D16.
  • the learning model M' is composed of, for example, a neural network N.
  • the learning model M' can be freely learned by machine learning. More specifically, the learning model M'is free to learn by so-called "imitation learning”.
  • the learning device 43 trains the learning model M'using the second learning data D12 and the control amount A'.
  • the learning device 43 compares the control amount A'output by the learning model M'with the correct answer value indicated by the second learning data D12.
  • the learner 43 selects one or more of the plurality of parameters in the training model M'in accordance with the result of such comparison, and updates the value of the selected parameter.
  • the individual parameters in the training model M' correspond to, for example, the weight W in the neural network N.
  • the learning device 43 updates the parameter value so that the control amount ⁇ 'output by the learning model M'gradually approaches the correct answer value.
  • the trained model M as described above is generated. That is, a learned model M is generated that accepts the input of the inference data D1 and outputs the control amount ⁇ for avoiding the occurrence of work obstruction to the dynamic obstacle O by the autonomous mobile body 1.
  • the learner 43 outputs the generated trained model M.
  • the output learned model M is stored in the learned model storage unit 11 of the storage device 3.
  • the learning device 200 may be mounted on the autonomous mobile body 1.
  • the learning device 200 may be provided outside the autonomous mobile body 1 and may be capable of communicating with the autonomous mobile body 1. That is, the learning device 200 may be configured by, for example, a server capable of communicating with the autonomous mobile body 1. Such a server may use a cloud server. The same applies to the storage device 4.
  • the code of "F1" may be used for the function of the data acquisition unit 21. Further, the code of "F2” may be used for the function of the data preprocessing unit 22. Further, the reference numeral “F3” may be used for the function of the control amount calculation unit 23. Further, the reference numeral “F4" may be used for the function of the control unit 24.
  • the code of "F11” may be used for the function of the data acquisition unit 31.
  • the reference numeral “F12” may be used for the function of the data preprocessing unit 32.
  • the reference numeral “F13” may be used for the function of the data sorting unit 33.
  • the reference numeral “F14” may be used for the function of the model generation unit 34.
  • the processes executed by the data acquisition unit 21 may be collectively referred to as “data acquisition processes”.
  • the processes executed by the data preprocessing unit 22 may be collectively referred to as “data preprocessing”.
  • the processes executed by the control amount calculation unit 23 may be collectively referred to as “control amount calculation process”.
  • the processing and control executed by the control unit 24 may be collectively referred to as "mobile control”.
  • the processes executed by the data acquisition unit 31 may be collectively referred to as “data acquisition process”.
  • the processes executed by the data preprocessing unit 32 may be collectively referred to as “data preprocessing”.
  • the processes executed by the data selection unit 33 may be collectively referred to as “data selection process”.
  • the processes executed by the model generation unit 34 may be collectively referred to as "model generation process”.
  • the control device 100 has a processor 51 and a memory 52.
  • the memory 52 stores programs corresponding to a plurality of functions F1 to F4.
  • the processor 51 reads and executes the program stored in the memory 52. As a result, a plurality of functions F1 to F4 are realized.
  • the control device 100 has a processing circuit 53.
  • the processing circuit 53 executes processing corresponding to a plurality of functions F1 to F4. As a result, a plurality of functions F1 to F4 are realized.
  • the control device 100 includes a processor 51, a memory 52, and a processing circuit 53.
  • the memory 52 stores programs corresponding to some of the plurality of functions F1 to F4.
  • the processor 51 reads and executes the program stored in the memory 52. As a result, some of these functions are realized.
  • the processing circuit 53 executes processing corresponding to the remaining functions of the plurality of functions F1 to F4. As a result, such a residual function is realized.
  • the processor 51 is composed of one or more processors.
  • processors for example, a CPU (Central Processing Unit), a GPU (Graphics Processing Unit), a microprocessor, a microcontroller, or a DSP (Digital Signal Processor) is used.
  • CPU Central Processing Unit
  • GPU Graphics Processing Unit
  • DSP Digital Signal Processor
  • the memory 52 is composed of one or more non-volatile memories.
  • the memory 52 is composed of one or more non-volatile memories and one or more volatile memories. That is, the memory 52 is composed of one or more memories.
  • the individual memory uses, for example, a semiconductor memory, a magnetic disk, an optical disk, a magneto-optical disk, a magnetic tape, or a magnetic drum. More specifically, each volatile memory uses, for example, a RAM (Random Access Memory).
  • the individual non-volatile memories include, for example, a ROM (Read Only Memory), a flash memory, an EPROM (Erasable Programmable Read Only Memory), an EEPROM (Electrically Erasable Programmory), an EEPROM (Electrically Erasable Programmory), a flexible drive disk A compact disc, a DVD (Digital Versaille Disc), a Blu-ray disc, or a mini disc is used.
  • the processing circuit 53 is composed of one or more digital circuits.
  • the processing circuit 53 is composed of one or more digital circuits and one or more analog circuits. That is, the processing circuit 53 is composed of one or more processing circuits.
  • the individual processing circuits are, for example, ASIC (Application Special Integrated Circuit), PLD (Programmable Logic Device), FPGA (Field Programmable Gate Array), FPGA (Field Program Is.
  • the processor 51 is composed of a plurality of processors
  • the correspondence between the plurality of functions F1 to F4 and the plurality of processors is arbitrary. That is, each of the plurality of processors may read and execute a program corresponding to one or more corresponding functions among the plurality of functions F1 to F4.
  • each of the plurality of memories may store a program corresponding to one or more corresponding functions among the plurality of functions F1 to F4.
  • the processing circuit 53 is composed of a plurality of processing circuits
  • the correspondence between the plurality of functions F1 to F4 and the plurality of processing circuits is arbitrary. That is, each of the plurality of processing circuits may execute processing corresponding to one or more corresponding functions among the plurality of functions F1 to F4.
  • the learning device 200 has a processor 61 and a memory 62.
  • the memory 62 stores programs corresponding to a plurality of functions F11 to F14.
  • the processor 61 reads and executes the program stored in the memory 62. As a result, a plurality of functions F11 to F14 are realized.
  • the learning device 200 has a processing circuit 63.
  • the processing circuit 63 executes processing corresponding to the plurality of functions F11 to F14. As a result, a plurality of functions F11 to F14 are realized.
  • the learning device 200 has a processor 61, a memory 62, and a processing circuit 63.
  • a program corresponding to a part of the plurality of functions F11 to F14 is stored in the memory 62.
  • the processor 61 reads and executes the program stored in the memory 62. As a result, some of these functions are realized.
  • the processing circuit 63 executes processing corresponding to the remaining functions of the plurality of functions F11 to F14. As a result, such a residual function is realized.
  • the specific example of the processor 61 is the same as the specific example of the processor 51.
  • the specific example of the memory 62 is the same as the specific example of the memory 52.
  • the specific example of the processing circuit 63 is the same as the specific example of the processing circuit 53. Therefore, detailed description thereof will be omitted.
  • the processor 61 when the processor 61 is composed of a plurality of processors, the correspondence between the plurality of functions F11 to F14 and the plurality of processors is arbitrary. That is, each of the plurality of processors may read and execute a program corresponding to one or more corresponding functions among the plurality of functions F11 to F14.
  • each of the plurality of memories may store a program corresponding to one or more corresponding functions among the plurality of functions F11 to F14.
  • the processing circuit 63 is composed of a plurality of processing circuits
  • the correspondence between the plurality of functions F11 to F14 and the plurality of processing circuits is arbitrary. That is, each of the plurality of processing circuits may execute processing corresponding to one or more corresponding functions among the plurality of functions F11 to F14.
  • the data acquisition unit 21 executes the data acquisition process (step ST1).
  • the data preprocessing unit 22 executes the data preprocessing (step ST2).
  • the control amount calculation unit 23 executes the control amount calculation process (step ST3).
  • the control unit 24 executes the mobile control (step ST4).
  • step ST2 If all the bird's-eye view images I1 generated in step ST2 do not include any dynamic obstacle O, the control device 100 cancels the execution of the processes in steps ST3 and ST4. Is also good. In this case, the process of the control device 100 may return to step ST1.
  • the data acquisition unit 31 executes the data acquisition process (step ST11).
  • the data preprocessing unit 32 executes the data preprocessing (step ST12).
  • the data sorting unit 33 executes the data sorting process (step ST13).
  • the model generation unit 34 executes the model generation process (step ST14).
  • first learning data D11 and the second learning data D12 may be acquired at different timings from each other. That is, the first learning data D11 and the second learning data D12 may be acquired in different steps from each other.
  • the learning device 200 may cancel the execution of the process in step ST14.
  • the conventional control device was rule-based. That is, the conventional control device predicts the movement of the dynamic obstacle based on a predetermined rule and controls the movement of the autonomous moving body according to the predicted movement. Therefore, there is a problem that it is required to set a rule for prediction.
  • the rule base if the movement of the dynamic obstacle is different from the movement assumed at the time of setting the rule, it is difficult to accurately predict the movement of the dynamic obstacle.
  • the movement of a dynamic obstacle is complicated, or when the movement of the dynamic obstacle is diverse, it is difficult to accurately predict the movement of the dynamic obstacle. Therefore, there is a problem that it is difficult to correctly control the movement of the autonomous moving body according to the movement of the dynamic obstacle.
  • the path is obstructed by the autonomous moving body against the dynamic obstacle, or a collision by the autonomous moving body and the dynamic obstacle occurs.
  • control device 100 uses the trained model M by the learning device 200. Therefore, it is not necessary to set a rule for prediction.
  • the movement of the autonomous moving body 1 can be correctly controlled according to the movement of the dynamic obstacle O. Therefore, for example, even when the movement of the dynamic obstacle O is complicated or the movement of the dynamic obstacle O is various, the movement of the autonomous moving body 1 is made according to the movement of the dynamic obstacle O. It can be controlled correctly.
  • the autonomous mobile body 1 is not limited to an automatic guided vehicle traveling in a factory.
  • the autonomous mobile body 1 may be any one that autonomously moves in an environment including one or more dynamic obstacles O.
  • the autonomous mobile body 1 may be an autonomous vehicle, a robot vacuum cleaner, a service robot, or a robot arm.
  • the robot arm may be one provided in an FA (Factory Automation) device.
  • the robot arm of the FA device may be the autonomous moving body 1 and the arm of the worker may be a dynamic obstacle O. ..
  • the work efficiency of the worker can be improved.
  • the manual work by the operator can be prioritized over the automatic work by the FA device.
  • the inference data D1 includes movement speed information, relative position information, and relative speed information, as well as other information regarding work by individual dynamic obstacles O, or other information regarding movement routes of individual dynamic obstacles O. It may contain. Further, the first learning data D11 may include information corresponding to such information. By additionally using this information, it is possible to more reliably avoid the occurrence of work obstruction by the autonomous mobile body 1.
  • the inference data D1 includes information indicating the presence or absence of an occupant in the forklift, information indicating the position of the fork in the forklift, and the like. And information indicating the position of the lamps for the forklift may be included.
  • the first learning data D11 may include information corresponding to such information.
  • the inference data D1 provides information indicating the posture of the worker's arm. It may include.
  • the first learning data D11 may include information corresponding to such information.
  • the image shown by the image data D3 may be any image showing the relative position P and the relative velocity V2. That is, the image shown by the image data D3 is not limited to the bird's-eye view image I1. The image indicated by the image data D3 may be from any angle. The same applies to the image data D14.
  • the image shown by the image data D3 is such that the image shows the robot arm and the arm of the worker. It may be due to an angle that includes it. The same applies to the image data D14.
  • the learning method of the learning model M'by the learning device 43 is not limited to the above specific example.
  • Various known techniques related to machine learning can be used for learning the learning model M'.
  • various known techniques related to supervised learning, unsupervised learning, or reinforcement learning can be used. Detailed description of these techniques will be omitted.
  • the control device 100 may not have the data preprocessing unit 22.
  • the control amount calculation unit 23 may calculate the control amount A using the inference data D1. That is, the trained model M may receive the input of the inference data D1 and output the control amount ⁇ .
  • the learning device 200 may not have the data preprocessing unit 32.
  • the data selection unit 33 may select unnecessary data D15 included in the first learning data D11.
  • the selected learning data D16 may include data other than unnecessary data D15 in the first learning data D11.
  • the learning device 200 may not have the data sorting unit 33.
  • the learning model M' may accept the input of the preprocessed learning data D13 and output the control amount A'.
  • the data selection unit 33 it is more preferable to provide the data selection unit 33.
  • the learning device 200 may not have the data preprocessing unit 32 and the data sorting unit 33.
  • the learning model M' may accept the input of the first learning data D11 and output the control amount A'.
  • the data selection unit 33 it is more preferable to provide the data selection unit 33.
  • the control device 100 has the movement speed information indicating the movement speed V1 of the autonomous moving body 1, the relative position information indicating the relative position P of the dynamic obstacle O with respect to the autonomous moving body 1, and the relative position information.
  • the data acquisition unit 21 that acquires the inference data D1 including the relative velocity information indicating the relative velocity V2 of the dynamic obstacle O with respect to the autonomous moving body 1, and the preprocessed inference corresponding to the inference data D1 or the inference data D1.
  • the control amount calculation unit 23 for calculating the control amount ⁇ for controlling the movement of the autonomous moving body 1 according to the movement of the dynamic obstacle O using the data D2, and the autonomous moving body using the control amount ⁇ .
  • a control unit 24 that controls the movement of 1 is provided, and the control amount calculation unit 23 uses a trained model M by machine learning, and the trained model M is for inference data D1 or preprocessed inference. It accepts the input of data D2 and outputs the control amount A.
  • the movement of the autonomous mobile body 1 can be correctly controlled according to the movement of the dynamic obstacle O.
  • the movement of the autonomous moving body 1 can be correctly controlled even when the movement of the dynamic obstacle O is complicated or the movement of the dynamic obstacle O is various.
  • the dynamic obstacle O includes a manned moving body or a worker for work
  • the trained model M is a control amount for avoiding the occurrence of work obstruction to the manned moving body or the worker by the autonomous moving body 1. It outputs ⁇ .
  • a manned mobile body for work for example, a forklift
  • a worker for example, a forklift
  • control device 100 includes a data preprocessing unit 22 that generates preprocessed inference data D2 by executing preprocessing on the inference data D1, and the preprocessed inference data D2 is an autonomous moving body 1.
  • image data D3 showing a bird's-eye view image I1 of region R including.
  • the image data D3 can be used as an input to the trained model M.
  • the autonomous mobile body 1 is provided in the FA device, the dynamic obstacle O includes the arm of the worker in the factory having the FA device, and the trained model M is for the worker by the autonomous mobile body 1. It outputs the control amount A to avoid the occurrence of work obstruction. As a result, it is possible to avoid the occurrence of work obstruction by the autonomous moving body 1 (for example, a robot arm). As a result, the work efficiency of the worker can be improved.
  • the trained model M outputs a control amount A for avoiding the occurrence of path obstruction to the dynamic obstacle O by the autonomous mobile body 1. Thereby, for example, the occurrence of the above-mentioned work obstruction can be avoided.
  • the trained model M outputs a control amount A for avoiding the occurrence of a collision due to the autonomous mobile body 1 and the dynamic obstacle O. Thereby, for example, the occurrence of the above-mentioned work obstruction can be avoided.
  • the learning device 200 includes movement speed information indicating the movement speed V1'of the autonomous moving body 1, relative position information indicating the relative position P'of the dynamic obstacle O'with respect to the autonomous moving body 1.
  • the first learning data D11 including the relative speed information indicating the relative speed V2'of the dynamic obstacle O'with respect to the autonomous moving body 1 is acquired, and the movement of the autonomous moving body 1 is changed to the movement of the dynamic obstacle O'.
  • the data acquisition unit 31 that acquires the second learning data D12 including the correct answer value of the control amount ⁇ 'for control according to the control, and the preprocessed learning corresponding to the first learning data D11 or the first learning data D11.
  • the trained model M includes a model generation unit 34 having a device 43, and the trained model M is a preprocessed inference corresponding to inference data D1 or inference data D1 including movement speed information, relative position information, and relative speed information. It accepts the input of the data D2 and outputs the control amount A. Thereby, the control device 100 can be realized. As a result, the movement of the autonomous moving body 1 can be correctly controlled according to the movement of the dynamic obstacle O.
  • the correct answer value is a control amount ⁇ for avoiding the occurrence of work obstruction to the manned moving body or the worker by the autonomous moving body 1. 'Is indicated.
  • a manned mobile body for work for example, a forklift
  • a worker for example, a forklift
  • the learning device 200 includes a data selection unit 33 that selects unnecessary data D15 included in the first learning data D11 or the preprocessed learning data D13, and the unnecessary data D15 is obtained from the learning of the learning model M'. It is excluded. As a result, it is possible to prevent the unnecessary data D15 from being used for learning. As a result, learning can be stabilized. In addition, the amount of data stored in the storage device 4 can be reduced.
  • the unnecessary data D15 includes data corresponding to a non-occurrence state of work obstruction. As a result, it is possible to prevent such data from being used for learning.
  • the learning device 200 includes a data preprocessing unit 32 that generates preprocessed learning data D13 by executing preprocessing on the first learning data D11, and the preprocessed learning data D13 moves autonomously.
  • image data D14 showing a bird's-eye view image I11 of region R including body 1.
  • the image data D14 can be used as an input to the learning model M'.
  • the autonomous mobile body 1 is provided in the FA device, the dynamic obstacle O'includes the arm of the worker in the factory having the FA device, and the correct answer value is the work for the worker by the autonomous mobile body 1. It indicates the control amount A'for avoiding the occurrence of interference. As a result, it is possible to avoid the occurrence of work obstruction by the autonomous moving body 1 (for example, a robot arm). As a result, the work efficiency of the worker can be improved.
  • the correct answer value indicates a control amount ⁇ 'for avoiding the occurrence of path obstruction to the dynamic obstacle O'by the autonomous mobile body 1. Thereby, for example, the occurrence of the above-mentioned work obstruction can be avoided.
  • the correct answer value indicates the control amount A'for avoiding the occurrence of a collision due to the autonomous mobile body 1 and the dynamic obstacle O'. Thereby, for example, the occurrence of the above-mentioned work obstruction can be avoided.
  • control device and learning device can be used for controlling an autonomous mobile body.
  • 1 autonomous mobile body 2 information source, 3 storage device, 4 storage device, 11 learned model storage unit, 12 learning data storage unit, 21 data acquisition unit, 22 data preprocessing unit, 23 control amount calculation unit, 24 control Unit, 31 data acquisition unit, 32 data preprocessing unit, 33 data selection unit, 34 model generation unit, 41 first data acquisition unit, 42 second data acquisition unit, 43 learner, 51 processor, 52 memory, 53 processing circuit , 61 processor, 62 memory, 63 processing circuit, 100 control device, 200 learning device.

Landscapes

  • Engineering & Computer Science (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
  • Manipulator (AREA)

Abstract

制御装置(100)は、自律移動体(1)の移動速度(V1)を示す移動速度情報、自律移動体(1)に対する動的障害物(O)の相対位置(P)を示す相対位置情報及び自律移動体(1)に対する動的障害物(O)の相対速度(V2)を示す相対速度情報を含む推論用データ(D1)を取得するデータ取得部(21)と、推論用データ(D1)又は推論用データ(D1)に対応する前処理済み推論用データ(D2)を用いて、自律移動体(1)の動きを動的障害物(O)の動きに応じて制御するための制御量(A)を算出する制御量算出部(23)と、制御量(A)を用いて自律移動体(1)の動きを制御する制御部(24)と、を備え、制御量算出部(23)は、機械学習による学習済みモデル(M)を用いるものであり、学習済みモデル(M)は、推論用データ(D1)又は前処理済み推論用データ(D2)の入力を受け付けて制御量(A)を出力するものである。

Description

制御装置及び学習装置
 本開示は、制御装置及び学習装置に関する。
 従来、自律移動体の動きを制御する技術が開発されている。より具体的には、動く障害物(以下「動的障害物」という。)の動きを予測することにより、動的障害物を回避するように自律移動体の動きを制御する技術が開発されている。特許文献1には、かかる技術が開示されている。
国際公開第2015/068193号
 従来技術は、センサ類により収集された情報を用いて、所定のルールに基づき動的障害物の動きを予測するものである。すなわち、従来技術は、いわゆる「ルールベース」により動的障害物の動きを予測するものである。このため、予測用のルールを設定することが求められる。
 従来技術においては、動的障害物の動きがルールの設定時に想定された動きと異なるものである場合、動的障害物の動きを正確に予測することが困難である。このため、例えば、動的障害物の動きが複雑であるとき、又は動的障害物の動きが多様であるとき、動的障害物の動きを正確に予測することが困難である。これにより、自律移動体の動きを動的障害物の動きに応じて正しく制御することが困難であるという問題があった。この結果、例えば、自律移動体による動的障害物に対する進路妨害が発生したり、又は自律移動体及び動的障害物による衝突が発生したりするという問題があった。
 本開示は、上記のような課題を解決するためになされたものであり、自律移動体の動きを動的障害物の動きに応じて正しく制御することを目的とする。
 本開示に係る制御装置は、自律移動体の移動速度を示す移動速度情報、自律移動体に対する動的障害物の相対位置を示す相対位置情報及び自律移動体に対する動的障害物の相対速度を示す相対速度情報を含む推論用データを取得するデータ取得部と、推論用データ又は推論用データに対応する前処理済み推論用データを用いて、自律移動体の動きを動的障害物の動きに応じて制御するための制御量を算出する制御量算出部と、制御量を用いて自律移動体の動きを制御する制御部と、を備え、制御量算出部は、機械学習による学習済みモデルを用いるものであり、学習済みモデルは、推論用データ又は前処理済み推論用データの入力を受け付けて制御量を出力するものである。
 本開示によれば、上記のように構成したので、自律移動体の動きを動的障害物の動きに応じて正しく制御することができる。
実施の形態1に係る制御装置の要部を示すブロック図である。 実施の形態1に係る学習装置の要部を示すブロック図である。 俯瞰画像の例を示す説明図である。 ニューラルネットワークの例を示す説明図である。 実施の形態1に係る制御装置の要部のハードウェア構成を示すブロック図である。 実施の形態1に係る制御装置の要部の他のハードウェア構成を示すブロック図である。 実施の形態1に係る制御装置の要部の他のハードウェア構成を示すブロック図である。 実施の形態1に係る学習装置の要部のハードウェア構成を示すブロック図である。 実施の形態1に係る学習装置の要部の他のハードウェア構成を示すブロック図である。 実施の形態1に係る学習装置の要部の他のハードウェア構成を示すブロック図である。 実施の形態1に係る制御装置の動作を示すフローチャートである。 実施の形態1に係る学習装置の動作を示すフローチャートである。 実施の形態1に係る他の制御装置の要部を示すブロック図である。 実施の形態1に係る他の学習装置の要部を示すブロック図である。 実施の形態1に係る他の学習装置の要部を示すブロック図である。 実施の形態1に係る他の学習装置の要部を示すブロック図である。
 以下、この開示をより詳細に説明するために、この開示を実施するための形態について、添付の図面に従って説明する。
実施の形態1.
 図1は、実施の形態1に係る制御装置の要部を示すブロック図である。図2は、実施の形態1に係る学習装置の要部を示すブロック図である。図1を参照して、実施の形態1に係る制御装置について説明する。また、図2を参照して、実施の形態1に係る学習装置について説明する。
 図1に示す如く、制御装置100は、データ取得部21、データ前処理部22、制御量算出部23及び制御部24を有している。
 データ取得部21は、自律移動体1の移動速度V1を示す情報(以下「移動速度情報」という。)、自律移動体1に対する個々の動的障害物Oの相対位置Pを示す情報(以下「相対位置情報」という。)及び自律移動体1に対する個々の動的障害物Oの相対速度V2を示す情報(以下「相対速度情報」という。)を含むデータ(以下「推論用データ」という。)D1を取得するものである。
 より具体的には、推論用データD1は、連続する複数個の時刻Tに対応する複数個の移動速度V1を示す移動速度情報、連続する複数個の時刻Tに対応する複数個の相対位置Pを示す相対位置情報及び連続する複数個の時刻Tに対応する複数個の相対速度V2を示す相対速度情報を含むものである。すなわち、推論用データD1は、複数個の移動速度V1、複数個の相対位置P及び複数個の相対速度V2を時系列的に対応付けてなるものである。換言すれば、推論用データD1は、時系列データにより構成されている。
 推論用データD1は、情報源2を用いて取得されるものである。情報源2は、例えば、レーザレーダ、カメラ、ミリ波レーダ、ソナー、慣性センサ、GPS(Global Positioning System)受信機及び車輪速センサを含むものである。すなわち、情報源2は、自律移動体1に搭載されているものであっても良い。
 自律移動体1は、例えば、工場内を走行する無人搬送車である。これに対して、個々の動的障害物Oは、例えば、同一の工場内を走行する作業用の有人移動体又は同一の工場内を移動する作業者である。作業用の有人移動体は、例えば、フォークリフトである。以下、自律移動体1が無人搬送車であり、かつ、個々の動的障害物Oが作業用の有人移動体又は作業者である場合の例を中心に説明する。
 データ前処理部22は、推論用データD1に対する前処理を実行することにより、前処理済みのデータ(以下「前処理済み推論用データ」という。)D2を生成するものである。前処理済み推論用データD2は、自律移動体1を含む領域Rの俯瞰画像I1を示す画像データD3を含むものである。
 より具体的には、画像データD3は、連続する複数個の時刻Tに対応する複数個の俯瞰画像I1を示すものである。すなわち、画像データD3は、時系列データにより構成されている。これにより、画像データD3は、個々の動的障害物Oについて、相対位置Pの時間変化を示すとともに、相対速度V2の時間変化を示すものである。換言すれば、画像データD3は、個々の動的障害物Oの動きを示すものである。
 ここで、俯瞰画像I1の生成方法について説明する。
 まず、データ前処理部22は、推論用データD1を用いて、以下のような画像I2を生成する。すなわち、データ前処理部22は、自律移動体1の位置を中心とする画像I2であって、自律移動体1が移動する平面を真上から見下ろしてなるアングルによる画像I2を生成する。
 画像I2において、自律移動体1は、抽象的なイラストi1により表現されるものであっても良い。画像I2において、個々の動的障害物Oは、抽象的なイラストi2により表現されるものであっても良い。画像I2における個々の画素は、色値を有するものであっても良く、輝度値を有するものであっても良く、又は色値及び輝度値を有するものであっても良い。すなわち、画像I2は、カラー画像であっても良く、又はモノクロ画像であっても良い。
 次いで、データ前処理部22は、画像I2のうちの領域Rに対応する部分を切り抜くことにより、俯瞰画像I1を生成する。このとき、切り抜かれる範囲は、移動速度V1及び相対速度V2に応じて設定される。すなわち、領域Rのサイズは、移動速度V1及び相対速度V2に応じて設定される。
 図3は、このようにして生成された俯瞰画像I1の例を示している。図3に示す例においては、自律移動体1が四角形状のイラストi1により表現されている。また、1個の動的障害物Oが円形状のイラストi2により表現されている。
 このようにして生成された画像データD3を用いることにより、自律移動体1の周囲に複数個の動的障害物Oが存在する場合であっても、個々の動的障害物Oの相対位置P及び個々の動的障害物Oの相対速度V2を簡潔に表現することができる。
 制御量算出部23は、前処理済み推論用データD2を用いて、自律移動体1の動きを動的障害物Oの動きに応じて制御するための制御量Αを算出するものである。より具体的には、制御量算出部23は、自律移動体1による動的障害物Oに対する進路妨害の発生を回避するための制御量Α、又は自律移動体1及び動的障害物Oによる衝突の発生を回避するための制御量Αを算出するものである。これにより、自律移動体1による動的障害物Oに対する作業妨害の発生を回避するための制御量Αが算出される。
 ここで、制御量算出部23は、機械学習による学習済みモデルMを用いるものである。学習済みモデルMは、記憶装置3の学習済みモデル記憶部11に記憶されている。記憶装置3は、メモリにより構成されている。学習済みモデルMは、前処理済み推論用データD2の入力を受け付けて、上記のような制御量Αを出力するものである。
 学習済みモデルMは、例えば、ニューラルネットワークNにより構成されている。図4は、ニューラルネットワークNの例を示している。
 図4に示す如く、ニューラルネットワークNは、入力層X、中間層(いわゆる「隠れ層」)Y及び出力層Zを有している。入力層Xは、複数個のノードx_1~x_3を有している。中間層Yは、複数個のノードy_1,y_2を有している。出力層Zは、複数個のノードz_1~z_3を有している。入力層Xと中間層Y間のリンクL_1は、重みW_1に対応している。より具体的には、複数本のリンクL_1_1~L_1_6が複数個の重みW_1_1~W_1_6にそれぞれ対応している。中間層Yと出力層Z間のリンクL_2は、重みW_2に対応している。より具体的には、複数本のリンクL_2_1~L_2_6が複数個の重みW_2_1~W_2_6にそれぞれ対応している。
 個々のノードx,y,zは、入力された値を足し合わせる演算に対応している。また、個々のリンクLは、対応する重みWを掛け合わせる演算に対応している。したがって、入力層Xに入力される値と出力層Zにより出力される値との対応関係は、個々の重みWに応じて異なるものとなる。なお、ニューラルネットワークNは、複数個の中間層Yを有するものであっても良い。
 制御部24は、制御量算出部23により算出された制御量Α(すなわち学習済みモデルMにより出力された制御量Α)を用いて、自律移動体1の動きを制御するものである。これにより、自律移動体1の動きが動的障害物Oの動きに応じて制御される。
 具体的には、例えば、制御部24は、制御量Αに基づき自律移動体1におけるステアリングを操作する制御を実行する。または、例えば、制御部24は、制御量Αに基づき自律移動体1におけるブレーキを操作する制御を実行する。これにより、自律移動体1による動的障害物Oに対する進路妨害の発生を回避するように、又は自律移動体1及び動的障害物Oによる衝突の発生を回避するように自律移動体1の動きが制御される。この結果、自律移動体1による動的障害物Oに対する作業妨害の発生を回避するように自律移動体1の動きが制御される。
 なお、制御装置100は、自律移動体1に搭載されているものであっても良い。または、制御装置100は、自律移動体1外に設けられており、かつ、自律移動体1と通信自在なものであっても良い。すなわち、制御装置100は、例えば、自律移動体1と通信自在なサーバにより構成されているものであっても良い。かかるサーバは、クラウドサーバを用いたものであっても良い。記憶装置3についても同様である。
 図2に示す如く、学習装置200は、データ取得部31、データ前処理部32、データ選別部33及びモデル生成部34を有している。データ取得部31は、第1データ取得部41及び第2データ取得部42を有している。モデル生成部34は、学習用モデルM’及び学習器43を有している。
 第1データ取得部41は、自律移動体1の移動速度V1’を示す情報(すなわち移動速度情報)、自律移動体1に対する個々の動的障害物O’の相対位置P’を示す情報(すなわち相対位置情報)及び自律移動体1に対する個々の動的障害物O’の相対速度V2’を示す情報(すなわち相対速度情報)を含むデータ(以下「第1学習用データ」という。)D11を取得するものである。
 より具体的には、第1学習用データD11は、連続する複数個の時刻T’に対応する複数個の移動速度V1’を示す移動速度情報、連続する複数個の時刻T’に対応する複数個の相対位置P’を示す相対位置情報及び連続する複数個の時刻T’に対応する複数個の相対速度V2’を示す相対速度情報を含むものである。すなわち、第1学習用データD11は、複数個の移動速度V1’、複数個の相対位置P’及び複数個の相対速度V2’を時系列的に対応付けてなるものである。換言すれば、第1学習用データD11は、時系列データにより構成されている。
 第2データ取得部42は、第1学習用データD11に対応する状態における制御量Α’の正解値を含むデータ(以下「第2学習用データ」という。)D12を取得するものである。より具体的には、第2学習用データD12は、自律移動体1の動きを動的障害物O’の動きに応じて制御するための制御量Α’の正解値を含むものである。すなわち、第2学習用データD12は、自律移動体1による動的障害物O’に対する進路妨害の発生を回避するための制御量Α’の正解値、又は自律移動体1及び動的障害物O’による衝突の発生を回避するための制御量Α’の正解値を含むものである。換言すれば、第2学習用データD12は、自律移動体1による動的障害物O’に対する作業妨害の発生を回避するための制御量Α’の正解値を含むものである。
 第1学習用データD11は、例えば、自律移動体1の実機を用いて収集されたものである。または、第1学習用データD11は、例えば、専用のシミュレータを用いて収集されたものである。これに対して、第2学習用データD12は、例えば、人により入力されたものである。
 データ前処理部32は、第1学習用データD11に対する前処理を実行することにより、前処理済みのデータ(以下「前処理済み学習用データ」という。)D13を生成するものである。前処理済み学習用データD13は、自律移動体1を含む領域Rの俯瞰画像I11を示す画像データD14を含むものである。
 より具体的には、画像データD14は、連続する複数個の時刻T’に対応する複数個の俯瞰画像I11を示すものである。すなわち、画像データD14は、時系列データにより構成されている。これにより、画像データD14は、個々の動的障害物O’について、相対位置P’の時間変化を示すとともに、相対速度V2’の時間変化を示すものである。換言すれば、画像データD14は、個々の動的障害物O’の動きを示すものである。
 データ前処理部32による俯瞰画像I11の生成方法は、データ前処理部22による俯瞰画像I1の生成方法と同様である。このため、詳細な説明は省略する。
 データ選別部33は、前処理済み学習用データD13のうちの不要なデータ(以下「不要データ」という。)D15を選別するものである。ここで、不要データD15は、自律移動体1による動的障害物O’に対する作業妨害が発生し得ない状態(以下「非発生状態」という。)に対応するデータを含むものである。具体的には、例えば、不要データD15は、動的障害物O’を1個も含まない俯瞰画像I11を示す画像データD14を含むものである。
 データ選別部33は、前処理済み学習用データD13のうちの不要データD15を除くデータ(以下「選別済み学習用データ」ということがある。)D16を出力する。当該出力された選別済み学習用データD16は、記憶装置4の学習用データ記憶部12に記憶される。記憶装置4は、メモリにより構成されている。
 学習用モデルM’は、選別済み学習用データD16の入力を受け付けるものである。学習用モデルM’は、かかる入力に対して、制御量Α’を出力するものである。学習用モデルM’は、例えば、ニューラルネットワークNにより構成されている。
 ここで、学習用モデルM’は、機械学習により学習自在なものである。より具体的には、学習用モデルM’は、いわゆる「模倣学習」により学習自在なものである。学習器43は、第2学習用データD12及び制御量Α’を用いて、学習用モデルM’の学習をするものである。
 すなわち、学習器43は、学習用モデルM’により出力された制御量Α’を第2学習用データD12が示す正解値と比較する。学習器43は、かかる比較の結果に応じて、学習用モデルM’における複数個のパラメータのうちの1個以上のパラメータを選択して、当該選択されたパラメータの値を更新する。学習用モデルM’における個々のパラメータは、例えば、ニューラルネットワークNにおける重みWに対応するものである。
 このとき、学習器43は、学習用モデルM’により出力される制御量Α’が正解値に次第に近づくようにパラメータの値を更新する。かかる学習により、上記のような学習済みモデルMが生成される。すなわち、推論用データD1の入力を受け付けて、自律移動体1による動的障害物Oに対する作業妨害の発生を回避するための制御量Αを出力するような学習済みモデルMが生成される。学習器43は、当該生成された学習済みモデルMを出力する。当該出力された学習済みモデルMは、記憶装置3の学習済みモデル記憶部11に記憶される。
 なお、学習装置200は、自律移動体1に搭載されているものであっても良い。または、学習装置200は、自律移動体1外に設けられており、かつ、自律移動体1と通信自在なものであっても良い。すなわち、学習装置200は、例えば、自律移動体1と通信自在なサーバにより構成されているものであっても良い。かかるサーバは、クラウドサーバを用いたものであっても良い。記憶装置4についても同様である。
 以下、データ取得部21の機能に「F1」の符号を用いることがある。また、データ前処理部22の機能に「F2」の符号を用いることがある。また、制御量算出部23の機能に「F3」の符号を用いることがある。また、制御部24の機能に「F4」の符号を用いることがある。
 以下、データ取得部31の機能に「F11」の符号を用いることがある。また、データ前処理部32の機能に「F12」の符号を用いることがある。また、データ選別部33の機能に「F13」の符号を用いることがある。また、モデル生成部34の機能に「F14」の符号を用いることがある。
 以下、データ取得部21により実行される処理を総称して「データ取得処理」ということがある。また、データ前処理部22により実行される処理を総称して「データ前処理」ということがある。また、制御量算出部23により実行される処理を総称して「制御量算出処理」ということがある。また、制御部24により実行される処理及び制御を総称して「移動体制御」ということがある。
 以下、データ取得部31により実行される処理を総称して「データ取得処理」ということがある。また、データ前処理部32により実行される処理を総称して「データ前処理」ということがある。また、データ選別部33により実行される処理を総称して「データ選別処理」ということがある。また、モデル生成部34により実行される処理を総称して「モデル生成処理」ということがある。
 次に、図5~図7を参照して、制御装置100の要部のハードウェア構成について説明する。
 図5に示す如く、制御装置100は、プロセッサ51及びメモリ52を有している。メモリ52には、複数個の機能F1~F4に対応するプログラムが記憶されている。プロセッサ51は、メモリ52に記憶されているプログラムを読み出して実行する。これにより、複数個の機能F1~F4が実現される。
 または、図6に示す如く、制御装置100は、処理回路53を有している。処理回路53は、複数個の機能F1~F4に対応する処理を実行する。これにより、複数個の機能F1~F4が実現される。
 または、図7に示す如く、制御装置100は、プロセッサ51、メモリ52及び処理回路53を有している。メモリ52には、複数個の機能F1~F4のうちの一部の機能に対応するプログラムが記憶されている。プロセッサ51は、メモリ52に記憶されているプログラムを読み出して実行する。これにより、かかる一部の機能が実現される。また、処理回路53は、複数個の機能F1~F4のうちの残余の機能に対応する処理を実行する。これにより、かかる残余の機能が実現される。
 プロセッサ51は、1個以上のプロセッサにより構成されている。個々のプロセッサは、例えば、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、マイクロプロセッサ、マイクロコントローラ又はDSP(Digital Signal Processor)を用いたものである。
 メモリ52は、1個以上の不揮発性メモリにより構成されている。または、メモリ52は、1個以上の不揮発性メモリ及び1個以上の揮発性メモリにより構成されている。すなわち、メモリ52は、1個以上のメモリにより構成されている。個々のメモリは、例えば、半導体メモリ、磁気ディスク、光ディスク、光磁気ディスク、磁気テープ又は磁気ドラムを用いたものである。より具体的には、個々の揮発性メモリは、例えば、RAM(Random Access Memory)を用いたものである。また、個々の不揮発性メモリは、例えば、ROM(Read Only Memory)、フラッシュメモリ、EPROM(Erasable Programmable Read Only Memory)、EEPROM(Electrically Erasable Programmable Read Only Memory)、ソリッドステートドライブ、ハードディスクドライブ、フレキシブルディスク、コンパクトディスク、DVD(Digital Versatile Disc)、ブルーレイディスク又はミニディスクを用いたものである。
 処理回路53は、1個以上のデジタル回路により構成されている。または、処理回路53は、1個以上のデジタル回路及び1個以上のアナログ回路により構成されている。すなわち、処理回路53は、1個以上の処理回路により構成されている。個々の処理回路は、例えば、ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)、FPGA(Field Programmable Gate Array)、SoC(System on a Chip)又はシステムLSI(Large Scale Integration)を用いたものである。
 ここで、プロセッサ51が複数個のプロセッサにより構成されているとき、複数個の機能F1~F4と複数個のプロセッサとの対応関係は任意である。すなわち、複数個のプロセッサの各々は、複数個の機能F1~F4のうちの対応する1個以上の機能に対応するプログラムを読み出して実行するものであっても良い。
 また、メモリ52が複数個のメモリにより構成されているとき、複数個の機能F1~F4と複数個のメモリとの対応関係は任意である。すなわち、複数個のメモリの各々は、複数個の機能F1~F4のうちの対応する1個以上の機能に対応するプログラムを記憶するものであっても良い。
 また、処理回路53が複数個の処理回路により構成されているとき、複数個の機能F1~F4と複数個の処理回路との対応関係は任意である。すなわち、複数個の処理回路の各々は、複数個の機能F1~F4のうちの対応する1個以上の機能に対応する処理を実行するものであっても良い。
 次に、図8~図10を参照して、学習装置200の要部のハードウェア構成について説明する。
 図8に示す如く、学習装置200は、プロセッサ61及びメモリ62を有している。メモリ62には、複数個の機能F11~F14に対応するプログラムが記憶されている。プロセッサ61は、メモリ62に記憶されているプログラムを読み出して実行する。これにより、複数個の機能F11~F14が実現される。
 または、図9に示す如く、学習装置200は、処理回路63を有している。処理回路63は、複数個の機能F11~F14に対応する処理を実行する。これにより、複数個の機能F11~F14が実現される。
 または、図10に示す如く、学習装置200は、プロセッサ61、メモリ62及び処理回路63を有している。メモリ62には、複数個の機能F11~F14のうちの一部の機能に対応するプログラムが記憶されている。プロセッサ61は、メモリ62に記憶されているプログラムを読み出して実行する。これにより、かかる一部の機能が実現される。また、処理回路63は、複数個の機能F11~F14のうちの残余の機能に対応する処理を実行する。これにより、かかる残余の機能が実現される。
 プロセッサ61の具体例は、プロセッサ51の具体例と同様である。メモリ62の具体例は、メモリ52の具体例と同様である。処理回路63の具体例は、処理回路53の具体例と同様である。このため、詳細な説明は省略する。
 ここで、プロセッサ61が複数個のプロセッサにより構成されているとき、複数個の機能F11~F14と複数個のプロセッサとの対応関係は任意である。すなわち、複数個のプロセッサの各々は、複数個の機能F11~F14のうちの対応する1個以上の機能に対応するプログラムを読み出して実行するものであっても良い。
 また、メモリ62が複数個のメモリにより構成されているとき、複数個の機能F11~F14と複数個のメモリとの対応関係は任意である。すなわち、複数個のメモリの各々は、複数個の機能F11~F14のうちの対応する1個以上の機能に対応するプログラムを記憶するものであっても良い。
 また、処理回路63が複数個の処理回路により構成されているとき、複数個の機能F11~F14と複数個の処理回路との対応関係は任意である。すなわち、複数個の処理回路の各々は、複数個の機能F11~F14のうちの対応する1個以上の機能に対応する処理を実行するものであっても良い。
 次に、図11のフローチャートを参照して、制御装置100の動作について説明する。
 まず、データ取得部21がデータ取得処理を実行する(ステップST1)。次いで、データ前処理部22がデータ前処理を実行する(ステップST2)。次いで、制御量算出部23が制御量算出処理を実行する(ステップST3)。次いで、制御部24が移動体制御を実行する(ステップST4)。
 なお、ステップST2にて生成された全ての俯瞰画像I1に動的障害物Oが1個も含まれていない場合、制御装置100は、ステップST3,ST4の処理の実行をキャンセルするものであっても良い。この場合、制御装置100の処理は、ステップST1に戻るものであっても良い。
 次に、図12のフローチャートを参照して、学習装置200の動作について説明する。
 まず、データ取得部31がデータ取得処理を実行する(ステップST11)。次いで、データ前処理部32がデータ前処理を実行する(ステップST12)。次いで、データ選別部33がデータ選別処理を実行する(ステップST13)。次いで、モデル生成部34がモデル生成処理を実行する(ステップST14)。
 なお、第1学習用データD11及び第2学習用データD12は、互いに異なるタイミングにて取得されるものであっても良い。すなわち、第1学習用データD11及び第2学習用データD12は、互いに異なるステップにて取得されるものであっても良い。
 また、ステップST3にて前処理済み学習用データD13に含まれる全てのデータが不要データD15として選別された場合、学習装置200は、ステップST14の処理の実行をキャンセルするものであっても良い。
 次に、制御装置100及び学習装置200の効果について説明する。
 従来の制御装置は、ルールベースによるものであった。すなわち、従来の制御装置は、所定のルールに基づき動的障害物の動きを予測して、当該予測された動きに応じて自律移動体の動きを制御するものであった。このため、予測用のルールを設定することが求められるという問題があった。
 また、ルールベースにおいては、動的障害物の動きがルールの設定時に想定された動きと異なるものである場合、動的障害物の動きを正確に予測することが困難である。特に、例えば、動的障害物の動きが複雑であるとき、又は動的障害物の動きが多様であるとき、動的障害物の動きを正確に予測することが困難である。このため、自律移動体の動きを動的障害物の動きに応じて正しく制御することが困難であるという問題があった。この結果、例えば、自律移動体による動的障害物に対する進路妨害が発生したり、又は自律移動体及び動的障害物による衝突が発生したりするという問題があった。
 これに対して、制御装置100は、学習装置200による学習済みモデルMを用いるものである。このため、予測用のルールの設定を不要とすることができる。
 また、動的障害物Oの動きが想定外の動きであるときも、自律移動体1の動きを動的障害物Oの動きに応じて正しく制御することができる。このため、例えば、動的障害物Oの動きが複雑であるとき、又は動的障害物Oの動きが多様であるときも、自律移動体1の動きを動的障害物Oの動きに応じて正しく制御することができる。
 これにより、自律移動体1による動的障害物Oに対する進路妨害が発生するのを回避することができる。また、自律移動体1及び動的障害物Oによる衝突が発生するのを回避することができる。この結果、自律移動体1による動的障害物Oに対する作業妨害が発生するのを回避することができる。したがって、作業用の有人移動体(例えばフォークリフト)又は作業者による作業効率の向上を図ることができる。
 次に、制御装置100及び学習装置200の変形例について説明する。
 自律移動体1は、工場内を走行する無人搬送車に限定されるものではない。自律移動体1は、1個以上の動的障害物Oを含む環境内を自律的に移動するものであれば良い。例えば、自律移動体1は、自動運転車、ロボット掃除機、サービスロボット又はロボットアームであっても良い。ロボットアームは、FA(Factory Automation)機器に設けられているものであっても良い。
 ここで、FA機器による自動作業及び作業者による手動作業が行われる工場において、FA機器のロボットアームが自律移動体1であり、かつ、作業者の腕が動的障害物Oであっても良い。これにより、ロボットアームによる作業者に対する作業妨害の発生を回避することができる。この結果、作業者による作業効率の向上を図ることができる。換言すれば、FA機器による自動作業に対して作業者による手動作業を優先させることができる。
 次に、制御装置100及び学習装置200の他の変形例について説明する。
 推論用データD1は、移動速度情報、相対位置情報及び相対速度情報に加えて、個々の動的障害物Oによる作業に関する他の情報、又は個々の動的障害物Oの移動経路に関する他の情報を含むものであっても良い。また、第1学習用データD11は、これらの情報に相当する情報を含むものであっても良い。これらの情報を追加的に用いることにより、自律移動体1による作業妨害の発生を更に確実に回避することができる。
 例えば、自律移動体1が無人搬送車であり、かつ、動的障害物Oがフォークリフトであるとき、推論用データD1は、フォークリフトにおける乗員の有無を示す情報、フォークリフトにおけるフォークの位置を示す情報、及びフォークリフト用の灯体類の位置を示す情報などを含むものであっても良い。第1学習用データD11は、これらの情報に相当する情報を含むものであっても良い。
 また、例えば、自律移動体1がFA機器のロボットアームであり、かつ、動的障害物Oが作業者の腕であるとき、推論用データD1は、作業者の腕の姿勢を示す情報などを含むものであっても良い。第1学習用データD11は、これらの情報に相当する情報を含むものであっても良い。
 次に、制御装置100及び学習装置200の他の変形例について説明する。
 画像データD3が示す画像は、相対位置P及び相対速度V2を示すものであれば良い。すなわち、画像データD3が示す画像は、俯瞰画像I1に限定されるものではない。画像データD3が示す画像は、如何なるアングルによるものであっても良い。画像データD14についても同様である。
 例えば、自律移動体1がFA機器のロボットアームであり、かつ、動的障害物Oが作業者の腕であるとき、画像データD3が示す画像は、当該画像がロボットアーム及び作業者の腕を含むものとなるようなアングルによるものであっても良い。画像データD14についても同様である。
 次に、学習装置200の他の変形例について説明する。
 学習器43による学習用モデルM’の学習方法は、上記の具体例に限定されるものではない。学習用モデルM’の学習には、機械学習に係る公知の種々の技術を用いることができる。例えば、教師あり学習、教師なし学習又は強化学習に係る公知の種々の技術を用いることができる。これらの技術についての詳細な説明は省略する。
 次に、図13及び図14を参照して、制御装置100及び学習装置200の他の変形例について説明する。
 図13に示す如く、制御装置100は、データ前処理部22を有しないものであっても良い。この場合、制御量算出部23は、推論用データD1を用いて制御量Αを算出するものであっても良い。すなわち、学習済みモデルMは、推論用データD1の入力を受け付けて制御量Αを出力するものであっても良い。
 図14に示す如く、学習装置200は、データ前処理部32を有しないものであっても良い。この場合、データ選別部33は、第1学習用データD11に含まれる不要データD15を選別するものであっても良い。選別済み学習用データD16は、第1学習用データD11のうちの不要データD15を除くデータを含むものであっても良い。
 次に、図15を参照して、学習装置200の他の変形例について説明する。
 図15に示す如く、学習装置200は、データ選別部33を有しないものであっても良い。この場合、学習用モデルM’は、前処理済み学習用データD13の入力を受け付けて制御量Α’を出力するものであっても良い。ただし、不要データD15が学習用モデルM’の学習に用いられるのを回避する観点から、データ選別部33を設けるのがより好適である。
 次に、図16を参照して、学習装置200の他の変形例について説明する。
 図16に示す如く、学習装置200は、データ前処理部32及びデータ選別部33を有しないものであっても良い。この場合、学習用モデルM’は、第1学習用データD11の入力を受け付けて制御量Α’を出力するものであっても良い。ただし、不要データD15が学習用モデルM’の学習に用いられるのを回避する観点から、データ選別部33を設けるのがより好適である。
 以上のように、実施の形態1に係る制御装置100は、自律移動体1の移動速度V1を示す移動速度情報、自律移動体1に対する動的障害物Oの相対位置Pを示す相対位置情報及び自律移動体1に対する動的障害物Oの相対速度V2を示す相対速度情報を含む推論用データD1を取得するデータ取得部21と、推論用データD1又は推論用データD1に対応する前処理済み推論用データD2を用いて、自律移動体1の動きを動的障害物Oの動きに応じて制御するための制御量Αを算出する制御量算出部23と、制御量Αを用いて自律移動体1の動きを制御する制御部24と、を備え、制御量算出部23は、機械学習による学習済みモデルMを用いるものであり、学習済みモデルMは、推論用データD1又は前処理済み推論用データD2の入力を受け付けて制御量Αを出力するものである。これにより、自律移動体1の動きを動的障害物Oの動きに応じて正しく制御することができる。特に、動的障害物Oの動きが複雑であるとき、又は動的障害物Oの動きが多様であるときも、自律移動体1の動きを正しく制御することができる。
 また、動的障害物Oは、作業用の有人移動体又は作業者を含み、学習済みモデルMは、自律移動体1による有人移動体又は作業者に対する作業妨害の発生を回避するための制御量Αを出力するものである。これにより、自律移動体1による作業妨害の発生を回避することができる。この結果、作業用の有人移動体(例えばフォークリフト)又は作業者による作業効率の向上を図ることができる。
 また、制御装置100は、推論用データD1に対する前処理を実行することにより前処理済み推論用データD2を生成するデータ前処理部22を備え、前処理済み推論用データD2は、自律移動体1を含む領域Rの俯瞰画像I1を示す画像データD3を含む。これにより、画像データD3を学習済みモデルMに対する入力に用いることができる。
 また、自律移動体1は、FA機器に設けられており、動的障害物Oは、FA機器を有する工場における作業者の腕を含み、学習済みモデルMは、自律移動体1による作業者に対する作業妨害の発生を回避するための制御量Αを出力するものである。これにより、自律移動体1(例えばロボットアーム)による作業妨害の発生を回避することができる。この結果、作業者による作業効率の向上を図ることができる。
 また、学習済みモデルMは、自律移動体1による動的障害物Oに対する進路妨害の発生を回避するための制御量Αを出力するものである。これにより、例えば、上記のような作業妨害の発生を回避することができる。
 また、学習済みモデルMは、自律移動体1及び動的障害物Oによる衝突の発生を回避するための制御量Αを出力するものである。これにより、例えば、上記のような作業妨害の発生を回避することができる。
 また、実施の形態1に係る学習装置200は、自律移動体1の移動速度V1’を示す移動速度情報、自律移動体1に対する動的障害物O’の相対位置P’を示す相対位置情報及び自律移動体1に対する動的障害物O’の相対速度V2’を示す相対速度情報を含む第1学習用データD11を取得するとともに、自律移動体1の動きを動的障害物O’の動きに応じて制御するための制御量Α’の正解値を含む第2学習用データD12を取得するデータ取得部31と、第1学習用データD11又は第1学習用データD11に対応する前処理済み学習用データD13の入力を受け付けて制御量Α’を出力する学習用モデルM’と、第2学習用データD12を用いて学習用モデルM’の学習をすることにより学習済みモデルMを生成する学習器43と、を有するモデル生成部34と、を備え、学習済みモデルMは、移動速度情報、相対位置情報及び相対速度情報を含む推論用データD1又は推論用データD1に対応する前処理済み推論用データD2の入力を受け付けて制御量Αを出力するものである。これにより、制御装置100を実現することができる。この結果、自律移動体1の動きを動的障害物Oの動きに応じて正しく制御することができる。
 また、動的障害物O’は、作業用の有人移動体又は作業者を含み、正解値は、自律移動体1による有人移動体又は作業者に対する作業妨害の発生を回避するための制御量Α’を示すものである。これにより、自律移動体1による作業妨害の発生を回避することができる。この結果、作業用の有人移動体(例えばフォークリフト)又は作業者による作業効率の向上を図ることができる。
 また、学習装置200は、第1学習用データD11又は前処理済み学習用データD13に含まれる不要データD15を選別するデータ選別部33を備え、不要データD15は、学習用モデルM’の学習から除外されるものである。これにより、不要データD15が学習に用いられるのを回避することができる。この結果、学習の安定化を図ることができる。また、記憶装置4に記憶されるデータの容量を低減することができる。
 また、不要データD15は、作業妨害の非発生状態に対応するデータを含む。これにより、かかるデータが学習に用いられるのを回避することができる。
 また、学習装置200は、第1学習用データD11に対する前処理を実行することにより前処理済み学習用データD13を生成するデータ前処理部32を備え、前処理済み学習用データD13は、自律移動体1を含む領域Rの俯瞰画像I11を示す画像データD14を含む。これにより、画像データD14を学習用モデルM’に対する入力に用いることができる。
 また、自律移動体1は、FA機器に設けられており、動的障害物O’は、FA機器を有する工場における作業者の腕を含み、正解値は、自律移動体1による作業者に対する作業妨害の発生を回避するための制御量Α’を示すものである。これにより、自律移動体1(例えばロボットアーム)による作業妨害の発生を回避することができる。この結果、作業者による作業効率の向上を図ることができる。
 また、正解値は、自律移動体1による動的障害物O’に対する進路妨害の発生を回避するための制御量Α’を示すものである。これにより、例えば、上記のような作業妨害の発生を回避することができる。
 また、正解値は、自律移動体1及び動的障害物O’による衝突の発生を回避するための制御量Α’を示すものである。これにより、例えば、上記のような作業妨害の発生を回避することができる。
 なお、本願開示はその開示の範囲内において、実施の形態の任意の構成要素の変形、もしくは実施の形態の任意の構成要素の省略が可能である。
 本開示に係る制御装置及び学習装置は、自律移動体の制御に用いることができる。
 1 自律移動体、2 情報源、3 記憶装置、4 記憶装置、11 学習済みモデル記憶部、12 学習用データ記憶部、21 データ取得部、22 データ前処理部、23 制御量算出部、24 制御部、31 データ取得部、32 データ前処理部、33 データ選別部、34 モデル生成部、41 第1データ取得部、42 第2データ取得部、43 学習器、51 プロセッサ、52 メモリ、53 処理回路、61 プロセッサ、62 メモリ、63 処理回路、100 制御装置、200 学習装置。

Claims (14)

  1.  自律移動体の移動速度を示す移動速度情報、前記自律移動体に対する動的障害物の相対位置を示す相対位置情報及び前記自律移動体に対する前記動的障害物の相対速度を示す相対速度情報を含む推論用データを取得するデータ取得部と、
     前記推論用データ又は前記推論用データに対応する前処理済み推論用データを用いて、前記自律移動体の動きを前記動的障害物の動きに応じて制御するための制御量を算出する制御量算出部と、
     前記制御量を用いて前記自律移動体の動きを制御する制御部と、を備え、
     前記制御量算出部は、機械学習による学習済みモデルを用いるものであり、
     前記学習済みモデルは、前記推論用データ又は前記前処理済み推論用データの入力を受け付けて前記制御量を出力するものである
     ことを特徴とする制御装置。
  2.  前記動的障害物は、作業用の有人移動体又は作業者を含み、
     前記学習済みモデルは、前記自律移動体による前記有人移動体又は前記作業者に対する作業妨害の発生を回避するための前記制御量を出力するものである
     ことを特徴とする請求項1記載の制御装置。
  3.  前記推論用データに対する前処理を実行することにより前記前処理済み推論用データを生成するデータ前処理部を備え、
     前記前処理済み推論用データは、前記自律移動体を含む領域の俯瞰画像を示す画像データを含む
     ことを特徴とする請求項2記載の制御装置。
  4.  前記自律移動体は、FA機器に設けられており、
     前記動的障害物は、前記FA機器を有する工場における作業者の腕を含み、
     前記学習済みモデルは、前記自律移動体による前記作業者に対する作業妨害の発生を回避するための前記制御量を出力するものである
     ことを特徴とする請求項1記載の制御装置。
  5.  前記学習済みモデルは、前記自律移動体による前記動的障害物に対する進路妨害の発生を回避するための前記制御量を出力するものであることを特徴とする請求項1記載の制御装置。
  6.  前記学習済みモデルは、前記自律移動体及び前記動的障害物による衝突の発生を回避するための前記制御量を出力するものであることを特徴とする請求項1記載の制御装置。
  7.  自律移動体の移動速度を示す移動速度情報、前記自律移動体に対する動的障害物の相対位置を示す相対位置情報及び前記自律移動体に対する前記動的障害物の相対速度を示す相対速度情報を含む第1学習用データを取得するとともに、前記自律移動体の動きを前記動的障害物の動きに応じて制御するための制御量の正解値を含む第2学習用データを取得するデータ取得部と、
     前記第1学習用データ又は前記第1学習用データに対応する前処理済み学習用データの入力を受け付けて前記制御量を出力する学習用モデルと、前記第2学習用データを用いて前記学習用モデルの学習をすることにより学習済みモデルを生成する学習器と、を有するモデル生成部と、を備え、
     前記学習済みモデルは、前記移動速度情報、前記相対位置情報及び前記相対速度情報を含む推論用データ又は前記推論用データに対応する前処理済み推論用データの入力を受け付けて前記制御量を出力するものである
     ことを特徴とする学習装置。
  8.  前記動的障害物は、作業用の有人移動体又は作業者を含み、
     前記正解値は、前記自律移動体による前記有人移動体又は前記作業者に対する作業妨害の発生を回避するための前記制御量を示すものである
     ことを特徴とする請求項7記載の学習装置。
  9.  前記第1学習用データ又は前記前処理済み学習用データに含まれる不要データを選別するデータ選別部を備え、
     前記不要データは、前記学習用モデルの学習から除外されるものである
     ことを特徴とする請求項8記載の学習装置。
  10.  前記不要データは、前記作業妨害の非発生状態に対応するデータを含むことを特徴とする請求項9記載の学習装置。
  11.  前記第1学習用データに対する前処理を実行することにより前記前処理済み学習用データを生成するデータ前処理部を備え、
     前記前処理済み学習用データは、前記自律移動体を含む領域の俯瞰画像を示す画像データを含む
     ことを特徴とする請求項8記載の学習装置。
  12.  前記自律移動体は、FA機器に設けられており、
     前記動的障害物は、前記FA機器を有する工場における作業者の腕を含み、
     前記正解値は、前記自律移動体による前記作業者に対する作業妨害の発生を回避するための前記制御量を示すものである
     ことを特徴とする請求項7記載の学習装置。
  13.  前記正解値は、前記自律移動体による前記動的障害物に対する進路妨害の発生を回避するための前記制御量を示すものであることを特徴とする請求項7記載の学習装置。
  14.  前記正解値は、前記自律移動体及び前記動的障害物による衝突の発生を回避するための前記制御量を示すものであることを特徴とする請求項7記載の学習装置。
PCT/JP2020/005098 2020-02-10 2020-02-10 制御装置及び学習装置 WO2021161374A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
PCT/JP2020/005098 WO2021161374A1 (ja) 2020-02-10 2020-02-10 制御装置及び学習装置
JP2020535671A JP6896179B1 (ja) 2020-02-10 2020-02-10 制御装置及び学習装置
CN202080089967.5A CN115039048A (zh) 2020-02-10 2020-02-10 控制装置和学习装置
TW109121547A TW202132932A (zh) 2020-02-10 2020-06-24 控制裝置及學習裝置
US17/720,835 US20220234195A1 (en) 2020-02-10 2022-04-14 Control device and learning device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/005098 WO2021161374A1 (ja) 2020-02-10 2020-02-10 制御装置及び学習装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US17/720,835 Continuation US20220234195A1 (en) 2020-02-10 2022-04-14 Control device and learning device

Publications (1)

Publication Number Publication Date
WO2021161374A1 true WO2021161374A1 (ja) 2021-08-19

Family

ID=76540491

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/005098 WO2021161374A1 (ja) 2020-02-10 2020-02-10 制御装置及び学習装置

Country Status (5)

Country Link
US (1) US20220234195A1 (ja)
JP (1) JP6896179B1 (ja)
CN (1) CN115039048A (ja)
TW (1) TW202132932A (ja)
WO (1) WO2021161374A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11685047B2 (en) * 2020-05-21 2023-06-27 Intrinsic Innovation Llc Skill template distribution for robotic demonstration learning

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007316799A (ja) * 2006-05-24 2007-12-06 Tottori Univ 学習機能をもつ自律移動ロボット
JP5844475B1 (ja) * 2014-07-30 2016-01-20 株式会社小松製作所 運搬車両及び運搬車両の制御方法
US20160096270A1 (en) * 2014-10-02 2016-04-07 Brain Corporation Feature detection apparatus and methods for training of robotic navigation
JP2017130027A (ja) * 2016-01-20 2017-07-27 株式会社ダイヘン 移動体システム、及びサーバ
WO2017175360A1 (ja) * 2016-04-07 2017-10-12 株式会社日立製作所 制御システムおよび制御装置
JP2018030185A (ja) * 2016-08-23 2018-03-01 ファナック株式会社 人とロボットが協働して作業を行うロボットの動作を学習する機械学習器、ロボットシステムおよび機械学習方法
WO2018163288A1 (ja) * 2017-03-07 2018-09-13 日産自動車株式会社 走行支援方法及び運転制御装置
WO2019116643A1 (ja) * 2017-12-12 2019-06-20 ソニー株式会社 情報処理装置および情報処理方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9764736B2 (en) * 2015-08-14 2017-09-19 Toyota Motor Engineering & Manufacturing North America, Inc. Autonomous vehicle operation relative to unexpected dynamic objects
JP6412179B2 (ja) * 2017-02-03 2018-10-24 ファナック株式会社 加工機に対して移動ロボットが物品の搬入及び搬出を行う加工システム、及び機械制御装置
JP2018176397A (ja) * 2017-04-21 2018-11-15 オムロン株式会社 ロボットシステム
US11465279B2 (en) * 2018-11-29 2022-10-11 X Development Llc Robot base position planning

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007316799A (ja) * 2006-05-24 2007-12-06 Tottori Univ 学習機能をもつ自律移動ロボット
JP5844475B1 (ja) * 2014-07-30 2016-01-20 株式会社小松製作所 運搬車両及び運搬車両の制御方法
US20160096270A1 (en) * 2014-10-02 2016-04-07 Brain Corporation Feature detection apparatus and methods for training of robotic navigation
JP2017130027A (ja) * 2016-01-20 2017-07-27 株式会社ダイヘン 移動体システム、及びサーバ
WO2017175360A1 (ja) * 2016-04-07 2017-10-12 株式会社日立製作所 制御システムおよび制御装置
JP2018030185A (ja) * 2016-08-23 2018-03-01 ファナック株式会社 人とロボットが協働して作業を行うロボットの動作を学習する機械学習器、ロボットシステムおよび機械学習方法
WO2018163288A1 (ja) * 2017-03-07 2018-09-13 日産自動車株式会社 走行支援方法及び運転制御装置
WO2019116643A1 (ja) * 2017-12-12 2019-06-20 ソニー株式会社 情報処理装置および情報処理方法

Also Published As

Publication number Publication date
TW202132932A (zh) 2021-09-01
US20220234195A1 (en) 2022-07-28
JPWO2021161374A1 (ja) 2021-08-19
CN115039048A (zh) 2022-09-09
JP6896179B1 (ja) 2021-06-30

Similar Documents

Publication Publication Date Title
Hirose et al. Deep visual mpc-policy learning for navigation
US11835958B2 (en) Predictive motion planning system and method
JP2022516382A (ja) 自律型車両の計画および予測
US8510034B2 (en) Perception model for trajectory following autonomous and human augmented steering control
US10739774B2 (en) Keyframe based autonomous vehicle operation
US11851081B2 (en) Predictability-based autonomous vehicle trajectory assessments
JP2019519851A (ja) 車両を制御する方法及びシステム
US8498796B2 (en) Perception model for trajectory following autonomous and human augmented speed control
CN114655248A (zh) 自动驾驶车辆的横向控制方法、装置及车辆
CN111868641A (zh) 用于产生用于训练车辆控制设备的人工智能模块的训练数据组的方法
US11860634B2 (en) Lane-attention: predicting vehicles' moving trajectories by learning their attention over lanes
US20120158247A1 (en) Perception Model For Trajectory Following Autonomous And Human Augmented Steering Control
JP7345577B2 (ja) 自律走行車両用動的モデル評価パッケージ
CN111754015A (zh) 在动态系统中训练和选择最优解决方案的系统和方法
WO2021161374A1 (ja) 制御装置及び学習装置
Abdallaoui et al. Autonomous Vehicle Control Systems-State of the Art of Decision-Making and Maneuver execution
Kim et al. Development of an optimal velocity selection method with velocity obstacle
US11787419B1 (en) Robust numerically stable Kalman filter for autonomous vehicles
US20230286535A1 (en) Method and computer system for controlling the movement of a host vehicle
WO2024101344A1 (ja) 制御システム、制御方法及び制御プログラム
Ginerica et al. A vision-dynamics learning approach to prediction-based control in autonomous vehicles
US20240157944A1 (en) Reinforcement learning for autonomous lane change
Shaneyfelt et al. Control and simulation of robotic swarms in heterogeneous environments
US20240199083A1 (en) Machine-learned cost estimation in tree search trajectory generation for vehicle control
Mondal DEVELOPMENT OF AUTONOMOUS VEHICLE MOTION PLANNING AND CONTROL ALGORITHM WITH D* PLANNER AND MODEL PREDICTIVE CONTROL IN A DYNAMIC ENVIRONMENT

Legal Events

Date Code Title Description
ENP Entry into the national phase

Ref document number: 2020535671

Country of ref document: JP

Kind code of ref document: A

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20919183

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20919183

Country of ref document: EP

Kind code of ref document: A1