WO2022250154A1 - 学習済みモデル生成装置、学習済みモデル生成方法、及び認識装置 - Google Patents

学習済みモデル生成装置、学習済みモデル生成方法、及び認識装置 Download PDF

Info

Publication number
WO2022250154A1
WO2022250154A1 PCT/JP2022/021815 JP2022021815W WO2022250154A1 WO 2022250154 A1 WO2022250154 A1 WO 2022250154A1 JP 2022021815 W JP2022021815 W JP 2022021815W WO 2022250154 A1 WO2022250154 A1 WO 2022250154A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
model
learning
adapter
target
Prior art date
Application number
PCT/JP2022/021815
Other languages
English (en)
French (fr)
Inventor
南己 淺谷
Original Assignee
京セラ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 京セラ株式会社 filed Critical 京セラ株式会社
Priority to JP2023513902A priority Critical patent/JP7271809B2/ja
Priority to EP22811422.9A priority patent/EP4350614A1/en
Priority to CN202280037790.3A priority patent/CN117396927A/zh
Publication of WO2022250154A1 publication Critical patent/WO2022250154A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/75Determining position or orientation of objects or cameras using feature-based methods involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20076Probabilistic image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Definitions

  • the present disclosure relates to a trained model generation device, a trained model generation method, and a recognition device.
  • a trained model generating device includes a control unit that generates a trained model that outputs a recognition result of a recognition target included in input information.
  • the control unit is connected to at least one base model generated by executing first learning using teacher data including learning target information that is the same as or related to the input information, and the learning Inputting the input information generated by performing second learning using teacher data including target information different from information used in the first learning to the at least one base model Get a convertible adapter before you do.
  • the control unit performs third learning using teacher data including information different from information used in the first learning and information used in the second learning among the information to be learned. Generate the target model by running it.
  • the control unit generates the learned model by combining the adapter and the target model.
  • a trained model generation method is executed by a trained model generation device that generates a trained model that outputs a recognition result of a recognition target included in input information.
  • the method for generating a trained model is coupled to at least one base model generated by performing a first learning using teacher data including information to be learned that is the same as or related to the input information. , the input information generated by performing second learning using teacher data including information different from the information used in the first learning among the information to be learned, the at least one base; Including getting translatable adapters before populating the model.
  • the trained model generation method includes a third learning method using teacher data including information different from information used in the first learning and information used in the second learning, among the information to be learned.
  • the trained model generation method includes generating the trained model by combining the adapter and the target model.
  • a recognition device includes a trained model that outputs a recognition result of a recognition target included in input information.
  • the trained model is combined with at least one base model generated by performing a first learning using teacher data including information to be learned that is the same as or related to the input information, applying the input information generated by executing second learning using teacher data including information different from the information used in the first learning out of information to be learned to the at least one base model; Including an adapter that can be converted before entering.
  • third learning using teacher data wherein the trained model includes information different from the information used in the first learning and the information used in the second learning among the information to be learned; contains the target model generated by running
  • the trained model is constructed by combining the adapter and the target model.
  • FIG. 1 is a block diagram showing a configuration example of a trained model generation system according to an embodiment
  • FIG. FIG. 4 is a schematic diagram showing a generic library and a trained model to which an image adapter is coupled
  • FIG. 3 is a diagram showing an example of an image adapter
  • FIG. 4 is a schematic diagram showing generation of an image adapter coupled to a plurality of base models and generation of a trained model by transferring the image adapter to the trained model
  • 4 is a flow chart showing an example procedure of a learned model generation method
  • 1 is a schematic diagram showing a configuration example of a robot control system
  • recognition accuracy can be improved.
  • a trained model generation device 20 As shown in FIG. 1 , a trained model generation device 20 according to an embodiment of the present disclosure includes a control section 22 and an information generation section 26 . The trained model generating device 20 generates a trained model 70 (see FIG. 2).
  • the control unit 22 acquires information about the target applied to learning from the information generation unit 26 .
  • Objects that are applied to learning are also referred to as learning objects.
  • the control unit 22 performs learning using the information about the learning target acquired from the information generating unit 26 as teacher data, and outputs information or data based on the learning result.
  • the learning target for generating the trained model 70 may include the object itself to be recognized, or another object. may include An object that can be recognized by the trained model 70 is also called a recognition target.
  • the control unit 22 may include at least one processor to provide control and processing power to perform various functions.
  • the processor may execute programs that implement various functions of the controller 22 .
  • a processor may be implemented as a single integrated circuit.
  • An integrated circuit is also called an IC (Integrated Circuit).
  • a processor may be implemented as a plurality of communicatively coupled integrated and discrete circuits. Processors may be implemented based on various other known technologies.
  • the control unit 22 may include a storage unit.
  • the storage unit may include an electromagnetic storage medium such as a magnetic disk, or may include a memory such as a semiconductor memory or a magnetic memory.
  • the storage unit stores various information.
  • the storage unit stores programs and the like executed by the control unit 22 .
  • the storage unit may be configured as a non-transitory readable medium.
  • the storage section may function as a work memory for the control section 22 . At least part of the storage section may be configured separately from the control section 22 .
  • the information generation unit 26 outputs teacher data used in learning in the control unit 22 to the control unit 22 .
  • the information generator 26 may generate teacher data, or acquire teacher data from an external device.
  • the information generation unit 26 may be configured including at least one processor to provide control and processing capabilities for generating or acquiring teacher data.
  • the processor may execute a program that generates or acquires teacher data.
  • the information generator 26 may be configured identically or similarly to the controller 22 .
  • the information generator 26 may be configured integrally with the controller 22 .
  • the information generation unit 26 may generate information representing the actual mode of the learning target as teacher data. Information representing the actual aspect of the learning object is also referred to as actual information.
  • the information generator 26 may include a camera that takes an actual image of the learning target.
  • the information generation unit 26 may perform annotation by adding information such as a label to the actual image to be learned.
  • the information generator 26 may receive an operation input related to annotation from the user.
  • the information generation unit 26 may perform annotation based on a learning model for annotation prepared in advance.
  • the information generator 26 can generate actual information by annotating the actual image to be learned.
  • the information generating unit 26 virtually generates, as teacher data, information about the learning target as information of a task that is the same as or related to the input information input to the trained model 70 .
  • the input information will be the image in which the object was taken.
  • a task that is the same as or related to the input information corresponds to a task that is executed using the input information to be processed by the trained model 70 or a task that is executed using information similar to or related to the input information.
  • the same task as the input information corresponds to the task of classifying the screws and nails that are actually classified by the trained model 70. do.
  • the task associated with the input information corresponds to the task of classifying screws and nails from an image that also includes other types of screws or nails that are similar to a given type of screws and nails, or objects that are similar to these.
  • the information about the learning object that is virtually generated is also called pseudo information.
  • the pseudo information may be, for example, a computer graphics (CG) image of the screw or nail to be recognized instead of image information of the actual screw or nail.
  • the task may include, for example, a classification task for classifying recognition targets included in input information into at least two types.
  • the task may include, for example, a task of distinguishing whether a recognition target is a screw or a nail, or an evaluation task of calculating at least one type of evaluation value based on input information.
  • the classification task can be subdivided into, for example, a task of distinguishing whether a recognition target is a dog or a cat.
  • Tasks are not limited to classification tasks, and may include tasks that implement various other operations.
  • a task may include a segmentation determining from pixels belonging to a particular object.
  • a task may include object detection to detect an enclosing rectangular region.
  • the task may include object pose estimation.
  • a task may include keypoint detection to find certain feature points.
  • both the input information and the information about the learning target are classification task information
  • the relationship between the input information and the information about the learning target is assumed to be related task information.
  • both the input information and the information about the learning target are task information for distinguishing whether the recognition target is a dog or a cat
  • the relationship between the input information and the information about the learning target is the same. task information.
  • the relationship between the input information and the learning target information is not limited to these examples, and can be determined under various conditions.
  • the information generation unit 26 may generate information that virtually represents the appearance of the learning target in order to generate pseudo information.
  • the information generator 26 may generate modeling data such as three-dimensional CAD (Computer Aided Design) data of the appearance of the learning object as information that virtually represents the appearance of the learning object.
  • the information generation unit 26 may generate an image of the learning target as information that virtually represents the appearance of the learning target.
  • the information generation unit 26 may perform annotation by adding information such as a label to modeling data or an image that virtually represents the appearance of the object to be learned.
  • the information generation unit 26 can generate pseudo information by annotating the generated information that virtually represents the appearance of the object to be learned.
  • the information generation unit 26 may acquire information that virtually represents the appearance of the learning object from an external device.
  • the information generation unit 26 may receive input regarding modeling data from the user.
  • the information generation unit 26 may acquire data obtained by annotating information that virtually represents the appearance of the object to be learned.
  • the information generator 26 may receive an operation input related to annotation from the user.
  • the information generation unit 26 may perform annotation on information that virtually represents the appearance of a learning object based on a learning model for annotation that has been prepared in advance.
  • the trained model generating device 20 generates a trained model 70 that outputs recognition results of recognition targets included in input information.
  • the trained model 70 is configured as a model in which the image adapter 50 is coupled to the input side of the target model 40 .
  • the image adapter 50 is configured to be able to input input information.
  • the image adapter 50 is also simply called an adapter.
  • the trained model generation device 20 performs the following operations in preparation for generating the trained model 70.
  • the trained model generating device 20 generates the base model 30 by learning based on the pseudo information.
  • the training performed to generate the base model 30 is also referred to as first training.
  • the teacher data used in the first learning may include learning target information that is the same as or related to the input information.
  • the trained model generating device 20 may use real information instead of pseudo information, or may use both pseudo information and real information.
  • the pseudo information used for learning to generate the base model 30 is also called first pseudo information.
  • the trained model generation device 20 generates the image adapter 50 by further learning based on the actual information while the image adapter 50 is connected to the input side of the base model 30 .
  • the learning performed to generate the image adapter 50 is also referred to as second learning.
  • the teacher data used in the second learning includes learning target information that is the same as or related to the input information, and may include information different from the information used in the first learning.
  • the real information used for learning to generate the image adapter 50 is also called first real information. Second pseudo information and second real information, which will be described later, may be used as the first pseudo information and first real information.
  • the trained model generation device 20 generates the target model 40 by learning based on pseudo information or real information without connecting the image adapter 50 .
  • the learning performed to generate the target model 40 is also referred to as third learning.
  • the teacher data used in the third learning contains learning target information that is the same as or related to the input information, and is different from the information used in the first learning and the information used in the second learning. May contain information.
  • the pseudo information used for learning to generate the target model 40 is also called second pseudo information.
  • the real information used for learning to generate the target model 40 is also referred to as second real information.
  • the trained model generating device 20 transfers the image adapter 50 generated in advance by pre-learning in a state where it is connected to the base model 30, and connects it to the input side of the newly generated target model 40 to generate a trained model 70. to generate Note that the trained model generation device 20 may transfer the base model 30 used for pre-learning as the target model 40 . Also, the trained model generation device 20 combines the image adapter 50 and the target model 40, performs further learning using the second pseudo information and the second real information as teacher data, and generates a trained model 70. good too.
  • the trained model generating device 20 generates the image adapter 50 in advance by pre-learning, generates the target model 40 by learning based only on the pseudo information, and generates the trained model 70 simply by connecting the image adapter 50. can be generated. As a result, the workload of generating the target model 40 can be reduced.
  • pre-learning real information, pseudo information, or information combining these may be used as training data.
  • the base model 30 and the target model 40 are configured as a CNN (Convolution Neural Network) having multiple layers. Information input to the base model 30 and the target model 40 is subjected to convolution based on predetermined weighting factors in each layer of the CNN. In training the base model 30 and the target model 40, the weighting factors are updated.
  • Base model 30 and target model 40 may be configured by VGG 16 or ResNet 50 .
  • the base model 30 and the target model 40 are not limited to these examples, and may be configured as various other models.
  • the base model 30 includes a first base model 31 and a second base model 32 .
  • the target model 40 includes a first target model 41 and a second target model 42 .
  • the first base model 31 and the first target model 41 are also called backbone.
  • the second base model 32 and the second target model 42 are also called heads.
  • Base model 30 and target model 40 include a backbone and a head.
  • each trained model included in the target model 40 may be different from the trained model included in the base model 30 .
  • each of the trained models included in the target model 40 may be subjected to a different learning process than each of the trained models included in the base model 30 . More specifically, the learning process may be performed using teacher data containing information different from each other.
  • the pre-learning model included in the target model 40 may be the same model as the pre-learning model included in the base model 30 .
  • the backbone is configured to output the result of extracting the feature quantity of the input information.
  • the feature quantity represents, for example, the feature of the appearance of the learning object as a numerical value.
  • the head is configured to make predetermined decisions about the input information based on the output of the backbone. Specifically, the head may output the recognition result of the recognition target included in the input information based on the feature amount of the input information output by the backbone. That is, the head is configured to perform recognition of the recognition target as a predetermined determination.
  • the feature quantity can be a parameter representing the ratio of striped area on the body surface.
  • the predetermined determination may be to determine whether the recognition target is a horse or a zebra by comparing the area ratio of the striped pattern on the body surface with a threshold value.
  • the feature quantity may be a parameter representing the size or the number of holes in the shell.
  • the predetermined determination may be comparing the size or the number of holes in the shell with a threshold value to determine whether the recognition target is an abalone or a tokobushi.
  • the image adapter 50 may be configured as a CNN with multiple layers, as illustrated in FIG.
  • the image adapter 50 is configured to convert information input to the base model 30 or the target model 40 before being input to the base model 30 or the target model 40 .
  • the image adapter 50 is coupled to the input side of the target model 40 in FIG. 3, but can also be coupled to the input side of the base model 30.
  • the block labeled "Conv” represents executing convolution. Convolution is also called downsampling. Also, the block described as “Conv Trans” represents the execution of transposed convolution. Transposed convolution is also called upsampling. Transposed convolution is sometimes referred to as deconvolution.
  • the block labeled "Conv 4x4" represents that the size of the filter used to perform the convolution on the two-dimensional data is 4x4.
  • a filter also called a kernel, corresponds to a set of weighting coefficients in performing a convolution or deconvolution of the information input to the block.
  • the block labeled “Conv Trans 4x4" represents that the size of the filter used to perform the transposed convolution on the two-dimensional data is 4x4.
  • the block labeled "stride 2" represents shifting the filter by two elements when performing convolution or transposed convolution. Conversely, blocks without “stride 2" indicate that the filter is shifted by one element when performing convolution or transposed convolution.
  • the image adapter 50 When the image adapter 50 is connected to the input side of the base model 30, it converts pseudo information or real information input for learning and outputs it to the base model 30. If the pseudo information or real information is an image, the image adapter 50 converts the input image and outputs it to the base model 30 . When connected to the input side of the target model 40 , the image adapter 50 converts and outputs an image to be recognized included in the input information input to the trained model 70 . Further, the image adapter 50 may convert the form of the input image and output it. The image adapter 50 may output the input image by, for example, emphasizing the edges of the image or brightening the shaded portion of the image. The image adapter 50 converts the target model 40 to which it is connected so that it can process the task correctly. For example, if the task is recognition of an object included in an image, the base model 30 or the target model 40 converts the mode so that the result of correctly recognizing the recognition target can be output.
  • the control unit 22 of the trained model generating device 20 can generate the trained model 70 by executing the operations schematically shown in FIG. 4, for example.
  • the operation of the trained model generation device 20 will be described below with reference to FIG.
  • the control unit 22 generates at least one base model 30 as a first step. Specifically, the control unit 22 acquires the first pseudo information as teacher data from the information generation unit 26 . The control unit 22 generates the base model 30 by learning based on the first pseudo information. The control unit 22 updates the base model 30 so as to increase the probability that the information output from the learning base model 30 is the information representing the learning target included in the first pseudo information. The controller 22 may update the base model 30 by updating the weighting coefficients of the base model 30 . Before starting learning, the base model 30 may be in a predetermined initial state. That is, the weighting factor of the base model 30 may be set to a predetermined initial value.
  • the control unit 22 can generate the base model 30 by learning based on the first pseudo information. Since the learning for generating the base model 30 is executed prior to the learning for generating the image adapter 50 in the second step, which will be described later, it can be said to be pre-learning.
  • the controller 22 has been described as acquiring the first pseudo information from the information generator 26 as teacher data, but the present invention is not limited to this.
  • training data not only the first pseudo information but also the first real information can be used.
  • the second pseudo information or the second real information may be used as the training data.
  • the control unit 22 generates x base models 30 .
  • the x number of base models 30 are distinguished from the first base model 301 to the x-th base model 30x.
  • the control unit 22 acquires different pieces of information as the first pseudo information used for learning to generate each base model 30 .
  • the first base model 301 includes a first base model 311 and a second base model 321 .
  • the x-th base model 30x includes a first base model 31x and a second base model 32x.
  • the control unit 22 generates the image adapter 50 as a second step. Specifically, the control unit 22 may further acquire actual information as teacher data from the information generation unit 26 .
  • the control unit 22 updates the image adapter 50 by learning based on the first pseudo information and real information while the image adapter 50 is connected to the learned base model 30 generated in the first step.
  • the controller 22 may update the image adapter 50 by updating the weighting coefficients of the image adapter 50 .
  • the control unit 22 acquires different information as actual information used for learning for generating each base model 30 .
  • the image adapter 50 coupled to the base model 30 may be in a predetermined initial state. That is, the weighting factor of the image adapter 50 may be set to a predetermined initial value.
  • the learning image adapter 50a to be updated by learning is represented by a black rectangle.
  • the control unit 22 learns based on the first pseudo information and the real information in a state in which the image adapter 50 is connected to the learned base model 30 generated in the first step, and the image adapter 50 has been described as updating, but it is not limited to this.
  • the control unit 22 may perform learning based on only one of the first pseudo information and the real information to update the image adapter 50 .
  • the control unit 22 learns based on the first pseudo information or real information corresponding to each base model 30 while the image adapter 50a being learned is connected to each of the x number of base models 30 .
  • the control unit 22 inputs the first pseudo information and the real information to the image adapter 50a under learning, and inputs the output of the image adapter 50a under learning to each of the x base models 30 for learning.
  • the control unit 22 generates the image adapter 50 by updating the image adapter 50 through learning.
  • the control unit 22 outputs information output from each base model 30 to which the first pseudo information is input via the image adapter 50, and output from each base model 30 to which actual information is input via the image adapter 50. Update the image adapter 50 so that the information becomes closer.
  • the control unit 22 outputs information output from each base model 30 to which the first pseudo information is input via the image adapter 50, and output from each base model 30 to which actual information is input via the image adapter 50.
  • the image adapter 50 may be updated to increase the probability of matching information.
  • the control unit 22 may update each base model 30 together with the image adapter 50 through learning, or may update only the image adapter 50 .
  • the control unit 22 may perform learning for each combination of one base model 30 coupled with the image adapter 50a being learned.
  • the control unit 22 may combine a plurality of combinations of one base model 30 and the image adapter 50a being learned and perform learning in parallel.
  • control unit 22 can generate the image adapter 50 through learning based on the first pseudo information and real information.
  • the learning for generating the image adapter 50 can be performed independently of the learning for generating the target model 40 in the third step, which will be described later.
  • the control unit 22 generates a target model 40 as a third step. Specifically, the control unit 22 acquires the second pseudo information as teacher data from the information generation unit 26 . As the second pseudo information, the control unit 22 acquires task information that is the same as or related to the first pseudo information used for learning to generate the base model 30 . The control unit 22 generates the target model 40 by learning based on the second pseudo information. The control unit 22 inputs the second pseudo information to the image adapter 50 and inputs it to the target model 40 without conversion. The control unit 22 updates the target model 40 so as to increase the probability that the information output from the learning target model 40 is the information representing the learning target included in the second pseudo information. The control unit 22 may update the target model 40 by updating the weighting coefficients of the target model 40 .
  • the target model 40 Before starting learning, the target model 40 may be in a predetermined initial state. That is, the weighting factor of the target model 40 may be set to a predetermined initial value.
  • the target models 40 to be updated by learning include a first target model 41a and a second target model 42a that are being learned, and are represented by black rectangles.
  • the control unit 22 can generate the target model 40 by learning based on the second pseudo information.
  • the controller 22 has been described as acquiring the second pseudo information from the information generator 26 as teacher data, but the present invention is not limited to this. As training data, not only the second pseudo information but also the second real information may be used.
  • control unit 22 inputs the second pseudo information to the target model 40 without converting it to update the target model 40, but the present invention is not limited to this.
  • the control unit 22 updates the target model 40 and the image adapter 50 by combining the target model 40 and the image adapter 50 and learning using the second pseudo information, the second real information, or both.
  • the control unit 22 generates a trained model 70 by connecting the image adapter 50 to the target model 40 .
  • the control unit 22 converts the trained image adapter 50b generated in the second step to the target model 40 including the trained first target model 41b and the second trained target model 42b generated in the third step. Join. That is, the control unit 22 transfers the image adapter 50 generated in the second step and couples it to the target model 40 .
  • the target model 40 and the image adapter 50 generated in the third step have been described as being combined, but the present invention is not limited to this.
  • the target model 40 the base model 30 generated in the first step may be used. In this case, the third step may not be executed.
  • the controller 22 of the trained model generation device 20 may perform the above-described operations as a trained model generation method including the procedures of the flowchart illustrated in FIG.
  • the learned model generation method may be implemented as a learned model generation program that is executed by a processor that configures the control unit 22 .
  • the trained model generation program may be stored on non-transitory computer-readable media.
  • the control unit 22 acquires a plurality of base models 30 (step S1).
  • the control unit 22 may generate a plurality of base models 30 by learning based on the first pseudo information, or may acquire them from an external device.
  • the control unit 22 acquires only the plurality of base models 30 used for learning to generate the image adapter 50.
  • the control unit 22 selects at least one base model 30 from a plurality of base models 30 (step S2).
  • the control unit 22 acquires information on a learning target (step S3).
  • the control unit 22 may acquire real information of a task that is the same as or related to pseudo information used in learning for generating the selected base model 30 as learning target information.
  • the control unit 22 generates the image adapter 50 by learning based on the learning target information while the image adapter 50 is connected to the selected base model 30 (step S4). Specifically, the control unit 22 inputs real information to the image adapter 50 as learning target information. Information converted from actual information by the image adapter 50 is input to the selected base model 30 . The control unit 22 generates the image adapter 50 by updating the image adapter 50 based on the information output from the selected base model 30 .
  • the control unit 22 determines whether all base models 30 have been selected (step S5). If all the base models 30 have not been selected (step S5: NO), that is, if at least one base model 30 has not been selected, the control unit 22 returns to the procedure of step S2 to select the unselected base model. Select 30.
  • step S6 the control unit 22 acquires information on the recognition target (step S6). Specifically, the control unit 22 may acquire second pseudo information of a task that is the same as or related to the first pseudo information used in learning for generating the selected base model 30 as information to be recognized.
  • the control unit 22 generates the target model 40 by learning based on the information of the recognition target (step S7).
  • the control unit 22 connects the image adapter 50 and the target model 40 (step S8).
  • the control unit 22 can generate the learned model 70 that combines the image adapter 50 and the target model 40 by executing the above procedure.
  • the control unit 22 ends the execution of the procedure of the flowchart of FIG.
  • the control unit 22 inputs the input information to the generated trained model 70, and evaluates the recognition accuracy of the recognition target included in the input information based on the output of the trained model 70. good.
  • the control unit 22 may output the generated learned model 70 to the robot control device 110 (see FIG. 6), which will be described later.
  • the trained model generation device 20 combines the image adapter 50 generated by learning in the state of being connected to the base model 30 with the target model 40 newly generated by another learning. By doing so, the trained model 70 can be generated.
  • the trained model generating device 20 generates the image adapter 50 by learning based on real information or pseudo information.
  • the trained model generating device 20 generates the target model 40 by learning based only on the pseudo information.
  • the recognition accuracy by the trained model 70 combined with the image adapter 50 generated by learning based on real information or pseudo information is improved compared to the case of using only the target model 40 . Therefore, if the image adapter 50 is generated in advance by learning based on real information or pseudo information, high recognition accuracy can be expected by combining the image adapter 50 with the target model 40 .
  • the trained model generating device 20 can increase the recognition accuracy by generating the trained model 70 by connecting the image adapter 50 . In other words, the recognition accuracy of the trained model 70 can be improved without transferring the base model 30 to the target model 40 .
  • the operation of transferring the base model 30 itself can be a constraint on the generation of the trained model 70.
  • the target model 40 may not match the desired recognition target. be.
  • the trained model generation device 20 according to the present embodiment does not need to transfer the base model 30 to the target model 40, so that the target model 40 can be easily matched with the model desired by the end user.
  • the image adapter 50 generated by learning in a state of being linked to each of the plurality of base models 30 is also called an upstream task because it is generated by the service provider's prior learning.
  • the trained model 70 generated by transferring the image adapter 50 from the upstream task and combining it with the newly generated target model 40 is generated according to the recognition target desired by the end user of the service. , also called downstream tasks.
  • the trained model generation device 20 In the downstream task, it is required to generate the trained model 70 with little data acquisition effort or in a short learning time to quickly operate the system.
  • upstream tasks a lot of data and computational resources can be expended in advance in order to provide high-quality metamodels with fast transfer learning and high generalization performance.
  • the trained model generation device 20 according to the present embodiment generates upstream tasks using a large amount of data and computational resources, so that downstream tasks can be generated with a small load, and as a result, the system can be put into operation early.
  • the trained model generation device 20 recognizes the real information even in the downstream task that has not learned based on the real information. Accuracy can be improved.
  • the image adapter 50 is generated so as to increase the recognition accuracy for real information of each of the plurality of base models 30 generated so as to increase the recognition accuracy for pseudo information.
  • the recognition accuracy of the target model 40 newly generated in the downstream task can also be improved.
  • the generation of the image adapter 50 to improve the recognition accuracy of each of the plurality of base models 30 is also called generalization of the image adapter 50 or Generalized Image Adapter (GIA).
  • GAA Generalized Image Adapter
  • image quality improvements that are fundamentally useful for the task can be obtained, such as emphasizing common features that perform well in multiple base models 30 while suppressing features that are sources of noise. This improvement in image quality is expected not only to improve the Sim-to-Real problem, but also to improve recognition accuracy with various base models.
  • the trained model generation device 20 may generate the image adapter 50 in the upstream task and transfer the image adapter 50 generated in the upstream task to the downstream task.
  • the trained model generation device 20 may generate the image adapter 50 by learning based on the second real information or the second pseudo information only in downstream tasks.
  • ⁇ Comparison of recognition accuracy> When recognizing a recognition target from input information including a real image using a model generated by learning based only on a generated image that is pseudo information, the recognition accuracy decreases due to the difference between the generated image and the real image. Specifically, in a model that can recognize a recognition target with a probability close to 100% for a generated image, the probability that a recognition target can be recognized for a real image can drop to about 70%.
  • the trained model 70 is generated as a model in which the image adapter 50 generated by learning in a state of being connected to each of the plurality of base models 30 is connected to the target model 40 .
  • the image adapter 50 can correct errors in recognition results due to differences between the generated image and the actual image.
  • the probability that the recognition target can be recognized with respect to the real image can be increased to about 80%. That is, when the image adapter 50 is connected, the probability of recognizing the recognition target can be increased compared to when the image adapter 50 is not connected.
  • the learned model 70 according to this embodiment is generated without transferring the base model 30 . That is, it is possible to increase the probability that the recognition target can be recognized with respect to the real image without transferring the base model 30 . By not having to transfer the base model 30, the target model 40 is more likely to match the model desired by the end user.
  • a robot control system 100 includes a robot 2 and a robot control device 110 .
  • the robot 2 moves the work object 8 from the work start point 6 to the work target point 7 . That is, the robot control device 110 controls the robot 2 so that the work object 8 moves from the work start point 6 to the work target point 7 .
  • the work object 8 is also referred to as work object.
  • the robot control device 110 controls the robot 2 based on information regarding the space in which the robot 2 works. Information about space is also referred to as spatial information.
  • the robot 2 has an arm 2A and an end effector 2B.
  • the arm 2A may be configured as, for example, a 6-axis or 7-axis vertical articulated robot.
  • the arm 2A may be configured as a 3-axis or 4-axis horizontal articulated robot or SCARA robot.
  • the arm 2A may be configured as a 2-axis or 3-axis Cartesian robot.
  • Arm 2A may be configured as a parallel link robot or the like.
  • the number of shafts forming the arm 2A is not limited to the illustrated one.
  • the robot 2 has an arm 2A connected by a plurality of joints and operates by driving the joints.
  • the end effector 2B may include, for example, a gripping hand configured to grip the work object 8.
  • the grasping hand may have multiple fingers. The number of fingers of the grasping hand may be two or more. The fingers of the grasping hand may have one or more joints.
  • the end effector 2B may include a suction hand configured to be able to suction the work object 8 .
  • the end effector 2B may include a scooping hand configured to scoop the work object 8 .
  • the end effector 2 ⁇ /b>B includes a tool such as a drill, and may be configured to be able to perform various machining operations such as drilling a hole in the work object 8 .
  • the end effector 2B is not limited to these examples, and may be configured to perform various other operations. In the configuration illustrated in FIG. 1, the end effector 2B is assumed to include a grasping hand.
  • the robot 2 can control the position of the end effector 2B by operating the arm 2A.
  • the end effector 2 ⁇ /b>B may have an axis that serves as a reference for the direction in which it acts on the work object 8 . If the end effector 2B has an axis, the robot 2 can control the direction of the axis of the end effector 2B by operating the arm 2A.
  • the robot 2 controls the start and end of the action of the end effector 2B acting on the work object 8 .
  • the robot 2 can move or process the workpiece 8 by controlling the position of the end effector 2B or the direction of the axis of the end effector 2B and controlling the operation of the end effector 2B. In the configuration illustrated in FIG.
  • the robot 2 causes the end effector 2B to grip the work object 8 at the work start point 6 and moves the end effector 2B to the work target point 7 .
  • the robot 2 causes the end effector 2B to release the work object 8 at the work target point 7 . By doing so, the robot 2 can move the work object 8 from the work start point 6 to the work target point 7 .
  • the robot control system 100 further comprises a sensor 3, as shown in FIG. A sensor 3 detects physical information of the robot 2 .
  • the physical information of the robot 2 may include information on the actual position or orientation of each constituent part of the robot 2 or the velocity or acceleration of each constituent part of the robot 2 .
  • the physical information of the robot 2 may include information about forces acting on each component of the robot 2 .
  • the physical information of the robot 2 may include information about the current flowing through the motors that drive each component of the robot 2 or the torque of the motors.
  • the physical information of the robot 2 represents the result of the actual motion of the robot 2 . In other words, the robot control system 100 can grasp the result of the actual motion of the robot 2 by acquiring the physical information of the robot 2 .
  • the sensor 3 may include a force sensor or a tactile sensor that detects force acting on the robot 2, distributed pressure, slip, or the like as physical information of the robot 2.
  • the sensor 3 may include a motion sensor that detects the position or posture, or the speed or acceleration of the robot 2 as the physical information of the robot 2 .
  • the sensor 3 may include a current sensor that detects the current flowing through the motor that drives the robot 2 as the physical information of the robot 2 .
  • the sensor 3 may include a torque sensor that detects the torque of the motor that drives the robot 2 as the physical information of the robot 2 .
  • the sensor 3 may be installed in a joint of the robot 2 or in a joint driving section that drives the joint.
  • the sensor 3 may be installed on the arm 2A of the robot 2 or the end effector 2B.
  • the sensor 3 outputs the detected physical information of the robot 2 to the robot control device 110 .
  • the sensor 3 detects and outputs physical information of the robot 2 at a predetermined timing.
  • the sensor 3 outputs physical information of the robot 2 as time-series data.
  • the robot control system 100 is assumed to have two cameras 4 .
  • the camera 4 captures an image of an object, a person, or the like located within the influence range 5 that may affect the motion of the robot 2 .
  • An image captured by the camera 4 may include monochrome luminance information, or may include luminance information of each color represented by RGB (Red, Green and Blue) or the like.
  • the range of influence 5 includes the motion range of the robot 2 . It is assumed that the influence range 5 is a range obtained by expanding the motion range of the robot 2 further outward.
  • the range of influence 5 may be set so that the robot 2 can be stopped before a person or the like moving from the outside to the inside of the motion range of the robot 2 enters the inside of the motion range of the robot 2 .
  • the range of influence 5 may be set, for example, as a range that extends a predetermined distance from the boundary of the motion range of the robot 2 to the outside.
  • the camera 4 may be installed so as to capture a bird's-eye view of the influence range 5 or the motion range of the robot 2 or a peripheral area thereof.
  • the number of cameras 4 is not limited to two, and may be one or three or more.
  • the robot control device 110 acquires the learned model 70 generated by the trained model generation device 20 . Based on the image captured by the camera 4 and the learned model 70, the robot control device 110 identifies the work object 8, the work start point 6, the work target point 7, or the like, which exist in the space where the robot 2 works. to recognize In other words, the robot control device 110 acquires the learned model 70 generated for recognizing the work object 8 and the like based on the image captured by the camera 4 . Robot controller 110 is also referred to as a recognizer.
  • the robot controller 110 may be configured with at least one processor to provide control and processing power to perform various functions.
  • Each component of the robot control device 110 may be configured including at least one processor.
  • a plurality of components among the components of the robot control device 110 may be realized by one processor.
  • the entire robot controller 110 may be implemented with one processor.
  • the processor may execute programs that implement various functions of the robot controller 110 .
  • a processor may be implemented as a single integrated circuit.
  • An integrated circuit is also called an IC (Integrated Circuit).
  • a processor may be implemented as a plurality of communicatively coupled integrated and discrete circuits. Processors may be implemented based on various other known technologies.
  • the robot control device 110 may include a storage unit.
  • the storage unit may include an electromagnetic storage medium such as a magnetic disk, or may include a memory such as a semiconductor memory or a magnetic memory.
  • the storage unit stores various information, programs executed by the robot control device 110, and the like.
  • the storage unit may be configured as a non-transitory readable medium.
  • the storage unit may function as a work memory for the robot control device 110 . At least part of the storage unit may be configured separately from the robot controller 110 .
  • the robot control device 110 acquires the learned model 70 in advance.
  • the robot control device 110 may store the trained model 70 in the storage unit.
  • the robot control device 110 obtains an image of the work object 8 from the camera 4 .
  • the robot control device 110 inputs the captured image of the work target 8 to the learned model 70 as input information.
  • the robot control device 110 acquires output information output from the learned model 70 according to the input of input information.
  • the robot control device 110 recognizes the work object 8 based on the output information, and performs work such as gripping and moving the work object 8 .
  • the robot control system 100 can acquire the learned model 70 from the learned model generation device 20 and recognize the work object 8 by the learned model 70 .
  • the trained model generation device 20 may set the loss function so that the output when input information is input to the generated trained model 70 approaches the output when teacher data is input.
  • cross-entropy can be used as the loss function.
  • Cross-entropy is calculated as a value representing the relationship between two probability distributions. Specifically, in this embodiment, the cross-entropy is calculated as a value representing the relationship between the input pseudo information or real information and the backbone, head or adapter.
  • the trained model generation device 20 learns so that the value of the loss function becomes small.
  • the output corresponding to the input of the input information can approach the output corresponding to the input of the teacher data.
  • the control unit 22 of the trained model generation device 20 trains the image adapter 50 by optimizing the loss function of the same or related task as the input information while the image adapter 50 is connected to the base model 30. may be generated. Optimization of the loss function may be, for example, minimization of the value of the loss function. Loss functions for tasks that are identical or related to the input information include the loss function of the base model 30 . On the other hand, the control unit 22 generates the image adapter 50 by learning to optimize a loss function other than the task that is the same as or related to the input information while the image adapter 50 is connected to the base model 30. good too. Non-task loss functions that are the same as or related to the input information include various significant loss functions other than the base model 30 loss function.
  • Discrimination Loss is a loss function used to learn the authenticity of a generated image by labeling it with a numerical value between 1, which represents complete truth, and 0, which represents complete falsehood. .
  • the control unit 22 learns an image output by the image adapter 50 when an image is input to the image adapter 50 as input information, using the correct answer as a label. By doing so, the control unit 22 controls the image adapter 50 so that the base model 30 generated by learning based on the pseudo information cannot distinguish between the image as the actual information and the image output by the image adapter 50 . can generate
  • the control unit 22 of the trained model generation device 20 generates the image adapter 50 by learning with the image adapter 50 coupled to each of the plurality of base models 30 . That is, the control unit 22 applies each of the plurality of base models 30 to pre-learning for generating the image adapter 50 .
  • the control unit 22 When the plurality of base models 30 includes the first base model 301 to the x-th base model 30x, the control unit 22 generates a combination in which each base model 30 is coupled to the image adapter 50 in order, Image adapter 50 may be generated by learning and updating image adapter 50 for each of each combination. That is, the control unit 22 may sequentially apply each of the plurality of base models 30 one by one to pre-learning for generating the image adapter 50 .
  • the control unit 22 may randomly determine the order in which the base model 30 is applied to pre-learning, or may determine it based on a predetermined rule.
  • the control unit 22 may execute in parallel a plurality of pre-learnings applying each of a plurality of combinations. That is, the control unit 22 may apply a plurality of base models 30 in parallel to pre-learning.
  • the control unit 22 may classify a plurality of base models 30 into a plurality of groups, and apply each group to pre-learning for generating the image adapter 50 in order.
  • the control unit 22 may classify a plurality of base models 30 into one group. In this case, the control unit 22 may apply the plurality of base models 30 classified into groups in parallel to pre-learning, or may apply each of the plurality of base models 30 one by one to pre-learning in order. good.
  • the control unit 22 may classify one base model 30 into each group.
  • the control unit 22 may randomly determine the order in which each group is applied to pre-learning, or may determine it based on a predetermined rule.
  • the embodiments of the trained model generation system 1 and the robot control system 100 have been described above. It can also be embodied as a medium (for example, an optical disk, a magneto-optical disk, a CD-ROM, a CD-R, a CD-RW, a magnetic tape, a hard disk, or a memory card).
  • a medium for example, an optical disk, a magneto-optical disk, a CD-ROM, a CD-R, a CD-RW, a magnetic tape, a hard disk, or a memory card.
  • the implementation form of the program is not limited to an application program such as an object code compiled by a compiler or a program code executed by an interpreter. good.
  • the program may or may not be configured so that all processing is performed only in the CPU on the control board.
  • the program may be configured to be partially or wholly executed by another processing unit mounted on an expansion board or expansion unit added to the board as required.
  • Embodiments according to the present disclosure are not limited to any specific configuration of the embodiments described above. Embodiments of the present disclosure extend to any novel feature or combination thereof described in the present disclosure or any novel method or process step or combination thereof described. be able to.
  • Descriptions such as “first” and “second” in this disclosure are identifiers for distinguishing the configurations. Configurations that are differentiated in descriptions such as “first” and “second” in this disclosure may interchange the numbers in that configuration. For example, the first pseudo information can replace the identifiers “first” and “second” with the second pseudo information. The exchange of identifiers is done simultaneously. The configurations are still distinct after the exchange of identifiers. Identifiers may be deleted. Configurations from which identifiers have been deleted are distinguished by codes. The description of identifiers such as “first” and “second” in this disclosure should not be used as a basis for interpreting the order of the configuration or the existence of lower numbered identifiers.
  • Trained model generation device (22: control unit, 26: information generation unit) 30 base model (31: first base model (31a: during learning, 31b: already learned), 32: second base model (32a: during learning, 32b: already learned), 301 to 30x: 1st to xth base model, 311-31x: 1st to x-th first base model, 321-32x: 1st to x-th second base model) 40 target model (41: first target model (41a: during learning, 41b: already learned), 42: second target model (42a: during learning, 42b: already learned)) 50 adapter (50a: learning, 50b: already learned) 70 trained model 100 robot control system (2: robot, 2A: arm, 2B: end effector, 3: sensor, 4: camera, 5: range of robot influence, 6: work start table, 7: work target table, 8 : work object, 110: robot control device (recognition device)

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)

Abstract

学習済みモデル生成装置は、入力情報に含まれる認識対象の認識結果を出力する学習済みモデルを生成する制御部を備える。制御部は、入力情報と同一又は関連する学習対象の情報を含む教師データを用いた第1の学習を実行することによって生成された少なくとも1つのベースモデルに結合された状態で、学習対象の情報のうち第1の学習で用いられた情報と異なる情報を含む教師データを用いた第2の学習を実行することによって生成された、入力情報を少なくとも1つのベースモデルに入力する前に変換可能なアダプタを取得し、学習対象の情報のうち第1の学習で用いられた情報及び第2の学習で用いられた情報のいずれとも異なる情報を含む教師データを用いた第3の学習を実行することによってターゲットモデルを生成し、アダプタとターゲットモデルとを結合することによって学習済みモデルを生成する。

Description

学習済みモデル生成装置、学習済みモデル生成方法、及び認識装置 関連出願へのクロスリファレンス
 本出願は、日本国特許出願2021-90676号(2021年5月28日出願)の優先権を主張するものであり、当該出願の開示全体を、ここに参照のために取り込む。
 本開示は、学習済みモデル生成装置、学習済みモデル生成方法、及び認識装置に関する。
 従来、対象標本を合成した学習画像を用いた学習によって生成された識別関数に被識別画像を入力することによって被識別画像に対象が含まれるか識別する装置が知られている(例えば特許文献1参照)。
特開2016-71502号公報
 本開示の一実施形態に係る学習済みモデル生成装置は、入力情報に含まれる認識対象の認識結果を出力する学習済みモデルを生成する制御部を備える。前記制御部は、前記入力情報と同一又は関連する学習対象の情報を含む教師データを用いた第1の学習を実行することによって生成された少なくとも1つのベースモデルに結合された状態で、前記学習対象の情報のうち前記第1の学習で用いられた情報と異なる情報を含む教師データを用いた第2の学習を実行することによって生成された、前記入力情報を前記少なくとも1つのベースモデルに入力する前に変換可能なアダプタを取得する。前記制御部は、前記学習対象の情報のうち前記第1の学習で用いられた情報及び前記第2の学習で用いられた情報のいずれとも異なる情報を含む教師データを用いた第3の学習を実行することによってターゲットモデルを生成する。前記制御部は、前記アダプタと前記ターゲットモデルとを結合することによって前記学習済みモデルを生成する。
 本開示の一実施形態に係る学習済みモデル生成方法は、入力情報に含まれる認識対象の認識結果を出力する学習済みモデルを生成する学習済みモデル生成装置によって実行される。前記学習済みモデル生成方法は、前記入力情報と同一又は関連する学習対象の情報を含む教師データを用いた第1の学習を実行することによって生成された少なくとも1つのベースモデルに結合された状態で、前記学習対象の情報のうち前記第1の学習で用いられた情報と異なる情報を含む教師データを用いた第2の学習を実行することによって生成された、前記入力情報を前記少なくとも1つのベースモデルに入力する前に変換可能なアダプタを取得することを含む。前記学習済みモデル生成方法は、前記学習対象の情報のうち前記第1の学習で用いられた情報及び前記第2の学習で用いられた情報のいずれとも異なる情報を含む教師データを用いた第3の学習を実行することによってターゲットモデルを生成することを含む。前記学習済みモデル生成方法は、前記アダプタと前記ターゲットモデルとを結合することによって前記学習済みモデルを生成することを含む。
 本開示の一実施形態に係る認識装置は、入力情報に含まれる認識対象の認識結果を出力する学習済みモデルを備える。前記学習済みモデルは、前記入力情報と同一又は関連する学習対象の情報を含む教師データを用いた第1の学習を実行することによって生成された少なくとも1つのベースモデルに結合された状態で、前記学習対象の情報のうち前記第1の学習で用いられた情報と異なる情報を含む教師データを用いた第2の学習を実行することによって生成された、前記入力情報を前記少なくとも1つのベースモデルに入力する前に変換可能なアダプタを含む。前記学習済みモデルは、前記学習対象の情報のうち前記第1の学習で用いられた情報及び前記第2の学習で用いられた情報のいずれとも異なる情報を含む教師データを用いた第3の学習を実行することによって生成したターゲットモデルを含む。前記学習済みモデルは、前記アダプタと前記ターゲットモデルとを結合することによって構成されている。
一実施形態に係る学習済みモデル生成システムの構成例を示すブロック図である。 イメージアダプタが結合される、汎用ライブラリと学習済みモデルとを示す模式図である。 イメージアダプタの一例を示す図である。 複数のベースモデルに結合されるイメージアダプタの生成と、イメージアダプタの学習済みモデルへの転移による学習済みモデルの生成とを示す模式図である。 学習済みモデル生成方法の手順例を示すフローチャートである。 ロボット制御システムの構成例を示す模式図である。
 学習済みモデルを用いた認識における認識精度の向上が求められる。本開示の一実施形態に係る学習済みモデル生成装置、学習済みモデル生成方法、及び認識装置によれば、認識精度が向上され得る。
(学習済みモデル生成装置20の構成例)
 図1に示されるように、本開示の一実施形態に係る学習済みモデル生成装置20は、制御部22と、情報生成部26とを備える。学習済みモデル生成装置20は、学習済みモデル70(図2参照)を生成する。
 制御部22は、情報生成部26から学習に適用される対象に関する情報を取得する。学習に適用される対象は、学習対象とも称される。制御部22は、情報生成部26から取得した学習対象に関する情報を教師データとする学習を実行し、学習結果に基づく情報又はデータを出力する。例えば学習済みモデル70が工業部品等の特定の物体を認識するモデルとして生成される場合、その学習済みモデル70を生成するための学習対象は、認識する物体そのものを含んでもよいし、他の物体を含んでもよい。学習済みモデル70が認識できる物体は、認識対象とも称される。
 制御部22は、種々の機能を実行するための制御及び処理能力を提供するために、少なくとも1つのプロセッサを含んで構成されてよい。プロセッサは、制御部22の種々の機能を実現するプログラムを実行してよい。プロセッサは、単一の集積回路として実現されてよい。集積回路は、IC(Integrated Circuit)とも称される。プロセッサは、複数の通信可能に接続された集積回路及びディスクリート回路として実現されてよい。プロセッサは、他の種々の既知の技術に基づいて実現されてよい。
 制御部22は、記憶部を備えてよい。記憶部は、磁気ディスク等の電磁記憶媒体を含んでよいし、半導体メモリ又は磁気メモリ等のメモリを含んでもよい。記憶部は、各種情報を格納する。記憶部は、制御部22で実行されるプログラム等を格納する。記憶部は、非一時的な読み取り可能媒体として構成されてもよい。記憶部は、制御部22のワークメモリとして機能してよい。記憶部の少なくとも一部は、制御部22とは別体として構成されてもよい。
 情報生成部26は、制御部22における学習で用いられる教師データを制御部22に出力する。情報生成部26は、教師データを生成してもよいし、外部装置から教師データを取得してもよい。
 情報生成部26は、教師データを生成又は取得するための制御及び処理能力を提供するために、少なくとも1つのプロセッサを含んで構成されてよい。プロセッサは、教師データを生成又は取得するプログラムを実行してよい。情報生成部26は、制御部22と同一又は類似に構成されてもよい。情報生成部26は、制御部22と一体に構成されてもよい。
 情報生成部26は、教師データとして、学習対象の実際の態様を表す情報を生成してよい。学習対象の実際の態様を表す情報は、実情報とも称される。情報生成部26は、学習対象の実際の画像を撮影するカメラを備えてもよい。情報生成部26は、学習対象の実際の画像に対してラベル等の情報を付与するアノテーションを実行してもよい。情報生成部26は、アノテーションに関する操作入力をユーザから受け付けてよい。情報生成部26は、あらかじめ準備されたアノテーションに関する学習モデルに基づいてアノテーションを実行してもよい。情報生成部26は、学習対象の実際の画像に対してアノテーションを実行することによって実情報を生成できる。
 情報生成部26は、教師データとして、学習済みモデル70に入力する入力情報と同一又は関連するタスクの情報として学習対象に関する情報を仮想的に生成する。学習済みモデル70を、画像に含まれる物体を認識して分類するタスクに利用することが想定されている場合、入力情報は物体が撮影された画像となる。入力情報と同一又は関連するタスクは、学習済みモデル70による処理対象の入力情報を用いて実行されるタスク、又は入力情報と類似、関連する情報を用いて実行されるタスクに対応する。例えば、画像に含まれる所定の種類のネジと釘とを分類するタスクにおいて、入力情報と同一のタスクは、実際に学習済みモデル70に分類させることとなるネジと釘とを分類するタスクに対応する。入力情報と関連するタスクは、所定の種類のネジ及び釘と類似する他の種類のネジ若しくは釘、又はこれらと類似する物体も含めた画像から、ネジ及び釘を分類するタスクに対応する。仮想的に生成された学習対象に関する情報は、疑似情報とも称される。疑似情報は、例えばネジ又は釘の実物を実際に撮影した画像情報ではなく、認識対象となるネジ又は釘を、CG(Computer Graphics)等で描画した画像であってよい。タスクは、例えば、入力情報に含まれる認識対象を少なくとも2種類に分類する分類タスクを含んでよい。タスクは、例えば、認識対象がネジであるか釘であるかを区別するタスク、又は、入力情報に基づいて少なくとも1種類の評価値を算出する評価タスクを含んでもよい。分類タスクは、例えば認識対象が犬であるか猫であるかを区別するタスクなどに細分化され得る。タスクは、分類タスクに限られず、他の種々の動作を実現するタスクを含んでよい。タスクは、特定の対象物に属する画素から判定するセグメンテーションを含んでよい。タスクは、内包する矩形領域を検出する物体検出を含んでよい。タスクは、対象物の姿勢推定を含んでよい。タスクは、ある特徴点を見つけるキーポイント検出を含んでよい。
 ここで、入力情報と学習対象に関する情報とが両方とも分類タスクの情報である場合、入力情報と学習対象に関する情報との間の関係は、関連するタスクの情報になっているとする。さらに、入力情報と学習対象に関する情報とが両方とも、認識対象が犬であるか猫であるかを区別するタスクの情報である場合、入力情報と学習対象に関する情報との間の関係は、同一のタスクの情報になっているとする。入力情報と学習対象に関する情報との間の関係は、これらの例に限られず、種々の条件で定められ得る。
 情報生成部26は、疑似情報を生成するために、学習対象の外観を仮想的に表す情報を生成してよい。情報生成部26は、学習対象の外観を仮想的に表す情報として、例えば学習対象の外観の三次元CAD(Computer Aided Design)データ等のモデリングデータを生成してもよい。情報生成部26は、学習対象の外観を仮想的に表す情報として、学習対象の画像を生成してもよい。情報生成部26は、学習対象の外観を仮想的に表すモデリングデータ又は画像等に対してラベル等の情報を付与するアノテーションを実行してもよい。情報生成部26は、生成した学習対象の外観を仮想的に表す情報にアノテーションを実行することによって疑似情報を生成できる。
 情報生成部26は、学習対象の外観を仮想的に表す情報を外部装置から取得してもよい。情報生成部26は、モデリングデータに関する入力をユーザから受け付けてもよい。情報生成部26は、学習対象の外観を仮想的に表す情報に対してアノテーションが実行されたデータを取得してもよい。情報生成部26は、アノテーションに関する操作入力をユーザから受け付けてもよい。情報生成部26は、あらかじめ準備されたアノテーションに関する学習モデルに基づいて、学習対象の外観を仮想的に表す情報に対してアノテーションを実行してもよい。
(学習済みモデル70の例)
 図2に示されるように、学習済みモデル生成装置20は、入力情報に含まれる認識対象の認識結果を出力する学習済みモデル70を生成する。学習済みモデル70は、ターゲットモデル40の入力側にイメージアダプタ50を結合したモデルとして構成される。イメージアダプタ50は、入力情報を入力可能に構成される。イメージアダプタ50は、単にアダプタとも称される。
 学習済みモデル生成装置20は、学習済みモデル70を生成するための準備として以下の動作を実行する。学習済みモデル生成装置20は、疑似情報に基づいて学習することによってベースモデル30を生成する。ベースモデル30を生成するために実行される学習は、第1の学習とも称される。第1の学習で用いられる教師データは、入力情報と同一又は関連する学習対象の情報を含んでよい。なお、学習済みモデル生成装置20は、ベースモデル30の生成において、疑似情報の代わりに実情報を用いてもよいし、疑似情報と実情報とを併用してもよい。ベースモデル30を生成するための学習に用いられる疑似情報は、第1疑似情報とも称される。学習済みモデル生成装置20は、ベースモデル30の入力側にイメージアダプタ50を結合した状態で実情報に更に基づいて学習することによって、イメージアダプタ50を生成する。イメージアダプタ50を生成するために実行される学習は、第2の学習とも称される。第2の学習で用いられる教師データは、入力情報と同一又は関連する学習対象の情報を含んでおり、第1の学習で用いられた情報と異なる情報を含んでよい。イメージアダプタ50を生成するための学習に用いられる実情報は、第1実情報とも称される。なお、第1疑似情報及び第1実情報として、後述する第2疑似情報及び第2実情報が用いられてもよい。
 学習済みモデル生成装置20は、イメージアダプタ50を結合しない状態で疑似情報又は実情報に基づいて学習することによってターゲットモデル40を生成する。ターゲットモデル40を生成するために実行される学習は、第3の学習とも称される。第3の学習で用いられる教師データは、入力情報と同一又は関連する学習対象の情報を含んでおり、第1の学習で用いられた情報及び第2の学習で用いられた情報のいずれとも異なる情報を含んでよい。ターゲットモデル40を生成するための学習に用いられる疑似情報は、第2疑似情報とも称される。ターゲットモデル40を生成するための学習に用いられる実情報は、第2実情報とも称される。学習済みモデル生成装置20は、ベースモデル30に結合した状態で事前学習することによってあらかじめ生成したイメージアダプタ50を転移し、新たに生成したターゲットモデル40の入力側に結合することによって学習済みモデル70を生成する。なお、学習済みモデル生成装置20は、ターゲットモデル40として、事前学習に用いたベースモデル30を転移させてもよい。また、学習済みモデル生成装置20は、イメージアダプタ50とターゲットモデル40とを結合させて、第2疑似情報、第2実情報を教師データとして、更に学習を行って学習済みモデル70を生成してもよい。
 学習済みモデル生成装置20は、事前学習によってあらかじめイメージアダプタ50を生成しておくことによって、疑似情報だけに基づく学習によってターゲットモデル40を生成し、イメージアダプタ50を結合するだけで学習済みモデル70を生成できる。その結果、ターゲットモデル40を生成する作業負荷が低減され得る。なお、事前学習において、実情報若しくは疑似情報、又はこれらを併せた情報が教師データとして用いられ得る。
 ベースモデル30及びターゲットモデル40は、複数の層を有するCNN(Convolution Neural Network)として構成される。ベースモデル30及びターゲットモデル40に入力された情報に対して、CNNの各層において所定の重みづけ係数に基づく畳み込みが実行される。ベースモデル30及びターゲットモデル40の学習において、重みづけ係数が更新される。ベースモデル30及びターゲットモデル40は、VGG16又はResNet50によって構成されてもよい。ベースモデル30及びターゲットモデル40は、これらの例に限られず、他の種々のモデルとして構成されてもよい。
 ベースモデル30は、第1ベースモデル31と第2ベースモデル32とを含むとする。ターゲットモデル40は、第1ターゲットモデル41と第2ターゲットモデル42とを含むとする。第1ベースモデル31及び第1ターゲットモデル41は、バックボーンとも称される。第2ベースモデル32及び第2ターゲットモデル42は、ヘッドとも称される。ベースモデル30及びターゲットモデル40は、バックボーンとヘッドとを含む。なお、ターゲットモデル40に含まれる学習済みモデルのそれぞれは、ベースモデル30に含まれる学習済みモデルと異なっていてもよい。例えば、ターゲットモデル40に含まれる学習済みモデルのそれぞれは、ベースモデル30に含まれる学習済みモデルのそれぞれと、異なる学習処理が実行されていてもよい。より具体的には、互いに異なる情報を含む教師データによって学習処理が実行されていてもよい。なお、ターゲットモデル40に含まれる学習前モデルは、ベースモデル30に含まれる学習前モデルと、同一のモデルでもよい。
 バックボーンは、入力情報の特徴量を抽出した結果を出力するように構成される。特徴量は、例えば学習対象の外観の特徴を数値として表す。ヘッドは、バックボーンの出力に基づいて入力情報についての所定の判断を行うように構成される。具体的に、ヘッドは、バックボーンが出力した入力情報の特徴量に基づいて、入力情報に含まれる認識対象の認識結果を出力してよい。つまり、ヘッドは、所定の判断として、認識対象の認識を実行するように構成される。例えば、馬とシマウマとを見分けるタスクにおいて、特徴量は、体表面における縞模様の面積の割合を表すパラメータであり得る。所定の判断は、体表面における縞模様の面積の割合を閾値と比較して認識対象が馬であるかシマウマであるか判断することであり得る。また、例えば、アワビとトコブシとを見分けるタスクにおいて、特徴量は、大きさ又は殻の穴の数を表すパラメータであり得る。所定の判断は、大きさ又は殻の穴の数を閾値と比較して認識対象がアワビであるかトコブシであるか判断することであり得る。
 イメージアダプタ50は、図3に例示されるように、複数の層を有するCNNとして構成されてよい。イメージアダプタ50は、ベースモデル30又はターゲットモデル40に入力される情報を、ベースモデル30又はターゲットモデル40に入力される前に変換可能に構成される。イメージアダプタ50は、図3においてターゲットモデル40の入力側に結合されているが、ベースモデル30の入力側にも結合され得る。
 図3の例において、“Conv”と記載されているブロックは、畳み込みを実行することを表す。畳み込みは、ダウンサンプリングとも称される。また、“Conv Trans”と記載されているブロックは、転置畳み込みを実行することを表す。転置畳み込みは、アップサンプリングとも称される。転置畳み込みは、逆畳み込みと称されることもある。“Conv 4x4”と記載されているブロックは、2次元データに対して畳み込みを実行するために用いられるフィルタのサイズが4×4であることを表す。フィルタは、カーネルとも称され、ブロックに入力された情報の畳み込み又は逆畳み込みを実行する際の重みづけ係数の組に対応する。“Conv Trans 4x4”と記載されているブロックは、2次元データに対して転置畳み込みを実行するために用いられるフィルタのサイズが4×4であることを表す。“stride 2”と記載されているブロックは、畳み込み又は転置畳み込みを実行する際にフィルタを2要素ずつシフトさせることを表す。逆に、“stride 2”が記載されていないブロックは、畳み込み又は転置畳み込みを実行する際にフィルタを1要素ずつシフトさせることを表す。
 イメージアダプタ50は、ベースモデル30の入力側に結合された場合、学習のために入力される疑似情報又は実情報を変換してベースモデル30に対して出力する。疑似情報又は実情報が画像である場合、イメージアダプタ50は、入力される画像を変換してベースモデル30に対して出力する。イメージアダプタ50は、ターゲットモデル40の入力側に結合された場合、学習済みモデル70に入力される入力情報に含まれる認識対象の画像を変換して出力する。また、イメージアダプタ50は、入力される画像の態様を変換して出力してもよい。イメージアダプタ50は、入力される画像の態様を、例えば画像のエッジを強調したり、影となっている部分を明るくした態様に変換したりして出力してもよいがこれに限られない。イメージアダプタ50は、接続されるターゲットモデル40が、タスクを正しく処理できる態様に変換させる。例えば、タスクが画像に含まれる物体の認識である場合には、ベースモデル30又はターゲットモデル40が、認識対象を正しく認識した結果を出力できるように、態様を変換する。
(学習済みモデル生成装置20の動作例)
 学習済みモデル生成装置20の制御部22は、例えば図4に模式的に示される動作を実行することによって学習済みモデル70を生成できる。以下、図4を参照して学習済みモデル生成装置20の動作が説明される。
 制御部22は、第1ステップとして、少なくとも1つのベースモデル30を生成する。具体的に、制御部22は、情報生成部26から教師データとして第1疑似情報を取得する。制御部22は、第1疑似情報に基づいて学習することによって、ベースモデル30を生成する。制御部22は、学習中のベースモデル30から出力される情報が第1疑似情報に含まれる学習対象を表す情報となる確率を高めるように、ベースモデル30を更新する。制御部22は、ベースモデル30の重みづけ係数を更新することによってベースモデル30を更新してよい。学習開始前の状態において、ベースモデル30は、あらかじめ定められた初期状態とされてよい。つまり、ベースモデル30の重みづけ係数は、あらかじめ定められた初期値とされてよい。制御部22は、第1ステップとして説明した動作を実行することによって、第1疑似情報に基づく学習によってベースモデル30を生成できる。ベースモデル30を生成するための学習は、後述する第2ステップのイメージアダプタ50を生成するための学習に先立って実行されることから、事前学習であるともいえる。なお、第1ステップにおいて、制御部22が、情報生成部26から教師データとして第1疑似情報を取得するものとして説明したが、これに限られない。教師データとしては、第1疑似情報だけでなく第1実情報が利用され得る。また、教師データとして、第2疑似情報又は第2実情報が利用されてもよい。
 本実施形態において、制御部22は、x個のベースモデル30を生成する。x個のベースモデル30は、1番目のベースモデル301からx番目のベースモデル30xまでとして区別される。制御部22は、各ベースモデル30を生成するための学習に用いる第1疑似情報として互いに異なる情報を取得する。また、1番目のベースモデル301は、第1ベースモデル311と第2ベースモデル321とを含む。x番目のベースモデル30xは、第1ベースモデル31xと第2ベースモデル32xとを含む。
 制御部22は、第2ステップとして、イメージアダプタ50を生成する。具体的に、制御部22は、情報生成部26から教師データとして実情報を更に取得してよい。制御部22は、第1ステップで生成した学習済みのベースモデル30にイメージアダプタ50を結合した状態で、第1疑似情報及び実情報に基づいて学習し、イメージアダプタ50を更新する。制御部22は、イメージアダプタ50の重みづけ係数を更新することによってイメージアダプタ50を更新してよい。制御部22は、各ベースモデル30を生成するための学習に用いる実情報として互いに異なる情報を取得する。学習開始前の状態において、ベースモデル30に結合されるイメージアダプタ50は、あらかじめ定められた初期状態とされてよい。つまり、イメージアダプタ50の重みづけ係数は、あらかじめ定められた初期値とされてよい。学習によって更新する対象とされている学習中のイメージアダプタ50aは、黒塗りの矩形で表されている。なお、第2ステップにおいて、制御部22は、第1ステップで生成した学習済みのベースモデル30にイメージアダプタ50を結合した状態で、第1疑似情報及び実情報に基づいて学習し、イメージアダプタ50を更新するものとして説明したが、これに限られない。制御部22は、第1疑似情報及び実情報の一方のみに基づいて学習を行い、イメージアダプタ50を更新してもよい。
 制御部22は、学習中のイメージアダプタ50aをx個のベースモデル30の各々に結合した状態で、各ベースモデル30に対応する第1疑似情報又は実情報に基づいて学習する。言い換えれば、制御部22は、学習中のイメージアダプタ50aに第1疑似情報及び実情報をそれぞれ入力し、学習中のイメージアダプタ50aの出力をx個のベースモデル30の各々に入力させて学習する。制御部22は、学習によってイメージアダプタ50を更新することによってイメージアダプタ50を生成する。制御部22は、イメージアダプタ50を経由して第1疑似情報を入力した各ベースモデル30から出力される情報と、イメージアダプタ50を経由して実情報を入力した各ベースモデル30から出力される情報とが近づくように、イメージアダプタ50を更新する。制御部22は、イメージアダプタ50を経由して第1疑似情報を入力した各ベースモデル30から出力される情報と、イメージアダプタ50を経由して実情報を入力した各ベースモデル30から出力される情報とが一致する確率を高めるようにイメージアダプタ50を更新してもよい。制御部22は、学習によって各ベースモデル30をイメージアダプタ50とともに更新してもよいし、イメージアダプタ50のみを更新してもよい。
 制御部22は、1個のベースモデル30に学習中のイメージアダプタ50aを結合した組み合わせ1つずつについて学習を実行してもよい。制御部22は、1個のベースモデル30に学習中のイメージアダプタ50aを結合した組み合わせを複数まとめて並列に学習を実行してもよい。
 制御部22は、第2ステップとして説明した動作を実行することによって、第1疑似情報及び実情報に基づく学習によってイメージアダプタ50を生成できる。イメージアダプタ50を生成するための学習は、後述する第3ステップのターゲットモデル40を生成するための学習と独立に実行され得る。
 制御部22は、第3ステップとして、ターゲットモデル40を生成する。具体的に、制御部22は、情報生成部26から教師データとして第2疑似情報を取得する。制御部22は、第2疑似情報として、ベースモデル30を生成するための学習に用いた第1疑似情報と同一又は関連するタスクの情報を取得する。制御部22は、第2疑似情報に基づいて学習することによって、ターゲットモデル40を生成する。制御部22は、第2疑似情報をイメージアダプタ50に入力して変換せずにターゲットモデル40に入力する。制御部22は、学習中のターゲットモデル40から出力される情報が第2疑似情報に含まれる学習対象を表す情報となる確率を高めるように、ターゲットモデル40を更新する。制御部22は、ターゲットモデル40の重みづけ係数を更新することによってターゲットモデル40を更新してよい。学習開始前の状態において、ターゲットモデル40は、あらかじめ定められた初期状態とされてよい。つまり、ターゲットモデル40の重みづけ係数は、あらかじめ定められた初期値とされてよい。学習によって更新する対象とされているターゲットモデル40は、学習中の第1ターゲットモデル41aと第2ターゲットモデル42aとを含み、黒塗りの矩形で表されている。制御部22は、第3ステップとして説明した動作を実行することによって、第2疑似情報に基づく学習によってターゲットモデル40を生成できる。なお、第3ステップにおいて、制御部22は、情報生成部26から教師データとして第2疑似情報を取得するものとして説明したが、これに限られない。教師データとして、第2疑似情報だけでなく第2実情報が利用されてもよい。また、第3ステップにおいて、制御部22は、第2疑似情報を変換せずにターゲットモデル40に入力して、ターゲットモデル40を更新するものとしたが、これに限られない。制御部22は、ターゲットモデル40とイメージアダプタ50とを結合させて、第2疑似情報若しくは第2実情報、又はこれらの両方を用いて学習することにより、ターゲットモデル40とイメージアダプタ50を更新してもよい。
 制御部22は、第4ステップとして、イメージアダプタ50をターゲットモデル40に結合することによって、学習済みモデル70を生成する。具体的に、制御部22は、第2ステップで生成した学習済みのイメージアダプタ50bを、第3ステップで生成した学習済みの第1ターゲットモデル41bと第2ターゲットモデル42bとを含むターゲットモデル40に結合する。つまり、制御部22は、第2ステップで生成したイメージアダプタ50を転移してターゲットモデル40に結合する。なお、第4ステップでは、第3ステップで生成したターゲットモデル40とイメージアダプタ50とを結合するものとして説明したが、これに限られない。ターゲットモデル40としては、第1ステップで生成したベースモデル30を利用してもよい。この場合、第3ステップが実行されなくてもよい。
<学習済みモデル生成方法>
 学習済みモデル生成装置20の制御部22は、以上述べてきた動作を、図5に例示されるフローチャートの手順を含む学習済みモデル生成方法として実行してよい。学習済みモデル生成方法は、制御部22を構成するプロセッサに実行させる学習済みモデル生成プログラムとして実現されてもよい。学習済みモデル生成プログラムは、非一時的なコンピュータ読み取り可能な媒体に格納されてよい。
 制御部22は、複数のベースモデル30を取得する(ステップS1)。制御部22は、複数のベースモデル30を第1疑似情報に基づく学習によって生成してもよいし、外部装置から取得してもよい。制御部22は、イメージアダプタ50を生成するための学習に用いる複数のベースモデル30のみを取得する。
 制御部22は、複数のベースモデル30から少なくとも1つのベースモデル30を選択する(ステップS2)。制御部22は、学習対象の情報を取得する(ステップS3)。具体的に、制御部22は、選択したベースモデル30を生成するための学習で用いられた疑似情報と同一又は関連するタスクの実情報を学習対象の情報として取得してよい。
 制御部22は、イメージアダプタ50を選択したベースモデル30に結合した状態で学習対象の情報に基づいて学習することによってイメージアダプタ50を生成する(ステップS4)。具体的に、制御部22は、学習対象の情報として実情報をイメージアダプタ50に入力する。イメージアダプタ50で実情報から変換された情報は、選択したベースモデル30に入力される。制御部22は、選択したベースモデル30から出力される情報に基づいてイメージアダプタ50を更新することによってイメージアダプタ50を生成する。
 制御部22は、全ベースモデル30が選択済みとなったか判定する(ステップS5)。制御部22は、全ベースモデル30が選択済みとなっていない場合(ステップS5:NO)、つまり少なくとも1つのベースモデル30が未選択である場合、ステップS2の手順に戻って未選択のベースモデル30を選択する。
 制御部22は、全ベースモデル30が選択済みとなった場合(ステップS5:YES)、認識対象の情報を取得する(ステップS6)。具体的に、制御部22は、選択したベースモデル30を生成するための学習で用いられた第1疑似情報と同一又は関連するタスクの第2疑似情報を認識対象の情報として取得してよい。
 制御部22は、認識対象の情報に基づいて学習することによってターゲットモデル40を生成する(ステップS7)。制御部22は、イメージアダプタ50とターゲットモデル40とを結合する(ステップS8)。制御部22は、以上の手順を実行することによって、イメージアダプタ50とターゲットモデル40とを結合した学習済みモデル70を生成できる。制御部22は、ステップS8の手順の実行後、図5のフローチャートの手順の実行を終了する。制御部22は、ステップS8の手順の実行後、生成した学習済みモデル70に入力情報を入力し、入力情報に含まれる認識対象の認識精度を学習済みモデル70の出力に基づいて評価してもよい。制御部22は、ステップS8の手順の実行後、生成した学習済みモデル70を後述するロボット制御装置110(図6参照)に出力してもよい。
<小括>
 以上述べてきたように、本実施形態に係る学習済みモデル生成装置20は、ベースモデル30に結合した状態における学習によって生成したイメージアダプタ50を、別の学習によって新たに生成したターゲットモデル40に結合することによって、学習済みモデル70を生成できる。学習済みモデル生成装置20は、実情報又は疑似情報に基づいて学習することによって、イメージアダプタ50を生成する。学習済みモデル生成装置20は、疑似情報だけに基づいて学習することによってターゲットモデル40を生成する。実情報又は疑似情報に基づく学習によって生成されたイメージアダプタ50を結合した学習済みモデル70による認識精度は、ターゲットモデル40だけの場合に比べて認識精度が向上する。したがって、あらかじめ実情報又は疑似情報に基づく学習によってイメージアダプタ50を生成しておけば、ターゲットモデル40にイメージアダプタ50を結合させることで、高い認識精度が期待される。
 また、学習済みモデル生成装置20は、ターゲットモデル40を新規に生成した場合でもイメージアダプタ50を結合して学習済みモデル70を生成することによって、認識精度を高めることができる。言い換えれば、ターゲットモデル40にベースモデル30を転移しなくても、学習済みモデル70の認識精度を高めることができる。
 ここで、ベースモデル30の少なくとも一部を転移してターゲットモデル40を生成する場合、ベースモデル30を転移する動作そのものが学習済みモデル70の生成の制約となり得る。例えば、ベースモデル30の少なくとも一部を転移することによって、サービスのエンドユーザが所望の認識対象に合わせてターゲットモデル40を生成する場合に、ターゲットモデル40が所望の認識対象に合いにくくなることがある。これに対して、本実施形態に係る学習済みモデル生成装置20は、ターゲットモデル40にベースモデル30を転移しなくてもよいことによって、ターゲットモデル40をエンドユーザが所望するモデルに合わせやすくできる。
 複数のベースモデル30の各々に結合された状態で学習することによって生成されるイメージアダプタ50は、サービス提供者が事前に学習することによって生成することから、上流タスクとも称される。一方で、上流タスクからイメージアダプタ50を転移して新たに生成したターゲットモデル40に結合することによって生成される学習済みモデル70は、サービスのエンドユーザが所望の認識対象に合わせて生成することから、下流タスクとも称される。
 下流タスクにおいて、データ取得の手間が少なく、又は、短い学習時間で学習済みモデル70を生成して早くシステムを稼働させることが求められる。一方で、上流タスクにおいて、転移学習が高速かつ汎化性能が高い高品質なメタモデルを提供するために、事前に多くのデータと計算リソースをかけることができる。本実施形態に係る学習済みモデル生成装置20は、多くのデータと計算リソースをかけて上流タスクを生成することによって、少ない負荷で下流タスクを生成できる結果、システムを早期に稼働できる。
 下流タスクで実情報に基づいて学習しない場合、Sim-to-Realと呼ばれるドメインギャップが問題になり得る。本実施形態に係る学習済みモデル生成装置20は、ドメイン適応のためのイメージアダプタ50を上流タスクから下流タスクに転移することによって、実情報に基づいて学習していない下流タスクにおいても実情報に対する認識精度を高めることができる。具体的に、上流タスクにおいてイメージアダプタ50は、疑似情報に対する認識精度を高めるように生成された複数のベースモデル30の各々の、実情報に対する認識精度を高めるように生成される。イメージアダプタ50は、複数のベースモデル30の各々の認識精度を高めるように生成されることによって、下流タスクで新たに生成されるターゲットモデル40の認識精度も高めることができる。イメージアダプタ50が複数のベースモデル30の各々の認識精度を高めるように生成されることは、イメージアダプタ50の一般化、又は、Generalized Image Adaptor(GIA)とも称される。GIAによって、複数のベースモデル30でパフォーマンスが高くなる共通の特徴を強調しつつノイズ源となる特徴を抑制するような、タスクに根本的に有効な画質改善が獲得され得る。この画質改善によって、Sim-to-Real問題に対する改善のみならず、様々なベースモデルによる認識精度の向上が期待できる。
 本実施形態において、学習済みモデル生成装置20は、上流タスクにおいてイメージアダプタ50を生成し、上流タスクで生成したイメージアダプタ50を下流タスクに転移してよい。学習済みモデル生成装置20は、下流タスクだけで第2実情報又は第2疑似情報に基づく学習によってイメージアダプタ50を生成してもよい。
<認識精度の比較>
 疑似情報である生成画像のみに基づく学習によって生成したモデルで実画像を含む入力情報から認識対象を認識する場合、生成画像と実画像との差異に起因して、認識精度は低下する。具体的に、生成画像に対して100%に近い確率で認識対象を認識できるモデルにおいて、実画像に対して認識対象を認識できる確率は70%程度に低下し得る。
 本実施形態に係る学習済みモデル70は、複数のベースモデル30の各々に結合した状態で学習することによって生成したイメージアダプタ50を、ターゲットモデル40に結合したモデルとして生成される。イメージアダプタ50は、生成画像と実画像との差異に起因する認識結果の誤差を修正できる。その結果、実画像に対して認識対象を認識できる確率が80%程度にまで高められ得る。つまり、イメージアダプタ50を結合した場合、イメージアダプタ50を結合しない場合と比較して、認識対象を認識できる確率が高められ得る。また、本実施形態に係る学習済みモデル70は、ベースモデル30を転移せずに生成される。つまり、ベースモデル30を転移しなくても実画像に対して認識対象を認識できる確率が高められ得る。ベースモデル30を転移しなくてもよいことによって、ターゲットモデル40は、エンドユーザが所望するモデルに合いやすくなる。
(ロボット制御システム100の構成例)
 図6に示されるように、一実施形態に係るロボット制御システム100は、ロボット2と、ロボット制御装置110とを備える。本実施形態において、ロボット2は、作業対象物8を作業開始地点6から作業目標地点7へ移動させるとする。つまり、ロボット制御装置110は、作業対象物8が作業開始地点6から作業目標地点7へ移動するようにロボット2を制御する。作業対象物8は、作業対象とも称される。ロボット制御装置110は、ロボット2が作業を実施する空間に関する情報に基づいて、ロボット2を制御する。空間に関する情報は、空間情報とも称される。
<ロボット2>
 ロボット2は、アーム2Aと、エンドエフェクタ2Bとを備える。アーム2Aは、例えば、6軸又は7軸の垂直多関節ロボットとして構成されてよい。アーム2Aは、3軸又は4軸の水平多関節ロボット又はスカラロボットとして構成されてもよい。アーム2Aは、2軸又は3軸の直交ロボットとして構成されてもよい。アーム2Aは、パラレルリンクロボット等として構成されてもよい。アーム2Aを構成する軸の数は、例示したものに限られない。言い換えれば、ロボット2は、複数の関節で接続されるアーム2Aを有し、関節の駆動によって動作する。
 エンドエフェクタ2Bは、例えば、作業対象物8を把持できるように構成される把持ハンドを含んでよい。把持ハンドは、複数の指を有してよい。把持ハンドの指の数は、2つ以上であってよい。把持ハンドの指は、1つ以上の関節を有してよい。エンドエフェクタ2Bは、作業対象物8を吸着できるように構成される吸着ハンドを含んでもよい。エンドエフェクタ2Bは、作業対象物8を掬うことができるように構成される掬いハンドを含んでもよい。エンドエフェクタ2Bは、ドリル等の工具を含み、作業対象物8に穴を開ける作業等の種々の加工を実施できるように構成されてもよい。エンドエフェクタ2Bは、これらの例に限られず、他の種々の動作ができるように構成されてよい。図1に例示される構成において、エンドエフェクタ2Bは、把持ハンドを含むとする。
 ロボット2は、アーム2Aを動作させることによって、エンドエフェクタ2Bの位置を制御できる。エンドエフェクタ2Bは、作業対象物8に対して作用する方向の基準となる軸を有してもよい。エンドエフェクタ2Bが軸を有する場合、ロボット2は、アーム2Aを動作させることによって、エンドエフェクタ2Bの軸の方向を制御できる。ロボット2は、エンドエフェクタ2Bが作業対象物8に作用する動作の開始及び終了を制御する。ロボット2は、エンドエフェクタ2Bの位置、又は、エンドエフェクタ2Bの軸の方向を制御しつつ、エンドエフェクタ2Bの動作を制御することによって、作業対象物8を動かしたり加工したりすることができる。図1に例示される構成において、ロボット2は、作業開始地点6でエンドエフェクタ2Bに作業対象物8を把持させ、エンドエフェクタ2Bを作業目標地点7へ移動させる。ロボット2は、作業目標地点7でエンドエフェクタ2Bに作業対象物8を解放させる。このようにすることで、ロボット2は、作業対象物8を作業開始地点6から作業目標地点7へ移動させることができる。
<センサ3>
 図2に示されるように、ロボット制御システム100は、更にセンサ3を備える。センサ3は、ロボット2の物理情報を検出する。ロボット2の物理情報は、ロボット2の各構成部の現実の位置若しくは姿勢、又は、ロボット2の各構成部の速度若しくは加速度に関する情報を含んでよい。ロボット2の物理情報は、ロボット2の各構成部に作用する力に関する情報を含んでよい。ロボット2の物理情報は、ロボット2の各構成部を駆動するモータに流れる電流又はモータのトルクに関する情報を含んでよい。ロボット2の物理情報は、ロボット2の実際の動作の結果を表す。つまり、ロボット制御システム100は、ロボット2の物理情報を取得することによって、ロボット2の実際の動作の結果を把握することができる。
 センサ3は、ロボット2の物理情報として、ロボット2に作用する力、分布圧、若しくはすべり等を検出する力覚センサ又は触覚センサを含んでよい。センサ3は、ロボット2の物理情報として、ロボット2の位置若しくは姿勢、又は、速度若しくは加速度を検出するモーションセンサを含んでよい。センサ3は、ロボット2の物理情報として、ロボット2を駆動するモータに流れる電流を検出する電流センサを含んでよい。センサ3は、ロボット2の物理情報として、ロボット2を駆動するモータのトルクを検出するトルクセンサを含んでよい。
 センサ3は、ロボット2の関節、又は、関節を駆動する関節駆動部に設置されてよい。センサ3は、ロボット2のアーム2A又はエンドエフェクタ2Bに設置されてもよい。
 センサ3は、検出したロボット2の物理情報をロボット制御装置110に出力する。センサ3は、所定のタイミングでロボット2の物理情報を検出して出力する。センサ3は、ロボット2の物理情報を時系列データとして出力する。
<カメラ4>
 図1に示される構成例において、ロボット制御システム100は、2台のカメラ4を備えるとする。カメラ4は、ロボット2の動作に影響を及ぼす可能性がある影響範囲5に位置する物品又は人間等を撮影する。カメラ4が撮影する画像は、モノクロの輝度情報を含んでもよいし、RGB(Red, Green and Blue)等で表される各色の輝度情報を含んでもよい。影響範囲5は、ロボット2の動作範囲を含む。影響範囲5は、ロボット2の動作範囲を更に外側に広げた範囲であるとする。影響範囲5は、ロボット2の動作範囲の外側から動作範囲の内側へ向かって移動する人間等がロボット2の動作範囲の内側に入るまでにロボット2を停止できるように設定されてよい。影響範囲5は、例えば、ロボット2の動作範囲の境界から所定距離だけ外側まで拡張された範囲に設定されてもよい。カメラ4は、ロボット2の影響範囲5若しくは動作範囲又はこれらの周辺の領域を俯瞰的に撮影できるように設置されてもよい。カメラ4の数は、2つに限られず、1つであってもよいし、3つ以上であってもよい。
<ロボット制御装置110>
 ロボット制御装置110は、学習済みモデル生成装置20で生成された学習済みモデル70を取得する。ロボット制御装置110は、カメラ4で撮影した画像と学習済みモデル70とに基づいて、ロボット2が作業を実施する空間に存在する、作業対象物8、又は作業開始地点6若しくは作業目標地点7等を認識する。言い換えれば、ロボット制御装置110は、カメラ4で撮影した画像に基づいて作業対象物8等を認識するために生成された学習済みモデル70を取得する。ロボット制御装置110は、認識装置とも称される。
 ロボット制御装置110は、種々の機能を実行するための制御及び処理能力を提供するために、少なくとも1つのプロセッサを含んで構成されてよい。ロボット制御装置110の各構成部は、少なくとも1つのプロセッサを含んで構成されてもよい。ロボット制御装置110の各構成部のうち複数の構成部が1つのプロセッサで実現されてもよい。ロボット制御装置110の全体が1つのプロセッサで実現されてもよい。プロセッサは、ロボット制御装置110の種々の機能を実現するプログラムを実行しうる。プロセッサは、単一の集積回路として実現されてよい。集積回路は、IC(Integrated Circuit)とも称される。プロセッサは、複数の通信可能に接続された集積回路及びディスクリート回路として実現されてよい。プロセッサは、他の種々の既知の技術に基づいて実現されてよい。
 ロボット制御装置110は、記憶部を備えてよい。記憶部は、磁気ディスク等の電磁記憶媒体を含んでよいし、半導体メモリ又は磁気メモリ等のメモリを含んでもよい。記憶部は、各種情報及びロボット制御装置110で実行されるプログラム等を格納する。記憶部は、非一時的な読み取り可能媒体として構成されてもよい。記憶部は、ロボット制御装置110のワークメモリとして機能してよい。記憶部の少なくとも一部は、ロボット制御装置110とは別体として構成されてもよい。
(ロボット制御システム100の動作例)
 ロボット制御装置110(認識装置)は、学習済みモデル70をあらかじめ取得する。ロボット制御装置110は、学習済みモデル70を記憶部に格納してよい。ロボット制御装置110は、カメラ4から作業対象物8を撮影した画像を取得する。ロボット制御装置110は、作業対象物8を撮影した画像を入力情報として学習済みモデル70に入力する。ロボット制御装置110は、学習済みモデル70から入力情報の入力に応じて出力される出力情報を取得する。ロボット制御装置110は、出力情報に基づいて作業対象物8を認識し、作業対象物8を把持したり移動したりする作業を実行する。
<小括>
 以上述べてきたように、ロボット制御システム100は、学習済みモデル生成装置20から学習済みモデル70を取得し、学習済みモデル70によって作業対象物8を認識できる。
(他の実施形態)
 以下、他の実施形態が説明される。
<損失関数>
 学習済みモデル生成装置20は、生成した学習済みモデル70に対して入力情報を入力した場合における出力が教師データを入力した場合における出力に近づくように損失関数を設定してよい。本実施形態において、損失関数として交差エントロピーが用いられ得る。交差エントロピーは、2つの確率分布の間の関係を表す値として算出される。具体的に、本実施形態において、交差エントロピーは、入力する疑似情報又は実情報と、バックボーン、ヘッド又はアダプタとの間の関係を表す値として算出される。
 学習済みモデル生成装置20は、損失関数の値が小さくなるように学習する。損失関数の値が小さくなるように学習することによって生成した学習済みモデル70において、入力情報の入力に応じた出力が教師データの入力に応じた出力に近づき得る。
 学習済みモデル生成装置20の制御部22は、イメージアダプタ50がベースモデル30に結合した状態で入力情報と同一又は関連するタスクの損失関数を最適化するように学習することによって、イメージアダプタ50を生成してよい。損失関数の最適化は、例えば損失関数の値の最小化であってよい。入力情報と同一又は関連するタスクの損失関数は、ベースモデル30の損失関数を含む。一方で、制御部22は、イメージアダプタ50がベースモデル30に結合した状態で入力情報と同一又は関連するタスク以外の損失関数を最適化するように学習することによって、イメージアダプタ50を生成してもよい。入力情報と同一又は関連するタスク以外の損失関数は、ベースモデル30の損失関数以外の他の種々の有意な損失関数を含む。ベースモデル30の損失関数以外の損失関数として、例えば、Discrimination Loss、又は、Contrastive Lossが利用され得る。Discrimination Lossは、生成画像についての真贋を、完全に真であることを表す1から完全に贋であることを表す0までの間の数値でラベル付けして学習するために用いられる損失関数である。制御部22は、Discrimination Lossを損失関数とする学習において、イメージアダプタ50に入力情報として画像が入力された場合にイメージアダプタ50が出力する画像を、正解をラベルとして学習する。このようにすることで、制御部22は、疑似情報に基づく学習によって生成されたベースモデル30にとって、実情報としての画像とイメージアダプタ50が出力する画像との区別がつかないようにイメージアダプタ50を生成できる。
<複数のベースモデル30の各々を学習に適用する態様>
 学習済みモデル生成装置20の制御部22は、複数のベースモデル30の各々にイメージアダプタ50を結合した状態で学習することによって、イメージアダプタ50を生成する。つまり、制御部22は、複数のベースモデル30の各々を、イメージアダプタ50を生成するための事前学習に適用する。
 複数のベースモデル30が1番目のベースモデル301からx番目のベースモデル30xまでを含む場合、制御部22は、各ベースモデル30を1つずつ順番にイメージアダプタ50に結合した組み合わせを生成し、各組み合わせの各々について学習してイメージアダプタ50を更新することによってイメージアダプタ50を生成してよい。つまり、制御部22は、複数のベースモデル30の各々を1つずつ順番に、イメージアダプタ50を生成するための事前学習に適用してよい。
 制御部22は、ベースモデル30を事前学習に適用する順番を、ランダムに決定してもよいし所定ルールに基づいて決定してもよい。制御部22は、複数の組み合わせの各々を適用した複数の事前学習を並列に実行してもよい。つまり、制御部22は、複数のベースモデル30を並列に事前学習に適用してもよい。
 制御部22は、複数のベースモデル30を複数のグループに分類し、各グループを順番にイメージアダプタ50を生成するための事前学習に適用してもよい。制御部22は、1つのグループに複数のベースモデル30を分類してもよい。この場合、制御部22は、グループに分類した複数のベースモデル30を並列に事前学習に適用してもよいし、複数のベースモデル30の各々を1つずつ順番に事前学習に適用してもよい。制御部22は、各グループに1つのベースモデル30を分類してもよい。制御部22は、各グループを事前学習に適用する順番を、ランダムに決定してもよいし所定ルールに基づいて決定してもよい。
 以上、学習済みモデル生成システム1及びロボット制御システム100の実施形態を説明してきたが、本開示の実施形態としては、システム又は装置を実施するための方法又はプログラムの他、プログラムが記録された記憶媒体(一例として、光ディスク、光磁気ディスク、CD-ROM、CD-R、CD-RW、磁気テープ、ハードディスク、又はメモリカード等)としての実施態様をとることも可能である。
 また、プログラムの実装形態としては、コンパイラによってコンパイルされるオブジェクトコード、インタプリタにより実行されるプログラムコード等のアプリケーションプログラムに限定されることはなく、オペレーティングシステムに組み込まれるプログラムモジュール等の形態であっても良い。さらに、プログラムは、制御基板上のCPUにおいてのみ全ての処理が実施されるように構成されてもされなくてもよい。プログラムは、必要に応じて基板に付加された拡張ボード又は拡張ユニットに実装された別の処理ユニットによってその一部又は全部が実施されるように構成されてもよい。
 本開示に係る実施形態について、諸図面及び実施例に基づき説明してきたが、当業者であれば本開示に基づき種々の変形又は改変を行うことが可能であることに注意されたい。従って、これらの変形又は改変は本開示の範囲に含まれることに留意されたい。例えば、各構成部等に含まれる機能等は論理的に矛盾しないように再配置可能であり、複数の構成部等を1つに組み合わせたり、或いは分割したりすることが可能である。
 本開示に記載された構成要件の全て、及び/又は、開示された全ての方法、又は、処理の全てのステップについては、これらの特徴が相互に排他的である組合せを除き、任意の組合せで組み合わせることができる。また、本開示に記載された特徴の各々は、明示的に否定されない限り、同一の目的、同等の目的、又は類似する目的のために働く代替の特徴に置換することができる。したがって、明示的に否定されない限り、開示された特徴の各々は、包括的な一連の同一、又は、均等となる特徴の一例にすぎない。
 さらに、本開示に係る実施形態は、上述した実施形態のいずれの具体的構成にも制限されるものではない。本開示に係る実施形態は、本開示に記載された全ての新規な特徴、又は、それらの組合せ、あるいは記載された全ての新規な方法、又は、処理のステップ、又は、それらの組合せに拡張することができる。
 本開示において「第1」及び「第2」等の記載は、当該構成を区別するための識別子である。本開示における「第1」及び「第2」等の記載で区別された構成は、当該構成における番号を交換することができる。例えば、第1疑似情報は、第2疑似情報と識別子である「第1」と「第2」とを交換することができる。識別子の交換は同時に行われる。識別子の交換後も当該構成は区別される。識別子は削除してよい。識別子を削除した構成は、符号で区別される。本開示における「第1」及び「第2」等の識別子の記載のみに基づいて、当該構成の順序の解釈、小さい番号の識別子が存在することの根拠に利用してはならない。
 20 学習済みモデル生成装置(22:制御部、26:情報生成部)
 30 ベースモデル(31:第1ベースモデル(31a:学習中、31b:学習済み)、32:第2ベースモデル(32a:学習中、32b:学習済み)、301~30x:1番目~x番目のベースモデル、311~31x:1番目~x番目の第1ベースモデル、321~32x:1番目~x番目の第2ベースモデル)
 40 ターゲットモデル(41:第1ターゲットモデル(41a:学習中、41b:学習済み)、42:第2ターゲットモデル(42a:学習中、42b:学習済み))
 50 アダプタ(50a:学習中、50b:学習済み)
 70 学習済みモデル
 100 ロボット制御システム(2:ロボット、2A:アーム、2B:エンドエフェクタ、3:センサ、4:カメラ、5:ロボットの影響範囲、6:作業開始台、7:作業目標台、8:作業対象物、110:ロボット制御装置(認識装置)

Claims (16)

  1.  入力情報に含まれる認識対象の認識結果を出力する学習済みモデルを生成する制御部を備え、
     前記制御部は、
     前記入力情報と同一又は関連する学習対象の情報を含む教師データを用いた第1の学習を実行することによって生成された少なくとも1つのベースモデルに結合された状態で、前記学習対象の情報のうち前記第1の学習で用いられた情報と異なる情報を含む教師データを用いた第2の学習を実行することによって生成された、前記入力情報を前記少なくとも1つのベースモデルに入力する前に変換可能なアダプタを取得し、
     前記学習対象の情報のうち前記第1の学習で用いられた情報及び前記第2の学習で用いられた情報のいずれとも異なる情報を含む教師データを用いた第3の学習を実行することによってターゲットモデルを生成し、
     前記アダプタと前記ターゲットモデルとを結合することによって前記学習済みモデルを生成する、
    学習済みモデル生成装置。
  2.  前記ベースモデルは、前記入力情報と同一又は関連するタスクの情報として仮想的に生成された学習対象の第1疑似情報を教師データとして事前学習されたモデルであり、
     前記制御部は、
     前記学習対象の実際の態様を表す第1実情報及び前記第1疑似情報の少なくとも一方を更に教師データとして、前記ベースモデルに結合させた前記アダプタを学習させ、
     前記認識対象を表すデータとして仮想的に生成された第2疑似情報、又は、前記認識対象の実際の態様を表す第2実情報を教師データとして学習して前記ターゲットモデルを生成する、請求項1に記載の学習済みモデル生成装置。
  3.  前記第1疑似情報、前記第2疑似情報、前記第1実情報、及び前記第2実情報は画像を含み、
     前記アダプタは、入力される画像の態様を変換して出力する、請求項2に記載の学習済みモデル生成装置。
  4.  前記ベースモデルは、前記入力情報と同一又は関連するタスクの情報として仮想的に生成された学習対象の第1疑似情報のみを教師データとして事前学習されたモデルであり、
     前記制御部は、前記認識対象を表すデータとして仮想的に生成された第2疑似情報のみを教師データとして学習して前記ターゲットモデルを生成する、請求項2又は3に記載の学習済みモデル生成装置。
  5.  複数の前記ベースモデルが事前学習によって生成され、
     前記アダプタは、前記複数のベースモデルそれぞれに前記入力情報を入力可能に構成され、
     前記制御部は、前記アダプタの出力を前記複数のベースモデルの各々に入力させて学習させることによって、少なくとも前記アダプタを生成する、請求項1から4までのいずれか一項に記載の学習済みモデル生成装置。
  6.  前記制御部は、前記アダプタの出力を前記複数のベースモデルの各々に入力させて学習させることによって、前記アダプタのみを生成又は更新する、請求項5に記載の学習済みモデル生成装置。
  7.  前記制御部は、前記アダプタを生成するために、前記複数のベースモデルを複数のグループに分類して前記各グループを順番に、前記アダプタを生成するための事前学習に適用する、請求項5に記載の学習済みモデル生成装置。
  8.  前記制御部は、前記各グループに1つの前記ベースモデルを分類する、請求項7に記載の学習済みモデル生成装置。
  9.  前記制御部は、前記アダプタを生成するための事前学習に前記各グループを適用する順番をランダムに決定する、請求項7又は8に記載の学習済みモデル生成装置。
  10.  前記制御部は、前記認識対象を表すデータとして仮想的に生成された第2疑似情報とに基づいて学習することによって、前記アダプタに結合されるターゲットモデルを生成する、請求項1から9までのいずれか一項に記載の学習済みモデル生成装置。
  11.  前記制御部は、前記アダプタを前記ターゲットモデルに結合した状態で学習することによって前記アダプタを生成する、請求項1から10までのいずれか一項に記載の学習済みモデル生成装置。
  12.  前記制御部は、前記入力情報と同一又は関連するタスクの損失関数を最適化するように、前記ベースモデルに結合したアダプタを学習する、請求項1から11までのいずれか一項に記載の学習済みモデル生成装置。
  13.  前記制御部は、前記入力情報と同一又は関連するタスク以外の損失関数を最適化するように学習することによって、前記ベースモデルに結合したアダプタを生成する、請求項1から11までのいずれか一項に記載の学習済みモデル生成装置。
  14.  前記ベースモデルは、前記入力情報の特徴量を抽出した結果を出力する第1ベースモデルと、前記第1ベースモデルの出力に基づいて前記入力情報についての所定の判断を行う第2ベースモデルとを含む、請求項1から13までのいずれか一項に記載の学習済みモデル生成装置。
  15.  入力情報に含まれる認識対象の認識結果を出力する学習済みモデルを生成する学習済みモデル生成装置が実行する学習済みモデル生成方法であって、
     前記入力情報と同一又は関連する学習対象の情報を含む教師データを用いた第1の学習を実行することによって生成された少なくとも1つのベースモデルに結合された状態で、前記学習対象の情報のうち前記第1の学習で用いられた情報と異なる情報を含む教師データを用いた第2の学習を実行することによって生成された、前記入力情報を前記少なくとも1つのベースモデルに入力する前に変換可能なアダプタを取得することと、
     前記学習対象の情報のうち前記第1の学習で用いられた情報及び前記第2の学習で用いられた情報のいずれとも異なる情報を含む教師データを用いた第3の学習を実行することによってターゲットモデルを生成することと、
     前記アダプタと前記ターゲットモデルとを結合することによって前記学習済みモデルを生成することと
    を含む学習済みモデル生成方法。
  16.  入力情報に含まれる認識対象の認識結果を出力する学習済みモデルを備えた認識装置であって、
     前記学習済みモデルは、
     前記入力情報と同一又は関連する学習対象の情報を含む教師データを用いた第1の学習を実行することによって生成された少なくとも1つのベースモデルに結合された状態で、前記学習対象の情報のうち前記第1の学習で用いられた情報と異なる情報を含む教師データを用いた第2の学習を実行することによって生成された、前記入力情報を前記少なくとも1つのベースモデルに入力する前に変換可能なアダプタと、
     前記学習対象の情報のうち前記第1の学習で用いられた情報及び前記第2の学習で用いられた情報のいずれとも異なる情報を含む教師データを用いた第3の学習を実行することによって生成したターゲットモデルと
    を含み、
     前記アダプタと前記ターゲットモデルとを結合することによって構成されている、
    認識装置。
PCT/JP2022/021815 2021-05-28 2022-05-27 学習済みモデル生成装置、学習済みモデル生成方法、及び認識装置 WO2022250154A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2023513902A JP7271809B2 (ja) 2021-05-28 2022-05-27 学習済みモデル生成装置、学習済みモデル生成方法、及び認識装置
EP22811422.9A EP4350614A1 (en) 2021-05-28 2022-05-27 Trained model generating device, trained model generating method, and recognition device
CN202280037790.3A CN117396927A (zh) 2021-05-28 2022-05-27 训练模型生成装置、训练模型生成方法和识别装置

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021090676 2021-05-28
JP2021-090676 2021-05-28

Publications (1)

Publication Number Publication Date
WO2022250154A1 true WO2022250154A1 (ja) 2022-12-01

Family

ID=84228930

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/021815 WO2022250154A1 (ja) 2021-05-28 2022-05-27 学習済みモデル生成装置、学習済みモデル生成方法、及び認識装置

Country Status (4)

Country Link
EP (1) EP4350614A1 (ja)
JP (2) JP7271809B2 (ja)
CN (1) CN117396927A (ja)
WO (1) WO2022250154A1 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016071502A (ja) 2014-09-29 2016-05-09 セコム株式会社 対象識別装置
WO2019194256A1 (ja) * 2018-04-05 2019-10-10 株式会社小糸製作所 演算処理装置、オブジェクト識別システム、学習方法、自動車、車両用灯具
US10565471B1 (en) * 2019-03-07 2020-02-18 Capital One Services, Llc Systems and methods for transfer learning of neural networks
US20200134469A1 (en) * 2018-10-30 2020-04-30 Samsung Sds Co., Ltd. Method and apparatus for determining a base model for transfer learning
JP2020144700A (ja) * 2019-03-07 2020-09-10 株式会社日立製作所 画像診断装置、画像処理方法及びプログラム
JP2021056785A (ja) * 2019-09-30 2021-04-08 セコム株式会社 画像認識システム、撮像装置、認識装置及び画像認識方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016071502A (ja) 2014-09-29 2016-05-09 セコム株式会社 対象識別装置
WO2019194256A1 (ja) * 2018-04-05 2019-10-10 株式会社小糸製作所 演算処理装置、オブジェクト識別システム、学習方法、自動車、車両用灯具
US20200134469A1 (en) * 2018-10-30 2020-04-30 Samsung Sds Co., Ltd. Method and apparatus for determining a base model for transfer learning
US10565471B1 (en) * 2019-03-07 2020-02-18 Capital One Services, Llc Systems and methods for transfer learning of neural networks
JP2020144700A (ja) * 2019-03-07 2020-09-10 株式会社日立製作所 画像診断装置、画像処理方法及びプログラム
JP2021056785A (ja) * 2019-09-30 2021-04-08 セコム株式会社 画像認識システム、撮像装置、認識装置及び画像認識方法

Also Published As

Publication number Publication date
JP2023099084A (ja) 2023-07-11
EP4350614A1 (en) 2024-04-10
JPWO2022250154A1 (ja) 2022-12-01
JP7271809B2 (ja) 2023-05-11
CN117396927A (zh) 2024-01-12

Similar Documents

Publication Publication Date Title
US11338435B2 (en) Gripping system with machine learning
US11741701B2 (en) Autonomous task performance based on visual embeddings
CN111275063A (zh) 一种基于3d视觉的机器人智能抓取控制方法及系统
JP7200610B2 (ja) 位置検出プログラム、位置検出方法及び位置検出装置
Moutinho et al. Deep learning-based human action recognition to leverage context awareness in collaborative assembly
JP7271809B2 (ja) 学習済みモデル生成装置、学習済みモデル生成方法、及び認識装置
JP7271810B2 (ja) 学習済みモデル生成装置、学習済みモデル生成方法、及び認識装置
Mohammed et al. Color matching based approach for robotic grasping
WO2023042895A1 (ja) 学習済みモデル生成方法、推論装置、及び学習済みモデル生成装置
Andersen et al. Using a flexible skill-based approach to recognize objects in industrial scenarios
EP4389367A1 (en) Holding mode determination device for robot, holding mode determination method, and robot control system
JP7483179B1 (ja) 推定装置、学習装置、推定方法及び推定プログラム
EP4393660A1 (en) Trained model generation method, trained model generation device, trained model, and device for estimating maintenance state
Somani et al. Scene perception and recognition for human-robot co-operation
Güler et al. Visual state estimation in unseen environments through domain adaptation and metric learning
JP7470062B2 (ja) 情報処理装置、および、学習認識システム
Tokuda et al. CNN-based Visual Servoing for Pose Control of Soft Fabric Parts
Johnson et al. Recognition of Marker-less human actions in videos using hidden Markov models
Gu et al. TOWARDS AUTOMATED ROBOT MANIPULATION: A UNIFIED ACTIVE VISION FRAMEWORK
Qi et al. 3D Hand Joint and Grasping Estimation for Teleoperation System
KR20230175122A (ko) 대상물의 조작, 특히 픽업을 위한 로봇 제어 방법
Somei et al. Clustering of image features based on contact and occlusion among robot body and objects
KR20240096990A (ko) 비고정 물체를 위치 이동시키는 로봇의 제어 장치
Li et al. Multilevel part-based model for object manipulation
Palm Recognition of Human Grasps by Time-clustering, Fuzzy Modeling, and Hidden Markov Models

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22811422

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2023513902

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 202280037790.3

Country of ref document: CN

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 2022811422

Country of ref document: EP

ENP Entry into the national phase

Ref document number: 2022811422

Country of ref document: EP

Effective date: 20240102