WO2024047715A1 - 機械学習プログラム、機械学習方法および情報処理装置 - Google Patents

機械学習プログラム、機械学習方法および情報処理装置 Download PDF

Info

Publication number
WO2024047715A1
WO2024047715A1 PCT/JP2022/032459 JP2022032459W WO2024047715A1 WO 2024047715 A1 WO2024047715 A1 WO 2024047715A1 JP 2022032459 W JP2022032459 W JP 2022032459W WO 2024047715 A1 WO2024047715 A1 WO 2024047715A1
Authority
WO
WIPO (PCT)
Prior art keywords
work
section
machine learning
unit
labels
Prior art date
Application number
PCT/JP2022/032459
Other languages
English (en)
French (fr)
Inventor
純也 藤本
源太 鈴木
Original Assignee
富士通株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 富士通株式会社 filed Critical 富士通株式会社
Priority to PCT/JP2022/032459 priority Critical patent/WO2024047715A1/ja
Publication of WO2024047715A1 publication Critical patent/WO2024047715A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis

Definitions

  • the present invention relates to machine learning programs and the like.
  • the work video can be created.
  • FIG. 13 is a diagram (1) for explaining the prior art.
  • the device of the prior art will be referred to as the "conventional device.”
  • the conventional device estimates unit actions included in the work video in chronological order based on the work video 5.
  • unit operations are estimated in the order of unit operations m 2 , m 5 , m 6 , m 8 , m 6 , m 9 , m 5 , .
  • conventional devices estimate each unit operation using a model trained on unsupervised data.
  • the conventional device estimates the sequence of unit operations as described above, checks against a plurality of models corresponding to each elemental work, and sequentially identifies the elemental works.
  • a model 20A corresponding to element work A and a model 20B corresponding to element work B are shown.
  • the models 20A and 20b are HMMs (Hidden Markov Models).
  • the state nodes of the models 20A and 20B are transitioned based on the estimation results of the unit operations, and the order of the unit operations is handled based on the transition probability of the edge that actually transitioned, various constraints, etc. Identify the elemental tasks in order. Various constraints include the working time of elemental work, the order of elemental work, and the like.
  • the sequence of unit operations m 2 , m 5 , m 6 is identified as element work A
  • the sequence of unit operations m 8 , m 6 , m 9 , m 5 is identified as element work A. It has been identified as work B.
  • the result of dividing a work video into a plurality of elemental works using the above model may be visualized on a UI (User Interface).
  • the administrator compares the visualized results with the work video and corrects the sections of the elemental work as necessary.
  • FIG. 14 is a diagram (2) for explaining the prior art.
  • the detection result 20a is the detection result of the elemental work automatically estimated by the conventional device using the model.
  • elemental work A, elemental work B, elemental work C, and elemental work D are detected in order from the beginning.
  • the time from the first unit operation to the last unit operation is defined as section T1-1.
  • the time from the first unit operation to the last unit operation is defined as an interval T1-2.
  • the time from the first unit operation to the last unit operation is defined as an interval T1-3.
  • the time from the first unit operation to the last unit operation is defined as an interval T1-4.
  • a detection result 21b is obtained.
  • section T1-2 of elemental work B is modified to section T2-2
  • section T1-3 of elemental work C is modified to section T2-3.
  • the corrected detection results will not be suitable for model relearning.
  • an irregular situation is a movement of a worker that is different from the normally expected work, such as a movement of the worker who notices a work error and redoes the work.
  • the sections of each element work shown in the detection results corrected based on irregular situations are different from the situation during model learning, and are not reproducible.
  • the present invention aims to provide a machine learning program, a machine learning method, and an information processing device that can improve the identification accuracy of elemental tasks.
  • the computer executes the following process.
  • the computer acquires a video of the person's work.
  • the computer By inputting the acquired video into a machine learning model, the computer generates a label indicating the type of work for each section of the person's elemental work.
  • the computer receives a label to be corrected from among the generated labels for each section, and determines whether or not the features of tasks in the sections of the received labels to be corrected that indicate the same work type are similar. Determine. If the computer determines that the features of the tasks in the sections with labels indicating the same task type are similar, the computer retrains the machine learning model using the time-series features of the tasks in the sections with labels indicating the same task type. Execute.
  • FIG. 1 is a diagram showing an example of a system according to this embodiment.
  • FIG. 2 is a diagram for explaining the processing of the information processing apparatus according to this embodiment.
  • FIG. 3 is a functional block diagram showing the configuration of the information processing apparatus according to this embodiment.
  • FIG. 4 is a diagram showing an example of the data structure of the modified data table.
  • FIG. 5 is a diagram for explaining the processing of the observation probability learning section.
  • FIG. 6 is a diagram for explaining an example of processing by the transition probability learning section.
  • FIG. 7 is a diagram showing an example of a machine learning model.
  • FIG. 8 is a flowchart (1) showing the processing procedure of the information processing apparatus according to this embodiment.
  • FIG. 9 is a flowchart (2) showing the processing procedure of the information processing apparatus according to this embodiment.
  • FIG. 10 is a diagram showing a comparative example of the information processing device according to this embodiment and a conventional device.
  • FIG. 11 is a diagram for explaining other processing executed by the information processing device.
  • FIG. 12 is a diagram illustrating an example of the hardware configuration of a computer that implements the same functions as the information processing device of the embodiment.
  • FIG. 13 is a diagram (1) for explaining the prior art.
  • FIG. 14 is a diagram (2) for explaining the prior art.
  • FIG. 1 is a diagram showing an example of a system according to this embodiment. As shown in FIG. 1, this system includes a camera 15 and an information processing device 100. The camera 15 and the information processing device 100 are connected to each other via a network 16.
  • the camera 15 is an RGB camera or the like.
  • the camera 15 captures an image of a worker 14 working in a factory or the like, and transmits data of the captured image to the information processing device 100.
  • the data of the video captured by the camera 15 will be referred to as "work video data.”
  • the work video data includes time-series frames (still images).
  • FIG. 2 is a diagram for explaining the processing of the information processing apparatus according to this embodiment.
  • the information processing device 100 uses a machine learning model to detect elemental tasks and sections of elemental tasks from a time-series sequence of unit tasks extracted from work video data, and displays the detection results.
  • the machine learning model is HSMM (Hidden Semi-Markov Model) or the like. Even if the elemental work detected by the machine learning model is the same elemental work, the order of the unit works included in the same elemental work may be different.
  • the administrator refers to the detection results of the information processing device 100 and the work video data, and if there is an error in the section of the elemental work, generates corrected data by correcting the section of the elemental work.
  • a plurality of pieces of corrected data are stored in the information processing apparatus 100.
  • the information processing device 100 obtains modified data in which the same element work section is modified from a plurality of modified data.
  • modified data 30a, 30b, and 30c modified data 30a, 30b, and 30c.
  • the correction data 30a, 30b, and 30c it is assumed that elemental work A, elemental work B, elemental work C, and elemental work D are detected in order from the beginning, and the section of elemental work B has been corrected by the administrator. .
  • Each element work section of the modified data 30a to 30c includes time-series unit operations.
  • a time-series sequence of unit operations included in an elemental work will be appropriately referred to as a "feature information sequence.”
  • the information processing device 100 determines whether the feature information series of the element work B in the modified data 30a and the feature information series of the element work B in the modified data 30b are similar. If the feature information series of element work B of the modified data 30a and the feature information series of element work B of the modified data 30b are similar, the information processing device 100 performs processing that corresponds to element work B of the modified data 30a. Add 1 to the similarity number.
  • the information processing device 100 determines whether the feature information series of elemental work B in the modified data 30a and the feature information series of elemental work B in the modified data 30c are similar. If the feature information series of element work B in the modified data 30a and the feature information series of element work B in the modified data 30c are similar, the information processing device 100 performs processing that corresponds to element work B in the modified data 30a. Add 1 to the similarity number.
  • the information processing device 100 retrains the machine learning model using the feature information series of the elemental work B of the corrected data 30a when the similarity number corresponding to the elemental work B of the corrected data 30a is greater than or equal to a predetermined number. conduct.
  • elemental work B of the modified data 30a is an elemental work in which no irregular situation occurs. Therefore, by relearning the machine learning model using the feature information series of the elemental work B in the modified data 30a, it is possible to improve the identification accuracy of the elemental work with respect to the machine learning model.
  • FIG. 3 is a functional block diagram showing the configuration of the information processing device according to this embodiment.
  • the information processing device 100 includes a communication section 110, an input section 120, a display section 130, a storage section 140, and a control section 150.
  • the communication unit 110 performs data communication with the camera 15, external devices, etc. via the network 16.
  • a control unit 150 which will be described later, exchanges data with an external device via the communication unit 110.
  • the input unit 120 is an input device that inputs various information to the control unit 150 of the information processing device 100.
  • the input unit 120 corresponds to a keyboard, a mouse, a touch panel, etc.
  • the administrator operates the input unit 120 to modify the section of the element work in the detection result.
  • the display unit 130 is a display device that displays information output from the control unit 150.
  • the display unit 130 displays detection results of elemental work, work video data, and the like.
  • the storage unit 140 includes a model table 141, an unsupervised data table 142, a supervised data table 143, a modified data table 144, and a video buffer 145.
  • the storage unit 140 corresponds to a storage device such as a memory.
  • the model table 141 has a machine learning model.
  • a machine learning model includes a first model and a plurality of second models.
  • the first model is a model that outputs unit motion m n when a feature vector is input. n is a natural number.
  • a time-series feature vector is input to the first model, a time-series unit motion is output from the first model.
  • the first model is trained with unsupervised data. For example, unit actions include "raise your arm,”"lower your arm,””stretch your arm forward,” and the like. A unit operation corresponds to a “feature amount”.
  • the plurality of second models are used when specifying element work from the sequence of unit operations.
  • the second model includes state nodes corresponding to unit operations m n in the same manner as the models 20A, 20B, etc. described with reference to FIG.
  • Each state node is connected to a given state node by an edge.
  • a transition probability learned from teacher data is set for each edge.
  • the plurality of second models are trained using supervised data.
  • Each second model is associated with a specific element work and connected in a preset order of element works.
  • the unsupervised data table 142 has a plurality of unsupervised data. For example, let the unsupervised data be a plurality of work video data. Unsupervised data table 142 is used when training the first model.
  • the supervised data table 143 is a table that holds a sequence of unit operations. Each unit operation held in the supervised data table 143 is given a label that identifies the element work. Supervised data table 143 is used when training each second model.
  • the modified data table 144 is a table that holds multiple pieces of modified data.
  • the modified data corresponds to the modified data 30a to 30c etc. described in FIG. 2.
  • FIG. 4 is a diagram showing an example of the data structure of the modified data table.
  • the correction data table 144 includes an item number and a plurality of pieces of element work information.
  • the item number is a number that identifies each record in the modified data table.
  • One record is information corresponding to one corrected data.
  • Elemental work information (n) is information regarding the n-th elemental work detected from the work video data.
  • the elemental work information includes a label, a feature information series, an interval, and a flag.
  • the label is information that identifies the element work.
  • the feature information series is a time-series unit operation included in the corresponding element work.
  • the interval is the time width from the first unit operation to the last unit operation of the corresponding element work.
  • the flag is information indicating whether the section of the corresponding elemental work has been modified. When the flag is "off”, it indicates that the section of the corresponding element work has not been modified. When the flag is "on”, it indicates that the section of the corresponding element work has been modified.
  • the video buffer 145 is a buffer that stores work video data obtained from the camera 15.
  • the control unit 150 includes an acquisition unit 151 , an extraction unit 152 , an observation probability learning unit 153 , a transition probability learning unit 154 , an estimation unit 155 , and a determination unit 156 .
  • the control unit 150 is a CPU (Central Processing Unit), a GPU (Graphics Processing Unit), or the like.
  • the acquisition unit 151 acquires work video data from the camera 15 and stores the acquired work video data in the video buffer 145.
  • the acquisition unit 151 may acquire the data of the unsupervised data table 142 and the data of the supervised data table 143 from an external device (not shown) or the like via the network 16.
  • the acquisition unit 151 stores the acquired data of the unsupervised data table 142 and the data of the supervised data table 143 in the storage unit 140.
  • the extraction unit 152 extracts feature vectors based on the work video data. For example, in the “learning phase,” the extraction unit 152 extracts a feature vector based on the working video data stored in the unsupervised data table 142, and outputs the extracted feature vector to the observation probability learning unit 153. . Further, in the “estimation phase”, the extraction unit 152 extracts a feature vector based on the working video data stored in the video buffer 145, and outputs the extracted feature vector to the estimation unit 155.
  • a person detection technique is applied to detect a person's area (for example, a bounding box) from each frame constituting the work video data, and the detected areas of the same person are correlated between frames to be tracked. If a plurality of human regions are detected from one frame, the extraction unit 152 identifies the human region to be determined based on the size of the region, the position of the region within the frame, and the like. The extraction unit 152 performs image processing on the image within the region of the person detected from each frame, and calculates posture information based on the positions of the person's joints, their connection relationships, and the like. The extraction unit 152 creates time-series posture information in which the posture information calculated for each frame is aligned with the time information associated with the frame.
  • a person's area for example, a bounding box
  • the extraction unit 152 calculates time-series exercise information for each part of the body from the time-series posture information.
  • the motion information may be, for example, the degree of bending of each part, the speed of bending, etc.
  • Each part may be an elbow, a knee, etc., for example.
  • the extraction unit 152 extracts a feature vector whose elements are values obtained by averaging the motion information within the window in the time direction at regular time intervals using a sliding time window.
  • the extraction unit 152 may set values by making each dimension of the feature vector correspond to an averaged bending speed, degree of bending, etc. of a predetermined portion.
  • the observation probability learning unit 153 trains the first model based on the feature vector extracted by the extraction unit 152 and based on the working video data of the unsupervised data table 142.
  • the first model is a Gaussian mixture distribution (hereinafter referred to as "GMM (Gaussian Mixture Model)") model.
  • GMM Gaussian Mixture Model
  • "executing model learning” based on teacher data is appropriately expressed as “training a model.”
  • the observation probability learning unit 153 calculates the observation probability of each unit action using a Gaussian mixture distribution model. Specifically, the observation probability learning unit 153 estimates the parameters of the GMM in which Gaussian distributions corresponding to the number of motions are mixed by clustering the feature vectors passed from the extraction unit 152. Then, the observation probability learning unit 153 assigns each Gaussian distribution forming the GMM whose parameters are estimated as a probability distribution representing the observation probability of each operation.
  • FIG. 5 is a diagram for explaining the processing of the observation probability learning section.
  • the feature space V is represented by the axes of the first feature, the second feature, and the n-th feature.
  • the first feature amount, the second feature amount, and the nth feature amount correspond to each dimension of the feature vector.
  • the position of each feature vector in the feature amount space V is indicated by a square mark in FIG.
  • the observation probability learning unit 153 clusters each feature vector and classifies it into clusters 45-1, 45-2, 45-3, and 45-6.
  • each feature vector classified into cluster 45-1 is a feature vector corresponding to unit motion “m 1 ”.
  • Each feature vector classified into cluster 45-2 becomes a feature vector corresponding to unit motion "m 2 ".
  • Each feature vector classified into cluster 45-3 becomes a feature vector corresponding to unit motion "m 3 ".
  • Each feature vector classified into cluster 45-6 becomes a feature vector corresponding to unit motion "m 6 ".
  • the clustering results shown in FIG. 5 correspond to the results of training the first model.
  • the first model outputs the observation probability of each unit action based on the feature vector to be estimated and the distance of each cluster. be done. For example, if the distance between the feature vector to be estimated and the cluster 45-1 is shorter than the distance to other clusters, the observation probability of unit motion "m 1 " with respect to the feature vector to be estimated is The probability is greater than the observed probability of the unit action.
  • the transition probability learning unit 154 trains the transition probabilities of the second model corresponding to each element work based on the supervised data table 143.
  • the transition probability learning unit 154 uses maximum likelihood estimation, an EM algorithm (Expectation-Maximization algorithm), or the like to train transition probabilities of edges between state nodes of a unit operation.
  • FIG. 6 is a diagram for explaining an example of processing by the transition probability learning section.
  • the label of elemental work A is given to time-series unit operations m 2 , m 5 , m 6 , and m 8 included in section T10-1.
  • the second model 90A be the second model corresponding to elemental work A.
  • the transition probability learning unit 154 trains the transition probability of edges between state nodes of the second model 90A using the sequence of unit operations m 2 , m 5 , m 6 , and m 8 .
  • the transition probability learning unit 154 trains the transition probability of edges between state nodes of the second model 90B using the sequence of unit operations m 6 , m 9 , and m 5 .
  • the transition probability learning unit 154 repeatedly executes the above process based on the arrangement of unit actions registered in the supervised data table 143 and the relationship between the labels, thereby determining the transition of the second model corresponding to each elemental work. Train probability.
  • the order of each element work is specified in advance, and each second model is connected based on the specified information.
  • the order of elemental work is elemental work A, B, C, D
  • the second models are connected in the order of the second model corresponding to the element work D and the second model corresponding to the element work D.
  • the transition probability learning unit 154 calculates each element based on the section of the unit operation in which the same element work label is consecutively set among the plurality of unit operations registered in the supervised data table 143. Identify the duration of the work. The transition probability learning unit 154 specifies a probability distribution of the duration based on the specified duration of each elemental work, and sets the specified probability distribution to the second model of each elemental work.
  • the transition probability learning unit 154 calculates the observation probability of each unit action calculated by the observation probability learning unit 153, the transition probability of edges between unit actions (state nodes), and the probability distribution of the duration set for each element work. Based on this, the machine learning model shown in FIG. 7 may be constructed.
  • the machine learning model corresponds to the first model and the plurality of second models described above.
  • FIG. 7 is a diagram showing an example of a machine learning model.
  • the machine learning model 41 shown in FIG. 7 is an HSMM (Hidden Semi-Markov Model) in which the second model corresponding to each elemental action changes in the order of each elemental action after a set duration time.
  • O1, O2, . . . , O8 represent observation probabilities calculated by the observation probability learning unit 153.
  • the transition probabilities associated with the arrows between the actions m1, m2, and m3 included in each of the element actions a1, a2, and a3 correspond to the transition probabilities calculated by the transition probability learning unit 154.
  • d1, d2, and d3 represent the duration of each elemental action.
  • the estimation unit 155 estimates the elemental work of the worker in each section.
  • the estimation unit 155 obtains time-series feature vectors from the extraction unit 152.
  • This feature vector is a feature vector extracted from the working video data in the video buffer 145.
  • the estimation unit 155 estimates the sequence of time-series unit actions by inputting the time-series feature vectors into the first model.
  • the estimation unit 155 compares the estimated unit matrix arrangement with each of the second models 90A and 90B (second models of other elemental operations), transitions the state node, and calculates the transition probability of the edge that actually transitioned.
  • the sequence of unit operations and corresponding elemental operations are identified in order based on various constraints and the like.
  • Various constraints include work time constraints, work order constraints, and the like.
  • the estimation unit 155 causes the display unit 130 to display the detection result of the element work.
  • the estimation unit 155 may display the work video data stored in the video buffer 145 on the display unit 130.
  • the administrator checks the detection results displayed on the display unit 130 and the work video data.
  • the administrator wants to modify the section of the elemental work among the elemental works included in the detection results
  • the administrator operates the input unit 120 to specify the elemental section and corrects the section of the elemental work.
  • the estimation unit 155 When the estimation unit 155 receives a modification of the section of the elemental work, it generates modification data and stores the modification data in the modification data table 144. The estimation unit 155 generates each piece of elemental work information in chronological order as corrected data, as explained in FIG. 4 . A label, a feature information series, an interval, and a flag are set in the element work information.
  • the estimation unit 155 repeatedly executes the above processing, generates a plurality of pieces of corrected data, and registers the corrected data in the corrected data table 144.
  • the determination unit 156 acquires modified data in which the section of the same elemental work (label) has been modified from a plurality of modified data registered in the modified data table 144.
  • the determination unit 156 calculates the degree of similarity between the feature information series of the sections of the same elemental work, and based on the calculation result of the similarity, uses the feature information series of the section of the elemental work that has been corrected to determine the degree of similarity of the machine learning model. Determine whether to perform relearning.
  • the determining unit 156 determines whether the feature information series of elemental work B in the modified data 30a and the feature information series of elemental work B in the modified data 30b are similar. For example, the determination unit 156 performs DP (Dynamic Programming) matching on each feature information series to calculate a similarity score. The determining unit 156 determines that the feature information series of elemental work B in the modified data 30a and the feature information series of elemental work B in the modified data 30b are similar when the similarity score is equal to or greater than the threshold. , 1 is added to the similarity number corresponding to the element work B of the modified data 30a.
  • DP Dynamic Programming
  • the determination unit 156 determines whether the feature information series of elemental work B in the modified data 30a and the feature information series of elemental work B in the modified data 30c are similar. For example, the determination unit 156 performs DP (Dynamic Programming) matching on each feature information series to calculate a similarity score. The determining unit 156 determines that the feature information series of the elemental work B of the modified data 30a and the feature information series of the elemental work B of the modified data 30c are similar when the similarity score is equal to or greater than the threshold value. , 1 is added to the similarity number corresponding to the element work B of the modified data 30a.
  • DP Dynamic Programming
  • the determination unit 156 retrains the machine learning model using the feature information series of the elemental work B of the modified data 30a when the similarity number corresponding to the elemental work B of the modified data 30a is greater than or equal to a predetermined number. It is determined that For example, the determination unit 156 outputs the feature information sequence of elemental work B of the modified data 30a to the transition probability learning unit 154, and requests re-learning.
  • the relearning request includes the label of the relevant elemental work and the characteristic information series (sequence of unit works) of the relevant elemental work.
  • transition probability learning unit 154 When the transition probability learning unit 154 receives a relearning request from the determining unit 156, the transition probability learning unit 154 retrains the second learning model corresponding to the label of the elemental work included in the relearning request based on the characteristics of the corresponding elemental work. Re-learning based on information sequence.
  • the transition probability learning unit 154 calculates the second model 90B corresponding to elemental work B based on the feature information series of elemental work B in the correction data 30a. , the transition probability of the second model 90B is updated by relearning.
  • FIG. 8 is flowcharts showing the processing procedure of the information processing apparatus according to this embodiment.
  • FIG. 8 will be explained.
  • the acquisition unit 151 of the information processing device 100 acquires work video data from the camera 15 (step S101).
  • the extraction unit 152 of the information processing device 100 extracts a feature vector based on the work video data (step S102).
  • the estimation unit 155 of the information processing device 100 estimates the sequence of unit actions based on the feature vector and the first model (step S103).
  • the estimating unit 155 compares the sequence of unit actions with each second model to detect elemental work (step S104).
  • the estimating unit 155 causes the display unit 130 to display the detection result of the element work (step S105).
  • the estimation unit 155 When the estimation unit 155 receives a correction to the detection result, it registers the correction data in the correction data table 144 (step S106).
  • the determination unit 156 of the information processing device 100 obtains first modified data in which the section of the element work has been modified from the modified data table 144 (step S201).
  • the determination unit 156 obtains second modified data in which the same elemental work as the modified elemental work of the first modified data is modified from the modified data table 144 (step S203).
  • the determination unit 156 calculates a similarity score between the feature information series of the modified elemental work of the first modified data and the feature information series of the modified elemental work of the second modified data (step S204). .
  • the determination unit 156 adds 1 to the similarity count for the first modified data (step S205). If the unobtained second modified data exists in the modified data table 144 (step S206, Yes), the determination unit 156 moves to step S203. On the other hand, if the unobtained second modified data exists in the modified data table 144 (step S206, No), the determination unit 156 moves to step S207.
  • Step S207, Yes If the number of similarities to the first modified data is greater than or equal to the predetermined number (Step S207, Yes), the determination unit 156 moves to Step S208. On the other hand, if the number of similarities to the first modified data is not greater than or equal to the predetermined number (step S207, No), the determination unit 156 ends the process.
  • the transition probability learning unit 154 of the information processing device 100 relearns the machine learning model using the feature information sequence of the section of the element S business that has been corrected in the first correction data (step S208).
  • the information processing apparatus 100 determines whether or not the feature information series of the same element work in the plurality of correction data are similar, and when it is determined that they are similar, the information processing apparatus 100 uses the feature information series of the corresponding element work in the correction data to Perform retraining of machine learning models. This makes it possible to improve the accuracy of identifying elemental tasks.
  • FIG. 10 is a diagram showing a comparison example between the information processing device according to this embodiment and a conventional device.
  • the machine learning model is retrained using the corrected detection result 21b (corrected data) in FIG. If so, the detection accuracy of the machine learning model will decrease.
  • the detection result 60a is a detection result output from a machine learning model retrained using the detection result 21b.
  • the feature information series of the corrected element work of the correction data is used to process the element work using the feature information series of the same element work that is the corrected element work. It is determined whether the feature information series of are similar. If the characteristic information series of the same corrected elemental work included in a plurality of pieces of correction data are similar, it can be said that no irregular situation has occurred in the corrected elemental work.
  • the detection result 60b is a detection result output from a machine learning model retrained by the information processing apparatus 100 using the corrected data 30a shown in FIG. 2.
  • the correct detection result is the detection result 60c.
  • the detection result 60b is closer to the detection result 60c than the detection result 60a, and the accuracy of identifying the element work is improved.
  • the information processing device 100 determines whether the characteristic information series of the sections are similar to the first section, which is the corrected element work and is the section to which the label of the same element work is assigned, and the plurality of second sections. Determine. This makes it possible to specify whether or not the revised elemental work includes an irregular situation.
  • the information processing device 100 determines whether the first section and the second section are similar based on the feature information series of the first section and the feature information series of the second section. Then, when the number of second sections similar to the first section is equal to or greater than a predetermined number, the information processing apparatus 100 retrains the machine learning model using the feature information series of the first section. As a result, the machine learning model can be retrained using the information of the first section that does not include any irregular situations.
  • the information processing device 100 was relearning the machine learning model corresponding to the element work using the corrected data.
  • the information processing apparatus 100 divides the re-learned section of the element work and the elements before and after the element work. Section division may be performed only with respect to work sections.
  • FIG. 11 is a diagram for explaining other processing executed by the information processing device.
  • a detection result 65a is a detection result detected by the machine learning model before performing relearning.
  • the administrator modifies the elemental work of the detection result 65a, and the information processing device 100 determines that the feature information series of the elemental work C does not include an irregular situation through the above processing, and Retrain the machine learning model using the feature information series.
  • the transition probability learning unit 154 of the information processing device 100 retrains the transition probability of the second model corresponding to the element work C using the feature information sequence of the element work C.
  • the information processing device 100 divides the corrected section of the element work C, the element work B before and after the element work C, and the element work Divide the section D into sections.
  • the estimation unit 155 of the information processing device 100 focuses on the arrangement of the second models corresponding to element work B and element work C among the plurality of second models included in the machine learning model.
  • the estimating unit 155 inputs the time-series feature vectors of the work video data into the first model, estimates the arrangement of unit tasks, and estimates the arrangement of the estimated unit tasks and the first model corresponding to elemental work B and elemental work C.
  • the two models are compared and divided into element section B, element section C, and element section D.
  • the information processing device 100 displays the divided element section B, element section C, and element section D on the display unit 130, so that the administrator can easily check whether the correction results are appropriate. .
  • FIG. 12 is a diagram illustrating an example of the hardware configuration of a computer that implements the same functions as the information processing device of the embodiment.
  • the computer 200 includes a CPU 201 that executes various calculation processes, an input device 202 that accepts data input from the user, and a display 203.
  • the computer 200 also includes a communication device 204 and an interface device 205 that exchange data with the camera 15, external devices, etc. via a wired or wireless network.
  • the computer 200 also includes a RAM 206 that temporarily stores various information and a hard disk device 207. Each device 201-207 is then connected to a bus 208.
  • the hard disk device 207 includes an acquisition program 207a, an extraction program 207b, an observation probability learning program 207c, a transition probability learning program 207d, an estimation program 207e, and a determination program 207f. Further, the CPU 201 reads each program 207a to 207f and expands it in the RAM 206.
  • the acquisition program 207a functions as an acquisition process 206a.
  • the extraction program 207b functions as an extraction process 206b.
  • the observation probability learning program 207c functions as an observation probability learning process 206c.
  • the transition probability learning program 207d functions as a transition probability learning process 206d.
  • the estimation program 207e functions as an estimation process 206e.
  • the determination program 207f functions as a determination process 206f.
  • the processing of the acquisition process 206a corresponds to the processing of the acquisition unit 151.
  • the processing of the extraction process 206b corresponds to the processing of the extraction unit 152.
  • the processing of the observation probability learning process 206c corresponds to the processing of the observation probability learning section 153.
  • the processing of the transition probability learning process 206d corresponds to the processing of the transition probability learning section 154.
  • the processing of the estimation process 206e corresponds to the processing of the estimation unit 155.
  • the processing of the determination process 206f corresponds to the processing of the determination unit 156.
  • each of the programs 207a to 207f does not necessarily have to be stored in the hard disk device 207 from the beginning.
  • each program is stored in a "portable physical medium" such as a flexible disk (FD), CD-ROM, DVD, magneto-optical disk, or IC card that is inserted into the computer 200. Then, the computer 200 may read and execute each program 207a to 207f.
  • Information processing device 110 Communication unit 120 Input unit 130 Display unit 140 Storage unit 141 Model table 142 Unsupervised data table 143 Supervised data table 144 Modified data table 145 Video buffer 150 Control unit 151 Acquisition unit 152 Extraction unit 153 Observation probability learning unit 154 Transition probability learning section 155 Estimating section 156 Judging section

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

情報処理装置は、人物の作業を撮影した映像を取得する。情報処理装置は、取得した映像を機械学習モデルに入力することで、人物の要素作業の区間ごとに作業種別を示すラベルを生成する。情報処理装置は、生成された区間ごとのラベルの中から、修正対象のラベルを受け付け、受け付けた修正対象のラベルであって、同じ作業種別を示すラベルの区間における作業の特徴量が類似するか否かを判定する。情報処理装置は、同じ作業種別を示すラベルの区間における作業の特徴量が類似すると判定した場合に、同じ作業種別を示すラベルの区間における作業の時系列の特徴量を用いて、機械学習モデルの再学習を実行する。

Description

機械学習プログラム、機械学習方法および情報処理装置
 本発明は、機械学習プログラム等に関する。
 ディープラーニング技術の発展により通常のRGB(Red Green Blue)カメラで撮影した人の映像から姿勢を高精度に認識できるようになり、この認識情報を利用して人の行動を推定する様々な研究開発が行われている。
 たとえば、人物の作業をカメラで撮影し、撮影した作業映像を基にして、時系列の複数の単位動作を特定し、特定した単位動作の並びと、モデルとを照合することで、作業映像に含まれる複数の要素作業を推測する従来技術がある。
 なお、同じ要素作業でも、単位動作の並びは毎回完全には一致せず、バラツキがあるため、従来技術では、要素作業中の単位動作の並びを、単位動作間の確率的な遷移(遷移確率)で表現したモデル(機械学習モデル)を利用する。従来技術では、作業映像から実際に観測される単位動作の並びのパターンと、要素作業のラベルとの関係を定義した教師データを基にして、モデルの遷移確率を訓練する。
 図13は、従来技術を説明するための図(1)である。便宜的に、従来技術の装置を「従来装置」と表記する。従来装置は、作業映像5を基にして、作業映像に含まれる単位動作を時系列に推定する。図13に示す例では、単位動作m,m,m,m,m,m,m、・・・の順に、単位動作が推定されている。たとえば、従来装置は、教師なしデータで訓練されたモデルを用いて、各単位動作を推定する。
 従来装置は、上記のように単位動作の並びを推定しつつ、各要素作業に対応する複数のモデルと照合を行い、要素作業を順に特定する。図13に示す例では、要素作業Aに対応するモデル20Aと、要素作業Bに対応するモデル20Bとを示す。モデル20A,20bは、HMM(Hidden Markov Model)である。
 モデル20A,20Bには、単位動作m(nは、自然数)に対応する状態ノードが含まれる。各状態ノードは、所定の状態ノードとエッジで接続される。各エッジには、教師データによって訓練された遷移確率が設定される。図13では、n=4以上の単位動作に対応する状態ノードの図示を省略する。
 従来技術は、単位動作の推定結果を基にして、モデル20A,20Bの状態ノードを遷移させ、実際に遷移したエッジの遷移確率や、各種の制約等を基にして、単位動作の並びに対応する要素作業を順に特定する。各種の制約には、要素作業の作業時間や、要素作業の順番等が含まれる。図13に示す例では、照合の結果、単位動作m2,,mの並びが、要素作業Aと特定され、単位動作m8,,m,mの並びが、要素作業Bと特定されている。
 ここで、従来技術では、上記のモデルを用いて作業映像を複数の要素作業に分割した結果を、UI(User Interface)で可視化する場合がある。管理者は、可視化された結果と、作業映像とを比較して、必要に応じて要素作業の区間を修正する。
 図14は、従来技術を説明するための図(2)である。従来装置が、モデルによって自動的に推定した要素作業の検出結果を、検出結果20aする。検出結果20aでは、先頭から順に、要素作業A、要素作業B、要素作業C、要素作業Dが検出されている。
 要素作業Aに含まれる時系列の単位動作のうち、最初の単位動作から最後の単位動作までの時間を区間T1-1とする。要素作業Bに含まれる時系列の単位動作のうち、最初の単位動作から最後の単位動作までの時間を区間T1-2とする。要素作業Cに含まれる時系列の単位動作のうち、最初の単位動作から最後の単位動作までの時間を区間T1-3とする。要素作業Dに含まれる時系列の単位動作のうち、最初の単位動作から最後の単位動作までの時間を区間T1-4とする。
 管理者が、実際の作業映像と、検出結果20aとを参照し、要素作業B、要素作業Cの区間の誤りを確認した場合には、要素作業B、要素作業Cの区間を修正することで、検出結果21bが得られる。たとえば、検出結果21bでは、要素作業Bの区間T1-2が、区間T2-2に修正され、要素作業Cの区間T1-3が、区間T2-3に修正されている。
 管理者によって修正された検出結果21bをモデルの再学習に利用することで、モデルが要素作業を検出する場合の識別精度を改善できる可能性がある。
特開2021-189892号公報
 しかしながら、上述した従来技術では、要素作業の識別精度を向上させることができないという問題がある。
 たとえば、管理者が検出結果を修正する際に、作業映像にイレギュラーな状況が発生していると、修正した検出結果が、モデルの再学習に適した検出結果とはならない。
 ここで、イレギュラーな状況とは、通常想定されている作業とは異なる作業員の動きであり、作業ミスに気が付いて、作業をやり直す等の動きである。イレギュラーな状況に基づいて修正された検出結果に示される各要素作業の区間は、モデルの学習時の状況とは異なる状況であり、再現性がない。
 このため、単に、管理者によって修正した検出結果を利用して、モデルの再学習を行うと、モデルの要素作業の識別精度が低下する場合もあり得た。
 1つの側面では、本発明は、要素作業の識別精度を向上させることができる機械学習プログラム、機械学習方法および情報処理装置を提供することを目的とする。
 第1の案では、コンピュータに次の処理を実行させる。コンピュータは、人物の作業を撮影した映像を取得する。コンピュータは、取得した映像を機械学習モデルに入力することで、人物の要素作業の区間ごとに作業種別を示すラベルを生成する。コンピュータは、生成された区間ごとのラベルの中から、修正対象のラベルを受け付け、受け付けた修正対象のラベルであって、同じ作業種別を示すラベルの区間における作業の特徴量が類似するか否かを判定する。コンピュータは、同じ作業種別を示すラベルの区間における作業の特徴量が類似すると判定した場合に、同じ作業種別を示すラベルの区間における作業の時系列の特徴量を用いて、機械学習モデルの再学習を実行する。
 要素作業の識別精度を向上させることができる。
図1は、本実施例に係るシステムの一例を示す図である。 図2は、本実施例に係る情報処理装置の処理を説明するための図である。 図3は、本実施例に係る情報処理装置の構成を示す機能ブロック図である。 図4は、修正データテーブルのデータ構造の一例を示す図である。 図5は、観測確率学習部の処理を説明するための図である。 図6は、遷移確率学習部の処理の一例を説明するための図である。 図7は、機械学習モデルの一例を示す図である。 図8は、本実施例に係る情報処理装置の処理手順を示すフローチャート(1)である。 図9は、本実施例に係る情報処理装置の処理手順を示すフローチャート(2)である。 図10は、本実施例に係る情報処理装置と従来装置との比較例を示す図である。 図11は、情報処理装置が実行するその他の処理を説明するための図である。 図12は、実施例の情報処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。 図13は、従来技術を説明するための図(1)である。 図14は、従来技術を説明するための図(2)である。
 以下に、本願の開示する機械学習プログラム、機械学習方法および情報処理装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。
 本実施例に係るシステムの構成例について説明する。図1は、本実施例に係るシステムの一例を示す図である。図1に示すように、このシステムは、カメラ15と、情報処理装置100とを有する。カメラ15と、情報処理装置100とは、ネットワーク16を介して相互に接続される。
 カメラ15は、RGBカメラ等である。カメラ15は、工場等で作業を行う作業員14の映像を撮影し、撮影した映像のデータを、情報処理装置100に送信する。以下の説明では、カメラ15が撮影した映像のデータを「作業映像データ」と表記する。作業映像データは、時系列のフレーム(静止画像)を含む。
 続いて、情報処理装置100の処理について説明する。図2は、本実施例に係る情報処理装置の処理を説明するための図である。前提として、情報処理装置100は、機械学習モデルを用いて、作業映像データから抽出する時系列の単位作業の並びから、要素作業および要素作業の区間を検出し、検出結果を表示する。機械学習モデルは、HSMM(Hidden Semi-Markov Model)等である。機械学習モデルによって検出される要素作業は、同一の要素作業であっても、係る同一の要素作業に含まれる単位作業の並びが異なる場合がある。管理者は、情報処理装置100の検出結果と、作業映像データとを参照して、要素作業の区間に誤りがある場合には、要素作業の区間を修正することで、修正データを生成する。上記処理が繰り返し実行されることで、情報処理装置100には、複数の修正データが保存される。
 情報処理装置100は、複数の修正データから、同じ要素作業の区間が修正された修正データを取得する。図2に示す例では、修正データ30a,30b,30cを用いて説明を行う。修正データ30a,30b,30cでは、先頭から順に、要素作業A、要素作業B、要素作業C、要素作業Dが検出されており、要素作業Bの区間が管理者によって修正されているものとする。
 修正データ30a~30cの各要素作業の区間には、時系列の単位動作が含まれる。以下の説明では、適宜、要素作業に含まれる時系列の単位動作の並びを「特徴情報系列」と表記する。
 情報処理装置100は、修正データ30aの要素作業Bの特徴情報系列と、修正データ30bの要素作業Bの特徴情報系列とが類似しているか否かを判定する。情報処理装置100は、修正データ30aの要素作業Bの特徴情報系列と、修正データ30bの要素作業Bの特徴情報系列とが類似している場合には、修正データ30aの要素作業Bに対応する類似数に1を加算する。
 情報処理装置100は、修正データ30aの要素作業Bの特徴情報系列と、修正データ30cの要素作業Bの特徴情報系列とが類似しているか否かを判定する。情報処理装置100は、修正データ30aの要素作業Bの特徴情報系列と、修正データ30cの要素作業Bの特徴情報系列とが類似している場合には、修正データ30aの要素作業Bに対応する類似数に1を加算する。
 情報処理装置100は、修正データ30aの要素作業Bに対応する類似数が、所定数以上である場合に、修正データ30aの要素作業Bの特徴情報系列を用いて、機械学習モデルの再学習を行う。
 たとえば、修正データ30aの要素作業Bに対応する類似数が所定数以上である場合には、修正データ30aの要素作業Bは、イレギュラーな状況が発生していない要素作業であるといえる。このため、修正データ30aの要素作業Bの特徴情報系列を用いて、機械学習モデルの再学習を行うことで、機械学習モデルに対する要素作業の識別精度を向上させることができる。
 次に、図2で説明した処理を実行する情報処理装置100の構成例について説明する。図3は、本実施例に係る情報処理装置の構成を示す機能ブロック図である。図3に示すように、この情報処理装置100は、通信部110と、入力部120と、表示部130と、記憶部140と、制御部150とを有する。
 通信部110は、ネットワーク16を介して、カメラ15や、外部装置等との間でデータ通信を実行する。後述する制御部150は、通信部110を介して、外部装置との間でデータをやり取りする。
 入力部120は、情報処理装置100の制御部150に各種の情報を入力する入力装置である。たとえば、入力部120は、キーボードやマウス、タッチパネル等に対応する。管理者は、入力部120を操作して、検出結果の要素作業の区間を修正する。
 表示部130は、制御部150から出力される情報を表示する表示装置である。たとえば、表示部130は、要素作業の検出結果、作業映像データ等を表示する。
 記憶部140は、モデルテーブル141、教師なしデータテーブル142、教師ありデータテーブル143、修正データテーブル144、映像バッファ145を有する。記憶部140は、メモリなどの記憶装置に対応する。
 モデルテーブル141は、機械学習モデルを有する。たとえば、機械学習モデルは、第1モデルと、複数の第2モデルとを有する。
 第1モデルは、特徴ベクトルが入力された場合に、単位動作mを出力するモデルである。nは自然数である。時系列の特徴ベクトルが、第1モデルに入力されると、第1モデルから時系列の単位動作が出力される。第1モデルは、教師なしデータによって、訓練される。たとえば、単位動作は、「腕を上げる」、「腕を下す」、「腕を前に伸ばす」等である。単位動作は、「特徴量」に対応する。
 複数の第2モデルは、単位動作の並びから、要素作業を特定する場合に利用される。第2モデルは、図13で説明したモデル20A,20B等と同様にして、単位動作mに対応する状態ノードが含まれる。各状態ノードは、所定の状態ノードとエッジで接続される。各エッジには、教師データによって学習された遷移確率が設定される。複数の第2モデルは、教師ありデータによって、訓練される。各第2モデルは、特定の要素作業に対応付けられ、予め設定された要素作業の順に接続される。
 教師なしデータテーブル142は、複数の教師なしデータを有する。たとえば、教師なしデータを、複数の作業映像データとする。教師なしデータテーブル142は、第1モデルを訓練する場合に使用される。
 教師ありデータテーブル143は、単位動作の並びを保持するテーブルである。教師ありデータテーブル143に保持される各単位動作には、要素作業を識別するラベルが付与される。教師ありデータテーブル143は、各第2モデルを訓練する場合に使用される。
 修正データテーブル144は、複数の修正データを保持するテーブルである。修正データは、図2で説明した修正データ30a~30c等に対応する。
 図4は、修正データテーブルのデータ構造の一例を示す図である。図4に示すように、修正データテーブル144は、項番と、複数の要素作業情報が含まれる。項番は、修正データテーブルの各レコードを識別する番号である。1つのレコードが、1つの修正データに対応する情報である。
 要素作業情報(n)は、作業映像データから検出されたn番目の要素作業に関する情報である。要素作業情報には、ラベル、特徴情報系列、区間、フラグが含まれる。ラベルは、要素作業を識別する情報である。特徴情報系列は、該当する要素作業に含まれる時系列の単位動作である。区間は、該当する要素作業の先頭の単位動作から、最後の単位動作までの時間幅である。フラグは、該当する要素作業の区間が修正されたか否かを示す情報である。フラグが「オフ」の場合には、該当する要素作業の区間が修正されていないことを示す。フラグが「オン」の場合には、該当する要素作業の区間が修正されていることを示す。
 図3の説明に戻る。映像バッファ145は、カメラ15から取得した、作業映像データを格納するバッファである。
 制御部150は、取得部151と、抽出部152と、観測確率学習部153と、遷移確率学習部154と、推定部155と、判定部156とを有する。制御部150は、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)等である。
 取得部151は、カメラ15から、作業映像データを取得し、取得した作業映像データを、映像バッファ145に格納する。
 また、取得部151は、ネットワーク16を介して、図示しない外部装置等から、教師なしデータテーブル142のデータ、教師ありデータテーブル143のデータを取得してもよい。取得部151は、取得した教師なしデータテーブル142のデータ、教師ありデータテーブル143のデータを、記憶部140に格納する。
 抽出部152は、作業映像データを基にして、特徴ベクトルを抽出する。たとえば、抽出部152は、「学習フェーズ」において、教師なしデータテーブル142に格納された作業映像データを基にして、特徴ベクトルを抽出し、抽出した特徴ベクトルを、観測確率学習部153に出力する。また、抽出部152は、「推定フェーズ」において、映像バッファ145に格納された作業映像データを基にして、特徴ベクトルを抽出し、抽出した特徴ベクトルを、推定部155に出力する。
 ここで、抽出部152が、作業映像データから特徴ベクトルを抽出する処理の一例について説明する。作業映像データを構成する各フレームから人物検出技術を適用して人の領域(たとえば、バウンディングボックス)を検出し、検出した同一人の領域をフレーム間で対応付けることにより追跡する。抽出部152は、1つのフレームから人の領域が複数検出されている場合には、領域の大きさやフレーム内での領域の位置等に基づいて、判定対象の人の領域を特定する。抽出部152は、各フレームから検出した人の領域内の画像を画像処理して、人の関節位置及びその連結関係等に基づいて姿勢情報を算出する。抽出部152は、各フレームについて算出した姿勢情報に、フレームに対応付けられた時間情報を対応付けて並べた時系列の姿勢情報を作成する。
 抽出部152は、時系列の姿勢情報から身体の各部位についての時系列の運動情報を算出する。運動情報は、例えば、各部位の曲げの程度、曲げの速度等であってよい。各部位とは、たとえば、肘、膝等であってよい。また、抽出部152は、スライディングタイムウィンドウにより一定の時間間隔毎にウィンドウ内の運動情報を時間方向で平均化した値を要素とする特徴ベクトルを抽出する。たとえば、抽出部152は、特徴ベクトルの各次元を、平均化した、所定の部位の曲げ速度、曲げの程度等に対応させて、値を設定してもよい。
 観測確率学習部153は、抽出部152によって抽出された特徴ベクトルであって、教師なしデータテーブル142の作業映像データに基づく特徴ベクトルを基にして、第1モデルを訓練する。たとえば、第1モデルは、混合ガウス分布(以下、「GMM(Gaussian Mixture Model)」という)モデル等である。本実施例では、適宜、教師データに基づいて、「モデルの学習を実行する」ことを、「モデルを訓練する」と表記する。
 観測確率学習部153は、混合ガウス分布モデルを用いて各単位動作の観測確率を算出する。具体的には、観測確率学習部153は、抽出部152から受け渡された特徴量ベクトルをクラスタリングすることにより、動作の数分のガウス分布が混合されたGMMのパラメータを推定する。そして、観測確率学習部153は、パラメータが推定されたGMMを構成する各ガウス分布を各動作の観測確率を表す確率分布として割り当てる。
 図5は、観測確率学習部の処理を説明するための図である。図5に示す例では、特徴量空間Vを、第1特徴量、第2特徴量、第n特徴量の軸で示す。第1特徴量、第2特徴量、第n特徴量は、特徴ベクトルの各次元に対応する。たとえば、特徴量空間Vにおける、各特徴ベクトルの位置は、図5の四角マークで示される。
 観測確率学習部153は、各特徴ベクトルをクラスタリングすると、クラスタ45-1,45-2,45-3,45-6に分類される。たとえば、クラスタ45-1に分類された各特徴ベクトルは、単位動作「m」に対応する特徴ベクトルとなる。クラスタ45-2に分類された各特徴ベクトルは、単位動作「m」に対応する特徴ベクトルとなる。クラスタ45-3に分類された各特徴ベクトルは、単位動作「m」に対応する特徴ベクトルとなる。クラスタ45-6に分類された各特徴ベクトルは、単位動作「m」に対応する特徴ベクトルとなる。
 図5に示すクラスタリングの結果が、第1モデルを訓練した結果に対応する。推定対象となる特徴ベクトルが、訓練済みの第1モデルに入力されると、推定対象となる特徴ベクトルと、各クラスタの距離とに基づいて、第1モデルから、各単位動作の観測確率が出力される。たとえば、推定対象の特徴ベクトルと、クラスタ45-1との距離が、他のクラスタとの距離よりも近い場合には、推定対象の特徴ベクトルに関して、単位動作「m」の観測確率が、他の単位動作の観測確率よりも大きい確率となる。
 図3の説明に戻る。遷移確率学習部154は、教師ありデータテーブル143を基にして、各要素作業に対応する第2モデルの遷移確率を訓練する。遷移確率学習部154は、最尤推定やEMアルゴリズム(Expectation-Maximization algorithm)等を使用して、単位動作の状態ノード間のエッジの遷移確率を訓練する。
 遷移確率学習部154の処理の一例を、図6を用いて説明する。図6は、遷移確率学習部の処理の一例を説明するための図である。たとえば、教師ありデータテーブル143において、区間T10-1に含まれる時系列の単位動作m,m,m,mに、要素作業Aのラベルが付与されているものとする。第2モデル90Aを、要素作業Aに対応する第2モデルとする。この場合、遷移確率学習部154は、単位動作m,m,m,mの並びによって、第2モデル90Aの状態ノード間のエッジの遷移確率を訓練する。
 また、教師ありデータテーブル143において、区間T10-2に含まれる時系列の単位動作m,m,mに、要素作業Bのラベルが付与されているものとする。第2モデル90Bを、要素作業Bに対応する第2モデルとする。この場合、遷移確率学習部154は、単位動作m,m,mの並びによって、第2モデル90Bの状態ノード間のエッジの遷移確率を訓練する。
 遷移確率学習部154は、教師ありデータテーブル143に登録された単位動作の並びと、ラベルの関係を基にして、上記処理を繰り返し実行することで、各要素作業に対応する第2モデルの遷移確率を訓練する。なお、各要素作業の順番は、予め指定されており、指定された情報を基にして、各第2モデルを接続する。要素作業の順番が、要素作業A、B、C、Dの順番である場合には、要素作業Aに対応する第2モデル、要素作業Bに対応する第2モデル、要素作業Cに対応する第2モデル、要素作業Dに対応する第2モデルの順に、各第2モデルを接続する。
 また、遷移確率学習部154は、教師ありデータテーブル143に登録された、複数の単位動作のうち、同一の要素作業のラベルが連続して設定された単位動作の区間を基にして、各要素作業の継続時間を特定する。遷移確率学習部154は、特定した各要素作業の継続時間を基にして、継続時間の確率分布を特定し、特定した確率分布を、各要素作業の第2モデルに設定する。
 ところで、遷移確率学習部154は、観測確率学習部153で算出された各単位動作の観測確率、単位動作(状態ノード)間のエッジの遷移確率、各要素作業に設定される継続時間の確率分布を基にして、図7に示す機械学習モデルを構築してもよい。機械学習モデルは、上記の第1モデルおよび複数の第2モデルに対応する。
 図7は、機械学習モデルの一例を示す図である。図7に示す機械学習モデル41は、設定した継続時間後に、各要素行動の順番に、各要素行動に対応する第2モデルが遷移するHSMM(Hidden Semi-Markov Model)である。図7において、O1、O2、・・・、O8は、観測確率学習部153で算出される観測確率を表す。また、要素行動a1、a2、a3の各々に含まれる動作m1、m2、及びm3間の矢印に対応付けられる遷移確率は、遷移確率学習部154で算出される遷移確率に対応する。また、d1、d2、d3は、各要素行動の継続時間を表す。
 図3の説明に戻る。推定部155は、推定フェーズにおいて、各区間の作業員の要素作業を推定する。推定部155は、抽出部152から、時系列の特徴ベクトルを取得する。係る特徴ベクトルは、映像バッファ145の作業映像データから抽出された特徴ベクトルである。
 推定部155は、時系列の特徴ベクトルを、第1モデルに入力することで、時系列の単位動作の並びを推定する。推定部155は、推定した単位行列の並びと、各第2モデル90A,90B(他の要素作業の第2モデル)とを照合し、状態ノードを遷移させ、実際に遷移したエッジの遷移確率や、各種の制約等を基にして、単位動作の並びに対応する要素作業を順に特定する。各種の制約には、作業時間の制約、作業順序の制約等が含まれる。推定部155は、要素作業の検出結果を、表示部130に表示させる。推定部155は、映像バッファ145に格納された作業映像データを、表示部130に表示させてもよい。
 管理者は、表示部130に表示された検出結果と、作業映像データとを確認する。管理者は、検出結果に含まれる各要素作業のうち、要素作業の区間を修正する場合には、入力部120を操作して、要素区間を指定し、要素作業の区間を修正する。
 推定部155は、要素作業の区間の修正を受け付けた場合には、修正データを生成し、修正データを、修正データテーブル144に格納する。推定部155は、修正データとして、図4で説明したように、時系列に各要素作業情報を生成する。要素作業情報には、ラベル、特徴情報系列、区間、フラグが設定される。
 推定部155は、推定フェーズにおいて、上記処理を繰り返し実行し、複数の修正データを生成し、修正データを、修正データテーブル144に登録する。
 判定部156は、修正データテーブル144に登録された複数の修正データから、同じ要素作業(ラベル)の区間が修正された修正データを取得する。判定部156は、同じ要素作業の区間の特徴情報系列の類似度を算出し、類似度の算出結果を基にして、修正された要素作業の区間の特徴情報系列を用いて、機械学習モデルの再学習を行うか否かを判定する。
 判定部156の処理を、図2を用いて説明する。修正データ30a,30b,30cでは、先頭から順に、要素作業A、要素作業B、要素作業C、要素作業Dが検出されており、要素作業Bの区間が管理者によって修正されているものとする。
 判定部156は、修正データ30aの要素作業Bの特徴情報系列と、修正データ30bの要素作業Bの特徴情報系列とが類似しているか否かを判定する。たとえば、判定部156は、各特徴情報系列に関し、DP(Dynamic Programming)マッチングを実行して、類似度のスコアを算出する。判定部156は、類似度のスコアが閾値以上である場合に、修正データ30aの要素作業Bの特徴情報系列と、修正データ30bの要素作業Bの特徴情報系列とが類似していると判定し、修正データ30aの要素作業Bに対応する類似数に1を加算する。
 同様に、判定部156は、修正データ30aの要素作業Bの特徴情報系列と、修正データ30cの要素作業Bの特徴情報系列とが類似しているか否かを判定する。たとえば、判定部156は、各特徴情報系列に関し、DP(Dynamic Programming)マッチングを実行して、類似度のスコアを算出する。判定部156は、類似度のスコアが閾値以上である場合に、修正データ30aの要素作業Bの特徴情報系列と、修正データ30cの要素作業Bの特徴情報系列とが類似していると判定し、修正データ30aの要素作業Bに対応する類似数に1を加算する。
 判定部156は、修正データ30aの要素作業Bに対応する類似数が、所定数以上である場合に、修正データ30aの要素作業Bの特徴情報系列を用いて、機械学習モデルの再学習を行うと判定する。たとえば、判定部156は、修正データ30aの要素作業Bの特徴情報系列を、遷移確率学習部154に出力し、再学習依頼を行う。再学習依頼には、該当する要素作業のラベルと、該当する要素作業の特徴情報系列(単位作業の並び)が含まれる。
 遷移確率学習部154は、判定部156から、再学習依頼を受け付けた場合には、再学習依頼に含まれる要素作業のラベルに対応する第2学習モデルの再学習を、該当する要素作業の特徴情報系列によって再学習する。
 遷移確率学習部154は、再学習依頼に、要素作業Bのラベルが含まれている場合には、要素作業Bに対応する第2モデル90Bを、修正データ30aの要素作業Bの特徴情報系列によって、再学習することで、第2モデル90Bの遷移確率を更新する。
 次に、本実施例に係る情報処理装置の処理手順の一例について説明する。図8および図9は、本実施例に係る情報処理装置の処理手順を示すフローチャートである。まず、図8について説明する。図8に示すように、情報処理装置100の取得部151は、カメラ15から、作業映像データを取得する(ステップS101)。
 情報処理装置100の抽出部152は、作業映像データを基にして、特徴ベクトルを抽出する(ステップS102)。情報処理装置100の推定部155は、特徴ベクトルと第1モデルとを基にして、単位動作の並びを推定する(ステップS103)。
 推定部155は、単位動作の並びと、各第2モデルとを照合して、要素作業を検出する(ステップS104)。推定部155は、要素作業の検出結果を、表示部130に表示させる(ステップS105)。
 推定部155は、検出結果に対する修正を受け付けた場合、修正データを、修正データテーブル144に登録する(ステップS106)。
 続いて、図9について説明する。図9に示すように、情報処理装置100の判定部156は、要素作業の区間が修正された第1の修正データを、修正データテーブル144から取得する(ステップS201)。判定部156は、第1の修正データに対する類似数を初期値(たとえば、初期値=0)に設定する(ステップS202)。
 判定部156は、第1の修正データの修正された要素作業と同じ要素作業が修正された第2の修正データを、修正データテーブル144から取得する(ステップS203)。判定部156は、第1の修正データの修正された要素作業の特徴情報系列と、第2の修正データの修正された要素作業の特徴情報系列との類似度のスコアを算出する(ステップS204)。
 判定部156は、類似度のスコアが閾値以上である場合に、第1の修正データに対する類似数に1を加算する(ステップS205)。判定部156は、未取得の第2の修正データが修正データテーブル144に存在している場合には(ステップS206,Yes)、ステップS203に移行する。一方、判定部156は、未取得の第2の修正データが修正データテーブル144に存在している場合には(ステップS206,No)、ステップS207に移行する。
 判定部156は、第1の修正データに対する類似数が所定数以上である場合には(ステップS207,Yes)、ステップS208に移行する。一方、判定部156は、第1の修正データに対する類似数が所定数以上でない場合には(ステップS207,No)、処理を終了する。
 情報処理装置100の遷移確率学習部154は、第1の修正データの修正された要素S業の区間の特徴情報系列を用いて、機械学習モデルを再学習する(ステップS208)。
 次に、本実施例に係る情報処理装置100の効果について説明する。情報処理装置100は、複数の修正データの同じ要素作業の特徴情報系列が類似するか否かを判定し、類似すると判定した場合に、修正データの該当する要素作業の特徴情報系列を用いて、機械学習モデルの再学習を実行する。これによって、要素作業の識別精度を向上させることができる。
 図10は、本実施例に係る情報処理装置と従来装置との比較例を示す図である。たとえば、従来技術では、図14の修正された検出結果21b(修正データ)を用いて、機械学習モデルを再学習しており、たとえば、検出結果21bの要素作業Bにイレギラーな状況が発生していると、機械学習モデルの検出精度が低下する。たとえば、検出結果21bを用いて再学習した機械学習モデルから出力された検出結果を検出結果60aとする。
 一方、本実施例の情報処理装置100では、修正データの修正された要素作業の特徴情報系列を用いて、修正された要素作業であって、同じ要素作業の特徴情報系列を用いて、要素作業の特徴情報系列が類似しているか否かを判定する。複数の修正データに含まれる修正された同じ要素作業の特徴情報系列が類似していれば、修正された要素作業には、イレギラーな状況が発生していないといえる。たとえば、情報処理装置100が、図2に示した修正データ30aを用いて再学習した機械学習モデルから出力された検出結果を検出結果60bとする。
 たとえば、検出結果の正解を、検出結果60cとする。検出結果60a,60b,60cをそれぞれ比較すると、検出結果60bは、検出結果60aよりも、検出結果60cに近い結果となり、要素作業の識別精度が向上している。
 情報処理装置100は、修正された要素作業であって、同じ要素作業のラベルが付与された区間となる第1区間と、複数の第2区間について、区間の特徴情報系列が類似するか否かを判定する。これによって、修正された要素作業に、イレギラーな状況が含まれるか否かを特定することができる。
 情報処理装置100は、第1区間の特徴情報系列と、第2区間の特徴情報系列とを基にして、第1区間と第2区間とが類似するか否かを判定する。そして、情報処理装置100は、第1区間に類似する第2区間の数が所定数以上である場合に、第1区間の特徴情報系列を用いて、機械学習モデルを再学習する。これによって、イレギラーな状況が含まれていない第1区間の情報によって、機械学習モデルを再学習することができる。
 続いて、情報処理装置100が実行するその他の処理について説明する。情報処理装置100は、修正データによって、要素作業に対応する機械学習モデルを再学習していた。ここで、情報処理装置100は、再学習した機械学習モデルを用いて、作業映像データを再度、複数の区間に分割する場合において、再学習した要素作業の区間と、係る要素作業の前後の要素作業の区間に関してのみ、区間分割を実行してもよい。
 図11は、情報処理装置が実行するその他の処理を説明するための図である。図11において、検出結果65aは、再学習を実行する前の機械学習モデルによって検出された検出結果である。たとえば、管理者によって、検出結果65aの要素作業が修正され、情報処理装置100は、上記の処理によって、要素作業Cの特徴情報系列にイレギラーな状況が含まれないと判定し、要素作業Cの特徴情報系列によって、機械学習モデルを再学習する。より具体的には、情報処理装置100の遷移確率学習部154が、要素作業Cに対応する第2モデルの遷移確率を、要素作業Cの特徴情報系列によって再訓練する。
 情報処理装置100は、再学習した機械学習モデルによって、作業映像データを再度、複数の区間に分割する場合、修正した要素作業Cの区間と、係る要素作業Cの前後の要素作業B、要素作業Dの区間について、区間を分割する。たとえば、情報処理装置100の推定部155は、機械学習モデルに含まれる複数の第2モデルのうち、要素作業B、要素作業Cに対応する第2モデルの並びに着目する。推定部155は、作業映像データの時系列の特徴ベクトルを第1モデルに入力して、単位作業の並びを推定し、推定した単位作業の並びと、要素作業B、要素作業Cに対応する第2モデルの並びとを照合して、要素区間B、要素区間C、要素区間Dに分割する。情報処理装置100は、分割した要素区間B、要素区間C、要素区間Dを表示部130に表示させることで、管理者は、修正結果が適切されているか否かを容易に確認することができる。
 次に、上述した情報処理装置100と同様の機能を実現するコンピュータのハードウェア構成の一例について説明する。図12は、実施例の情報処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。
 図12に示すように、コンピュータ200は、各種演算処理を実行するCPU201と、ユーザからのデータの入力を受け付ける入力装置202と、ディスプレイ203とを有する。また、コンピュータ200は、有線または無線ネットワークを介して、カメラ15、外部装置等との間でデータの授受を行う通信装置204と、インタフェース装置205とを有する。また、コンピュータ200は、各種情報を一時記憶するRAM206と、ハードディスク装置207とを有する。そして、各装置201~207は、バス208に接続される。
 ハードディスク装置207は、取得プログラム207a、抽出プログラム207b、観測確率学習プログラム207c、遷移確率学習プログラム207d、推定プログラム207e、判定プログラム207fを有する。また、CPU201は、各プログラム207a~207fを読み出してRAM206に展開する。
 取得プログラム207aは、取得プロセス206aとして機能する。抽出プログラム207bは、抽出プロセス206bとして機能する。観測確率学習プログラム207cは、観測確率学習プロセス206cとして機能する。遷移確率学習プログラム207dは、遷移確率学習プロセス206dとして機能する。推定プログラム207eは、推定プロセス206eとして機能する。判定プログラム207fは、判定プロセス206fとして機能する。
 取得プロセス206aの処理は、取得部151の処理に対応する。抽出プロセス206bの処理は、抽出部152の処理に対応する。観測確率学習プロセス206cの処理は、観測確率学習部153の処理に対応する。遷移確率学習プロセス206dの処理は、遷移確率学習部154の処理に対応する。推定プロセス206eの処理は、推定部155の処理に対応する。判定プロセス206fの処理は、判定部156の処理に対応する。
 なお、各プログラム207a~207fについては、必ずしも最初からハードディスク装置207に記憶させておかなくても良い。例えば、コンピュータ200に挿入されるフレキシブルディスク(FD)、CD-ROM、DVD、光磁気ディスク、ICカードなどの「可搬用の物理媒体」に各プログラムを記憶させておく。そして、コンピュータ200が各プログラム207a~207fを読み出して実行するようにしてもよい。
 100  情報処理装置
 110  通信部
 120  入力部
 130  表示部
 140  記憶部
 141  モデルテーブル
 142  教師なしデータテーブル
 143  教師ありデータテーブル
 144  修正データテーブル
 145  映像バッファ
 150  制御部
 151  取得部
 152  抽出部
 153  観測確率学習部
 154  遷移確率学習部
 155  推定部
 156  判定部

Claims (12)

  1.  人物の作業を撮影した映像を取得し、
     取得した前記映像を機械学習モデルに入力することで、前記人物の要素作業の区間ごとに作業種別を示すラベルを生成し、
     生成された区間ごとのラベルの中から、修正対象のラベルを受け付け、
     受け付けた前記修正対象のラベルであって、同じ作業種別を示すラベルの区間における作業の特徴量が類似するか否かを判定し、
     前記同じ作業種別を示すラベルの区間における作業の特徴量が類似すると判定した場合に、前記同じ作業種別を示すラベルの区間における作業の時系列の特徴量を用いて、機械学習モデルの再学習を実行する
     処理をコンピュータに実行させることを特徴とする機械学習プログラム。
  2.  前記判定する処理は、同じ作業種別を示すラベルの区間となる第1区間と複数の第2区間について、前記第1区間の特徴量と、前記第2区間とが類似するか否かを判定することを特徴とする請求項1に記載の機械学習プログラム。
  3.  前記再学習を実行する処理は、前記第1区間の特徴量が、所定数以上の前記第2区間と類似する場合に、前記第1区間における作業の時系列の特徴量を用いて、機械学習モデルの再学習を実行することを特徴とする請求項2に記載の機械学習プログラム。
  4.  前記機械学習モデルの再学習が実行された場合に、前記第1区間のラベルと、前記第1区間の前後の区間のラベルとに関する区間について、前記映像の区間を分割する処理を更にコンピュータに実行させることを特徴とする請求項3に記載の機械学習プログラム。
  5.  人物の作業を撮影した映像を取得し、
     取得した前記映像を機械学習モデルに入力することで、前記人物の要素作業の区間ごとに作業種別を示すラベルを生成し、
     生成された区間ごとのラベルの中から、修正対象のラベルを受け付け、
     受け付けた前記修正対象のラベルであって、同じ作業種別を示すラベルの区間における作業の特徴量が類似するか否かを判定し、
     前記同じ作業種別を示すラベルの区間における作業の特徴量が類似すると判定した場合に、前記同じ作業種別を示すラベルの区間における作業の時系列の特徴量を用いて、機械学習モデルの再学習を実行する
     処理をコンピュータが実行することを特徴とする機械学習方法。
  6.  前記判定する処理は、同じ作業種別を示すラベルの区間となる第1区間と複数の第2区間について、前記第1区間の特徴量と、前記第2区間とが類似するか否かを判定することを特徴とする請求項5に記載の機械学習方法。
  7.  前記再学習を実行する処理は、前記第1区間の特徴量が、所定数以上の前記第2区間と類似する場合に、前記第1区間における作業の時系列の特徴量を用いて、機械学習モデルの再学習を実行することを特徴とする請求項6に記載の機械学習方法。
  8.  前記機械学習モデルの再学習が実行された場合に、前記第1区間のラベルと、前記第1区間の前後の区間のラベルとに関する区間について、前記映像の区間を分割する処理を更にコンピュータが実行することを特徴とする請求項7に記載の機械学習方法。
  9.  人物の作業を撮影した映像を取得し、
     取得した前記映像を機械学習モデルに入力することで、前記人物の要素作業の区間ごとに作業種別を示すラベルを生成し、
     生成された区間ごとのラベルの中から、修正対象のラベルを受け付け、
     受け付けた前記修正対象のラベルであって、同じ作業種別を示すラベルの区間における作業の特徴量が類似するか否かを判定し、
     前記同じ作業種別を示すラベルの区間における作業の特徴量が類似すると判定した場合に、前記同じ作業種別を示すラベルの区間における作業の時系列の特徴量を用いて、機械学習モデルの再学習を実行する
     処理を実行する制御部を有する情報処理装置。
  10.  前記判定する処理は、同じ作業種別を示すラベルの区間となる第1区間と複数の第2区間について、前記第1区間の特徴量と、前記第2区間とが類似するか否かを判定することを特徴とする請求項9に記載の情報処理装置。
  11.  前記再学習を実行する処理は、前記第1区間の特徴量が、所定数以上の前記第2区間と類似する場合に、前記第1区間における作業の時系列の特徴量を用いて、機械学習モデルの再学習を実行することを特徴とする請求項10に記載の情報処理装置。
  12.  前記制御部は、前記機械学習モデルの再学習が実行された場合に、前記第1区間のラベルと、前記第1区間の前後の区間のラベルとに関する区間について、前記映像の区間を分割する処理を更に実行することを特徴とする請求項11に記載の情報処理装置。
PCT/JP2022/032459 2022-08-29 2022-08-29 機械学習プログラム、機械学習方法および情報処理装置 WO2024047715A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/032459 WO2024047715A1 (ja) 2022-08-29 2022-08-29 機械学習プログラム、機械学習方法および情報処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/032459 WO2024047715A1 (ja) 2022-08-29 2022-08-29 機械学習プログラム、機械学習方法および情報処理装置

Publications (1)

Publication Number Publication Date
WO2024047715A1 true WO2024047715A1 (ja) 2024-03-07

Family

ID=90099183

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/032459 WO2024047715A1 (ja) 2022-08-29 2022-08-29 機械学習プログラム、機械学習方法および情報処理装置

Country Status (1)

Country Link
WO (1) WO2024047715A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019149154A (ja) * 2018-02-27 2019-09-05 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム
JP2021189892A (ja) * 2020-06-02 2021-12-13 富士通株式会社 行動区間推定モデル構築装置、行動区間推定モデル構築方法及び行動区間推定モデル構築プログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019149154A (ja) * 2018-02-27 2019-09-05 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム
JP2021189892A (ja) * 2020-06-02 2021-12-13 富士通株式会社 行動区間推定モデル構築装置、行動区間推定モデル構築方法及び行動区間推定モデル構築プログラム

Similar Documents

Publication Publication Date Title
Dornaika et al. Simultaneous facial action tracking and expression recognition in the presence of head motion
US20180211104A1 (en) Method and device for target tracking
US7978907B2 (en) Image analyzer
JP5895703B2 (ja) 画像処理装置及び画像処理方法、並びにコンピューター・プログラム
Sukno et al. Active shape models with invariant optimal features: Application to facial analysis
JP4745207B2 (ja) 顔特徴点検出装置及びその方法
CN102456135A (zh) 图像处理设备、方法和程序
CN107194344B (zh) 自适应骨骼中心的人体行为识别方法
US7734071B2 (en) Systems and methods for training component-based object identification systems
Premaratne et al. Centroid tracking based dynamic hand gesture recognition using discrete Hidden Markov Models
TW201832182A (zh) 動作學習裝置、技能判別裝置以及技能判別系統
Kalbande et al. Lip reading using neural networks
Huang et al. Building a self-learning eye gaze model from user interaction data
CN106778574A (zh) 用于人脸图像的检测方法和装置
CN111241922B (zh) 一种机器人及其控制方法、计算机可读存储介质
JP2007048172A (ja) 情報分類装置
JP4348202B2 (ja) 顔画像認識装置及び顔画像認識プログラム
TW202201275A (zh) 手部作業動作評分裝置、方法及電腦可讀取存儲介質
JP2007213528A (ja) 行動認識システム
WO2024047715A1 (ja) 機械学習プログラム、機械学習方法および情報処理装置
CN111626197B (zh) 一种基于人体行为识别网络模型的识别方法
Lv et al. 3D human action recognition using spatio-temporal motion templates
WO2024047716A1 (ja) 機械学習プログラム、機械学習方法および情報処理装置
Campomanes-Álvarez et al. Automatic facial expression recognition for the interaction of individuals with multiple disabilities
Yin et al. Abnormal behavior recognition using self-adaptive hidden markov models

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22957319

Country of ref document: EP

Kind code of ref document: A1