WO2021192028A1 - 学習装置及び学習方法 - Google Patents

学習装置及び学習方法 Download PDF

Info

Publication number
WO2021192028A1
WO2021192028A1 PCT/JP2020/012992 JP2020012992W WO2021192028A1 WO 2021192028 A1 WO2021192028 A1 WO 2021192028A1 JP 2020012992 W JP2020012992 W JP 2020012992W WO 2021192028 A1 WO2021192028 A1 WO 2021192028A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
bounding box
work
unit
hand
Prior art date
Application number
PCT/JP2020/012992
Other languages
English (en)
French (fr)
Inventor
村林 昇
健 常田
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Priority to EP20926680.8A priority Critical patent/EP4099264B1/en
Priority to PCT/JP2020/012992 priority patent/WO2021192028A1/ja
Priority to CN202080098643.8A priority patent/CN115298691A/zh
Publication of WO2021192028A1 publication Critical patent/WO2021192028A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/247Aligning, centring, orientation detection or correction of the image by affine transforms, e.g. correction due to perspective effects; Quadrilaterals, e.g. trapezoids
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/06Recognition of objects for industrial automation

Definitions

  • This disclosure relates to a learning device and a learning method.
  • augmentation for teacher data is known as a process to improve data bias and increase the number of data.
  • Augmentation of the input image as teacher data may be performed using geometric image transformation such as affine transformation or projective transformation (homography transformation).
  • geometric image transformation such as affine transformation or projective transformation (homography transformation).
  • the bounding box included in the image after the geometric image conversion is deformed from the bounding box included in the input image before the geometric image conversion. If machine learning is performed using the image including the deformed bounding box as the teacher data as it is, it becomes difficult to generate a good trained model.
  • the learning device has a conversion unit, a correction unit, and a learning unit.
  • the conversion unit geometrically converts an input image including a hand image, which is an image of the hand of a worker who manufactures the product, and a first bounding box set for the object. Generates a converted image that is an input image after geometric image conversion.
  • the correction unit sets the corrected third bounding box of the second bounding box included in the converted image as the converted image.
  • the learning unit performs machine learning using the converted image in which the third bounding box is set as teacher data, thereby forming a plurality of work states that form one step of the manufacturing operation for the judgment target image including the hand image.
  • Generate a trained model that outputs multiple objects that specify each of them.
  • FIG. 1 is a diagram showing a configuration example of a work management system according to the first embodiment of the present disclosure.
  • the work management system 1 has a first learning device 10 and a work management device 20-1.
  • FIG. 2 is a diagram showing a configuration example of the first learning device according to the first embodiment of the present disclosure.
  • the first learning device 10 includes a class setting unit 11, a storage unit 12, an image conversion unit 13, a bounding box correction unit 14, a first machine learning unit 15, a storage unit 16, and an output unit. It has 17.
  • FIG. 3 is a diagram showing a configuration example of the work management device according to the first embodiment of the present disclosure.
  • the work management device 20-1 includes an acquisition unit 21, a storage unit 22, an object detection unit 23, a work state determination unit 24, a process management unit 25, and a display unit 26.
  • a smartphone will be described as an example of a product to be manufactured.
  • the smartphone manufacturing operation is formed from a plurality of work processes, and each of the plurality of work processes is formed from a plurality of work states.
  • FIG. 4 data of a work procedure manual showing a work procedure of "speaker mounting", which is one of a plurality of work processes forming a smartphone manufacturing work (hereinafter referred to as “procedure manual data”). May be called) is input to the class setting unit 11.
  • the work procedure in the work process of "speaker mounting” proceeds as "1: moving work”-> "2: installation work”-> "3: switch operation”->.
  • FIG. 4 is a diagram showing an example of procedure manual data according to the first embodiment of the present disclosure.
  • FIG. 5 is a diagram provided for explaining an operation example of the class setting unit according to the first embodiment of the present disclosure.
  • the class setting unit 11 first extracts the text data of the “work content” from the procedure manual data shown in FIG.
  • the class setting unit 11 morphologically analyzes the extracted text data, and detects a keyword from the data after the morphological analysis.
  • the keyword "hand” is detected from the text data of the work content of the "movement work” of the work number "1”
  • the keyword “switch” is detected from the text data of the work content of the "switch operation" of the work number "3”.
  • “And” hand are detected.
  • the class setting unit 11 converts the detected keyword.
  • FIG. 6 is a diagram showing an example of a keyword graph according to the first embodiment of the present disclosure. In the keyword graph shown in FIG.
  • the class setting unit 11 sets classes C0 to C21 in which each of the 22 keywords shown in FIG. 6 is a "label", as shown in FIG. 7, and sets the class, the label, and the object.
  • Generate a "class table CLT" that shows the correspondence with the contents. There is a one-to-one correspondence between classes, labels, and object contents. Further, in the class table CLT, the number of data d (0) of class C0 is the largest, and thereafter, the number of data d (1) of class C1, the number of data d (2) of class C2, ..., The number of data d of class C20. The number of data decreases in the order of (20), and the number of data d (21) of class C21 is the smallest.
  • FIG. 7 is a diagram showing an example of a class table according to the first embodiment of the present disclosure. Then, the class setting unit 11 outputs the keyword graph (FIG. 6) and the class table CLT (FIG. 7) to the storage unit 12, and the storage unit 12 stores the keyword graph and the class table CLT.
  • the class setting unit 11 outputs the keyword graph (FIG. 6) and the class table CLT (FIG. 7) to the storage unit 12, and the storage unit 12 stores the keyword graph and the class table CLT.
  • FIGS. 8 to 12 are diagrams showing an example of an input image to the first learning device according to the first embodiment of the present disclosure.
  • each input image to the first learning device 10 is an image of the hand of a worker who is manufacturing a smartphone (hereinafter, may be referred to as a “hand image”) HI.
  • the bounding box BX1 set for the object included in the input image.
  • the bounding box BX1 is labeled with the corresponding object in the bounding box BX1.
  • the image conversion unit 13 augments the teacher data by performing geometrical image conversion on the input image.
  • An affine transformation is an example of a geometric image transformation.
  • the image transformation unit 13 randomly changes each of the input images while randomly changing the parameters an, bn, cn, dn, x0n, and y0n according to the equation (1).
  • the teacher data is augmented as shown in FIGS. 13 and 14.
  • xn and yn represent the coordinates before the image conversion
  • the image conversion unit 13 performs augmentation by performing affine transformation on each input image as many times as the number of times based on the keyword graph stored in the storage unit 12. For example, as shown in FIG. 15, in the image conversion unit 13, the absolute value of the difference between the number of data d (0) of the class “hand” having the largest number of data and the number of data of the class other than “hand” is Input images containing labels other than "hand” are augmented using affine transformation so that they are all within the predetermined value dt. 13 to 15 are diagrams showing an example of augmentation by affine transformation according to the first embodiment of the present disclosure.
  • the image conversion unit 13 outputs the input image after affine transformation (hereinafter, may be referred to as "converted image") to the bounding box correction unit 14.
  • the bounding box correction unit 14 corrects the bounding box as shown in FIGS. 16 to 23.
  • 16 to 23 are views provided for explaining an operation example of the bounding box correction unit according to the first embodiment of the present disclosure.
  • the bounding box correction unit 14 has coordinates (x1', y1'), (x2', y2') of each of the four vertices of the bounding box BX2 that are deformed in the converted image as shown in FIG. Acquire (x3', y3'), (x4', y4') (Fig. 17).
  • the bounding box correction unit 14 generates a rectangular SQ in which the coordinates of the vertices of the two diagonal points are defined by [(xmin, ymin), (xmax, ymax)].
  • the bounding box correction unit 14 generates a rectangular SQ in which each of the four vertices of the bounding box BX2 is included in each of the four sides.
  • the bounding box correction unit 14 generated and generated a rectangular bounding box BX3 by reducing the area of the rectangular SQ based on the hand image HI included in the rectangular SQ.
  • the bounding box BX3 is set as the converted image.
  • the bounding box correction unit 14 reduces the area of the rectangular SQ by using edge detection for the hand image HI existing in the rectangular SQ.
  • the bounding box correction unit 14 acquires an edge-extracted image as shown in FIG. 21 by, for example, performing a general edge extraction process on the converted image as shown in FIG. 20.
  • the bounding box correction unit 14 has four vertices (x1', y1'), (x2', y2'), (x3', y3'), (x4') of the bounding box BX2. , Y4'), edge detection is performed on the edge-extracted image.
  • the bounding box correction unit 14 first detects from the apex (x1', y1') in the direction in which the X coordinate value increases (right direction in the figure). The X coordinate of the edge is acquired as x1 ”. Further, the bounding box correction unit 14 first detects from the apex (x3', y3') in the direction in which the X coordinate value decreases (left direction in the figure). Get the X coordinate of the edge as x3 ”.
  • the bounding box correction unit 14 acquires the Y coordinate of the edge first detected from the apex (x2', y2') in the direction in which the value of the Y coordinate increases (lower direction in the figure) as y2 ”. Further, the bounding box correction unit 14 acquires the Y coordinate of the edge first detected from the apex (x4', y4') in the direction in which the value of the Y coordinate decreases (upward in the figure) as y4 ". Then, as shown in FIG. 23, the bounding box correction unit 14 sets the coordinates of each of the four vertices to (x1 ”, y2”), (x1 ”, y4”), (x3 ”, y2”), (x3.
  • the bounding box correction unit 14 Generate a rectangular bounding box BX3 with ", y4").
  • the bounding box correction unit 14 generates the bounding box BX3 having a smaller area than the rectangular SQ (FIG. 19) in the rectangular SQ by generating the bounding box BX3 as shown in FIGS. 20 to 23, for example. Then, the bounding box correction unit 14 sets the generated bounding box BX3 as the converted image in place of the bounding box BX2, and outputs the converted image in which the bounding box BX3 is set as teacher data to the first machine learning unit 15. do.
  • the first machine learning unit 15 generates an "object detection model" as the first trained model by performing machine learning using a plurality of converted images in which a bounding box BX3 is set as teacher data.
  • the generated object detection model is output to the storage unit 16.
  • the storage unit 16 stores the object detection model. That is, as shown in FIG. 24, the first machine learning unit 15 defines each of a plurality of work states forming one step of the smartphone manufacturing operation with respect to the determination target image DI including the hand image. Generate an object detection model that outputs an object.
  • FIG. 24 shows, as an example, the case where five objects “car_with”, “hand”, “hand_two”, “car_with”, and “tweezer” are detected for the image DI to be determined by the object detection model.
  • FIG. 24 is a diagram showing an example of an object detection model according to the first embodiment of the present disclosure.
  • the first machine learning unit 15 may generate 22 object detection models that perform object detection for each class of classes C0 to C21 (FIG. 7), and 22 of classes C0 to C21. You may generate a single object detection model that can detect all kinds of objects at once.
  • the output unit 17 acquires the object detection model stored in the storage unit 16 from the storage unit 16 and outputs the acquired object detection model to the work management device 20-1.
  • FIG. 25 is a flowchart provided for explaining the processing procedure of the first learning device according to the first embodiment of the present disclosure.
  • step S100 of FIG. 25 the first learning device 10 initializes the class number k to “1”.
  • the first learning device 10 may refer to the absolute value of the difference between the number of data d (0) in class C0 and the number d (k) of data in class Ck (hereinafter, referred to as “difference between classes”). It is determined whether or not (is) is less than the predetermined value dt. If the difference between classes is less than dt (step S105: Yes), the process proceeds to step S110, and if the difference between classes is dt or more (step S105: No), the process proceeds to step S120.
  • step S110 the first learning device 10 determines whether or not the class number k has reached “21”. .. If the class number k has reached "21" (step S110: Yes), the process ends. On the other hand, if the class number k has not reached "21", that is, if the class number k is less than "21" (step S110: No), the process proceeds to step S115, and in step S115, the first step is performed. The learning device 10 increments the class number k. After the processing of step S115, the processing returns to step S105.
  • step S120 the first learning device 10 acquires an input image as teacher data.
  • step S125 the first learning device 10 performs a predetermined plurality of affine transformations on the input image acquired in step S120 while randomly changing the affine transformation parameters, thereby performing the augmentation of the teacher data. Perform a station.
  • step S130 the first learning device 10 adds the number of times the affine transformation is performed in step S125 to the number of data d (k).
  • step S135 the first learning device 10 corrects the bounding box (FIGS. 16 to 23).
  • step S140 the first learning device 10 determines whether or not the difference between the classes is less than the predetermined value dt. If the difference between the classes is less than dt (step S140: Yes), the process proceeds to step S110. On the other hand, when the difference between the classes is dt or more (step S140: No), the process returns to step S120, and a new input image is acquired in step S120.
  • the acquisition unit 21 acquires the object detection model output from the first learning device 10, outputs the acquired object detection model to the storage unit 22, and the storage unit 22 , Memorize the object detection model.
  • the object detection unit 23 is input with a determination target image that is an object detection target and a work state determination target.
  • the determination target image is an image for each frame of a video image in which the working state of the worker who manufactures the smartphone is captured at a predetermined frame rate.
  • the object detection unit 23 detects a plurality of objects with respect to the determination target image using the object detection model stored in the storage unit 22, and outputs the detected plurality of objects to the work state determination unit 24.
  • the "speaker mounting" which is one of the plurality of work processes forming the manufacturing work of the smartphone, is formed from the work states S1 to S14 shown in FIGS. 26 and 27. That is, the working state of the worker who attaches the speaker is S1 ⁇ S2 ⁇ S3 ⁇ S4 ⁇ S5 ⁇ as shown in the transition model of the working state shown in FIG. 26 (hereinafter, may be referred to as “state transition model”).
  • state transition model S6 ⁇ S7 ⁇ S8 ⁇ S9 ⁇ S10 ⁇ S11 ⁇ S12 ⁇ S13 ⁇ S14 ⁇ S1 ⁇ S2 ⁇ ...
  • FIG. 26 is a diagram showing an example of a state transition model according to the first embodiment of the present disclosure
  • FIG. 27 is a diagram showing an example of a working state according to the first embodiment of the present disclosure.
  • the state transition model shown in FIG. 26 is preset in the work state determination unit 24.
  • the work state determination unit 24 determines the work state indicated by the determination target image based on the plurality of objects detected by the object detection unit 23, and as a result of determining the work state, any one of the plurality of work states. Any one of "S0" to "S14", which is information indicating the working state, is output to the process control unit 25. For example, as shown in FIG. 28, the work state determination unit 24 determines a work state corresponding to a pattern of a plurality of objects detected by the object detection unit 23 (hereinafter, may be referred to as a “detection object pattern”). Judged as the working state indicated by the target image.
  • FIG. 28 is a diagram provided for explaining an operation example of the work state determination unit according to the first embodiment of the present disclosure.
  • the detected object pattern [hand, hand] corresponds to both the working state S6 and the working state S11.
  • the work state immediately before the transition to the work state S6 is either S5 or S0
  • the work state immediately before the transition to the work state S11 is. It is either S10 or S0.
  • the working state may be continued in S6 or S10.
  • the work state determination unit 24 determines whether the detection object pattern in the current determination target image is [hand, hand] and the work state determined from the previous determination target image is S5 or S6, the work state determination unit 24 .
  • the current working state (that is, the working state indicated by the current determination target image) is determined as S6.
  • the work state determination unit 24 is one when the detection object pattern in the current determination target image is [hand, hand] and the work state determined from the previous determination target image is S0.
  • the work state determined from the previous determination target image is S5 or the work state before the work state transitions to S0 is S6, the current work state is determined to be S6.
  • the work state determination unit 24 when the detection object pattern in the current determination target image is [hand, hand] and the work state determined from the previous determination target image is S10 or S11. , The current working state is determined to be S11. Further, the work state determination unit 24 is one when the detection object pattern in the current determination target image is [hand, hand] and the work state determined from the previous determination target image is S0. When the work state determined from the previous determination target image is S10 or the work state before the work state transitions to S0 is S11, the current work state is determined to be S11.
  • the work state determination unit 24 determines the work state indicated by the determination target image by using the state transition model (FIG. 26) showing the context of the plurality of work states. By doing so, the accuracy of determining the working state can be improved.
  • the process management unit 25 generates a screen for managing the work process (hereinafter, may be referred to as a “process management screen”) based on the determination result in the work state determination unit 24, and the generated process management screen. Is displayed on the display unit 26.
  • FIG. 29 is a diagram showing an example of a process control screen according to the first embodiment of the present disclosure.
  • the process management screen MS has, for example, "work video" item, "work state” item, "work time” item, and “standard work time or more frequency” as display content items. Includes items.
  • the detection result of the object and the judgment result of the working state are superimposed and displayed on the judgment target image in real time together with the judgment target image.
  • the work status determination result is highlighted in the "work status" item.
  • the latest working time of each of the working states S0 to S14 is displayed as a bar graph.
  • a standard work time per work state and an allowable work time per work state are predetermined.
  • the process control unit 25 displays the work time within the standard work time with a blue bar graph, displays the work time exceeding the standard work time with a yellow bar graph, and displays the work time exceeding the allowable work time with a red bar graph. indicate.
  • the cumulative number of times the work time exceeds the standard work time is displayed as a bar graph for each of the work states S0 to S14.
  • FIG. 30 is a flowchart provided for explaining the processing procedure of the work management device according to the first embodiment of the present disclosure.
  • step S200 of FIG. 30 the work management device 20-1 initializes the caution display time t (m) w to “0”.
  • step S205 the work management device 20-1 determines whether or not the current time is within the work time.
  • the work management device 20-1 waits until the current time reaches the work time (step S205: No). Then, when the current time is within the working time (step S205: Yes), the process proceeds to step S210.
  • step S210 the work management device 20-1 acquires the image to be determined.
  • step S215 the work management device 20-1 determines whether or not the worker (n) of the process n (where n is the work process number) exists at the work site. The presence or absence of the worker (n) is determined based on, for example, whether or not the head and hands of the worker (n) are included in the determination target image. If the worker (n) is present at the work site (step S215: Yes), the process proceeds to step S220, and if the worker (n) is not present at the work site (step S215: No), the process is step. Proceed to S225.
  • step S220 the work management device 20-1 sets the worker flag St (n) to "1".
  • step S225 the work management device 20-1 sets the worker flag St (n) to “0”.
  • step S230 the work management device 20-1 detects an object for the image to be determined.
  • step S235 the work management device 20-1 determines the work state indicated by the determination target image based on the object detected in step S230.
  • step S240 the work management device 20-1 displays a work image on the process management screen (FIG. 29).
  • step S245 the work management device 20-1 detects the work time t (n) spent for the work in the process n for each work state S0 to S14.
  • step S250 the work management device 20-1 displays the work time t (n) for each work state in a bar graph in the item of "work time” on the process management screen (FIG. 29).
  • step S255 the work management device 20-1 determines whether or not each of the work time t (n) for each work state is within the specified time.
  • the specified time in step S255 is, for example, the "standard working time” and the “allowable working time” in FIG. 29.
  • step S260 the work management device 20-1 changes the display of the bar graph. For example, the work management device 20-1 changes the color of the bar graph of the working time in the working state exceeding the standard working time from blue to yellow, and changes the color of the bar graph of the working time in the working state exceeding the allowable working time from yellow to red. Change to.
  • step S260 the process proceeds to step S265.
  • step S260 if the working time t (n) of all the working states is within the specified time (step S255: No), the processing of step S260 is not performed and the processing proceeds to step S265.
  • step S265 the work management device 20-1 determines whether or not the work time t (n) in any of the work states exceeds the predetermined alert time ta.
  • step S270 the work management device 20-1 starts the caution display in step S270. Further, the work management device 20-1 starts timing of the caution display time t (m) w with the start of the caution display. For example, the work management device 20-1 "delay the work by XX seconds" for each process m including the work that is in the process before the process n and affects the work in the process n. Etc. are displayed. After the process of step S270, the process proceeds to step S275.
  • step S270 determines whether the work time t (n) of all the work states is within the alert time ta (step S265: No). If the work time t (n) of all the work states is within the alert time ta (step S265: No), the process of step S270 is not performed and the process proceeds to step S275.
  • step S275 the work management device 20-1 determines whether or not the caution display time t (m) w has reached the predetermined elapsed time t (m) wa.
  • step S275 When the caution display time t (m) w reaches the elapsed time t (m) wa (step S275: Yes), the work management device 20-1 ends the caution display in step S280, and in step S285, Attention Initializes the display time t (m) w to "0". After the process of step S285, the process proceeds to step S290.
  • step S275 if the caution display time t (m) w has not reached the elapsed time t (m) wa (step S275: No), the processes of steps S280 and S285 are not performed and the process proceeds to step S290.
  • step S290 the work management device 20-1 determines whether or not the operation stop instruction of the work management device 20-1 has been given. Then, when the operation stop instruction is given (step S290: Yes), the work management device 20-1 stops the operation. On the other hand, if the operation stop instruction is not given (step S290: No), the process returns to step S205.
  • FIG. 31 is a diagram provided for explaining an operation example of the bounding box correction unit according to the second embodiment of the present disclosure.
  • the bounding box correction unit 14 identifies four regions AR1, AR2, AR3, AR4 surrounded by the outside of the bounding box BX2 and the inside of the bounding box BX3 in each of the plurality of converted images. do. Further, the bounding box correction unit 14 has a ratio of pixels having a brightness less than the threshold value among the pixels included in each area in each area of the areas AR1, AR2, AR3, and AR4 (hereinafter, "low brightness pixel ratio"). ”) Is calculated.
  • the bounding box correction unit 14 selects the converted image from the teacher data in which at least one region in the regions AR1, AR2, AR3, and AR4 in which the low-luminance pixel ratio is equal to or higher than a predetermined value exists among the plurality of converted images. exclude. This is because the converted image in which even one region in the regions AR1, AR2, AR3, and AR4 has a low-luminance pixel ratio of a predetermined value or more includes a large number of invalid regions of the feature amount. By doing so, the reliability of the converted image as teacher data can be improved.
  • the image conversion unit 13 is a circle centered on the center O of the input image, and is the upper and lower sides of the input image, or the left and right sides of the input image. Set the circle CIR that touches. Then, the image conversion unit 13 selects an input image in which the entire area of the bounding box BX1 is included in the area of the circle CIR as the conversion target of the affine transformation, while the area of the bounding box BX1 exists outside the area of the circle CIR. Exclude the input image to be converted from the conversion target of affine transformation. Therefore, the image conversion unit 13 selects the input image shown in FIG. 32 as the conversion target of the affine transformation, while excludes the input image shown in FIG.
  • the converted image with respect to the input image in which the region of the bounding box BX1 exists outside the region of the circle CIR may include a large number of invalid regions of the feature amount. By doing so, the reliability of the converted image as teacher data can be improved.
  • the image conversion unit 13 performs augmentation of the teacher data by using the affine transformation.
  • the geometrical image conversion used by the image conversion unit 13 is not limited to the affine transformation.
  • projective transformation homography transformation
  • the image transforming unit 13 has the parameters k, h11, h12, h13, h21, according to the equation (2) or the equations (3a) and (3b).
  • the teacher data is augmented by performing a predetermined multiple projective transformation of each of the input images while randomly changing h22, h23, h31, h32, and h33.
  • xn and yn represent the coordinates before image conversion
  • the work state determination unit 24 accumulates the determination results of the work states S0 to S14 for the image to be determined for each frame. That is, the graphs shown in FIGS. 34 to 36 show the cumulative results of the past determination results in the work state determination unit 24.
  • the work state determination unit 24 may perform the operation state determination unit 24.
  • the work state S3 having the largest cumulative number of judgment results is determined as the work state indicated by the image to be determined in the mth frame.
  • the work state determination unit 24 determines the work state for the determination target image in the (m + 1) frame.
  • the working state with the most is S5.
  • the work state determination unit 24 selects S4, which has the second highest cumulative number of determination results after S5, as the determination result candidate.
  • the work state transition model it is possible for the work state to transition to S4 after S3, so that the work state determination unit 24 finally indicates the work state S4 by the determination target image in the (m + 1) frame. Judge as working status.
  • the work state determination unit 24 determines the work state for the determination target image in the (m + 1) frame.
  • the cumulative number of determination results The working state with the largest number is S5, and the working state with the second highest cumulative number of determination results is S2.
  • the working state does not transition to S5 after S3, nor does it transition to S2 after S3. Therefore, the work state determination unit 24 determines the work state S3, which has the third highest cumulative number of determination results, as the work state indicated by the determination target image in the (m + 1) frame.
  • FIG. 37 is a diagram showing a configuration example of the work management system according to the fifth embodiment of the present disclosure.
  • the work management system 2 includes a first learning device 10, a second learning device 30, and a work management device 20-2.
  • FIG. 38 is a diagram showing a configuration example of the second learning device according to the fifth embodiment of the present disclosure.
  • the second learning device 30 has a second machine learning unit 31, a storage unit 32, and an output unit 33.
  • FIG. 39 is a diagram showing a configuration example of the work management device according to the fifth embodiment of the present disclosure.
  • the work management device 20-2 includes acquisition units 21, 27, storage units 22, 28, an object detection unit 23, a work state determination unit 29, a process management unit 25, and a display unit 26. Have.
  • each input image to the second learning device 30 includes a hand image and a bounding box set for an object included in the input image. Similar to the input images (FIGS. 8 to 12) to the first learning device 10, the bounding box is labeled with the object corresponding to the object in the bounding box. Further, as shown in FIGS. 40 to 58, each input image to the second learning device 30 has a label indicating a work state indicated by each input image (hereinafter, may be referred to as a “work state label”). It is attached.
  • the work state label "S4: move SPK to space” is attached to the input image object pattern [blur, car_with, hand].
  • the work state label "S5: air blow” is attached to the input image object pattern [hand, hand_two, air_blow].
  • a work state label of "S6: blue seal” is attached to the input image object pattern of [hand, hand].
  • the work state label "S7: position SPK” is attached to the input image object pattern [hand, hand, hand_two, car_with].
  • the work state label "S8: turn carrier 0 deg” is attached to the input image object pattern [hand, hand, hand_two, car_with2].
  • the work state label "S9: move phone to tray” is attached to the input image object pattern [grasp_d, hand, hand_two].
  • the work state label "S10: move carrier next” is attached to the input image object pattern [hand, hand, hand_two, car_wout2].
  • a work status label of "S11: move carrier work area” is attached to the input image object pattern of [hand, hand].
  • the work state label "S12: Turn carrier 90 deg” is attached to the input image object pattern [hand, hand, car_wout].
  • the work state label "S13: Open robot lid” is attached to the input image object pattern [car_wout, car_wout2, hand].
  • the work state label "S14: Move phone to carrier” is attached to the input image object pattern [grasp_d, car_wout, hand].
  • the second machine learning unit 31 generated and generated a "working state determination model" as the second learned model by performing machine learning using the input images as shown in FIGS. 40 to 58 as teacher data.
  • the working state determination model is output to the storage unit 32.
  • the storage unit 32 stores the work state determination model. That is, the second machine learning unit 31 has information of "S0" to "S14" indicating any work state among the plurality of work states for the plurality of objects detected by the object detection unit 23. Generate a work state judgment model that outputs either one. For example, SSD or YOLO is used as machine learning when generating a working state determination model.
  • the output unit 33 acquires the work state determination model stored in the storage unit 32 from the storage unit 32, and outputs the acquired work state determination model to the work management device 20-2.
  • the acquisition unit 27 acquires the work state determination model output from the second learning device 30, outputs the acquired work state determination model to the storage unit 28, and outputs the acquired work state determination model to the storage unit 28.
  • 28 stores the working state determination model.
  • a plurality of objects detected by the object detection unit 23 are input to the work state determination unit 29.
  • the work state determination unit 29 determines the work state indicated by the determination target image by using the work state determination model stored in the storage unit 28 based on the detection object pattern, and a plurality of work state determination results are obtained. Any one of "S0" to "S14", which is information indicating any work state in the work state, is output to the process control unit 25.
  • 59 and 60 are diagrams showing an example of the position coordinates of the object according to the sixth embodiment of the present disclosure.
  • the position coordinates PA (xp, yp) indicating the position of each object in each bounding box are as shown in FIGS. 40 to 58 above.
  • the image further attached to the image is input as teacher data.
  • the position coordinate PA (xp, yp) indicates the absolute position of the object in the input image.
  • the second machine learning unit 31 generates a "working state determination model" as a second learned model by performing machine learning using an input image with position coordinates PA (xp, yp) as teacher data. ,
  • the generated work state determination model is output to the storage unit 32.
  • the storage unit 32 stores the work state determination model. That is, the second machine learning unit 31 indicates one of a plurality of working states with respect to the plurality of objects detected by the object detecting unit 23 and the position coordinates of each of the plurality of objects.
  • a work state determination model that outputs any of the information "S0" to "S14" is generated. For example, SSD or YOLO is used as machine learning when generating a working state determination model.
  • the object detection unit 23 detects a plurality of objects, detects the position coordinates of each of the plurality of objects, and outputs the detected objects and the position coordinates to the work state determination unit 29.
  • the work state determination unit 29 determines the work state indicated by the determination target image by using the work state determination model stored in the storage unit 28 based on the detected object pattern and the position coordinates of each object, and works. As a state determination result, any one of "S0" to "S14", which is information indicating any work state among the plurality of work states, is output to the process control unit 25.
  • 61 and 62 are diagrams showing an example of the position coordinates of the object according to the seventh embodiment of the present disclosure.
  • the position coordinates PA (xp, yp) indicating the position of the object indicate the absolute position in the input image.
  • the position coordinates indicating the position of the object as shown in FIGS. 61 and 62, instead of the position coordinate PA, the position coordinates indicating the relative position with respect to the landmark LM in the input image.
  • PB is used.
  • the relative position coordinates indicating the position of the object are expressed as PB (xp-xm, yp-ym).
  • FIG. 61 shows a switch box having a characteristic shape and color as an example of the landmark LM.
  • the storage units 12, 16, 22, 28, 32 are realized as hardware by, for example, a memory, an HDD (Hard Disk Drive), an SSD (Solid State Drive), or the like.
  • the class setting unit 11, the image conversion unit 13, the bounding box correction unit 14, the first machine learning unit 15, the object detection unit 23, the work state determination units 24 and 29, the process control unit 25, and the second machine learning unit 31 As hardware, for example by a processor.
  • processors include CPU (Central Processing Unit), DSP (Digital Signal Processor), FPGA (Field Programmable Gate Array), ASIC (Application Specific Integrated Circuit), and the like.
  • the output units 17 and 33 and the acquisition units 21 and 27 are realized as hardware, for example, by a wired network interface module or a wireless communication module.
  • the display unit 26 is realized as hardware, for example, by a liquid crystal display.
  • the first learning device 10, the second learning device 30, and the work management devices 20-1 and 20-2 are realized as computer devices such as a personal computer and a server, for example.
  • all or part of each process in the above description in the work management systems 1 and 2 may be realized by causing a processor included in the work management systems 1 and 2 to execute a program corresponding to each process.
  • the program corresponding to each process in the above description may be stored in the memory, and the program may be read from the memory by the processor and executed.
  • the program is stored in the program server connected to the work management systems 1 and 2 via an arbitrary network, downloaded from the program server to the work management systems 1 and 2, and executed, or the work management system 1 and 1 2 may be stored in a readable recording medium, read from the recording medium, and executed.
  • Recording media that can be read by the work management systems 1 and 2 include, for example, memory cards, USB memory, SD cards, flexible disks, magneto-optical disks, CD-ROMs, DVDs, Blu-ray (registered trademark) disks, and the like. Includes portable storage media.
  • the program is a data processing method described in an arbitrary language or an arbitrary description method, and may be in any format such as source code or binary code.
  • the program is not necessarily limited to a single program, but is distributed as multiple modules or multiple libraries, or cooperates with a separate program represented by the OS to achieve its function. Including things.
  • the specific form of distribution / integration of the work management systems 1 and 2 is not limited to the one shown in the figure, and all or a part of the work management systems 1 and 2 can be used according to various additions or functional loads. Depending on the unit, it can be functionally or physically distributed / integrated.
  • the learning device includes a conversion unit (an image conversion unit 13 according to the first embodiment) and a correction unit (a bounding box according to the first embodiment). It has a correction unit 14) and a learning unit (first machine learning unit 15 according to the first embodiment).
  • the conversion unit is an input image including a hand image which is an image of the hand of a worker who is manufacturing the product and a first bounding box (bounding box BX1 according to the first embodiment) set for the object. Is transformed into a geometric image to generate a converted image which is an input image after the geometric image conversion.
  • the correction unit sets a third bounding box (bounding box BX3 according to the first embodiment) corrected for the second bounding box (bounding box BX2 according to the first embodiment) included in the converted image as the converted image.
  • the learning unit performs machine learning using the converted image in which the third bounding box is set as the teacher data, thereby forming a plurality of work states that form one step of the manufacturing operation for the image to be judged including the hand image.
  • a trained model object detection model according to the first embodiment
  • the correction unit generates a rectangle (rectangle SQ according to the first embodiment) including each of the four vertices of the second bounding box on each of the four sides, and reduces the area of the rectangle based on the hand image included in the rectangle. Generates a third bounding box.
  • the correction unit reduces the area of the rectangle by using edge detection for the hand image included in the rectangle.
  • the correction unit (the bounding box correction unit 14 according to the second embodiment) has a plurality of regions (areas AR1 to AR4 according to the second embodiment) surrounded by the outside of the second bounding box and the inside of the third bounding box. Is specified, the ratio of pixels having a brightness less than the threshold value among the pixels included in each region in each region of the plurality of regions is calculated, and one region in which the ratio is equal to or more than a predetermined value in the plurality of regions. However, the existing converted image is excluded from the teacher data.
  • the area of the first bounding box is a circle centered on the center of the input image, and the upper and lower sides of the input image or the input image.
  • the input image existing outside the area of the circle tangent to the left and right sides of is excluded from the conversion target of the geometric image conversion.
  • the learning device according to the present disclosure (first learning device 10 according to the first embodiment) further has a setting unit (class setting unit 11 according to the first embodiment).
  • the setting unit sets each class of a plurality of objects from the keywords included in the work procedure manual indicating the work procedure of one process.
  • a geometric image by geometrically transforming an input image that includes a hand image that is an image of the hand of a worker who is manufacturing a product and a first bounding box set for the object.
  • a conversion unit that generates a converted image, which is the input image after conversion,
  • a correction unit that sets a third bounding box that corrects the second bounding box included in the converted image to the converted image, and a correction unit.
  • the correction unit generates a rectangle including each of the four vertices of the second bounding box on each of the four sides, and reduces the area of the rectangle based on the hand image included in the rectangle to reduce the area of the rectangle. Generate a bounding box, The learning device according to (1) above. (3) The correction unit reduces the area of the rectangle by using edge detection for the hand image included in the rectangle. The learning device according to (2) above. (4) The correction unit identifies a plurality of regions surrounded by the outside of the second bounding box and the inside of the third bounding box, and among the pixels included in each region within each region of the plurality of regions.
  • the ratio of pixels having a brightness less than the threshold value is calculated, and the converted image in which at least one region in which the ratio is equal to or higher than a predetermined value exists in the plurality of regions is excluded from the teacher data.
  • the learning device according to (2) or (3) above.
  • the region of the first bounding box is a circle centered on the center of the input image, and the region of the circle in contact with the upper and lower sides of the input image or the left and right sides of the input image. Exclude the input image existing outside from the conversion target of the geometric image conversion.
  • the learning device according to any one of (1) to (4).
  • a setting unit that sets each class of the plurality of objects from the keywords included in the work procedure manual indicating the work procedure of the one process.
  • the learning device according to any one of (1) to (5) above.
  • Geometric image by geometrically converting the input image including the hand image which is the image of the hand of the worker who manufactures the product and the first bounding box set for the object.
  • a converted image which is the input image after conversion, is generated.
  • a third bounding box obtained by correcting the second bounding box included in the converted image is set in the converted image.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

学習装置において、変換部は、製品の製造作業を行っている作業者の手の画像である手画像と、オブジェクトに対して設定された第一バウンディングボックスとを含む入力画像を幾何学的画像変換することにより、幾何学的画像変換後の入力画像である変換後画像を生成し、補正部は、変換後画像に含まれる第二バウンディングボックスを補正した第三バウンディングボックスを変換後画像に設定し、学習部は、第三バウンディングボックスが設定された変換後画像を教師データとして用いる機械学習を行うことにより、手画像を含む判定対象画像に対して、製造作業の一工程を形成する複数の作業状態の各々を規定する複数のオブジェクトを出力する学習済みモデルを生成する。

Description

学習装置及び学習方法
 本開示は、学習装置及び学習方法に関する。
 機械学習の教師データについて、データの偏りの改善やデータ数の増加のために行う処理として、教師データに対するオーギュメンテーション(augmentation)が知られている。
特開2009-217348号公報 特開2013-161295号公報 特開2016-062253号公報
 教師データとしての入力画像のオーギュメンテーションをアフィン変換や射影変換(ホモグラフィイ変換)等の幾何学的画像変換を用いて行うことがある。しかし、幾何学的画像変換後の画像に含まれるバウンディングボックスは、幾何学的画像変換前の入力画像に含まれていたバウンディングボックスから変形してしまう。変形したバウンディングボックスを含む画像をそのまま教師データとして用いて機械学習を行うと、良好な学習済みモデルを生成することが困難になる。
 そこで、本開示では、良好な学習済みモデルを生成することができる技術を提案する。
 本開示によれば、学習装置は、変換部と、補正部と、学習部とを有する。変換部は、製品の製造作業を行っている作業者の手の画像である手画像と、オブジェクトに対して設定された第一バウンディングボックスとを含む入力画像を幾何学的画像変換することにより、幾何学的画像変換後の入力画像である変換後画像を生成する。補正部は、変換後画像に含まれる第二バウンディングボックスを補正した第三バウンディングボックスを変換後画像に設定する。学習部は、第三バウンディングボックスが設定された変換後画像を教師データとして用いる機械学習を行うことにより、手画像を含む判定対象画像に対して、製造作業の一工程を形成する複数の作業状態の各々を規定する複数のオブジェクトを出力する学習済みモデルを生成する。
本開示の実施形態1に係る作業管理システムの構成例を示す図である。 本開示の実施形態1に係る第一学習装置の構成例を示す図である。 本開示の実施形態1に係る作業管理装置の構成例を示す図である。 本開示の実施形態1に係る手順書データの一例を示す図である。 本開示の実施形態1に係るクラス設定部の動作例の説明に供する図である。 本開示の実施形態1に係るキーワードグラフの一例を示す図である。 本開示の実施形態1に係るクラステーブルの一例を示す図である。 本開示の実施形態1に係る第一学習装置への入力画像の一例を示す図である。 本開示の実施形態1に係る第一学習装置への入力画像の一例を示す図である。 本開示の実施形態1に係る第一学習装置への入力画像の一例を示す図である。 本開示の実施形態1に係る第一学習装置への入力画像の一例を示す図である。 本開示の実施形態1に係る第一学習装置への入力画像の一例を示す図である。 本開示の実施形態1に係るアフィン変換によるオーギュメンテーションの一例を示す図である。 本開示の実施形態1に係るアフィン変換によるオーギュメンテーションの一例を示す図である。 本開示の実施形態1に係るアフィン変換によるオーギュメンテーションの一例を示す図である。 本開示の実施形態1に係るバウンディングボックス補正部の動作例の説明に供する図である。 本開示の実施形態1に係るバウンディングボックス補正部の動作例の説明に供する図である。 本開示の実施形態1に係るバウンディングボックス補正部の動作例の説明に供する図である。 本開示の実施形態1に係るバウンディングボックス補正部の動作例の説明に供する図である。 本開示の実施形態1に係るバウンディングボックス補正部の動作例の説明に供する図である。 本開示の実施形態1に係るバウンディングボックス補正部の動作例の説明に供する図である。 本開示の実施形態1に係るバウンディングボックス補正部の動作例の説明に供する図である。 本開示の実施形態1に係るバウンディングボックス補正部の動作例の説明に供する図である。 本開示の実施形態1に係るオブジェクト検出モデルの一例を示す図である。 本開示の実施形態1に係る第一学習装置の処理手順の説明に供するフローチャートである。 本開示の実施形態1に係る状態遷移モデルの一例を示す図である。 本開示の実施形態1に係る作業状態の一例を示す図である。 本開示の実施形態1に係る作業状態判定部の動作例の説明に供する図である。 本開示の実施形態1に係る工程管理画面の一例を示す図である。 本開示の実施形態1に係る作業管理装置の処理手順の説明に供するフローチャートである。 本開示の実施形態2に係るバウンディングボックス補正部の動作例の説明に供する図である。 本開示の実施形態3に係る画像変換部の動作例の説明に供する図である。 本開示の実施形態3に係る画像変換部の動作例の説明に供する図である。 本開示の実施形態4に係る作業状態判定部の動作例の説明に供する図である。 本開示の実施形態4に係る作業状態判定部の動作例の説明に供する図である。 本開示の実施形態4に係る作業状態判定部の動作例の説明に供する図である。 本開示の実施形態5に係る作業管理システムの構成例を示す図である。 本開示の実施形態5に係る第二学習装置の構成例を示す図である。 本開示の実施形態5に係る作業管理装置の構成例を示す図である。 本開示の実施形態5に係る第二学習装置への入力画像の一例を示す図である。 本開示の実施形態5に係る第二学習装置への入力画像の一例を示す図である。 本開示の実施形態5に係る第二学習装置への入力画像の一例を示す図である。 本開示の実施形態5に係る第二学習装置への入力画像の一例を示す図である。 本開示の実施形態5に係る第二学習装置への入力画像の一例を示す図である。 本開示の実施形態5に係る第二学習装置への入力画像の一例を示す図である。 本開示の実施形態5に係る第二学習装置への入力画像の一例を示す図である。 本開示の実施形態5に係る第二学習装置への入力画像の一例を示す図である。 本開示の実施形態5に係る第二学習装置への入力画像の一例を示す図である。 本開示の実施形態5に係る第二学習装置への入力画像の一例を示す図である。 本開示の実施形態5に係る第二学習装置への入力画像の一例を示す図である。 本開示の実施形態5に係る第二学習装置への入力画像の一例を示す図である。 本開示の実施形態5に係る第二学習装置への入力画像の一例を示す図である。 本開示の実施形態5に係る第二学習装置への入力画像の一例を示す図である。 本開示の実施形態5に係る第二学習装置への入力画像の一例を示す図である。 本開示の実施形態5に係る第二学習装置への入力画像の一例を示す図である。 本開示の実施形態5に係る第二学習装置への入力画像の一例を示す図である。 本開示の実施形態5に係る第二学習装置への入力画像の一例を示す図である。 本開示の実施形態5に係る第二学習装置への入力画像の一例を示す図である。 本開示の実施形態6に係るオブジェクトの位置座標の一例を示す図である。 本開示の実施形態6に係るオブジェクトの位置座標の一例を示す図である。 本開示の実施形態7に係るオブジェクトの位置座標の一例を示す図である。 本開示の実施形態7に係るオブジェクトの位置座標の一例を示す図である。
 以下に、本開示の実施形態について図面に基づいて説明する。なお、以下の実施形態において、同一の部位または同一の処理には同一の符号を付することにより重複する説明を省略することがある。
 また、以下に示す項目順序に従って本開示を説明する。
 [実施形態1]
  <作業管理システムの構成>
  <第一学習装置の構成>
  <作業管理装置の構成>
  <第一学習装置における処理手順>
  <作業管理装置における処理手順>
 [実施形態2]
  <バウンディングボックス補正部の動作>
 [実施形態3]
  <画像変換部の動作>
 [実施形態4]
  <作業状態判定部の動作>
 [実施形態5]
  <作業管理システムの構成>
  <第二学習装置の構成>
  <作業管理装置の構成>
  <第二学習装置における処理手順>
  <作業管理装置における処理手順>
 [実施形態6]
  <第二機械学習部の動作>
  <作業管理装置における処理手順>
 [実施形態7]
  <第二機械学習部の動作>
 [実施形態8]
 [開示の技術の効果]
 [実施形態1]
 <作業管理システムの構成>
 図1は、本開示の実施形態1に係る作業管理システムの構成例を示す図である。図1において、作業管理システム1は、第一学習装置10と、作業管理装置20-1とを有する。
 <第一学習装置の構成>
 図2は、本開示の実施形態1に係る第一学習装置の構成例を示す図である。図2において、第一学習装置10は、クラス設定部11と、記憶部12と、画像変換部13と、バウンディングボックス補正部14と、第一機械学習部15と、記憶部16と、出力部17とを有する。
 <作業管理装置の構成>
 図3は、本開示の実施形態1に係る作業管理装置の構成例を示す図である。図3において、作業管理装置20-1は、取得部21と、記憶部22と、オブジェクト検出部23と、作業状態判定部24と、工程管理部25と、表示部26とを有する。
 <第一学習装置における処理手順>
 以下では、製造対象の製品の一例にスマートフォンを挙げて説明する。スマートフォンの製造作業は複数の作業工程から形成され、また、複数の作業工程の各々は、複数の作業状態から形成される。
 例えば、図4に示すような、スマートフォンの製造作業を形成する複数の作業工程の中の一工程である「スピーカー取付」の作業手順を示す作業手順書のデータ(以下では「手順書データ」と呼ぶことがある)がクラス設定部11に入力される。例えば、「スピーカー取付」という作業工程における作業手順は、図4に示すように、「1:移動作業」→「2:設置作業」→「3:スイッチ動作」→…のように進む。図4は、本開示の実施形態1に係る手順書データの一例を示す図である。
 図5は、本開示の実施形態1に係るクラス設定部の動作例の説明に供する図である。クラス設定部11は、図5に示すように、まず、図4に示す手順書データから、「作業内容」のテキストデータを抽出する。次いで、クラス設定部11は、抽出したテキストデータを形態素解析し、形態素解析後のデータからキーワードを検出する。この結果、例えば、作業番号「1」の「移動作業」の作業内容のテキストデータからキーワード「手」が検出され、作業番号「3」の「スイッチ動作」の作業内容のテキストデータからキーワード「スイッチ」及び「手」が検出される。次いで、クラス設定部11は、検出したキーワードを変換する。例えば、キーワード「手」は“hand”に変換され、キーワード「スイッチ」は“sw”に変換される。次いで、クラス設定部11は、「スピーカー取付」という一作業工程において、変換後のキーワードのデータ数をキーワード毎に集計する。次いで、クラス設定部11は、集計後のキーワードをデータ数の降順にソートする。この結果、例えば、データ数の降順にソートされたキーワードのグラフ(以下では「キーワードグラフ」と呼ぶことがある)として図6に示すグラフが得られる。図6は、本開示の実施形態1に係るキーワードグラフの一例を示す図である。図6示すキーワードグラフには、例えば、データ数が多い順に“hand”,“car_wout2”,“hand_two”,“car_with”,“car_with2”,“grasp_u”,“grasp_d”,“blur”,“tweezer”,“car_wout”,“air_blow”,“push_a”,“vac_pen”,“push_side”,“sw”,“mouse”,“ion_blow”,“push_b”,“count”,“wipe”,“garbage”,“push”の合計22個のキーワードが含まれる。
 そこで、クラス設定部11は、キーワードグラフに基づいて、図7に示すように、図6に示す22個のキーワードの各々を「ラベル」とするクラスC0~C21を設定し、クラスとラベルとオブジェクト内容との対応付けを示す「クラステーブルCLT」を生成する。クラスとラベルとオブジェクト内容とは互いに1対1で対応する。また、クラステーブルCLTにおいて、クラスC0のデータ数d(0)が最も多く、以降、クラスC1のデータ数d(1),クラスC2のデータ数d(2),…,クラスC20のデータ数d(20)の順にデータ数が減少し、クラスC21のデータ数d(21)が最も少ない。このように、クラス設定部11は、作業手順書に基づいて、一工程における複数の作業において共通する要素をクラスとして設定する。図7は、本開示の実施形態1に係るクラステーブルの一例を示す図である。そして、クラス設定部11は、キーワードグラフ(図6)とクラステーブルCLT(図7)とを記憶部12に出力し、記憶部12は、キーワードグラフとクラステーブルCLTとを記憶する。
 一方で、画像変換部13には、図8~図12に示すような画像が教師データとして入力される。図8~図12は、本開示の実施形態1に係る第一学習装置への入力画像の一例を示す図である。図8~図12に示すように、第一学習装置10への各入力画像は、スマートフォンの製造作業を行っている作業者の手の画像(以下では「手画像」と呼ぶことがある)HIと、入力画像に含まれるオブジェクトに対して設定されたバウンディングボックスBX1とを含む。バウンディングボックスBX1には、バウンディングボックスBX1内のオブジェクトに該当するラベルが付されている。例えば、図8に示す入力画像におけるバウンディングボックスBX1には“car_with2”とうラベルが付され、図9に示す入力画像におけるバウンディングボックスBX1には“hand”とうラベルが付され、図10に示す入力画像におけるバウンディングボックスBX1には“tweezer”とうラベルが付され、図11に示す入力画像におけるバウンディングボックスBX1には“car_with”とうラベルが付され、図12に示す入力画像におけるバウンディングボックスBX1には“hand_two”とうラベルが付されている。
 画像変換部13は、入力画像に対して幾何学的画像変換を施すことにより、教師データのオーギュメンテーションを行う。幾何学的画像変換の一例として、アフィン変換が挙げられる。例えば、幾何学的画像変換としてアフィン変換が用いられる場合、画像変換部13は、式(1)に従って、パラメータan,bn,cn,dn,x0n,y0nをランダムに変化させながら入力画像の各々を所定の複数回アフィン変換することにより、図13及び図14に示すように、教師データのオーギュメンテーションを行う。式(1)において、xn及びynは画像変換前の座標を表し、xn’及びyn’は画像変換後の座標を表す。
Figure JPOXMLDOC01-appb-M000001
 また、画像変換部13は、記憶部12に記憶されているキーワードグラフに基づいた回数だけ各入力画像に対してアフィン変換を行うことによりオーギュメンテーションを行う。例えば、図15に示すように、画像変換部13は、データ数が最も多いクラスである“hand”のデータ数d(0)と“hand”以外のクラスのデータ数との差の絶対値がすべて所定値dt以内に収まるように、“hand”以外のラベルを含む入力画像をアフィン変換を用いてオーギュメンテーションする。図13~図15は、本開示の実施形態1に係るアフィン変換によるオーギュメンテーションの一例を示す図である。
 画像変換部13は、アフィン変換後の入力画像(以下では「変換後画像」と呼ぶことがある)をバウンディングボックス補正部14へ出力する。
 入力画像のアフィン変換に伴って、図13に示すように、入力画像に含まれていたバウンディングボックスBX1は、変換後画像において、バウンディングボックスBX2のように変形してしまう。そこで、バウンディングボックス補正部14は、図16~図23に示すようにして、バウンディングボックスを補正する。図16~図23は、本開示の実施形態1に係るバウンディングボックス補正部の動作例の説明に供する図である。
 例えば、バウンディングボックス補正部14は、図16に示すような変換後画像において変形しているバウンディングボックスBX2の四つの頂点の各々の座標(x1’,y1’),(x2’,y2’),(x3’,y3’),(x4’,y4’)を取得する(図17)。次いで、バウンディングボックス補正部14は、図17に示すように、対角線上の2点の頂点の座標が[(xmin,ymin),(xmax,ymax)]で規定される矩形SQを生成する。但し、“xmin”は、x1’,x2’,x3’,x4’における最小値であり、“ymin”は、y1’,y2’,y3’,y4’における最小値であり、“xmax”は、x1’,x2’,x3’,x4’における最大値であり、“ymax”は、y1’,y2’,y3’,y4’における最大値である。これにより、バウンディングボックス補正部14は、バウンディングボックスBX2の四つの頂点の各々を四辺の各々に含む矩形SQを生成する。
 次いで、バウンディングボックス補正部14は、図18及び図19に示すように、矩形SQの面積を矩形SQに含まれる手画像HIに基づいて縮小することにより矩形のバウンディングボックスBX3を生成し、生成したバウンディングボックスBX3を変換後画像に設定する。
 例えば、バウンディングボックス補正部14は、矩形SQ内に存在する手画像HIに対するエッジ検出を用いて矩形SQの面積を縮小する。バウンディングボックス補正部14は、例えば図20に示すような変換後画像に一般的なエッジ抽出処理を施すことにより、図21に示すようなエッジ抽出画像を取得する。次いで、バウンディングボックス補正部14は、図22に示すように、バウンディングボックスBX2の四つの頂点(x1’,y1’),(x2’,y2’),(x3’,y3’),(x4’,y4’)の各々を起点としてエッジ抽出画像に対してエッジ検出を行う。
 例えば、図22に示すようなエッジ抽出画像において、バウンディングボックス補正部14は、頂点(x1’,y1’)からX座標の値が増加する方向(図中右方向)へ向かって最初に検出したエッジのX座標をx1”として取得する。また、バウンディングボックス補正部14は、頂点(x3’,y3’)からX座標の値が減少する方向(図中左方向)へ向かって最初に検出したエッジのX座標をx3”として取得する。また、バウンディングボックス補正部14は、頂点(x2’,y2’)からY座標の値が増加する方向(図中下方向)へ向かって最初に検出したエッジのY座標をy2”として取得する。また、バウンディングボックス補正部14は、頂点(x4’,y4’)からY座標の値が減少する方向(図中上方向)へ向かって最初に検出したエッジのY座標をy4”として取得する。そして、バウンディングボックス補正部14は、図23に示すように、四つの頂点の各々の座標を(x1”,y2”),(x1”,y4”),(x3”,y2”),(x3”,y4”)とする矩形のバウンディングボックスBX3を生成する。バウンディングボックス補正部14は、例えば図20~図23に示すようにしてバウンディングボックスBX3を生成することにより、矩形SQ(図19)よりも面積が小さいバウンディングボックスBX3を矩形SQ内に生成する。そして、バウンディングボックス補正部14は、生成したバウンディングボックスBX3をバウンディングボックスBX2に代えて変換後画像に設定し、バウンディングボックスBX3が設定された変換後画像を教師データとして第一機械学習部15へ出力する。
 第一機械学習部15は、各々にバウンディングボックスBX3が設定された複数の変換後画像を教師データとして用いる機械学習を行うことにより、第一学習済みモデルとしての「オブジェクト検出モデル」を生成し、生成したオブジェクト検出モデルを記憶部16へ出力する。記憶部16は、オブジェクト検出モデルを記憶する。すなわち、第一機械学習部15は、図24に示すように、手画像を含む判定対象画像DIに対して、スマートフォンの製造作業の一工程を形成する複数の作業状態の各々を規定する複数のオブジェクトを出力するオブジェクト検出モデルを生成する。図24では、オブジェクト検出モデルにより、判定対象画像DIに対して、“car_with”,“hand”,“hand_two”,“car_with”,“tweezer”の5つのオブジェクトが検出された場合を一例として示す。オブジェクト検出モデルを生成する際の機械学習として、例えば、SSD(Single Shot Multibox Detector)やYOLO(You Only Look Once)が用いられる。図24は、本開示の実施形態1に係るオブジェクト検出モデルの一例を示す図である。
 ここで、第一機械学習部15は、クラスC0~C21(図7)の各クラス毎にそれぞれオブジェクト検出を行う22個のオブジェクト検出モデルを生成しても良く、また、クラスC0~C21の22種類のオブジェクトを一括して検出可能な単一のオブジェクト検出モデルを生成しても良い。
 出力部17は、記憶部16に記憶されているオブジェクト検出モデルを記憶部16から取得し、取得したオブジェクト検出モデルを作業管理装置20-1へ出力する。
 図25は、本開示の実施形態1に係る第一学習装置の処理手順の説明に供するフローチャートである。
 キーワードグラフ(図6)及びクラステーブルCLT(図7)が得られた後、図25のステップS100では、第一学習装置10は、クラス番号kを“1”に初期化する。
 次いで、ステップS105では、第一学習装置10は、クラスC0のデータ数d(0)とクラスCkのデータ数d(k)との差の絶対値(以下では「クラス間差」と呼ぶことがある)が所定値dt未満であるか否かを判定する。クラス間差がdt未満である場合は(ステップS105:Yes)、処理はステップS110へ進み、クラス間差がdt以上である場合は(ステップS105:No)、処理はステップS120へ進む。
 クラステーブルCLT(図7)に設定されている最大番号のクラスはクラスC21であるため、ステップS110では、第一学習装置10は、クラス番号kが“21”に達したか否かを判定する。クラス番号kが“21”に達している場合は(ステップS110:Yes)、処理は終了する。一方で、クラス番号kが“21”に達していない場合、つまり、クラス番号kが“21”未満である場合は(ステップS110:No)、処理はステップS115へ進み、ステップS115において、第一学習装置10は、クラス番号kをインクリメントする。ステップS115の処理後、処理は、ステップS105に戻る。
 一方で、ステップS120では、第一学習装置10は、教師データとしての入力画像を取得する。
 次いで、ステップS125では、第一学習装置10は、ステップS120で取得した入力画像に対して、アフィン変換のパラメータをランダムに変化させながら所定の複数回アフィン変換を行うことにより、教師データのオーギュメンテーションを行う。
 次いで、ステップS130では、第一学習装置10は、ステップS125でアフィン変換を行った回数をデータ数d(k)に加算する。
 次いで、ステップS135では、第一学習装置10は、バウンディングボックスを補正する(図16~図23)。
 次いで、ステップS140では、第一学習装置10は、クラス間差が所定値dt未満であるか否かを判定する。クラス間差がdt未満である場合は(ステップS140:Yes)、処理はステップS110へ進む。一方で、クラス間差がdt以上である場合は(ステップS140:No)、処理はステップS120に戻り、ステップS120で、新たな入力画像が取得される。
 <作業管理装置における処理手順>
 図3に示す作業管理装置20-1において、取得部21は、第一学習装置10から出力されたオブジェクト検出モデルを取得し、取得したオブジェクト検出モデルを記憶部22へ出力し、記憶部22は、オブジェクト検出モデルを記憶する。
 一方で、オブジェクト検出部23には、オブジェクトの検出対象及び作業状態の判定対象である判定対象画像が入力される。判定対象画像は、スマートフォンの製造作業を行っている作業者の作業状態が所定のフレームレートで撮影されたビデオ画像の各フレーム毎の画像である。オブジェクト検出部23は、記憶部22に記憶されているオブジェクト検出モデルを用いて、判定対象画像に対して複数のオブジェクトを検出し、検出した複数のオブジェクトを作業状態判定部24へ出力する。
 ここで、例えば、スマートフォンの製造作業を形成する複数の作業工程の中の一工程である「スピーカー取付」は、図26及び図27に示す作業状態S1~S14から形成される。すなわち、スピーカー取付を行う作業者の作業状態は、図26に示す作業状態の遷移モデル(以下では「状態遷移モデル」と呼ぶことがある)のように、S1→S2→S3→S4→S5→S6→S7→S8→S9→S10→S11→S12→S13→S14→S1→S2→…と順次遷移する。また、作業状態S1~S14の何れにも該当しない例外的な作業状態として作業状態S0が規定されている。図26は、本開示の実施形態1に係る状態遷移モデルの一例を示す図であり、図27は、本開示の実施形態1に係る作業状態の一例を示す図である。図26に示す状態遷移モデルは作業状態判定部24に予め設定されている。
 作業状態判定部24は、オブジェクト検出部23により検出された複数のオブジェクトに基づいて、判定対象画像が示す作業状態を判定し、作業状態の判定結果として、複数の作業状態の中の何れかの作業状態を示す情報である“S0”~“S14”の何れかを工程管理部25へ出力する。作業状態判定部24は、例えば、図28に示すように、オブジェクト検出部23により検出された複数のオブジェクトのパターン(以下では「検出オブジェクトパターン」と呼ぶことがある)に対応する作業状態を判定対象画像が示す作業状態として判定する。例えば、検出オブジェクトパターンが[car_with, car_wout2, blur]、[grasp_d, car_with, car_wout2, hand]または[blur, car_with, car_wout2, hand]である場合は作業状態が“S1:move phone to robot”であると判定され、検出オブジェクトパターンが[car_with, car_wout2, hand]または[hand, car_with, car_wout2, hand]である場合は作業状態が“S2:position phone”であると判定され、検出オブジェクトパターンが[sw, car_with, hand]である場合は作業状態が“S3:press sw”であると判定される。また、検出オブジェクトパターンが図28に示す何れのパターンにも該当しない場合は、作業状態が“S0:others”であると判定される。図28は、本開示の実施形態1に係る作業状態判定部の動作例の説明に供する図である。
 ここで、図28において、検出オブジェクトパターン[hand, hand]は、作業状態S6及び作業状態S11の双方に対応する。これに対し、図26に示す状態遷移モデルによれば、作業状態S6へ遷移する一つ前の作業状態はS5またはS0の何れかであり、作業状態S11へ遷移する一つ前の作業状態はS10またはS0の何れかである。また、作業状態はS6またはS10で継続している場合もある。
 そこで、作業状態判定部24は、現在の判定対象画像における検出オブジェクトパターンが[hand, hand]であり、かつ、一つ前の判定対象画像から判定された作業状態がS5またはS6である場合は、現在の作業状態(つまり、現在の判定対象画像が示す作業状態)をS6と判定する。また、作業状態判定部24は、現在の判定対象画像における検出オブジェクトパターンが[hand, hand]であり、かつ、一つ前の判定対象画像から判定された作業状態がS0である場合は、一つ前の判定対象画像から判定された作業状態がS5、または、作業状態がS0に遷移する前の作業状態がS6である場合に、現在の作業状態をS6と判定する。
 また、作業状態判定部24は、現在の判定対象画像における検出オブジェクトパターンが[hand, hand]であり、かつ、一つ前の判定対象画像から判定された作業状態がS10またはS11である場合は、現在の作業状態をS11と判定する。また、作業状態判定部24は、現在の判定対象画像における検出オブジェクトパターンが[hand, hand]であり、かつ、一つ前の判定対象画像から判定された作業状態がS0である場合は、一つ前の判定対象画像から判定された作業状態がS10、または、作業状態がS0に遷移する前の作業状態がS11である場合に、現在の作業状態をS11と判定する。
 このように、作業状態判定部24は、複数の作業状態の前後関係を表す状態遷移モデル(図26)用いて、判定対象画像が示す作業状態を判定する。こうすることで、作業状態の判定精度を高めることができる。
 工程管理部25は、作業状態判定部24での判定結果に基づいて、作業工程を管理するための画面(以下では「工程管理画面」と呼ぶことがある)を生成し、生成した工程管理画面を表示部26に表示させる。図29は、本開示の実施形態1に係る工程管理画面の一例を示す図である。図29において、工程管理画面MSは、表示内容の項目として、例えば、「作業映像」の項目と、「作業状態」の項目と、「作業時間」の項目と、「標準作業時間以上頻度」の項目とを含む。「作業映像」の項目には、判定対象画像とともに、オブジェクトの検出結果と作業状態の判定結果とが判定対象画像にリアルタイムに重畳されて表示される。「作業状態」の項目には、作業状態の判定結果がハイライト表示される。「作業時間」の項目には、作業状態S0~S14の各々の直近の作業時間が棒グラフで表示される。作業状態S0~S14の各々の作業時間に対しては、1作業状態あたりの標準作業時間と、1作業状態あたりの許容作業時間とが予め定められている。例えば、工程管理部25は、標準作業時間以内の作業時間を青色の棒グラフで表示し、標準作業時間を超える作業時間を黄色の棒グラフで表示し、許容作業時間を超える作業時間を赤色の棒グラフで表示する。また、「標準作業時間以上頻度」の項目には、作業状態S0~S14の各々について、作業時間が標準作業時間を超えた累積回数が棒グラフで表示される。
 図30は、本開示の実施形態1に係る作業管理装置の処理手順の説明に供するフローチャートである。
 図30のステップS200では、作業管理装置20-1は、注意表示時間t(m)wを“0”に初期化する。
 次いで、ステップS205では、作業管理装置20-1は、現在時刻が作業時間内にあるか否かを判定する。作業管理装置20-1は、現在時刻が作業時間になるまで待機する(ステップS205:No)。そして、現在時刻が作業時間内であると(ステップS205:Yes)、処理はステップS210へ進む。
 ステップS210では、作業管理装置20-1は、判定対象画像を取得する。
 次いで、ステップS215では、作業管理装置20-1は、工程n(但し、nは作業工程番号)の作業者(n)が作業現場に存在するか否かを判定する。作業者(n)の存在の有無は、例えば、作業者(n)の頭部や手が判定対象画像に含まれているか否かに基づいて行われる。作業者(n)が作業現場に存在する場合は(ステップS215:Yes)、処理はステップS220へ進み、作業者(n)が作業現場に存在しない場合は(ステップS215:No)、処理はステップS225へ進む。
 ステップS220では、作業管理装置20-1は、作業者フラグSt(n)を“1”に設定する。一方で、ステップS225では、作業管理装置20-1は、作業者フラグSt(n)を“0”に設定する。ステップS220,S225の処理後、処理は、ステップS230へ進む。
 ステップS230では、作業管理装置20-1は、判定対象画像に対するオブジェクト検出を行う。
 次いで、ステップS235では、作業管理装置20-1は、ステップS230で検出したオブジェクトに基づいて、判定対象画像が示す作業状態を判定する。
 次いで、ステップS240では、作業管理装置20-1は、工程管理画面に作業映像を表示する(図29)。
 次いで、ステップS245では、作業管理装置20-1は、工程nの作業に対して費やされている作業時間t(n)を作業状態S0~S14の作業状態毎に検出する。
 次いで、ステップS250では、作業管理装置20-1は、作業状態毎の作業時間t(n)を工程管理画面の「作業時間」の項目に棒グラフ表示する(図29)。
 次いで、ステップS255では、作業管理装置20-1は、作業状態毎の作業時間t(n)の各々が規定時間以内にあるか否かを判定する。ステップS255における規定時間は、例えば、図29における「標準作業時間」及び「許容作業時間」である。
 作業時間t(n)が規定時間以内にない作業状態については(ステップS255:Yes)、ステップS260において、作業管理装置20-1は、棒グラフの表示を変更する。例えば、作業管理装置20-1は、標準作業時間を超える作業状態の作業時間の棒グラフの色を青色から黄色に変更し、許容作業時間を超える作業状態の作業時間の棒グラフの色を黄色から赤色に変更する。ステップS260の処理後、処理は、ステップS265へ進む。
 一方で、すべての作業状態の作業時間t(n)が規定時間以内にある場合は(ステップS255:No)、ステップS260の処理は行われずに処理はステップS265へ進む。
 ステップS265では、作業管理装置20-1は、何れかの作業状態の作業時間t(n)が所定の注意喚起時間taを超えているか否かを判定する。
 何れかの作業状態の作業時間t(n)が注意喚起時間taを超えている場合は(ステップS265:Yes)、ステップS270において、作業管理装置20-1は、注意表示を開始する。また、作業管理装置20-1は、注意表示の開始に伴って、注意表示時間t(m)wの計時を開始する。例えば、作業管理装置20-1は、工程nより前の工程で、かつ、工程nでの作業に影響を与える作業を含む各工程mに対し「作業を○○秒だけ遅くして下さい。」等の注意表示を行う。ステップS270の処理後、処理はステップS275へ進む。
 一方で、すべての作業状態の作業時間t(n)が注意喚起時間ta以内である場合は(ステップS265:No)、ステップS270の処理は行われずに処理はステップS275へ進む。
 ステップS275では、作業管理装置20-1は、注意表示時間t(m)wが所定の経過時間t(m)waに達したか否かを判定する。
 注意表示時間t(m)wが経過時間t(m)waに達した場合は(ステップS275:Yes)、作業管理装置20-1は、ステップS280において、注意表示を終了し、ステップS285において、注意表示時間t(m)wを“0”に初期化する。ステップS285の処理後、処理はステップS290へ進む。
 一方で、注意表示時間t(m)wが経過時間t(m)waに達していない場合は(ステップS275:No)、ステップS280,S285の処理は行われずに処理はステップS290へ進む。
 ステップS290では、作業管理装置20-1は、作業管理装置20-1の動作停止指示が為されたか否かを判定する。そして、動作停止指示が為された場合は(ステップS290:Yes)、作業管理装置20-1は、動作を停止する。一方で、動作停止指示が為されていない場合は(ステップS290:No)、処理はステップS205に戻る。
 以上、本開示の実施形態1について説明した。
 [実施形態2]
 <バウンディングボックス補正部の動作>
 図31は、本開示の実施形態2に係るバウンディングボックス補正部の動作例の説明に供する図である。
 図31に示すように、バウンディングボックス補正部14は、複数の変換後画像の各々において、バウンディングボックスBX2の外側とバウンディングボックスBX3の内側とで囲まれる4つの領域AR1,AR2,AR3,AR4を特定する。また、バウンディングボックス補正部14は、領域AR1,AR2,AR3,AR4の各々の領域内で、各領域内に含まれる画素のうち閾値未満の輝度を有する画素の割合(以下では「低輝度画素率」と呼ぶことがある)を算出する。そして、バウンディングボックス補正部14は、複数の変換後画像のうち、領域AR1,AR2,AR3,AR4において低輝度画素率が所定値以上となる領域が一つでも存在する変換後画像を教師データから除外する。領域AR1,AR2,AR3,AR4において低輝度画素率が所定値以上となる領域が一つでも存在する変換後画像には、特徴量の無効領域が多く含まれるからである。こうすることで、変換後画像の教師データとしての信頼性を高めることができる。
 以上、本開示の実施形態2について説明した。
 [実施形態3]
 <画像変換部の動作>
 図32及び図33は、本開示の実施形態3に係る画像変換部の動作例の説明に供する図である。
 画像変換部13は、入力画像に対して図32及び図33に示すように、入力画像の中心Oを中心とする円であって、入力画像の上辺及び下辺、または、入力画像の左辺及び右辺に接する円CIRを設定する。そして、画像変換部13は、円CIRの領域内にバウンディングボックスBX1の全領域が含まれる入力画像をアフィン変換の変換対象として選択する一方で、バウンディングボックスBX1の領域が円CIRの領域外に存在する入力画像をアフィン変換の変換対象から除外する。よって、画像変換部13は、図32に示す入力画像をアフィン変換の変換対象として選択する一方で、図33に示す入力画像をアフィン変換の変換対象から除外する。バウンディングボックスBX1の領域が円CIRの領域外に存在する入力画像に対する変換後画像には、特徴量の無効領域が多く含まれる可能性があるからである。こうすることで、変換後画像の教師データとしての信頼性を高めることができる。
 以上、本開示の実施形態3について説明した。
 ここで、上記説明では、画像変換部13がアフィン変換を用いて教師データのオーギュメンテーションを行う場合について説明した。しかし、画像変換部13が用いる幾何学的画像変換はアフィン変換に限定されない。アフィン変換以外の幾何学的画像変換の一例として、射影変換(ホモグラフィ変換)が挙げられる。例えば、幾何学的画像変換として射影変換が用いられる場合、画像変換部13は、式(2)、または、式(3a)及び式(3b)に従って、パラメータk, h11, h12, h13, h21, h22, h23, h31, h32, h33をランダムに変化させながら入力画像の各々を所定の複数回射影変換することにより教師データのオーギュメンテーションを行う。式(2)、式(3a)及び式(3b)において、xn及びynは画像変換前の座標を表し、xn’及びyn’は画像変換後の座標を表す。
Figure JPOXMLDOC01-appb-M000002
Figure JPOXMLDOC01-appb-M000003
 [実施形態4]
 <作業状態判定部の動作>
 図34~図36は、本開示の実施形態4に係る作業状態判定部の動作例の説明に供する図である。
 作業状態判定部24は、図34~図36に示すように、各フレーム毎の判定対象画像に対する作業状態S0~S14の判定結果を累積する。つまり、図34~図36に示されたグラフは、作業状態判定部24での過去の判定結果の累積結果を示す。
 例えば、mフレーム目の判定対象画像に対する作業状態を作業状態判定部24が判定する時点での判定結果の累積結果が図34に示すうようになっている場合は、作業状態判定部24は、判定結果の累積回数が最も多い作業状態S3をmフレーム目の判定対象画像が示す作業状態として判定する。
 また例えば、(m+1)フレーム目の判定対象画像に対する作業状態を作業状態判定部24が判定する時点での判定結果の累積結果が図35に示すうようになっている場合、判定結果の累積回数が最も多い作業状態はS5である。しかし、状態遷移モデル(図26)によれば、作業状態がS3の次にS5へ遷移することはない。このため、作業状態判定部24は、判定結果の累積回数がS5の次に多いS4を判定結果候補として選定する。状態遷移モデルによれば、作業状態がS3の次にS4へ遷移することは可能なため、作業状態判定部24は、最終的に、作業状態S4を(m+1)フレーム目の判定対象画像が示す作業状態として判定する。
 また例えば、(m+1)フレーム目の判定対象画像に対する作業状態を作業状態判定部24が判定する時点での判定結果の累積結果が図36に示すうようになっている場合、判定結果の累積回数が最も多い作業状態はS5であり、判定結果の累積回数が2番目に多い作業状態はS2である。状態遷移モデルによれば、作業状態がS3の次にS5へ遷移することはなく、また、S3の次にS2へ遷移することもない。このため、作業状態判定部24は、判定結果の累積回数が3番目に多い作業状態S3を(m+1)フレーム目の判定対象画像が示す作業状態として判定する。
 こうすることで、作業状態の判定精度を高めることができる。
 以上、本開示の実施形態4について説明した。
 [実施形態5]
 <作業管理システムの構成>
 図37は、本開示の実施形態5に係る作業管理システムの構成例を示す図である。図37において、作業管理システム2は、第一学習装置10と、第二学習装置30と、作業管理装置20-2とを有する。
 <第二学習装置の構成>
 図38は、本開示の実施形態5に係る第二学習装置の構成例を示す図である。図38において、第二学習装置30は、第二機械学習部31と、記憶部32と、出力部33とを有する。
 <作業管理装置の構成>
 図39は、本開示の実施形態5に係る作業管理装置の構成例を示す図である。図39において、作業管理装置20-2は、取得部21,27と、記憶部22,28と、オブジェクト検出部23と、作業状態判定部29と、工程管理部25と、表示部26とを有する。
 <第二学習装置における処理手順>
 図38に示す第二学習装置30において、第二機械学習部31には、図40~図58に示すような画像が教師データとして入力される。図40~図58は、本開示の実施形態5に係る第二学習装置への入力画像の一例を示す図である。図40~図58に示すように、第二学習装置30への各入力画像は、手画像と、入力画像に含まれるオブジェクトに設定されたバウンディングボックスとを含む。第一学習装置10への入力画像(図8~図12)と同様に、バウンディングボックスには、バウンディングボックス内のオブジェクトに該当するラベルが付されている。また、図40~図58に示すように、第二学習装置30への各入力画像には、各入力画像が示す作業状態を示すラベル(以下では「作業状態ラベル」と呼ぶことがある)が付されている。
 例えば、図40に示す入力画像では、入力画像に含まれる複数のオブジェクトのパターン(以下では「入力画像オブジェクトパターン」と呼ぶことがある)である[car_with, car_wout2, blur]に対して、“S1:move phone to robot”という作業状態ラベルが付されている。また例えば、図43に示す入力画像では、[car_with, car_wout2, hand]という入力画像オブジェクトパターンに対して、“S2:position phone”という作業状態ラベルが付されている。また例えば、図45に示す入力画像では、[sw,car_with, hand]という入力画像オブジェクトパターンに対して、“S3:press sw”という作業状態ラベルが付されている。また例えば、図46に示す入力画像では、[blur,car_with, hand]という入力画像オブジェクトパターンに対して、“S4:move SPK to space”という作業状態ラベルが付されている。また例えば、図48に示す入力画像では、[hand,hand_two,air_blow]という入力画像オブジェクトパターンに対して、“S5:air blow”という作業状態ラベルが付されている。また例えば、図49に示す入力画像では、[hand,hand]という入力画像オブジェクトパターンに対して、“S6:blue seal”という作業状態ラベルが付されている。また例えば、図50に示す入力画像では、[hand,hand,hand_two,car_with]という入力画像オブジェクトパターンに対して、“S7:position SPK”という作業状態ラベルが付されている。また例えば、図51に示す入力画像では、[hand,hand,hand_two,car_with2]という入力画像オブジェクトパターンに対して、“S8:turn carrier 0 deg”という作業状態ラベルが付されている。また例えば、図52に示す入力画像では、[grasp_d,hand,hand_two]という入力画像オブジェクトパターンに対して、“S9:move phone to tray”という作業状態ラベルが付されている。また例えば、図54に示す入力画像では、[hand,hand,hand_two,car_wout2]という入力画像オブジェクトパターンに対して、“S10:move carrier next”という作業状態ラベルが付されている。また例えば、図55に示す入力画像では、[hand,hand]という入力画像オブジェクトパターンに対して、“S11:move carrier work area”という作業状態ラベルが付されている。また例えば、図56に示す入力画像では、[hand,hand,car_wout]という入力画像オブジェクトパターンに対して、“S12:Turn carrier 90 deg”という作業状態ラベルが付されている。また例えば、図57に示す入力画像では、[car_wout,car_wout2,hand]という入力画像オブジェクトパターンに対して、“S13:Open robot lid”という作業状態ラベルが付されている。また例えば、図58に示す入力画像では、[grasp_d,car_wout,hand]という入力画像オブジェクトパターンに対して、“S14:Move phone to carrier”という作業状態ラベルが付されている。
 第二機械学習部31は、図40~図58に示すような入力画像を教師データとして用いる機械学習を行うことにより、第二学習済みモデルとしての「作業状態判定モデル」を生成し、生成した作業状態判定モデルを記憶部32へ出力する。記憶部32は、作業状態判定モデルを記憶する。すなわち、第二機械学習部31は、オブジェクト検出部23によって検出された複数のオブジェクトに対して、複数の作業状態の中の何れかの作業状態を示す情報である“S0”~“S14”の何れかを出力する作業状態判定モデルを生成する。作業状態判定モデルを生成する際の機械学習として、例えば、SSDやYOLOが用いられる。
 出力部33は、記憶部32に記憶されている作業状態判定モデルを記憶部32から取得し、取得した作業状態判定モデルを作業管理装置20-2へ出力する。
 <作業管理装置における処理手順>
 図39に示す作業管理装置20-2において、取得部27は、第二学習装置30から出力された作業状態判定モデルを取得し、取得した作業状態判定モデルを記憶部28へ出力し、記憶部28は、作業状態判定モデルを記憶する。
 一方で、作業状態判定部29には、オブジェクト検出部23により検出された複数のオブジェクトが入力される。作業状態判定部29は、検出オブジェクトパターンに基づいて、記憶部28に記憶されている作業状態判定モデルを用いて、判定対象画像が示す作業状態を判定し、作業状態の判定結果として、複数の作業状態の中の何れかの作業状態を示す情報である“S0”~“S14”の何れかを工程管理部25へ出力する。
 以上、本開示の実施形態5について説明した。
 [実施形態6]
 <第二機械学習部の動作>
 図59及び図60は、本開示の実施形態6に係るオブジェクトの位置座標の一例を示す図である。
 図59及び図60に示すように、第二機械学習部31には、各バウンディングボックス内の各オブジェクトの位置を示す位置座標PA(xp,yp)が上記の図40~図58に示すような画像にさらに付された画像が教師データとして入力される。位置座標PA(xp,yp)は、入力画像におけるオブジェクトの絶対的な位置を示す。
 第二機械学習部31は、位置座標PA(xp,yp)が付された入力画像を教師データとして用いる機械学習を行うことにより、第二学習済みモデルとしての「作業状態判定モデル」を生成し、生成した作業状態判定モデルを記憶部32へ出力する。記憶部32は、作業状態判定モデルを記憶する。すなわち、第二機械学習部31は、オブジェクト検出部23によって検出された複数のオブジェクトと、複数のオブジェクトの各々の位置座標とに対して、複数の作業状態の中の何れかの作業状態を示す情報である“S0”~“S14”の何れかを出力する作業状態判定モデルを生成する。作業状態判定モデルを生成する際の機械学習として、例えば、SSDやYOLOが用いられる。
 <作業管理装置における処理手順>
 オブジェクト検出部23は、複数のオブジェクトを検出するとともに、それらの複数のオブジェクトの各々の位置座標を検出し、検出したオブジェクトと位置座標とを作業状態判定部29へ出力する。
 作業状態判定部29は、検出オブジェクトパターンと、各オブジェクトの位置座標とに基づいて、記憶部28に記憶されている作業状態判定モデルを用いて、判定対象画像が示す作業状態を判定し、作業状態の判定結果として、複数の作業状態の中の何れかの作業状態を示す情報である“S0”~“S14”の何れかを工程管理部25へ出力する。
 このように、検出オブジェクトパターンに加えて、オブジェクトの位置座標を用いて作業状態を判定することで、作業状態の判定精度を高めることができる。
 以上、本開示の実施形態6について説明した。
 [実施形態7]
 <第二機械学習部の動作>
 図61及び図62は、本開示の実施形態7に係るオブジェクトの位置座標の一例を示す図である。
 上記の実施形態6では、オブジェクトの位置を示す位置座標PA(xp,yp)は、入力画像における絶対的な位置を示していた。
 これに対し、実施形態7では、オブジェクトの位置を示す位置座標として、図61及び図62に示すように、位置座標PAに代えて、入力画像におけるランドマークLMに対する相対的な位置を示す位置座標PBが用いられる。例えば、入力画像におけるランドマークLMの位置座標がM(xm,ym)である場合、オブジェクトの位置を示す相対的な位置座標はPB(xp-xm,yp-ym)と表される。図61には、特徴的な形状や色を有するスイッチボックスをランドマークLMの一例として示す。
 このように、オブジェクトの位置を示す位置座標としてランドマークLMに対する相対的な位置座標を用いることで、絶対的な位置座標を用いる場合に比べ、作業者の作業状態を撮影するカメラの設置状況等によりカメラアングルが変化した場合でも、作業状態の判定精度の低下を抑えることができる。
 以上、本開示の実施形態7について説明した。
 [実施形態8]
 記憶部12,16,22,28,32は、ハードウェアとして、例えば、メモリ、HDD(Hard Disk Drive)、SSD(Solid State Drive)等により実現される。
 クラス設定部11、画像変換部13、バウンディングボックス補正部14、第一機械学習部15、オブジェクト検出部23、作業状態判定部24,29、工程管理部25、及び、第二機械学習部31は、ハードウェアとして、例えばプロセッサにより実現される。プロセッサの一例として、CPU(Central Processing Unit)、DSP(Digital Signal Processor)、FPGA(Field Programmable Gate Array)、ASIC(Application Specific Integrated Circuit)等が挙げられる。
 出力部17,33及び取得部21,27は、ハードウェアとして、例えば、有線のネットワークインタフェースモジュールまたは無線通信モジュールにより実現される。
 表示部26は、ハードウェアとして、例えば、液晶ディスプレイにより実現される。
 第一学習装置10、第二学習装置30、及び、作業管理装置20-1,20-2は、例えば、パーソナルコンピュータやサーバ等のコンピュータ装置として実現される。
 また、作業管理システム1,2での上記説明における各処理の全部または一部は、各処理に対応するプログラムを作業管理システム1,2が有するプロセッサに実行させることによって実現してもよい。例えば、上記説明における各処理に対応するプログラムがメモリに記憶され、プログラムがプロセッサによってメモリから読み出されて実行されても良い。また、プログラムは、任意のネットワークを介して作業管理システム1,2に接続されたプログラムサーバに記憶され、そのプログラムサーバから作業管理システム1,2にダウンロードされて実行されたり、作業管理システム1,2が読み取り可能な記録媒体に記憶され、その記録媒体から読み出されて実行されても良い。作業管理システム1,2が読み取り可能な記録媒体には、例えば、メモリーカード、USBメモリ、SDカード、フレキシブルディスク、光磁気ディスク、CD-ROM、DVD、及び、Blu-ray(登録商標)ディスク等の可搬の記憶媒体が含まれる。また、プログラムは、任意の言語や任意の記述方法にて記述されたデータ処理方法であり、ソースコードやバイナリコード等の形式を問わない。また、プログラムは必ずしも単一的に構成されるものに限られず、複数のモジュールや複数のライブラリとして分散構成されるものや、OSに代表される別個のプログラムと協働してその機能を達成するものも含む。
 また、作業管理システム1,2の分散・統合の具体的形態は図示するものに限られず、作業管理システム1,2の全部または一部を、各種の付加等に応じて、または、機能負荷に応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
 以上、本開示の実施形態8について説明した。
 [開示の技術の効果]
 以上のように、本開示に係る学習装置(実施形態1に係る第一学習装置10)は、変換部(実施形態1に係る画像変換部13)と、補正部(実施形態1に係るバウンディングボックス補正部14)と、学習部(実施形態1に係る第一機械学習部15)とを有する。変換部は、製品の製造作業を行っている作業者の手の画像である手画像と、オブジェクトに対して設定された第一バウンディングボックス(実施形態1に係るバウンディングボックスBX1)とを含む入力画像を幾何学的画像変換することにより、幾何学的画像変換後の入力画像である変換後画像を生成する。補正部は、変換後画像に含まれる第二バウンディングボックス(実施形態1に係るバウンディングボックスBX2)を補正した第三バウンディングボックス(実施形態1に係るバウンディングボックスBX3)を変換後画像に設定する。学習部は、第三バウンディングボックスが設定された変換後画像を教師データとして用いる機械学習を行うことにより、手画像を含む判定対象画像に対して、製造作業の一工程を形成する複数の作業状態の各々を規定する複数のオブジェクトを出力する学習済みモデル(実施形態1に係るオブジェクト検出モデル)を生成する。
 例えば、補正部は、第二バウンディングボックスの四つの頂点の各々を四辺の各々に含む矩形(実施形態1に係る矩形SQ)を生成し、矩形の面積を矩形に含まれる手画像に基づいて縮小することにより第三バウンディングボックスを生成する。
 また例えば、補正部は、矩形に含まれる手画像に対するエッジ検出を用いて矩形の面積を縮小する。
 また例えば、補正部(実施形態2に係るバウンディングボックス補正部14)は、第二バウンディングボックスの外側と第三バウンディングボックスの内側とで囲まれる複数の領域(実施形態2に係る領域AR1~AR4)を特定し、複数の領域の各々の領域内で各領域内に含まれる画素のうち閾値未満の輝度を有する画素の割合を算出し、複数の領域において割合が所定値以上となる領域が一つでも存在する変換後画像を教師データから除外する。
 また例えば、変換部(実施形態3に係る画像変換部13)は、第一バウンディングボックスの領域が、入力画像の中心を中心とする円であって、入力画像の上辺及び下辺、または、入力画像の左辺及び右辺に接する円の領域外に存在する入力画像を幾何学的画像変換の変換対象から除外する。
 また例えば、本開示に係る学習装置(実施形態1に係る第一学習装置10)は、設定部(実施形態1に係るクラス設定部11)をさらに有する。設定部は、一工程の作業手順を示す作業手順書に含まれるキーワードから複数のオブジェクトの各クラスを設定する。
 以上の構成によれば、良好な学習済みモデルを生成することができる。
 なお、本明細書に記載された効果はあくまで例示であって限定されるものでは無く、また他の効果があっても良い。
 また、開示の技術は以下のような構成も採ることができる。
(1)
 製品の製造作業を行っている作業者の手の画像である手画像と、オブジェクトに対して設定された第一バウンディングボックスとを含む入力画像を幾何学的画像変換することにより、幾何学的画像変換後の前記入力画像である変換後画像を生成する変換部と、
 前記変換後画像に含まれる第二バウンディングボックスを補正した第三バウンディングボックスを前記変換後画像に設定する補正部と、
 前記第三バウンディングボックスが設定された前記変換後画像を教師データとして用いる機械学習を行うことにより、前記手画像を含む判定対象画像に対して、前記製造作業の一工程を形成する複数の作業状態の各々を規定する複数のオブジェクトを出力する学習済みモデルを生成する学習部と、
 を具備する学習装置。
(2)
 前記補正部は、前記第二バウンディングボックスの四つの頂点の各々を四辺の各々に含む矩形を生成し、前記矩形の面積を前記矩形に含まれる前記手画像に基づいて縮小することにより前記第三バウンディングボックスを生成する、
 前記(1)に記載の学習装置。
(3)
 前記補正部は、前記矩形に含まれる前記手画像に対するエッジ検出を用いて前記矩形の面積を縮小する、
 前記(2)に記載の学習装置。
(4)
 前記補正部は、前記第二バウンディングボックスの外側と前記第三バウンディングボックスの内側とで囲まれる複数の領域を特定し、前記複数の領域の各々の領域内で各領域内に含まれる画素のうち閾値未満の輝度を有する画素の割合を算出し、前記複数の領域において前記割合が所定値以上となる領域が一つでも存在する前記変換後画像を前記教師データから除外する、
 前記(2)または(3)に記載の学習装置。
(5)
 前記変換部は、第一バウンディングボックスの領域が、前記入力画像の中心を中心とする円であって、前記入力画像の上辺及び下辺、または、前記入力画像の左辺及び右辺に接する前記円の領域外に存在する前記入力画像を前記幾何学的画像変換の変換対象から除外する、
 前記(1)から(4)の何れか一つに記載の学習装置。
(6)
 前記一工程の作業手順を示す作業手順書に含まれるキーワードから前記複数のオブジェクトの各クラスを設定する設定部、
 をさらに具備する前記(1)から(5)の何れか一つに記載の学習装置。
(7)
 製品の製造作業を行っている作業者の手の画像である手画像と、オブジェクトに対して設定された第一バウンディングボックスとを含む入力画像を幾何学的画像変換することにより、幾何学的画像変換後の前記入力画像である変換後画像を生成し、
 前記変換後画像に含まれる第二バウンディングボックスを補正した第三バウンディングボックスを前記変換後画像に設定し、
 前記第三バウンディングボックスが設定された前記変換後画像を教師データとして用いる機械学習を行うことにより、前記手画像を含む判定対象画像に対して、前記製造作業の一工程を形成する複数の作業状態の各々を規定する複数のオブジェクトを出力する学習済みモデルを生成する、
 学習方法。
1,2 作業管理システム
10 第一学習装置
20-1,20-2 作業管理装置
11 クラス設定部
12,16,22,28,32 記憶部
13 画像変換部
14 バウンディングボックス補正部
15 第一機械学習部
17,33 出力部
21,27 取得部
23 オブジェクト検出部
24,29 作業状態判定部
25 工程管理部
26 表示部
30 第二学習装置
31 第二機械学習部

Claims (7)

  1.  製品の製造作業を行っている作業者の手の画像である手画像と、オブジェクトに対して設定された第一バウンディングボックスとを含む入力画像を幾何学的画像変換することにより、幾何学的画像変換後の前記入力画像である変換後画像を生成する変換部と、
     前記変換後画像に含まれる第二バウンディングボックスを補正した第三バウンディングボックスを前記変換後画像に設定する補正部と、
     前記第三バウンディングボックスが設定された前記変換後画像を教師データとして用いる機械学習を行うことにより、前記手画像を含む判定対象画像に対して、前記製造作業の一工程を形成する複数の作業状態の各々を規定する複数のオブジェクトを出力する学習済みモデルを生成する学習部と、
     を具備する学習装置。
  2.  前記補正部は、前記第二バウンディングボックスの四つの頂点の各々を四辺の各々に含む矩形を生成し、前記矩形の面積を前記矩形に含まれる前記手画像に基づいて縮小することにより前記第三バウンディングボックスを生成する、
     請求項1に記載の学習装置。
  3.  前記補正部は、前記矩形に含まれる前記手画像に対するエッジ検出を用いて前記矩形の面積を縮小する、
     請求項2に記載の学習装置。
  4.  前記補正部は、前記第二バウンディングボックスの外側と前記第三バウンディングボックスの内側とで囲まれる複数の領域を特定し、前記複数の領域の各々の領域内で各領域内に含まれる画素のうち閾値未満の輝度を有する画素の割合を算出し、前記複数の領域において前記割合が所定値以上となる領域が一つでも存在する前記変換後画像を前記教師データから除外する、
     請求項2に記載の学習装置。
  5.  前記変換部は、第一バウンディングボックスの領域が、前記入力画像の中心を中心とする円であって、前記入力画像の上辺及び下辺、または、前記入力画像の左辺及び右辺に接する前記円の領域外に存在する前記入力画像を前記幾何学的画像変換の変換対象から除外する、
     請求項1に記載の学習装置。
  6.  前記一工程の作業手順を示す作業手順書に含まれるキーワードから前記複数のオブジェクトの各クラスを設定する設定部、
     をさらに具備する請求項1に記載の学習装置。
  7.  製品の製造作業を行っている作業者の手の画像である手画像と、オブジェクトに対して設定された第一バウンディングボックスとを含む入力画像を幾何学的画像変換することにより、幾何学的画像変換後の前記入力画像である変換後画像を生成し、
     前記変換後画像に含まれる第二バウンディングボックスを補正した第三バウンディングボックスを前記変換後画像に設定し、
     前記第三バウンディングボックスが設定された前記変換後画像を教師データとして用いる機械学習を行うことにより、前記手画像を含む判定対象画像に対して、前記製造作業の一工程を形成する複数の作業状態の各々を規定する複数のオブジェクトを出力する学習済みモデルを生成する、
     学習方法。
PCT/JP2020/012992 2020-03-24 2020-03-24 学習装置及び学習方法 WO2021192028A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
EP20926680.8A EP4099264B1 (en) 2020-03-24 2020-03-24 Learning device and learning method
PCT/JP2020/012992 WO2021192028A1 (ja) 2020-03-24 2020-03-24 学習装置及び学習方法
CN202080098643.8A CN115298691A (zh) 2020-03-24 2020-03-24 学习装置和学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/012992 WO2021192028A1 (ja) 2020-03-24 2020-03-24 学習装置及び学習方法

Publications (1)

Publication Number Publication Date
WO2021192028A1 true WO2021192028A1 (ja) 2021-09-30

Family

ID=77891189

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/012992 WO2021192028A1 (ja) 2020-03-24 2020-03-24 学習装置及び学習方法

Country Status (3)

Country Link
EP (1) EP4099264B1 (ja)
CN (1) CN115298691A (ja)
WO (1) WO2021192028A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116862980A (zh) * 2023-06-12 2023-10-10 上海玉贲智能科技有限公司 图像边缘的目标检测框位置优化校正方法、系统、介质及终端

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009217348A (ja) 2008-03-07 2009-09-24 Kddi Corp サポートベクトルマシンの再学習方法
JP2013161295A (ja) 2012-02-06 2013-08-19 Canon Inc ラベル付加装置、ラベル付加方法及びプログラム
JP2016062253A (ja) 2014-09-17 2016-04-25 キヤノン株式会社 オブジェクト識別装置、オブジェクト識別方法及びプログラム
JP2018022210A (ja) * 2016-08-01 2018-02-08 株式会社日立製作所 作業動作指示装置
US20180189596A1 (en) * 2017-01-03 2018-07-05 Electronics And Telecommunications Research Institute Machine learning method and apparatus

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009217348A (ja) 2008-03-07 2009-09-24 Kddi Corp サポートベクトルマシンの再学習方法
JP2013161295A (ja) 2012-02-06 2013-08-19 Canon Inc ラベル付加装置、ラベル付加方法及びプログラム
JP2016062253A (ja) 2014-09-17 2016-04-25 キヤノン株式会社 オブジェクト識別装置、オブジェクト識別方法及びプログラム
JP2018022210A (ja) * 2016-08-01 2018-02-08 株式会社日立製作所 作業動作指示装置
US20180189596A1 (en) * 2017-01-03 2018-07-05 Electronics And Telecommunications Research Institute Machine learning method and apparatus

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ANONYMOUS: "Kosaku Kiroku fun to make", 5 December 2018 (2018-12-05), pages 1 - 9, XP055953820, Retrieved from the Internet <URL:http://mukopikmin.hatenablog.com/entry/2018/12/05/002339> [retrieved on 20200831] *
See also references of EP4099264A4

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116862980A (zh) * 2023-06-12 2023-10-10 上海玉贲智能科技有限公司 图像边缘的目标检测框位置优化校正方法、系统、介质及终端
CN116862980B (zh) * 2023-06-12 2024-01-23 上海玉贲智能科技有限公司 图像边缘的目标检测框位置优化校正方法、系统、介质及终端

Also Published As

Publication number Publication date
EP4099264A4 (en) 2023-01-25
CN115298691A (zh) 2022-11-04
EP4099264A1 (en) 2022-12-07
EP4099264B1 (en) 2024-04-24

Similar Documents

Publication Publication Date Title
CN107358149B (zh) 一种人体姿态检测方法和装置
CN107507167B (zh) 一种基于点云平面轮廓匹配的货物托盘检测方法及系统
Santosh et al. Tracking multiple moving objects using gaussian mixture model
US20180307911A1 (en) Method for the semantic segmentation of an image
US7340089B2 (en) Geometric pattern matching using dynamic feature combinations
KR20190063839A (ko) 제조 공정에서 딥러닝을 활용한 머신 비전 기반 품질검사 방법 및 시스템
CN110728200A (zh) 一种基于深度学习的实时行人检测方法及系统
US20240029273A1 (en) Information processing apparatus, control method, and program
CN110176028B (zh) 一种基于事件相机的异步角点检测方法
CN110929593A (zh) 一种基于细节辨别区别的实时显著性行人检测方法
CN112906794A (zh) 一种目标检测方法、装置、存储介质及终端
CN111583183B (zh) 一种用于pcb板图像缺陷检测的数据增强方法和系统
CN114155610B (zh) 基于上半身姿态估计的面板装配关键动作识别方法
CN109034136A (zh) 图像处理方法、装置、摄像设备及存储介质
WO2021192028A1 (ja) 学習装置及び学習方法
WO2021192024A1 (ja) 作業管理装置及び作業状態判定方法
JP5100688B2 (ja) 対象物検出装置及びプログラム
CN111754502A (zh) 基于多尺度特征融合的Faster-RCNN算法检测磁芯表面缺陷的方法
EP3291179B1 (en) Image processing device, image processing method, and image processing program
CN113255555A (zh) 中国交通标志牌识别方法、系统、处理设备及存储介质
CN110738123B (zh) 识别密集陈列商品的方法及其装置
CN109657577B (zh) 一种基于熵和运动偏移量的动物检测方法
CN111881732B (zh) 一种基于svm的人脸质量评价方法
CN114638989A (zh) 一种基于目标检测和细粒度识别的故障分类可视化方法
CN113435542A (zh) 一种基于深度学习的煤矸实时检测方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20926680

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2020926680

Country of ref document: EP

Effective date: 20220903

NENP Non-entry into the national phase

Ref country code: DE

NENP Non-entry into the national phase

Ref country code: JP