WO2022030034A1 - 画像から関心オブジェクトを同定するためのモデルを生成する装置、方法及びシステム - Google Patents

画像から関心オブジェクトを同定するためのモデルを生成する装置、方法及びシステム Download PDF

Info

Publication number
WO2022030034A1
WO2022030034A1 PCT/JP2021/003754 JP2021003754W WO2022030034A1 WO 2022030034 A1 WO2022030034 A1 WO 2022030034A1 JP 2021003754 W JP2021003754 W JP 2021003754W WO 2022030034 A1 WO2022030034 A1 WO 2022030034A1
Authority
WO
WIPO (PCT)
Prior art keywords
unit
interest
quantitative
model
image
Prior art date
Application number
PCT/JP2021/003754
Other languages
English (en)
French (fr)
Inventor
アニールバン レイ
英春 服部
容弓 柿下
Original Assignee
株式会社日立ハイテク
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社日立ハイテク filed Critical 株式会社日立ハイテク
Priority to CN202180048294.3A priority Critical patent/CN115803777A/zh
Priority to EP21851950.2A priority patent/EP4195144A1/en
Publication of WO2022030034A1 publication Critical patent/WO2022030034A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]

Definitions

  • the present invention relates to the identification of an object of interest in an image.
  • Patent Document 1 discloses a technique for discovering new objects by clustering different object types in an image based on a salience score and a plurality of statistical models.
  • the main element of quantitative analysis of objects in images is to accurately identify the required objects of interest.
  • the object in the image may be an already known object of interest, an unknown object of interest, or an object other than the object of interest.
  • an image may contain many unwanted objects that are visually similar to the desired objects, as well as a large portion of the background area.
  • Patent Document 1 it is possible to find an unknown object of interest, but it cannot be classified. Identifying the type of object of interest is important for detailed quantitative analysis.
  • One aspect of the present invention is a device for generating a model for identifying an object of interest from an image, which is an input unit that receives an input image, and a region and a background region of the object of interest that receives the input image from the input unit. It includes an object segmentation unit that separates the above and a learning unit that learns the model used by the object segmentation unit.
  • the learning unit trained the new model using the training data and the output of the existing model for the training data, added the trained new model to the existing model, and trained and trained the new model. The addition of the new model to the existing model is repeated.
  • One aspect of the present invention can generate a model for identifying an object of interest from an image.
  • FIG. 1 It is a block diagram which shows the functional structure of the quantitative analysis apparatus for the object of interest in an image which concerns on Example 1.
  • FIG. It is a schematic diagram which shows the example of the hardware composition of the quantitative analysis apparatus which concerns on Example 1.
  • FIG. An example of processing by the object segmentation section is schematically shown.
  • An example of processing by the object classification unit is schematically shown.
  • An example of the processing result of the display unit is schematically shown.
  • a flowchart of an example of the method executed by the threshold value processing unit according to the first embodiment is shown.
  • An example of processing by the threshold processing unit is shown.
  • An example of the method executed by the stop point determination unit according to the first embodiment is shown.
  • the basic cooperation between the input part, the object segmentation part, and the learning part is shown.
  • FIG. 9A shows a process of discarding an unnecessary waste area by the threshold value processing unit together with the flow of FIG. 9A.
  • the stop point determination unit shows a process of automatically determining an appropriate number of iteration steps.
  • An example of a flowchart of a technique that can be used as an object classification unit according to the first embodiment is shown.
  • a flowchart of the operation of the quantitative analysis processing example by the quantitative calculation unit is shown.
  • An example will be shown in which the quantitative analysis apparatus according to the first embodiment presents quantitative information to the user by the linked operation of the object segmentation unit, the object classification unit, the quantitative calculation unit, and the display unit.
  • An example of the functional configuration of the abnormality detection system according to the second embodiment is schematically shown.
  • a hardware configuration example of the abnormality detection system according to the second embodiment is schematically shown.
  • a configuration example of an image inspection system including a quantitative analysis system according to Example 3 is schematically shown.
  • Another system configuration example according to the third embodiment is shown.
  • This device and this system may be a physical computer system (one or more physical computers), or may be a device or system built on a group of computing resources (multiple computing resources) such as a cloud platform. ..
  • a computing system or computational resource group includes one or more interface devices (including, for example, communication devices and input / output devices), one or more storage devices (including, for example, memory (main storage) and auxiliary storage devices), and one or more operations. Includes equipment.
  • the function When the function is realized by executing the program including the instruction code by the arithmetic unit, the function is at least the arithmetic unit because the defined processing is appropriately performed by using the storage device and / or the interface device and the like. It may be a part.
  • the process described with the function as the subject may be a process performed by an arithmetic unit or a system having the arithmetic unit.
  • the program may be installed from the program source.
  • the program source may be, for example, a program distribution computer or a computer-readable storage medium (eg, a computer-readable non-transient storage medium).
  • the description of each function is an example, and a plurality of functions may be combined into one function, or one function may be divided into a plurality of functions.
  • the image of interest in the present invention is composed of objects of interest, and the user needs to inspect the object of interest in the image or the characteristics of the entire or partial image of the image of interest.
  • an image is not limited to only the objects that are needed, but may include objects that are not of interest or that are not needed for inspection.
  • the unknown or known objects referred to herein can have any shape, color or texture attribute.
  • the objects referred to herein may lack any natural color and may not be observable by naked eye examination.
  • a person can easily detect a known object.
  • automatic processing is required to process thousands to millions of images in a short time. Therefore, in order to automate this process, it is necessary to detect necessary objects in the image and discard unnecessary objects and parts in the image. From that point of view, one embodiment of the specification described below makes it possible to detect necessary foreground objects and discard unwanted objects that are not of interest.
  • the learning department helps the object segmentation department learn about new unknown object groups.
  • the threshold processing unit helps the learning unit discard unnecessary objects from the learning data.
  • the stop point determination unit determines the number of steps (number of repetitions) required for the learning unit to learn about a new unknown object.
  • the object classifier divides the objects of interest into each class category of known objects and each group of unknown objects. After that, the quantitative calculation unit performs an accurate quantitative analysis of the object, and finally, the display unit presents the necessary quantitative information to the user.
  • the input unit is a functional unit that receives the input image in the quantitative analyzer.
  • the input image is sent to the object segmentation unit and is subject to further processing by the quantitative analyzer.
  • the image including the object of interest and the unnecessary object is first sent to the object segmentation unit.
  • the object segmentation section is a functional section that can distinguish necessary objects from unnecessary objects based on preset rules.
  • the rules for segmentation are obtained from the learning department.
  • the learning unit learns to separate (segmentation) an object as a foreground and another object as a background.
  • the thresholding unit helps the learning unit discard unwanted, uninterested objects that are detected as backgrounds.
  • the learning unit learns segmentation by repeatedly using the data a plurality of times.
  • the stop point determination unit determines the optimum number of steps required by the learning unit.
  • the rules in segmentation can be coded in the object segmentation section.
  • the object segmentation section can have any configuration to identify the required foreground object.
  • the object segmentation section can be configured, for example, with a neural network, using the image / label pair if the label is available, and the label itself generated if the actual image and label are not available. It is trained (learned) and can accurately detect foreground objects.
  • the object segmentation section can use other methods to generate the foreground area as well.
  • FIG. 1 is a block diagram showing a functional configuration of the quantitative analysis device 1 for an object of interest in an image according to the first embodiment.
  • the quantitative analysis device 1 includes an input unit 10, an object segmentation unit 11, a threshold processing unit 13, a learning unit 12, a stop point determination unit 14, an object classification unit 15, a quantitative calculation unit 16, and a display unit 17. , A storage unit 90, and a control unit 91.
  • each functional unit of the quantitative analysis device 1 shown in FIG. 1 can be realized by various hardware, software or a combination thereof, and can be realized by one or a plurality of information processing devices such as a personal computer or a server, for example. can.
  • the input unit 10 acquires an input image to be processed by the quantitative analysis device 1 from the outside.
  • the data is obtained by an arbitrary image imaging device (not shown) and is given to the input unit 10 as an input image. Further, an image taken by a camera obtained via an information communication network or a recording medium (not shown) can be used as an input image.
  • the input image may be a still image, or a frame in a moving image may be extracted to generate an input image.
  • As the data format of the still image for example, JPEG, JPEG2000, PNG, BMP and the like can be used.
  • MotionJPEG, MPEG, H.M. 246, HD / SDI, etc. can be used.
  • the object segmentation unit 11 separates a necessary foreground area from an unnecessary area by dividing the image into a foreground area including an object and a background area.
  • the threshold processing unit 13 helps the learning unit 12 to discard unnecessary and uninteresting objects detected as the background.
  • the image may contain objects of interest, and the image may also contain unwanted objects.
  • the threshold processing unit 13 prevents the learning unit 12 from learning an unnecessary object as a foreground object.
  • the learning unit 12 learns (trains) a new model for the object segmentation unit 11.
  • the learning unit 12 learns a new type of unknown object together with the known object, and the object segmentation unit 11 makes the object of interest in the image separable from other objects.
  • the learning unit 12 receives the input image and iteratively learns about the unknown object of interest in the image.
  • the stop point determination unit 14 determines the optimum number of iterations required for the learning unit 12 to learn about an object of unknown interest in an image.
  • the object classification unit 15 classifies the foreground area of the original image into groups of known objects and unknown objects for quantitative analysis based on the foreground area by the object segmentation unit 11.
  • the quantitative calculation unit 16 calculates necessary quantitative information about the object identified as the foreground.
  • Quantitative information can be various types of information, such as, but not limited to, numbers or ratios.
  • the storage unit 90 stores the input, output, and intermediate results of each component in the quantitative analysis device 1.
  • the control unit 91 is connected to each of the above-mentioned components of the quantitative analysis device 1 and controls the operation of those components. In another example, each component may operate automatically as needed without being controlled by the control unit 91.
  • FIG. 2 is a schematic diagram showing an example of the hardware configuration of the quantitative analyzer 1 according to the first embodiment.
  • the quantitative analysis device 1 includes, in one example, a CPU 201, a memory 202, a storage device 206, an output device 203, an input device 204, a communication device 205, and a bus 207 that connects components to each other.
  • the number of these components may be two or more.
  • the CPU 201 is a processor, reads various programs from the memory 202 as necessary, and executes processing according to the programs.
  • Each function configuration including the input unit 10, the object segmentation unit 11, the threshold value processing unit 13, the learning unit 12, the stop point determination unit 14, the object classification unit 15, the quantitative calculation unit 16, the display unit 17, and the control unit 91 shown in FIG.
  • the element can be realized, for example, by the CPU 201 that executes the process.
  • the storage device 206 stores various data used in the quantitative analysis device 1, and can mount the storage unit 90 described with reference to FIG.
  • the storage device 206 stores an input image, an object, a learned model for each iteration of learning by the learning unit, a classification image for each class, and the like as described above.
  • the output device 203 outputs an object segmentation image (object separation image), a classification object image, necessary quantitative information about the object, etc., and is composed of a display device, a printer, a speaker, and the like. For example, when the display device is used as the output device 203, the segmentation image generated by the object segmentation unit 11, the classification object image by the object classification unit 15, and the necessary quantitative information about the object by the quantitative calculation unit 16 are displayed. Displayed on the screen of the device.
  • the input device 204 is a device for the user to input instructions and the like, and is composed of a keyboard, a mouse, a microphone and the like.
  • the input image to be processed in the quantitative analysis device 1 is determined via the input device 204 together with an instruction by the user.
  • the communication device 205 is a device for communicating with another device.
  • the communication device 205 can be used to receive input images transferred from the image pickup device, and can send and receive various data to and from a server connected via a network.
  • an externally mounted communication device 205 may be connected to the quantitative analysis device 1.
  • FIG. 3 schematically shows an example of processing by the object segmentation unit 11.
  • the image C is an example of an input image and has an image background R1002, a foreground object R1003, and another unnecessary object R1004.
  • each of the foreground object and the unnecessary object is indicated by the reference numerals R1003 and R1004.
  • the image CA shows an example of an input image after being converted into a foreground area (object) R2001 and a background area R2002 (segmentation) by the object segmentation unit 11.
  • object foreground area
  • background area R2002 background area
  • One of the foreground objects is designated by reference numeral R2001.
  • the image CA after segmentation (separation) obtained by the object segmentation unit 11 is stored in the storage unit 90.
  • FIG. 4 schematically shows an example of processing by the object classification unit 15.
  • the image CA shows an example of an image separated (segmented) into a background region R2002 and a foreground object R2001 by the object segmentation unit 11.
  • the image CB shows an example of an input image after object classification.
  • the reference numerals R4001, R4002, and R4003 indicate objects of different classes classified by the object classification unit 15.
  • one object in each of the different classes is designated by the reference numerals R4001, R4002, and R4003.
  • the image CB after classification obtained by the object classification unit 15 is stored in the storage unit 90.
  • FIG. 5 schematically shows an example of the processing result of the display unit 17.
  • the display unit 17 receives information and an output image from the object classification unit 15 and presents them to the user in a predetermined image format DS1. For example, a pattern showing a class is superimposed on an actual object image OV1 and presented together with quantitative information QN1 such as a number and a ratio.
  • the input image received by the input unit 10 may include unnecessary objects and general image backgrounds as well as objects of interest.
  • the object segmentation unit 11 converts the input image into a necessary background and foreground area.
  • the object segmentation unit 11 receives the image C which is the output of the input unit 10 and executes the process to generate the image CA after the segmentation. For example, a common method of segmentation can be performed using a convolutional neural network.
  • An example of the object segmentation unit 11 can use a convolutional neural network and performs conventional convolutional processing or a well-known full convolutional operation with the foreground region R2001 as shown in the image CA.
  • a segmentation image with a background region R2002 is generated.
  • any technique can be used to generate similar segmentation images.
  • the learning unit 12 is activated when the user needs learning about new data (training data).
  • the new data can contain both unknown and known types of objects.
  • the task of the learning unit 12 is to generate a new model for the object segmentation unit 11 by discovering a new object of unknown interest in a given data.
  • the learning unit 12 receives an input image from the input unit 10 together with a label of a known class.
  • An example of the learning unit 12 can use a convolutional neural network, which performs conventional convolutional processing or well-known full convolutional processing with the foreground region R2001 as shown in the image CA. A separated image having a background region R2002 is generated.
  • the learning unit 12 also generates a candidate area for an unknown object of interest in each iteration.
  • the candidate region gradually increases as the learning unit 12 repeats a plurality of iterations for a given data.
  • the learning unit 12 uses the information of the known object to detect the similarity of the pattern in other unknown objects.
  • the threshold processing unit 13 described below can be used.
  • the threshold processing unit 13 can be activated when the learning unit 12 is activated, for example, when the user needs learning about new data.
  • the new data may include objects of known and unknown object types.
  • the threshold value processing unit 13 is used so that erroneous learning is not performed in the learning unit 12 because the unnecessary object becomes an object of interest.
  • the learning unit 12 In order for the learning unit 12 to learn to correctly detect the area of the new unknown interest object, it is important that the learning unit 12 can correctly distinguish between the unknown interest object and the unnecessary object in the image data. However, during the iterative training in learning unit 12, there is no teacher (label) available for unknown objects, so unwanted objects may be detected. In order to prevent this, a threshold processing method is used, and unnecessary objects are discarded in the learning unit 12.
  • FIG. 6 shows a flowchart of an example of the method executed by the threshold value processing unit 13 according to the first embodiment.
  • Step T1 The object segmentation unit 11 calculates a segmentation score for each pixel in the image. Pixels are classified as foreground or background based on the segmentation score.
  • the threshold processing unit 13 receives the output of the object segmentation unit 11 and determines the segmentation score for each pixel of the known object.
  • Step T2 The threshold processing unit 13 calculates a histogram of the segmentation scores of all the pixels of the known object.
  • Step T3 The threshold processing unit 13 determines an appropriate segmentation score as a pixel of a known object based on the generated histogram.
  • Step T4 Unwanted objects and interested objects share some, but not all, features of known classes, so unwanted objects can sometimes be detected as objects of interest. Therefore, the segmentation score value of the unwanted pixel detected as the foreground is smaller than the above-mentioned appropriate value of the foreground pixel of the true object of interest. This information can be used to ignore pixels whose segmentation score value is less than the appropriate value for the foreground pixel of the true object of interest during training of the segmentation model in learning unit 12.
  • FIG. 7 shows an example of processing by the threshold value processing unit 13.
  • the image CA shows an example of the output of the object segmentation unit 11, and includes a background area R2002, a plurality of foreground objects R2001, and a plurality of other unnecessary objects R2003.
  • the image CT shows an example of the output of the threshold value processing unit 13, and the unnecessary object (area) R2003 is deleted.
  • the image CT can be used as an accurate label for training the model in the learning unit 12. Both the image CA and the image CT are stored in the storage unit 90.
  • the stop point determination unit 14 may be activated when the learning unit 12 is activated. For example, it is activated when the user needs to learn about new data by the device. The stop point determination unit 14 determines an appropriate number of iteration steps required for the learning unit 12 to properly learn all new unknown objects in the data.
  • the stop point determination unit 14 is used to determine an appropriate stop point.
  • the stop point determination unit 14 can determine the stop point of the learning unit 12 by using the information of the detection accuracy of the background region and the detection accuracy of the foreground (object of interest) region.
  • the detection accuracy of the background or the foreground can be expressed, for example, by the ratio of determining the known background pixel or the known foreground pixel as the background or the foreground.
  • FIG. 8 shows an example of a method executed by the stop point determination unit 14 according to the first embodiment.
  • the accuracy output by one model or the moving average value of the accuracy output by a plurality of models may be used.
  • the stop point determination unit 14 calculates the accuracy of the evaluation data from the learning unit 12.
  • the evaluation data can include known objects in the foreground region, known background regions, and unknown regions.
  • Step S1 If the accuracy of the estimation of the new model for the foreground region of the known object in the evaluation data is increased and AFt> AFt-1, the stop point determination unit 14 proceeds to step S2, otherwise step S4. Proceed to.
  • Step S2 If the accuracy of the new model for the known background region ABt of the evaluation data is increased and ABt> ABt-1, the stop point determination unit 14 proceeds to step S5, otherwise proceeds to step S3.
  • Step S3 If the accuracy of the evaluation data for the known background area of the new model is reduced and ABt ⁇ ABt-1, the stop point determination unit 14 determines whether the accuracy of the background is within the permissible level Ba. To check. If ABt> Ba (within the permissible level), the stop point determination unit 14 proceeds to step S5, otherwise proceeds to step S4. As a result, the detection accuracy of the foreground region can be improved, and a desired level of background detection accuracy can be obtained.
  • the tolerance level is preset by the user, for example.
  • Step S4 End the iteration.
  • Step S5 Repeat the following:
  • FIGS. 9A to 9C show three examples of processing flows in which the different functional units work together to repeatedly detect areas of unknown and known objects.
  • the quantitative analyzer 1 can perform these flows individually, and can omit the functional unit unnecessary for executing each flow.
  • FIG. 9A shows the basic cooperation between the input unit 10, the object segmentation unit 11, and the learning unit 12.
  • FIG. 9B is an example in which a process of discarding an unnecessary waste area by the threshold value processing unit 13 is added to FIG. 9A.
  • FIG. 9C is an example in which a process of automatically determining an appropriate number of repetition steps by the stop point determination unit 14 is added to FIG. 9B.
  • the goal is to add the newly generated label from the training to the existing segmentation label as the starting segmentation label only for the information of the known object so that it can be used to train the model in the next iterative step. That is.
  • Step UD1 The object segmentation unit 11 receives new data from the input unit 10 and outputs the segmentation result as a provisional foreground and background segmentation label.
  • the provisional label is based on the output of the past model and can change depending on the newly discovered foreground interest region of the model generated in the next and subsequent iterations.
  • Step UD2 The learning unit 12 trains the new segmentation model M using the segmentation label.
  • Step UD3 The object segmentation unit 11 receives the new model M from the learning unit 12 and adds it to the existing model. In this way, the models held by the object segmentation unit 11 are accumulated with iteration, and the models that can be used for the segmentation in step UD1 can be increased. Step UD4 If more iterations are needed based on the user request or a predetermined total number of iterations required, the flow returns to step UD1.
  • This configuration further includes the processing of the threshold value processing unit 13 with respect to the basic configuration shown in FIG. 9A.
  • Step UDT1 The object segmentation unit 11 receives new data from the input unit 10 and outputs a segmentation result based on the output of one or more existing models (for example, all existing models).
  • Step UDT2 The threshold processing unit 13 receives the output from the object segmentation unit 11 and executes the threshold processing of the pixels of the segmentation label as described above according to the preset policy of the threshold processing unit 13.
  • the threshold processing unit 13 generates a provisional foreground and background segmentation label.
  • the provisional label can be based on the output of the existing model of the object segmentation unit 11 and can be changed in subsequent iterations based on the newly discovered foreground area of interest in the next model.
  • Step UDT3 The learning unit 12 receives the output of the threshold processing unit 13 and trains a new segmentation model M using the segmentation label.
  • Step UDT4 The object segmentation unit 11 adds a new model M acquired from the learning unit 12 to the existing model. In this way, the model of the object segmentation unit 11 is accumulated. In step UDT 1, the object segmentation unit 11 outputs the segmentation result using the accumulated model.
  • Step UDT5 The flow returns to step UDT1 if more iterations are needed, otherwise it ends.
  • FIG. 9C describes an example of the cooperative operation of the object segmentation unit 11, the learning unit 12, the threshold value processing unit 13, and the stop point determination unit 14 when learning of a new unknown object is required according to the first embodiment.
  • This configuration further includes the processing of the stop point determination unit 14 with respect to the basic configuration shown in FIG. 9B.
  • Step UDTS1 The object segmentation unit 11 receives new data from the input unit 10 and outputs a segmentation result based on the output of one or more existing models (for example, all existing models).
  • Step UDTS2 The threshold processing unit 13 receives the output from the object segmentation unit 11 and executes the threshold processing of the pixels of the segmentation label as described above according to the preset policy of the threshold processing unit 13.
  • the threshold processing unit 13 generates a provisional foreground and background segmentation label.
  • the provisional label can be based on the output of the existing model of the object segmentation unit 11 and can be changed in subsequent iterations based on the newly discovered foreground area of interest in the next model.
  • Step UDTS3 The learning unit 12 receives the output of the threshold processing unit 13 and trains a new segmentation model M using a known segmentation label.
  • Step UDTS4 The stop point determination unit 14 evaluates the new model M.
  • Step UDTS5 The stop point determination unit 14 then determines whether or not the iteration is necessary, as described with reference to FIG. If the output of the stop point determination unit 14 requires the next iteration, the flow proceeds to step UDTS1. If not, the process proceeds to step UDTS6. Step UDTS6 The object segmentation unit 11 adds a new model M acquired from the learning unit 12 to the existing model.
  • the object classifier 15 includes a classifier (eg, a convolutional neural network that classifies object types using convolutional output values) and classifies the separated foreground areas into known object classes and unknown object groups.
  • a classifier eg, a convolutional neural network that classifies object types using convolutional output values
  • the classification model is composed of a feature quantity extraction unit and an identification unit.
  • the classification model is composed of a plurality of layers of convolutional neural networks, and the final layer is used as an identification unit and the other layers are used as a feature quantity extraction unit.
  • the feature amount extraction unit and the identification unit are trained so that the output of the identification unit classifies the known object class.
  • the output of this identification unit represents the type (class) of known objects, but unknown object groups cannot be classified. Therefore, the known object class and the unknown object group are classified by performing clustering using the output of the feature amount extraction unit.
  • images of two objects are input to the feature amount extraction unit, and feature quantity vectors obtained are compared, and if the similarity degree such as cosine similarity is above a certain level, it is determined to be the same class.
  • This threshold value may be predetermined by the user, or may be automatically calculated by the device based on the similarity between known object classes.
  • Euclidean distance, Manhattan distance, etc. may be used as an index of the similarity of the feature quantity vector, and unsupervised learning such as a self-organizing map, EM algorithm, etc. may be used as a clustering method. May be good.
  • a machine learning method other than the convolutional neural network may be used, or a handcraft feature amount such as HOG or SIFT may be used.
  • the result of machine learning for a classifier may be used by using the result of clustering as described above as a teacher.
  • FIG. 10 relates to the first embodiment.
  • An example of a flowchart of a technique that can be used as the object classification unit 15 is shown.
  • the object segmentation unit 11 receives input data from the input unit 10 and outputs to the object classification unit 15 an image CA after performing segmentation processing using one or more models held, for example, all models. ..
  • Step CON1 The foreground area of the image CA is divided into a plurality of patches that can be input to the classifier of the object classification unit 15.
  • the patch size depends on the memory capacity of the device.
  • Step CON2 The object classification unit 15 selects one new patch from the plurality of patches generated in step CON1.
  • Step CON3 The object classification unit 15 inputs the patch selected in step CON2 to the classifier, and the classifier knows the foreground area of the original image from the input unit 10 based on the foreground area from the object segmentation unit 11. Classify as object type or unknown object type. Unknown objects can be classified as each object type based on the classifier output values from the convolutional neural network (eg, convolutional output values).
  • Step CON4 The object classification unit 15 checks whether all the patches have been classified, and if so, proceeds to step CON5, and if not, returns to step CON2.
  • Step CON5 The object classification unit 15 arranges the classified patches and stores them in the storage device 206 as an image CB.
  • the quantitative calculation unit 16 calculates the quantitative information of the classified foreground object R2001 in the image CB. Quantitative information can also be used as special information for another task, as shown, for example, in Example 2 and Example 3.
  • FIG. 11 shows a flowchart of the operation of the quantitative processing example by the quantitative calculation unit 16.
  • the calculated quantitative information is the total number of objects obtained by counting the detected objects and the ratio of the objects of interest in the input image CB.
  • Step Q1 The quantitative calculation unit 16 receives the image CB which is the output of the object classification unit 15 and selects one of the combined foreground regions.
  • Step Q2 The quantitative calculation unit 16 determines the class of the region based on the image CB which is the classification result of the object classification unit 15, and increments the counter of the specific known class or unknown group by one unit.
  • Step Q3 The quantitative calculation unit 16 determines whether all the foreground regions in the image CB have been counted. If YES, the process proceeds to step Q4, and if not, the process returns to step Q1. Step Q4 The quantitative calculation unit 16 summarizes the total count number for each class. Step Q5 The quantitative calculation unit 16 calculates the ratio of each class.
  • Quantitative information in steps Q4 and Q5 is output and stored in the storage device 206. Quantitative information can also be displayed using the display device in the output device 203.
  • the quantitative information in the above example is the number of objects and their ratio. This information can be used to analyze the sample in a variety of ways.
  • Display unit 17 presents the output of the quantitative calculation unit 16 to the user.
  • the scheduled information includes, for example, the ratio of known objects to unknown object groups.
  • the output of the display unit 17 can be superimposed on the input image, and the superimposed information indicates, for example, an object belonging to a known class and an unknown group.
  • FIG. 12 shows, when the quantitative analyzer 1 according to the first embodiment needs to present quantitative information to the user, for example, in the estimation phase, the object segmentation unit 11 and the object classification unit 15 according to the first embodiment.
  • An example of the linked operation of the quantitative calculation unit 16 and the display unit 17 is shown.
  • Step IN1 The object segmentation unit 11 receives new data from the input unit 10 and outputs a segmentation result based on the output of one or more existing models (for example, all existing models).
  • Step IN2 The object classification unit 15 receives the output of the object segmentation unit 11 and classifies the objects of interest into one or more known object types and one or more unknown object groups.
  • Step IN3 The quantitative calculation unit 16 receives the output from the object classification unit 15 and generates necessary quantitative information.
  • Step IN4 The display unit 17 receives the quantitative information from the quantitative calculation unit 16 and displays the quantitative information to the user.
  • the input image from the input unit 10 is converted into an image representing the foreground interest object area and the background area. Further, the foreground region is classified using the object classification unit 15, and the accurate class category of each known object and one or more unknown object groups can be determined with high accuracy.
  • Quantitative information from the classified images is, for example, the number of objects, the object ratio, etc., and is obtained from the quantitative calculation unit 16. Further, the results of the quantitative information and the qualitative information can be presented to the user together with the input image by the display unit 17. The user can use the presented information to study the characteristics of the detected objects and their co-occurrence patterns, and from these results can determine the symptom of the detected object.
  • the quantitative analyzer 1 includes an input unit 10 and an object segmentation unit 11.
  • the input unit 10 receives an image from, for example, an image pickup device, and outputs the image to the object segmentation unit 11.
  • the object segmentation unit 11 can efficiently and accurately represent the foreground area including the necessary background area and the object of interest from the input image.
  • the quantitative analyzer 1 further includes a learning unit 12 and can be used to learn a new unknown object group from the data.
  • the output from the learning unit 12 is a new segmentation model that can be used by the object segmentation unit 11.
  • the learning unit 12 can cumulatively use the data repeatedly to detect an unknown object area. Using the model from the learning unit 12, the object segmentation unit 11 can detect a new unknown object.
  • the quantitative analyzer 1 further includes a threshold value processing unit 13.
  • the threshold processing unit 13 can prevent the learning unit 12 from detecting an unnecessary object as an object in the region of interest. By using the threshold processing unit 13, it is possible to help the learning unit 12 to generate a high-precision model, and the object segmentation unit 11 uses the model to increase the height of known objects and unknown object groups and the background area. It can be accurately separated (segmentation).
  • the quantitative analysis device 1 further includes a stop point determination unit 14 and can determine the optimum number of iterations in the learning unit 12.
  • the learning unit 12 learns a new unknown object in an iterative manner. Therefore, it is important to determine the optimum number of iterations for the optimum operation of the learning unit 12.
  • the stop point determination unit 14 uses the data of the learning unit 12 to determine the stop point of the iteration in the learning unit 12 based on a predetermined quality policy.
  • the quantitative analyzer 1 further includes an object classification unit 15 and can efficiently and accurately classify objects into known class categories and unknown object groups.
  • an object classification unit 15 can efficiently and accurately classify objects into known class categories and unknown object groups.
  • a common convolutional neural network can be optimized for this task.
  • the convolutional neural network is an image feature capture model that does not require manual training, can automatically learn features from images, and can group unknown objects based on a given classification score.
  • the quantitative analysis device 1 further includes a quantitative calculation unit 16 and can efficiently and accurately calculate quantitative information about the foreground object. As an example, as described above, the number of objects for each class is calculated, and further, the object ratio is calculated.
  • the quantitative analysis device 1 further includes a display unit 17 and can present the output of the quantitative calculation unit 16 to the user.
  • the information presented can include, for example, the ratio of known and unknown object groups.
  • the output of the display unit 17 can be superimposed on the input image, and the information can indicate, for example, an object belonging to a known class and an unknown group.
  • the input unit 10 the object segmentation unit 11, the learning unit 12, the threshold value processing unit 13, and the stop point determination unit 14 can be mounted on a device or system different from the quantitative analysis device, and can be used for designing the device or system.
  • the threshold value processing unit 13, the stop point determination unit 14, and the like may be omitted.
  • the anomaly detection system A1 determines an object of interest in an unknown group classified by the object classification unit 15 as an anomaly object.
  • the abnormality detection system A1 can present the information of the detected abnormality object to the user by superimposing the highlighting on the input image via the display unit 17.
  • FIG. 13 schematically shows a functional configuration example of the abnormality detection system A1 according to the second embodiment.
  • the abnormality detection system A1 has a configuration in which the quantitative calculation unit 16 is removed from the components of the quantitative analysis device 1 as shown in FIG. Further, in the abnormality detection system A1, the display unit 17 can present information about the detected abnormality object to the user by superimposing the highlighting area on the input image.
  • FIG. 14 schematically shows a hardware configuration example of the abnormality detection system A1 according to the second embodiment.
  • the abnormality detection system A1 can have the same hardware configuration as the quantitative analyzer 1.
  • the CPU 201 does not function as the quantitative calculation unit 16.
  • FIG. 15 schematically shows a configuration example of the image inspection system W1 including the quantitative analysis device 1 according to the third embodiment. It may be necessary for the quantitative analyzer 1 to provide quantitative information within the image inspection system W1 and to provide quantitative information for a series of images captured at different time frames.
  • the image inspection system W1 can include an image pickup device W11, and the image pickup device W11 can obtain a series of image frame data of an object, for example, motion JPEG, MPEG, H.I. It can be imaged in 264 or HD / SDI format. For example, an RGB camera or any type of camera or imaging device can be used.
  • the image inspection system W1 can include the quantitative analysis device 1 according to the first embodiment, and the quantitative analysis device 1 generates quantitative information about an object in a series of images.
  • the image inspection system W1 can include an unknown sample analyzer W12.
  • the unknown sample analyzer W12 can be used to analyze the characteristics of an object from the quantitative information of the unknown sample.
  • the image inspection system W1 can include a display device W13.
  • the display device W13 can present information about the analysis result of the unknown sample analysis device W12 based on the quantitative information of the sample obtained from the quantitative analysis device 1.
  • the image inspection system W1 can capture a series of images in the image pickup device W11, and can acquire quantitative information about input images in different time frames via the quantitative analysis device 1.
  • the unknown sample analyzer W12 can present the analysis result of the change in the quantitative information of the sample in a predetermined period.
  • the image inspection system W1 can acquire a series of image pairs simultaneously or separately.
  • the image pair is, for example, a pair of an image captured at time t1 and an image captured at time t2, an image of a sample to which some external intervention method is applied, and an image of a sample to which the intervention method is not applied. It is a pair etc.
  • the image inspection system W1 calculates the quantitative information of the input image pair.
  • the unknown sample analyzer W12 can analyze changes in quantitative information for, for example, a sample to which an external intervention method is applied and a sample to which the external intervention method is not applied.
  • the output of the analysis result of the unknown sample analyzer W12 can be presented to the user by the display device W13.
  • the user can examine the output of the display device W13 and know the effect of the intervention method on the sample in a single time frame or a predetermined period. For example, for a material, if the discovered unknown object is a magnetic particle of a different physical characteristic, the pattern or diameter is in a normal state, or in a cluster when an intervention method such as heat or pressure is applied. It may reveal the behavior of magnetic particles.
  • FIG. 16 shows another example of the third embodiment, and the quantitative analyzer 1 is mounted in the server W3.
  • the server W3 acquires an input image from the image pickup device W11 of the image inspection system W2 via the communication device W22 of the image inspection system W2 in the communication device W32 of the server W3.
  • the server W3 stores the acquired image in the storage device W31.
  • the communication device W32 transmits the image received from the storage device W31 to the quantitative analysis device 1 according to the first and third embodiments.
  • the quantitative analysis device 1 in the server W3 calculates quantitative information about the objects in the image according to Examples 1 and 3, and transmits the quantitative information to the image inspection system W2 via the communication devices W32 and W22.
  • the information received by the communication device W22 of the image inspection system W2 is input to the unknown sample analyzer W12.
  • the unknown sample analyzer W12 analyzes the characteristics from the quantitative information about the target object. For example, if the input image is magnetic particles, a quantitative analysis of the magnetic particle density may reveal the characteristics of the magnetic particles in the sample.
  • the analysis result is input to the display device W13 for presentation to the user.
  • the display device W13 can present information about the object in the image and the analysis result of the unknown sample analyzer W12. The user can draw various conclusions by referring to the display result. For example, you can check the quality of the sample.
  • the display device may be either a stationary type or a portable type.
  • the present invention is not limited to the above-described embodiment, but includes various modifications.
  • the above-described embodiment has been described in detail in order to explain the present invention in an easy-to-understand manner, and is not necessarily limited to the one including all the configurations described.
  • it is possible to replace a part of the configuration of one embodiment with the configuration of another embodiment and it is also possible to add the configuration of another embodiment to the configuration of one embodiment.
  • each of the above configurations, functions, processing units, etc. may be realized by hardware, for example, by designing a part or all of them with an integrated circuit. Further, each of the above configurations, functions, and the like may be realized by software by the arithmetic unit interpreting and executing a program that realizes each function. Information such as programs, tables, and files that realize each function can be placed in a memory, a hard disk, a recording device such as an SSD (Solid State Drive), or a recording medium such as an IC card or an SD card.
  • SSD Solid State Drive
  • control lines and information lines indicate what is considered necessary for explanation, and not all control lines and information lines are shown in the product. In practice, it can be considered that almost all configurations are interconnected.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Image Analysis (AREA)

Abstract

画像から関心オブジェクトを同定するためのモデルを生成する装置が開示される。装置は、入力画像を受け付ける入力部と、入力部から入力画像を受け付けて関心オブジェクトの領域と背景領域とを分離するオブジェクトセグメンテーション部と、オブジェクトセグメンテーション部が使用するモデルを学習する学習部と、を含む。学習部は、訓練データと訓練データに対する既存モデルの出力とを使用して、新しいモデルの訓練を行い、訓練した新しいモデルを既存モデルへ追加し、新しいモデルの訓練及び訓練した新しいモデルの既存モデルへの追加を繰り返す。

Description

画像から関心オブジェクトを同定するためのモデルを生成する装置、方法及びシステム 参照による取り込み
 本出願は、2020年8月4日に出願された日本出願である特願2020-132371の優先権を主張し、その内容を参照することにより、本出願に取り込む。
 本発明は、画像内の関心オブジェクトの同定に関する。
 近年、画像又は他のビジュアルメディアにおける未知のオブジェクトの検出のための提案がなされている。例えば、特許文献1は、画像において異なるオブジェクトタイプをsaliencyスコアと複数の統計モデルに基づいてクラスタリングにすることによって、新たなオブジェクトを発見する技術を開示している。
米国特許第9224071号
 画像におけるオブジェクトの定量分析の主要な要素は、必要な関心オブジェクトを正確に識別することである。画像内のオブジェクトは、既に知られた関心オブジェクトであることもあれば、未知の関心オブジェクトであることもあり、また、関心オブジェクト以外のオブジェクトである場合もある。例えば、画像は多くの部分を占める背景領域と共に、必要なオブジェクトに視覚的に類似する多くの不要なオブジェクトを含み得る。定量分析のために画像内の必要な部分を取得するためには、必要な前景を画像から分離し、詳細な定量分析のために分類することが必要である。しかし、特許文献1は、未知の関心オブジェクトを発見することは可能だが分類することはできない。関心オブジェクトの種類を同定することは詳細な定量分析のために重要である。
 本発明の一態様は、画像から関心オブジェクトを同定するためのモデルを生成する装置であって、入力画像を受け付ける入力部と、前記入力部から前記入力画像を受け付けて関心オブジェクトの領域と背景領域とを分離するオブジェクトセグメンテーション部と、前記オブジェクトセグメンテーション部が使用するモデルを学習する学習部と、を含む。前記学習部は、訓練データと前記訓練データに対する既存モデルの出力とを使用して、新しいモデルの訓練を行い、訓練した前記新しいモデルを前記既存モデルへ追加し、前記新しいモデルの訓練及び訓練した前記新しいモデルの前記既存モデルへの追加を繰り返す。
 本発明の一態様は、画像から関心オブジェクトを同定するモデルを生成できる。
実施例1に係る、画像における関心オブジェクトのための定量分析装置の機能構成を示すブロック図である。 実施例1に係る定量分析装置のハードウェア構成の例を示す模式図である。 オブジェクトセグメンテーション部による処理の例を模式的に示す。 オブジェクト分類部による処理の例を模式的に示す。 表示部の処理結果の例を模式的に示す。 実施例1に係る閾値処理部により実行される方法の例のフローチャート示す。 閾値処理部による処理の例を示す。 実施例1に係る、停止点判定部が実行する方法の例を示す。 入力部、オブジェクトセグメンテーション部及び学習部の基本的な連携を示す。 図9Aのフローと共に閾値処理部が不要なごみ領域を破棄する処理を示す。 図9Bのフローと共に、停止点判定部が、反復ステップの適切回数を自動的に判定する処理を示す。 実施例1に係る、オブジェクト分類部として使用できる技術のフローチャート例を示す。 定量演算部による定量解析処理例の動作のフローチャートを示す。 実施例1に係る定量分析装置が、オブジェクトセグメンテーション部、オブジェクト分類部、定量演算部及び表示部の連係動作により定量的情報をユーザに提示する例を、示す。 実施例2に係る、異常検出システムの機能構成例を模式的に示す。 実施例2に係る、異常検出システムのハードウェア構成例を模式的に示す。 実施例3に係る、定量分析システムを含む画像検査システムの構成例を模式的に示す。 実施例3に係る他のシステム構成例を示す。
 以下、本発明の実施形態について図面を用いて詳細に説明する。便宜上その必要があるときは、複数のセクションまたは実施例に分割して説明するが、特に明示した場合を除き、それらは互いに無関係なものではなく、一方は他方の一部または全部の変形例、詳細、補足説明等の関係にある。また、以下において、要素の数等(個数、数値、量、範囲等を含む)に言及する場合、特に明示した場合及び原理的に明らかに特定の数に限定される場合等を除き、その特定の数に限定されるものではなく、特定の数以上でも以下でもよい。
 本装置及び本システムは、物理的な計算機システム(一つ以上の物理的な計算機)でもよいし、クラウド基盤のような計算リソース群(複数の計算リソース)上に構築された装置あるいはシステムでもよい。計算機システムあるいは計算リソース群は、1以上のインタフェース装置(例えば通信装置及び入出力装置を含む)、1以上の記憶装置(例えば、メモリ(主記憶)及び補助記憶装置を含む)及び1以上の演算装置を含む。
 命令コードを含むプログラムが演算装置によって実行されることで機能が実現される場合、定められた処理が、適宜に記憶装置及び/またはインタフェース装置等を用いながら行われるため、機能は演算装置の少なくとも一部とされてもよい。機能を主語として説明された処理は、演算装置あるいはその演算装置を有するシステムが行う処理としてもよい。プログラムは、プログラムソースからインストールされてもよい。プログラムソースは、例えば、プログラム配布計算機または計算機が読み取り可能な記憶媒体(例えば計算機読み取り可能な非一過性記憶媒体)であってもよい。各機能の説明は一例であり、複数の機能が一つの機能にまとめられたり、一つの機能が複数の機能に分割されたりしてもよい。
[概略]
 まず、本実施形態の概略を説明する。本発明で対象とする画像は、関心オブジェクトによって構成されており、ユーザが画像内の関心オフジェクト、又は、関心オブジェクトに関する画像全体あるいは部分画像の特性の検査を必要としているとする。ただし、画像内の全てのオブジェクトが既知のものであるとは限らない。また、画像は必要とされるオブジェクトのみで構成されていると限らず、関心のないオブジェクトや検査のために不要なオブジェクトを含むことがある。なお、本明細書で言及される未知又は既知のオブジェクトは、任意の形状、色又はテクスチャ属性を持ち得る。本明細書で言及されるオブジェクトは、任意の天然色が欠けていてもよく、裸眼検査によって観察され得なくてもよい。
 既知のオブジェクトの検出は、人が容易に行うことができる。しかし、関心オブジェクトが多数存在し、オブジェクトの特徴が未知の場合、数千から数百万の画像を短時間で処理するためには、自動処理が必要とされる。従って、この処理を自動化するためには、画像において必要なオブジェクトを検出し、不要なオブジェクト及び画像内の部分を破棄することが必要である。その観点から、以下に説明される本明細書の一実施例は、必要な前景オブジェクトを検出し、関心のない不要なオブジェクトを破棄することを可能とする。
 学習部は、オブジェクトセグメンテーション部が新しい未知オブジェクトグループについて学習することを助ける。閾値処理部は、学習部が学習データから不要なオブジェクトを破棄することを助ける。停止点判定部は、学習部が新しい未知オブジェクトについて学習するために必要なステップ数(繰り返し回数)を判定する。オブジェクト分類部は、関心オブジェクトを、既知オブジェクトのそれぞれのクラスカテゴリ及び未知オブジェクトのそれぞれのグループに分ける。その後、定量計算部はオブジェクトの正確な定量分析を行い、最後に表示部が、必要な定量的情報をユーザに提示する。
 入力部は、定量分析装置において、入力画像を受け取る機能部である。入力画像は、オブジェクトセグメンテーション部に送られ、定量分析装置によるさらなる処理の対象となる。関心オブジェクト及び不要オブジェクトを含む画像は、まず、オブジェクトセグメンテーション部に送られる。
 オブジェクトセグメンテーション部は、予め設定された規則に基づいて、不要オブジェクトから必要なオブジェクトを見分けることができる機能部である。セグメンテーションの規則は、学習部から得られる。学習部は、前景としてのオブジェクトと背景としての他のオブジェクトを分離(セグメンテーション)するように学習する。閾値処理部は、学習部が、背景として検出される不要な関心のないオブジェクトを破棄することを助ける。学習部は、データを複数回繰り返し使用することによって、セグメンテーションを学習する。
 停止点判定部は、学習部により必要とされる最適なステップ回数を判定する。セグメンテーションにおける規則は、オブジェクトセグメンテーション部においてコード化できる。例えば、オブジェクトセグメンテーション部は、必要な前景のオブジェクトを同定するために任意の構成を有することができる。オブジェクトセグメンテーション部は、例えばニューラルネットワークで構成することができ、ラベルが入手できる場合は画像とラベルのペアを使用して、実際の画像とラベルが入手できない場合はそれ自体が生成したラベルを使用して訓練(学習)されており、前景オブジェクトを正確に検出することができる。または、オブジェクトセグメンテーション部は、同様に前景領域を生成する他の方法を使用することができる。
 図1は、実施例1に係る、画像における関心オブジェクトのための定量分析装置1の機能構成を示すブロック図である。図1に示すように、定量分析装置1は、入力部10、オブジェクトセグメンテーション部11、閾値処理部13、学習部12、停止点判定部14、オブジェクト分類部15、定量演算部16、表示部17、記憶部90、及び制御部91を含む。さらに、図1に示す定量分析装置1の各機能部は、種々のハードウェア、ソフトウェア又はそれらの組み合わせにより実現することができ、例えば、パソコンやサーバのような1又は複数の情報処理装置により実現できる。
 入力部10は、定量分析装置1の処理対象となる入力画像を、外部から取得する。そのデータは、任意の画像撮像装置(不図示)によって得られ、入力部10に入力画像として与えられる。さらに、情報通信ネットワーク又は記録媒体(不図示)を介して得られたカメラにより撮影された画像が、入力画像として使用することができる。入力画像は静止画であってもよく、動画におけるフレームが抽出されて入力画像が生成されてもよい。静止画のデータフォーマットは、例えば、JPEG、JPEG2000、PNG又はBMP等を使用できる。一方、動画のデータフォーマットとしては、MotionJPEG、MPEG、H.246、又はHD/SDI等を使用できる。
 オブジェクトセグメンテーション部11は、画像を、オブジェクトを含む前景領域と背景領域とに分割することによって、必要な前景領域を不要な領域から分離する。
 閾値処理部13は、学習部12が、背景として検出される不要な関心のないオブジェクトを破棄することを助ける。画像は、関心オブジェクトを含むことがあり、画像はさらに、不要オブジェクトを含むことがある。閾値処理部13は、学習部12が不要オブジェクトを前景オブジェクトとして学習しないようにする。
 学習部12は、オブジェクトセグメンテーション部11のために、新しいモデルの学習(訓練)を行う。学習部12は、新しい未知オブジェクトの種類を既知オブジェクトと共に学習し、オブジェクトセグメンテーション部11が、画像内の関心オブジェクトを他のオブジェクトから分離可能にする。学習部12は、入力画像を受け取り、画像における未知関心オブジェクトについて反復的に学習する。
 停止点判定部14は、学習部12が画像における未知関心オブジェクトについて学習するために必要とする反復の最適回数を判定する。オブジェクト分類部15は、オブジェクトセグメンテーション部11による前景領域に基づいて、元画像の前景領域を、定量分析のため、既知オブジェクト及び未知オブジェクトの各グループに分類する。定量演算部16は、前景として同定済みのオブジェクトについての必要な定量的情報を演算する。定量的情報は、様々なタイプの情報であり得、例えば、数や比率である(これらに限定されない)。
 記憶部90は、入力、出力及び定量分析装置1内の各構成要素の中間結果を格納する。制御部91は、定量分析装置1の上記各構成要素に接続され、それら構成要素の動作を制御する。他の例において、各構成要素は、制御部91に制御されることなく、必要に応じて自動的に動作してもよい。
[定量分析装置のハードウェア構成]
 図2は、実施例1に係る定量分析装置1のハードウェア構成の例を示す模式図である。図2に示すように、定量分析装置1は、一例において、CPU201、メモリ202、記憶装置206、出力装置203、入力装置204、通信装置205、及び構成要素を相互に接続するバス207を含む。これら構成要素の数は2以上であってもよい。
 CPU201は、プロセッサであって、種々のプログラムをメモリ202から必要に応じて読み取り、そのプログラムに従って処理を実行する。図1に示す入力部10、オブジェクトセグメンテーション部11、閾値処理部13、学習部12、停止点判定部14、オブジェクト分類部15、定量演算部16、表示部17、制御部91を含む各機能構成要素は、例えば、処理を実行するCPU201により実現され得る。
 記憶装置206は、定量分析装置1で使用される種々のデータを格納し、図1を参照して説明した記憶部90を実装できる。例えば、記憶装置206は、上述のような、入力画像、オブジェクト、学習部による学習の反復毎の学習済みモデル、クラス別の分類画像等を格納する。
 出力装置203は、オブジェクトセグメンテーション画像(オブジェクト分離画像)、分類オブジェクト画像、オブジェクトについての必要な定量的情報等を出力し、表示装置、プリンタ、スピーカ等によって構成される。例えば、出力装置203として表示装置が使用される場合、オブジェクトセグメンテーション部11により生成されたセグメンテーション画像、オブジェクト分類部15による分類オブジェクト画像、定量演算部16によるオブジェクトについての必要な定量的情報は、表示装置のスクリーンに表示される。
 入力装置204は、ユーザが指示等を入力するための装置であり、キーボード、マウス、マイク等によって構成される。例えば、定量分析装置1における処理対象となる入力画像は、入力装置204を介してユーザによる指示と共に決定される。
 通信装置205は、他の装置と通信するための装置である。例えば、通信装置205を使用して、撮像装置から転送された入力画像を受信することができ、また、種々のデータを、ネットワークを介して接続されたサーバと送受信することができる。他の例において、定量分析装置1内に通信装置205を実装することに代えて、外部に実装された通信装置205が定量分析装置1に接続されてもよい。
[各構成要素の構成及び動作]
 次に、オブジェクトセグメンテーション部11、学習部12、閾値処理部13、停止点判定部14、オブジェクト分類部15、定量演算部16、及び表示部17それぞれの動作を、以下において詳細に説明する。
 図3は、オブジェクトセグメンテーション部11による処理の例を模式的に示す。図3において、画像Cは、入力画像の例であり、画像背景R1002、前景オブジェクトR1003及び他の不要オブジェクトR1004を有している。図3において、前景オブジェク及び不要オブジェクトのそれぞれ一つが、符号R1003及びR1004で指示されている。
 画像CAは、オブジェクトセグメンテーション部11によって、前景領域(オブジェクト)R2001と背景領域R2002に変換された(セグメンテーション)後の入力画像の例を示す。前景オブジェクトの一つが符号R2001で指示されている。オブジェクトセグメンテーション部11によって得られるセグメンテーション(分離)後の画像CAは、記憶部90に格納される。
 図4は、オブジェクト分類部15による処理の例を模式的に示す。図4において、画像CAは、オブジェクトセグメンテーション部11によって、背景領域R2002と前景オブジェクトR2001に分離された(セグメンテーションされた)画像の例を示す。画像CBは、オブジェクト分類後の入力画像の例を示す。
 分類された画像において、符号R4001、R4002、R4003は、オブジェクト分類部15によって分類された異なるクラスのオブジェクトを指示する。図4において、異なるクラスそれぞれの一つのオブジェクトが符号R4001、R4002、R4003で指示されている。オブジェクト分類部15によって得られる分類後の画像CBは、記憶部90に格納される。
 図5は、表示部17の処理結果の例を模式的に示す。表示部17は、オブジェクト分類部15から情報と出力画像を受け取り、所定の画像フォーマットDS1でユーザに対して提示する。例えば、実際のオブジェクト画像OV1上にクラスを示すパターンを重ね、数や比率のような定量的情報QN1と共に提示する。
[オブジェクトセグメンテーション部11]
 入力部10により受け取られた入力画像は、関心オブジェクトと共に、不要なオブジェクトや一般的な画像背景を含み得る。オブジェクトセグメンテーション部11は、入力画像を必要な背景及び前景領域に変換する。オブジェクトセグメンテーション部11は、入力部10の出力である画像Cを受け取り、処理を実行してセグメンテーション後の画像CAを生成する。例えば、セグメンテーションの一般的な方法は、畳み込みニューラルネットワークを使用して実行できる。
 オブジェクトセグメンテーション部11の一例は、畳み込みニューラルネットワークを使用することができ、従来の畳み込み処理又は広く知られた全畳み込み処理(fully convolutional operation)を行って、画像CAに示すような、前景領域R2001と背景領域R2002とを有するセグメンテーション画像を生成する。しかし、任意の技術を使用して、同様のセグメンテーション画像を生成することができる。
[学習部12]
 学習部12は、ユーザが、新しいデータ(訓練データ)についての学習を必要とする場合に起動される。新しいデータは、未知と既知の両方のタイプのオブジェクトを含み得る。
 学習部12のタスクは、オブジェクトセグメンテーション部11のための新しいモデルを、所与のデータにおいて新しい未知関心オブジェクトを発見することによって、生成することである。このタスクを実現するため、学習部12は、入力部10から、入力画像を既知クラスのラベルと共に受け取る。
 学習部12の一例は、畳み込みニューラルネットワークを使用することができ、その畳み込みニューラルネットワークは、従来の畳み込み処理又は広く知られた全畳み込み処理を行って、画像CAに示すような、前景領域R2001と背景領域R2002とを有する分離画像を生成する。
 しかし、従来の畳み込みニューラルネットワーク処理は、全ての未知関心オブジェクト領域を発見する目的には不十分である。一つの可能な解法は、学習部12が、既知クラス情報を使用して、入力データに対して何度も反復を行い、徐々に全ての未知関心オブジェクトの領域を発見することである。なお、全ての未知関心オブジェクトの領域を発見する任意の方法を使用することができる。
 学習部12は、各反復において、未知の関心オブジェクトの候補領域を生成することも行う。候補領域は、学習部12が所与のデータに対して複数間反復を繰り返すにつれて、徐々に増加する。学習部12は、既知オブジェクトの情報を使用して、他の未知オブジェクトにおけるパターンの類似性を検出する。
 各反復において、既知オブジェクトのパターンの量は、より多くの未知の関心オブジェクトが学習され検出されると共に、累積的に増加する。候補領域は、各反復サイクルにおいて累積され、次の反復において新しい学習ラベルとして使用することができる。しかし、全ての新たに生成された候補領域が実際の関心領域であるとは限らず、不要オブジェクトを含む場合もある。これを除去するため、次に説明する閾値処理部13を使用することができる。
[閾値処理部13]
 閾値処理部13は、学習部12が起動されるときに合わせて起動されることができ、例えばユーザが、新しいデータについての学習を必要とするときに起動される。新しいデータは、既知及び未知のオブジェクトタイプのオブジェクトを含み得る。新しいデータがオブジェクトセグメンテーション部11の処理対象となるとき、不要オブジェクトを常に正しく破棄できるとは限らない。そのため、不要オブジェクトが関心オブジェクトとなることで学習部12における間違った学習が行われないように、閾値処理部13が使用される。
 学習部12が新しい未知関心オブジェクトの領域を正しく検出することを学習するために、学習部12が、未知関心オブジェクトと不要オブジェクトを画像データにおいて正しく区別することができることが重要である。しかし、学習部12における反復訓練の間、未知オブジェクトのために利用できる教師(ラベル)は存在しないので、不要オブジェクトが検出される可能性がある。これを防ぐために、閾値処理方法が使用され、学習部12において不要オブジェクトが破棄される。
 図6は、実施例1に係る閾値処理部13により実行される方法の例のフローチャート示す。
ステップT1
 オブジェクトセグメンテーション部11は、画像における各画素に対してセグメンテーションスコアを算出する。セグメンテーションスコアに基づいて、画素は前景又は背景に分類される。ステップT1において、閾値処理部13は、オブジェクトセグメンテーション部11の出力を受け取り、既知オブジェクトの画素毎のセグメンテーションスコアを決定する
ステップT2
 閾値処理部13は、既知オブジェクトの全ての画素のセグメンテーションスコアのヒストグラムを算出する。
ステップT3
 閾値処理部13は、生成したヒストグラムに基づき、既知オブジェクトの画素として適切なセグメンテーションスコアを決定する。
ステップT4
 不要オブジェクトと関心オブジェクトは、全てではないが、既知クラスのいくつかの特徴を共有するため、不要オブジェクトが、時に、関心オブジェクトとして検出され得る。従って、前景として検出される不要画素のセグメンテーションスコア値は、真の関心オブジェクトの前景画素の上記適切な値よりも小さい値となる。この情報を使用して、学習部12におけるセグメンテーションモデルの訓練の間に、セグメンテーションスコア値が、真の関心オブジェクトの前景画素の適切な値よりも小さい画素を無視することができる。
 図7は、閾値処理部13による処理の例を示す。図7において、画像CAは、オブジェクトセグメンテーション部11の出力の例を示し、背景領域R2002、複数の前景オブジェクトR2001及び他の複数の不要オブジェクトR2003を含む。画像CTは、閾値処理部13の出力の例を示し、不要オブジェクト(領域)R2003が削除されている。画像CTは、学習部12におけるモデルの訓練のための正確なラベルとして使用することができる。画像CA及び画像CTの双方が、記憶部90に格納される。
[停止点判定部14]
 停止点判定部14は、学習部12が起動されるときに起動され得る。例えばユーザが、装置による新しいデータについての学習を必要とするときに起動される。停止点判定部14は、学習部12がデータにおける新しい未知関心オブジェクトを全て適切に学習するために必要とする反復ステップの適切な回数を判定する。
 学習部12が新しい未知関心オブジェクト領域を正しく学習するために、学習部12が、入力部10から受け取った訓練データを反復学習し、新しい未知関心オブジェクトを蓄積的に学び、発見することが重要である。しかし、停止点を判定することができるように、適切な反復回数を判定することが重要である。適切な停止点を判定するため、停止点判定部14が使用される。停止点判定部14は、背景領域の検出正確性及び前景(関心オブジェクト)領域の検出正確性の情報を使用して、学習部12の停止点を決定することができる。背景又は前景の検出正確性は、例えば、既知背景画素又は既知前景画素を背景又は前景と判定する割合で表すことができる。
 図8は、実施例1に係る、停止点判定部14が実行する方法の例を示す。下記ステップにおいて言及される正確性は、一つのモデルが出力する正確性、又は、複数モデルが出力する正確性の移動平均値を用いてもよい。
ステップS0
 停止点判定部14は、学習部12からの評価データに対する正確性を算出する。評価データは、前景領域の既知オブジェクト、既知の背景領域及び未知の領域を含むことができる。
ステップS1
 評価データの既知オブジェクトの前景領域についての新しいモデルの推定の正確性AFtが増加して、AFt>AFt-1である場合、停止点判定部14は、ステップS2に進み、そうでなければステップS4に進む。
ステップS2
 評価データの既知背景領域ABtについての新しいモデルの正確性が増加してABt>ABt-1である場合、停止点判定部14は、ステップS5に進み、そうでなければステップS3に進む。
ステップS3
 評価データの既知背景領域についての新しいモデルの背景領域に対する正確性が減少して、ABt<ABt-1である場合、停止点判定部14は、背景についての正確性が許容レベルBa内にあるかチェックする。ABt>Baである場合(許容レベル内である場合)、停止点判定部14は、ステップS5に進み、そうでなければステップS4に進む。これにより、前景領域の検出正確性を高めることができると共に、背景検出正確性の所望レベルを得ることができる。許容レベルは、例えば、ユーザにより予め設定される。
ステップS4
 反復を終了する。
ステップS5
 次の反復を行う。
 図9Aから9Cは、上記異なる機能部が反復的に未知及び既知のオブジェクトの領域を検出するために連携し行う処理フローの三つの例を示す。定量分析装置1は、これらフローを個別に行うことができ、各フローの実行に不要な機能部を省略することができる。図9Aは、入力部10、オブジェクトセグメンテーション部11及び学習部12の基本的な連携を示す。図9Bは、図9Aに閾値処理部13による不要なごみ領域を破棄する処理を追加した例である。
 図9Cは、図9Bに、停止点判定部14による、反復ステップの適切回数を自動的に判定する処理を追加した例である。全てのフローにおいて、目的は、既知オブジェクトの情報のみ開始時のセグメンテーションラベルとして、学習によって新たに生成されたラベルを既存セグメンテーションラベルに追加し、次の反復ステップにおいてモデルの訓練に使用できるようにすることである。
 図9Aを参照して、実施例1に係る、新しい未知オブジェクトの学習が必要であるときの、入力部10、オブジェクトセグメンテーション部11及び学習部12の連携動作の例を説明する。これは、本明細書で説明される一つの実施例の基本的構成の一つである。
ステップUD1
 オブジェクトセグメンテーション部11が、入力部10からの新しいデータを受け取り、暫定の前景及び背景のセグメンテーションラベルとして、セグメンテーション結果を出力する。暫定のラベルは過去のモデルの出力に基づいており、次回以降の反復において生成されるモデルが新たに発見する前景関心領域によって変化することができる。
ステップUD2
 学習部12は、新しいセグメンテーションモデルMを、上記セグメンテーションラベルを使用して訓練する。
ステップUD3
 オブジェクトセグメンテーション部11は、学習部12から新しいモデルMを受け取り、既存のモデルに追加する。このように、オブジェクトセグメンテーション部11が保持するモデルは反復と共に累積され、ステップUD1でのセグメンテーションで使用できるモデルを増加させることができる。
ステップUD4
 ユーザ要求又は反復ステップの所定の必要総回数に基づいて、さらなる反復が必要である場合、フローはステップUD1に戻る。
 図9Bを参照して、実施例1に係る、新しい未知オブジェクトの学習が必要であるときの、入力部10、オブジェクトセグメンテーション部11、学習部12及び閾値処理部13の連携動作の例を説明する。この構成は、図9Aに示す基本構成に対して、さらに閾値処理部13の処理を含む。
ステップUDT1
 オブジェクトセグメンテーション部11は、新しいデータを入力部10から受け取り、既存の1以上のモデル(例えば既存の全てのモデル)の出力に基づき、セグメンテーション結果を出力する。
ステップUDT2
 閾値処理部13が、オブジェクトセグメンテーション部11からの出力を受け取り、閾値処理部13の予め設定されているポリシに従って、上述のように、セグメンテーションラベルの画素の閾値処理を実行する。閾値処理部13は、暫定の前景及び背景のセグメンテーションラベルを生成する。暫定のラベルは、オブジェクトセグメンテーション部11の既存のモデルの出力に基づき、後に続く反復において、次のモデルで新たに発見された前景関心領域に基づき変化することができる。
ステップUDT3
 学習部12は、閾値処理部13の出力を受け取り、セグメンテーションラベルを使用して新しいセグメンテーションモデルMを訓練する。
ステップUDT4
 オブジェクトセグメンテーション部11は、既存のモデルに、学習部12から取得した新しいモデルMを追加する。このように、オブジェクトセグメンテーション部11のモデルが蓄積される。ステップUDT1において、オブジェクトセグメンテーション部11は、蓄積されたモデルを使用してセグメンテーション結果を出力する。
ステップUDT5
 さらなる反復が必要である場合にフローはステップUDT1に戻り、そうでなければ終了する。
 図9Cは、実施例1に係る、新しい未知オブジェクトの学習が必要であるときの、オブジェクトセグメンテーション部11、学習部12、閾値処理部13及び停止点判定部14の連携動作の例を説明する。この構成は、図9Bに示す基本構成に対して、さらに停止点判定部14の処理を含む。
ステップUDTS1
 オブジェクトセグメンテーション部11は、新しいデータを入力部10から受け取り、既存の1以上のモデル(例えば既存の全てのモデル)の出力に基づき、セグメンテーション結果を出力する。
ステップUDTS2
 閾値処理部13が、オブジェクトセグメンテーション部11からの出力を受け取り、閾値処理部13の予め設定されているポリシに従って、上述のように、セグメンテーションラベルの画素の閾値処理を実行する。閾値処理部13は、暫定の前景及び背景のセグメンテーションラベルを生成する。暫定のラベルは、オブジェクトセグメンテーション部11の既存のモデルの出力に基づき、後に続く反復において、次のモデルで新たに発見された前景関心領域に基づき変化することができる。
ステップUDTS3
 学習部12は、閾値処理部13の出力を受け取り、既知のセグメンテーションラベルを使用して新しいセグメンテーションモデルMを訓練する。
ステップUDTS4
 停止点判定部14は、新しいモデルMを評価する。
ステップUDTS5
 停止点判定部14は、図8を参照して説明したように、次に反復の実行の要否を判定する。停止点判定部14の出力において、次の反復が必要である場合、フローはステップUDTS1に進む。そうではない場合、ステップUDTS6に進む。
ステップUDTS6
 オブジェクトセグメンテーション部11は、既存のモデルに、学習部12から取得した新しいモデルMを追加する。
[オブジェクト分類部15]
 オブジェクト分類部15は分類器(例えば、畳み込み出力値を使用してオブジェクトタイプを分類する畳み込みニューラルネットワーク)を含み、分離済みの前景領域を既知オブジェクトクラスと未知オブジェクトグループに分類する。
 例えば畳み込みニューラルネットワークを分類器として使用する場合、予め既知オブジェクトクラスを分類するように訓練した分類モデルが算出する特徴量を利用する。分類モデルは特徴量抽出部と識別部から構成されているとする。一例として、分類モデルは複数層の畳み込みニューラルネットワークから構成されており、最終層を識別部、それ以外の層を特徴量抽出部とする。
 訓練時には、識別部の出力が既知オブジェクトクラスを分類するように、特徴量抽出部と識別部が訓練される。この識別部の出力は既知オブジェクトの種類(クラス)を表しているが、未知オブジェクトグループを分類することはできない。そこで、上記特徴量抽出部の出力を用いてクラスタリングを行うことで既知オブジェクトクラスと未知オブジェクトグループの分類を行う。
 クラスタリング方法としては、例えば二つのオブジェクトの画像を上記特徴量抽出部に入力して得られる特徴量のベクトルを比較して、コサイン類似度等の類似度が一定以上であれば同一クラスと判定する方法がある。この閾値はユーザによって予め定められていてもよいし、既知オブジェクトクラス同士の類似度を元に装置が自動的に算出してもよい。
 上記は一例であり、特徴量ベクトルの類似度の指標として、ユークリッド距離やマンハッタン距離等を用いてもよいし、クラスタリング方法として、自己組織化マップ等の教師無し学習や、EMアルゴリズム等を用いてもよい。また、クラスタリングに用いる特徴量として、畳み込みニューラルネットワーク以外の機械学習手法を用いてもよいし、HOGやSIFT等のハンドクラフト特徴量を用いてもよい。また、上記のようにクラスタリングした結果を教師として、分類器向けの機械学習を行った結果を利用してもよい。
 図10は、実施例1に係る。オブジェクト分類部15として使用できる技術のフローチャート例を示す。オブジェクトセグメンテーション部11は、入力部10から入力データを受け取り、保持している1以上のモデル、例えば全てのモデルを使用してセグメンテーション処理を行った後の画像CAを、オブジェクト分類部15に出力する。
ステップCON1
 画像CAの前景領域は、オブジェクト分類部15の分類器に入力可能な複数のパッチに分割される。パッチサイズは装置のメモリの許容量に依存する。
ステップCON2
 オブジェクト分類部15は、ステップCON1で生成された複数のパッチから、一つの新しいパッチを選択する。
ステップCON3
 オブジェクト分類部15は、ステップCON2で選択されたパッチを分類器に入力し、分類器は、入力部10からからの元画像の前景領域を、オブジェクトセグメンテーション部11からの前景領域に基づいて、既知オブジェクトタイプ又は未知オブジェクトタイプに分類する。未知オブジェクトは、畳み込みニューラルネットワークからの分類器出力値(例えば、畳み込み出力値)に基づいて、各オブジェクトタイプとして分類することができる
ステップCON4
 オブジェクト分類部15は、全てのパッチが分類されたかチェックを行い、そうであればステップCON5に進み、そうでなければステップCON2に戻る。
ステップCON5
 オブジェクト分類部15は、分類されたパッチを配列して、記憶装置206に画像CBとして格納する。
[定量演算部16]
 定量演算部16は、画像CBにおいて、分類された前景オブジェクトR2001の定量的情報を演算する。定量的情報は、例えば実施例2や実施例3に示すように、別のタスクのための特別な情報として使用することも可能である。
 図11は、定量演算部16による定量処理例の動作のフローチャートを示す。本例において、演算される定量的情報は、検出されたオブジェクトをカウントして得られるオブジェクトの総数、及び、入力画像CBにおける関心オブジェクトの比率である。
ステップQ1
 定量演算部16は、オブジェクト分類部15の出力である画像CBを受け取り、結合された前景領域の一つを選択する。
ステップQ2
 定量演算部16は、オブジェクト分類部15の分類結果である画像CBに基づいて、領域のクラスを判定し、その特定の既知クラス又は未知グループのカウンタを1単位インクリメントする。
ステップQ3
 定量演算部16は、画像CBにおける全ての前景領域がカウントされたか判定する。YESである場合はステップQ4に進み、そうでなければステップQ1に戻る。
ステップQ4
 定量演算部16は、クラス毎に総カウント数をまとめる。
ステップQ5
 定量演算部16は、クラスそれぞれの比率を計算する。
 ステップQ4及びQ5における定量的情報は、出力されて記憶装置206に格納される。定量的情報は、出力装置203内の表示装置を使用して表示することもできる。上記例の定量的情報は、オブジェクトの数及びそれらの比率である。この情報を使用して、様々な方法でサンプルを分析することができる。
[表示部17]
 表示部17は、定量演算部16の出力をユーザに提示する。定時される情報は、例えば、既知オブジェクトと未知オブジェクトグループの比率を含む。表示部17の出力は、入力画像に重ねて表示することができ、重ねて表示される情報は、例えば、既知クラス及び未知グループに属するオブジェクトを示す。
 図12は、実施例1に係る定量分析装置1が、定量的情報をユーザに提示することが必要なとき、例えば、推定フェーズにおいて、実施例1に係るオブジェクトセグメンテーション部11、オブジェクト分類部15、定量演算部16及び表示部17の連係動作の例を、示す。
ステップIN1
 オブジェクトセグメンテーション部11は、新しいデータを入力部10から受け取り、既存の1以上のモデル(例えば既存の全てのモデル)の出力に基づき、セグメンテーション結果を出力する。
ステップIN2
 オブジェクト分類部15は、オブジェクトセグメンテーション部11の出力を受け取り、関心オブジェクトを1以上の既知オブジェクトタイプと1以上の未知オブジェクトグループに分類する。
ステップIN3
 定量演算部16は、オブジェクト分類部15からの出力を受け取り、必要な定量的情報を生成する。
ステップIN4
 表示部17は、定量演算部16からの定量的情報を受け取り、定量的情報をユーザに表示する。
 上述のように、本明細書の実施例によれば、入力部10からの入力画像は、前景関心オブジェクト領域及び背景領域を表す画像に変換される。
 さらに、前景領域は、オブジェクト分類部15を使用して分類され、各既知オブジェクトの正確なクラスカテゴリ及び1以上の未知オブジェクトグループを高精度に判定できる。
 分類された画像からの定量的情報は、例えば、オブジェクト数及びオブジェクト比率等であり、定量演算部16から得られる。さらに、定量的情報及び定性的情報の結果は、表示部17によって、入力画像と共にユーザに提示することができる。ユーザは、提示された情報を使用して、検出されたオブジェクトの特性とそれらの共起パターンを研究することができ、これらの結果から検出されたオブジェクトについての現象を判定することができる。
 本明細書の上記実施例1のまとめを以下に記載する。定量分析装置1は、入力部10及びオブジェクトセグメンテーション部11を含む。入力部10は、例えば撮像装置から画像を受け取り、それをオブジェクトセグメンテーション部11に出力する。オブジェクトセグメンテーション部11は、入力画像から、効率的かつ正確に、必要な背景領域及び関心オブジェクトを含む前景領域を表すことができる。
 定量分析装置1は、さらに、学習部12を含み、データから新しい未知オブジェクトグループを学習するために使用できる。学習部12からの出力は、新しいセグメンテーションモデルであり、オブジェクトセグメンテーション部11で使用することができる。学習部12は、累積的にデータを反復使用して、未知オブジェクト領域を検出できるようになる。学習部12からのモデルを使用して、オブジェクトセグメンテーション部11は、新たな未知オブジェクトを検出できる。
 定量分析装置1は、さらに、閾値処理部13を含む。閾値処理部13は、学習部12が不要オブジェクトを関心領域のオブジェクトとして検出することを防ぐことができる。閾値処理部13を使用することで、学習部12が高精度のモデルを生成することを助けることができ、オブジェクトセグメンテーション部11が、そのモデルによって、既知オブジェクト及び未知オブジェクトグループと背景領域とを高精度に分離(セグメンテーション)することができる。
 定量分析装置1は、さらに、停止点判定部14を含み、学習部12における最適な反復回数を判定できる。学習部12は、新しい未知オブジェクトを反復的な方法で学習する。したがって、学習部12の最適動作のため、最適反復回数を判定することが重要となる。停止点判定部14は学習部12のデータを使用し、所定の品質ポリシに基づいて学習部12における反復の停止点を判定する。
 定量分析装置1は、さらに、オブジェクト分類部15を含み、効率的かつ正確にオブジェクトを既知クラスカテゴリ及び未知オブジェクトグループに分類することができる。一例として、一般的な畳み込みニューラルネットワークを、このタスクに最適化することができる。畳み込みニューラルネットワークは、画像特徴量把捉モデルであり、手動で訓練される必要がなく、画像から特徴量を自動的に学習することができ、所定の分類スコアに基づいて未知オブジェクトをグループ化できる。
 定量分析装置1は、さらに、定量演算部16を含み、効率的かつ正確に、前景オブジェクトについての定量的情報を演算することができる。一例として、上述のように、オブジェクトのクラス毎の数を演算し、さらに、オブジェクト比率を演算する。
 定量分析装置1は、さらに、表示部17を含み、定量演算部16の出力をユーザに提示することができる。提示される情報は、例えば、既知オブジェクト及び未知オブジェクトグループの比率を含むことができる。表示部17の出力は、入力画像に重ねることができ、その情報は、例えば、既知クラス及び未知グループに属するオブジェクトを示すことができる。
 本実施例の構成によれば、既知及び未知の関心オブジェクトを、画像内において正確に同定することができ、それらオブジェクトについての定量的な情報を正確に決定できる。なお、例えば、入力部10、オブジェクトセグメンテーション部11、学習部12、閾値処理部13及び停止点判定部14は、定量解析装置と異なる装置やシステムに実装することができ、装置やシステムの設計に応じて、閾値処理部13や停止点判定部14等を省略してもよい。
 所与の画像において異常オブジェクトを検出し、ユーザに対してその異常オブジェクトを明示することが必要なことがある。この状況は、例えば、画像内のほとんどのオブジェクトが既知のオブジェクトであると推定される場合に起こり得る。そのため、以下において、実施例2に係る、異常検出システムを説明する。
 異常検出システムA1は、オブジェクト分類部15により分類された未知グループの関心オブジェクトを異常オブジェクトと判定する。異常検出システムA1は、表示部17を介して、入力画像に対して強調表示を重ねることで、検出された異常オブジェクトの情報をユーザに提示することができる。
 図13は、実施例2に係る、異常検出システムA1の機能構成例を模式的に示す。異常検出システムA1は、図1に示すような定量分析装置1の構成要素から、定量演算部16を除いた構成を有している。また、異常検出システムA1において表示部17は、検出された異常オブジェクトについての情報を、ユーザに対して、強調表示領域を入力画像に重ねることで提示することができる。
 図14は、実施例2に係る、異常検出システムA1のハードウェア構成例を模式的に示す。図14に示すように、異常検出システムA1は、定量分析装置1と同様のハードウェア構成を有することができる。実施例2において、CPU201は定量演算部16として機能することはない。
 図15は、実施例3に係る、定量分析装置1を含む画像検査システムW1の構成例を模式的に示す。定量分析装置1が、定量的情報を、画像検査システムW1内において提供し、異なる時間フレームで撮像された一連の画像について定量的情報を提供することが必要となることがある。
 画像検査システムW1は、撮像装置W11を含むことができ、撮像装置W11は、オブジェクトの一連の画像フレームデータを、例えば、モーションJPEG、MPEG、H.264又はHD/SDIフォーマットにおいて、撮像することができる。例えば、RGBカメラ又は任意の種類のカメラ又は撮像装置を使用することができる。
 画像検査システムW1は、実施例1に係る定量分析装置1を含むことができ、定量分析装置1は、一連の画像におけるオブジェクトについての定量的情報を生成する。画像検査システムW1は、未知サンプル分析装置W12を含むことができる。未知サンプル分析装置W12を使用して、未知サンプルの定量的情報からオブジェクトの特性を分析することができる。画像検査システムW1は、表示装置W13を含むことができる。表示装置W13は、定量分析装置1から得られるサンプルの定量的情報に基づく、未知サンプル分析装置W12の分析結果についての情報を、提示することができる。
 画像検査システムW1は、撮像装置W11において一連の画像を撮像することができ、定量分析装置1を介して、異なる時間フレームの入力画像についての定量的情報を取得することができる。未知サンプル分析装置W12により、所定期間におけるサンプルの定量的情報における変化の分析結果を提示できる。 
 画像検査システムW1は、同時又は別々に、一連の画像ペアを取得することができる。画像ペアは、例えば、時刻t1にて撮像した画像と時刻t2にて撮像した画像のペアや、何らかの外部の介入手法が適用されたサンプルの画像と前記介在手法が適用されていないサンプルの画像のペア等である。定量分析装置1を使用して、画像検査システムW1は、入力された画像ペアの定量的情報を算出する。未知サンプル分析装置W12により、例えば外部の介在手法が適用されたサンプルと、当該外部の介在手法が適用されていないサンプルに対して、定量的情報の変化を分析することができる。
 未知サンプル分析装置W12の分析結果の出力は、表示装置W13により、ユーザに提示することができる。ユーザは、表示装置W13の出力を検討し、単一時間フレーム又は所定期間におけるサンプルへの介入手法の影響を知ることができる。例えば、ある材料について、発見された未知オブジェクトが異なる物性の磁性粒子である場合、そのパターンや直径が、通常状態、又は、熱や圧力等の介入手法が適用された場合の、クラスタ内での磁性粒子の振る舞いを明らかにすることがある。 
 図16は、実施例3の他の例を示し、定量分析装置1は、サーバW3内に実装されている。サーバW3は、入力画像を、画像検査システムW2の撮像装置W11から、画像検査システムW2の通信装置W22を介して、サーバW3の通信装置W32において取得する。サーバW3は、取得した画像を記憶装置W31に格納する。通信装置W32は、記憶装置W31から受信した画像を、実施例1及び実施例3に係る定量分析装置1に送信する。
 サーバW3内の定量分析装置1は、実施例1及び3に従って、画像内のオブジェクトについての定量的情報を算出し、画像検査システムW2に対して、通信装置W32及びW22を介して送信する。
 画像検査システムW2の通信装置W22で受信された情報は、未知サンプル分析装置W12に入力される。未知サンプル分析装置W12は、対象オブジェクトについての定量的情報から特性を分析する。例えば、入力画像が磁性粒子である場合、磁性粒子密度の定量分析は、サンプルの磁性粒子の特性を明らかにする場合がある。分析結果は、ユーザに提示するため、表示装置W13に入力される。
 表示装置W13は、画像におけるオブジェクト及び未知サンプル分析装置W12の分析結果についての情報を提示することができる。ユーザは、表示結果を参照して、様々な結論を得ることができる。例えば、サンプルの品質をチェックできる。表示装置は、設置型又は携帯型のいずれであってもよい。
 なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明したすべての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。
 また、上記の各構成・機能・処理部等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、演算装置がそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、SSD(Solid State Drive)等の記録装置、または、ICカード、SDカード等の記録媒体に置くことができる。
 また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしもすべての制御線や情報線を示しているとは限らない。実際には殆どすべての構成が相互に接続されていると考えてもよい。

Claims (11)

  1.  画像から関心オブジェクトを同定するためのモデルを生成する装置であって、
     入力画像を受け付ける入力部と、
     前記入力部から前記入力画像を受け付けて関心オブジェクトの領域と背景領域とを分離するオブジェクトセグメンテーション部と、
     前記オブジェクトセグメンテーション部が使用するモデルを学習する学習部と、を含み、
     前記学習部は、
     訓練データと前記訓練データに対する既存モデルの出力とを使用して、新しいモデルの訓練を行い、
     訓練した前記新しいモデルを前記既存モデルへ追加し、
     前記新しいモデルの訓練及び訓練した前記新しいモデルの前記既存モデルへの追加を繰り返す、装置。
  2.  請求項1に記載の装置であって、
     前記既存モデルが計算した画素のセグメンテーションスコアと閾値とを比較することで、前記訓練データにおける前記画素が関心オブジェクトに含まれるか否かを判定し、前記関心オブジェクトのラベルを出力する、閾値処理部を含み、
     前記学習部は、前記訓練データと前記閾値処理部が出力した関心オブジェクトのラベルとを使用して、前記新しいモデルの訓練を行う、装置。
  3.  請求項1に記載の装置であって、
     前記学習部において、次のモデルの訓練を実行するかを判定する停止点判定部を含み、
     前記停止点判定部は、今回訓練されたモデルの推定の正確性と前回訓練されたモデルの推定の正確性とに基づいて、前記次のモデルの訓練を実行するか判定する、装置。
  4.  画像中の関心オブジェクトの定量的情報を算出する定量分析装置であって、
     請求項1に記載の装置と、
     前記オブジェクトセグメンテーション部により分離された前記関心オブジェクトを既知クラス及び未知グループに分類するオブジェクト分類部と、
     前記既知クラス及び前記未知グループについての定量的情報を算出する定量演算部と、
     前記定量演算部が算出する定量的情報を、ユーザに提示する、表示部と、を含み、
     前記表示部は、前記定量演算部が算出する前記定量的情報、及び、前記オブジェクト分類部が算出する前記関心オブジェクトの前記既知クラス及び前記未知グループの分類結果の少なくとも一つを、前記入力画像に重畳した結果を表示する、定量分析装置。
  5.  請求項4に記載の定量分析装置であって、
     前記既存モデルを使用して、入力された画像データから関心オブジェクトを分離し、
     分離された前記関心オブジェクトを既知クラス及び未知グループに分類し、
     前記未知グループのオブジェクトを異常オブジェクトとして、前記入力された画像において強調した画像を出力する、定量分析装置。
  6.  請求項4に記載の定量分析装置と、
     一連の画像を取得する撮像装置と、
     前記定量分析装置の出力から未知サンプルの特性を分析する未知サンプル分析装置と、
     前記未知サンプル分析装置が出力する分析結果を表示する表示装置と、を含み、
     前記定量分析装置は前記一連の画像それぞれについて、
      前記既存モデルを使用して、入力された画像データから関心オブジェクトを分離し、
      分離された前記関心オブジェクトを既知クラス及び未知グループに分類し、
      前記既知クラス及び前記未知グループについての定量的情報を算出し、
     前記未知サンプル分析装置は、前記一連の画像における前記定量的情報の変化の分析結果を出力する、システム。
  7.  請求項4記載の定量分析装置と、
     第1サンプルの一連の画像と、外部の介在手法が適用された第2サンプルの一連の画像とを取得する撮像装置と、
     前記定量分析装置の出力から未知サンプルの特性を分析する未知サンプル分析装置と、
     前記未知サンプル分析装置が出力する分析結果を表示する表示装置と、を含み、
     前記定量分析装置は前記第1サンプル及び前記第2サンプルの一連の画像それぞれについて、
      前記既存モデルを使用して、入力された画像データから関心オブジェクトを分離し、
      分離された前記関心オブジェクトを既知クラス及び未知グループに分類し、
      前記既知クラス及び前記未知グループについての定量的情報を算出し、
     前記未知サンプル分析装置は、前記第1サンプル及び前記第2サンプルの一連の画像における前記定量的情報の違いを分析結果として出力する、システム。
  8.  画像から関心オブジェクトを同定するためのモデルを生成する方法であって、
     入力画像を受け付ける入力ステップと、
     前記入力画像を受け付けて関心オブジェクトの領域と背景領域とを分離するオブジェクトセグメンテーションステップと、
     前記オブジェクトセグメンテーションステップが使用するモデルを学習する学習ステップと、を含み、
     前記学習ステップは、
     訓練データと前記訓練データに対する既存モデルの出力とを使用して、新しいモデルの訓練を行い、
     訓練した前記新しいモデルを前記既存モデルへ追加し、
     前記新しいモデルの訓練及び訓練した前記新しいモデルの前記既存モデルへの追加を繰り返す、方法。
  9.  請求項8に記載の方法であって、
     前記既存モデルが計算した画素のセグメンテーションスコアと閾値とを比較することで、前記訓練データにおける前記画素が関心オブジェクトに含まれるか否かを判定し、前記関心オブジェクトのラベルを出力する、閾値処理ステップを含み、
     前記学習ステップは、前記訓練データと前記閾値処理ステップにて算出した前記関心オブジェクトのラベルとを使用して、前記新しいモデルの学習を行う、方法。
  10.  請求項8に記載の方法であって、
     前記学習ステップにおいて、次のモデルの訓練を実行するかを判定する停止点判定ステップを含み、
     前記停止点判定ステップは、今回訓練されたモデルの推定の正確性と前回訓練されたモデルの推定の正確性とに基づいて、前記次のモデルの訓練を実行するか判定する、方法。
  11.  画像中の関心オブジェクトの定量的情報を算出する定量分析方法であって、
     請求項8に記載の方法を実行するステップと、
     前記オブジェクトセグメンテーションステップにより分離された前記関心オブジェクトを既知クラス及び未知グループに分類するオブジェクト分類ステップと、
     前記既知クラス及び前記未知グループについての定量的情報を算出する定量演算ステップと、
     前記定量演算ステップが算出する前記定量的情報を、ユーザに提示する、表示ステップと、を含み、
     前記表示ステップは、前記定量演算ステップが算出する前記定量的情報、及び、前記オブジェクト分類ステップが算出する前記関心オブジェクトの前記既知クラス及び前記未知グループの分類結果の少なくとも一方を、前記入力画像に重畳した結果を表示する、定量分析方法。
PCT/JP2021/003754 2020-08-04 2021-02-02 画像から関心オブジェクトを同定するためのモデルを生成する装置、方法及びシステム WO2022030034A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202180048294.3A CN115803777A (zh) 2020-08-04 2021-02-02 生成用于从图像中识别关注对象的模型的装置、方法和系统
EP21851950.2A EP4195144A1 (en) 2020-08-04 2021-02-02 Device, method, and system for generating model for identifying object of interest in image

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020132371A JP2022029169A (ja) 2020-08-04 2020-08-04 画像から関心オブジェクトを同定するためのモデルを生成する装置、方法及びシステム
JP2020-132371 2020-08-04

Publications (1)

Publication Number Publication Date
WO2022030034A1 true WO2022030034A1 (ja) 2022-02-10

Family

ID=80117210

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/003754 WO2022030034A1 (ja) 2020-08-04 2021-02-02 画像から関心オブジェクトを同定するためのモデルを生成する装置、方法及びシステム

Country Status (4)

Country Link
EP (1) EP4195144A1 (ja)
JP (1) JP2022029169A (ja)
CN (1) CN115803777A (ja)
WO (1) WO2022030034A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020031423A1 (ja) * 2018-08-06 2020-02-13 住友電気工業株式会社 オブジェクト検出方法、オブジェクト検出装置及びコンピュータプログラム
JP2020132371A (ja) 2019-02-20 2020-08-31 セイコーエプソン株式会社 スキャナーおよびスキャナーのローラー監視方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020031423A1 (ja) * 2018-08-06 2020-02-13 住友電気工業株式会社 オブジェクト検出方法、オブジェクト検出装置及びコンピュータプログラム
JP2020132371A (ja) 2019-02-20 2020-08-31 セイコーエプソン株式会社 スキャナーおよびスキャナーのローラー監視方法

Also Published As

Publication number Publication date
JP2022029169A (ja) 2022-02-17
EP4195144A1 (en) 2023-06-14
CN115803777A (zh) 2023-03-14

Similar Documents

Publication Publication Date Title
Bergmann et al. The MVTec anomaly detection dataset: a comprehensive real-world dataset for unsupervised anomaly detection
Bianco et al. Combination of video change detection algorithms by genetic programming
EP3333768A1 (en) Method and apparatus for detecting target
US20160098636A1 (en) Data processing apparatus, data processing method, and recording medium that stores computer program
EP3654248A1 (en) Verification of classification decisions in convolutional neural networks
KR102045223B1 (ko) 골 연령 분석 방법, 장치 및 컴퓨터 프로그램
CN108960412B (zh) 图像识别方法、装置及计算机可读存储介质
CN112669275A (zh) 基于YOLOv3算法的PCB表面缺陷检测方法及装置
KR20210038303A (ko) 제품 분류 시스템 및 방법
CN108710893A (zh) 一种基于特征融合的数字图像相机源模型分类方法
CN112633297A (zh) 目标对象的识别方法、装置、存储介质以及电子装置
Luo et al. Traffic analytics with low-frame-rate videos
CN112613349A (zh) 基于深度混合卷积神经网络的时序动作检测方法及装置
CN111985333A (zh) 一种基于图结构信息交互增强的行为检测方法及电子装置
CN113689431B (zh) 工业产品外观缺陷检测方法和装置
CN108805181B (zh) 一种基于多分类模型的图像分类装置及分类方法
CN111783812A (zh) 违禁图像识别方法、装置和计算机可读存储介质
CN113780287A (zh) 一种多深度学习模型的最优选取方法及系统
CN115485740A (zh) 异常晶片图像分类
CN112287905A (zh) 车辆损伤识别方法、装置、设备及存储介质
WO2022030034A1 (ja) 画像から関心オブジェクトを同定するためのモデルを生成する装置、方法及びシステム
CN114818920A (zh) 基于双注意力擦除和注意力信息聚合的弱监督目标检测方法
KR102178238B1 (ko) 회전 커널을 이용한 머신러닝 기반 결함 분류 장치 및 방법
JP7206892B2 (ja) 画像検査装置、画像検査のための学習方法および画像検査プログラム
CN112733686A (zh) 用于云联邦的图像中的目标物识别方法及装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21851950

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2021851950

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE