WO2023189662A1 - 画像処理・解析装置および画像処理・解析方法 - Google Patents

画像処理・解析装置および画像処理・解析方法 Download PDF

Info

Publication number
WO2023189662A1
WO2023189662A1 PCT/JP2023/010330 JP2023010330W WO2023189662A1 WO 2023189662 A1 WO2023189662 A1 WO 2023189662A1 JP 2023010330 W JP2023010330 W JP 2023010330W WO 2023189662 A1 WO2023189662 A1 WO 2023189662A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
patch
learning
foreground
image processing
Prior art date
Application number
PCT/JP2023/010330
Other languages
English (en)
French (fr)
Inventor
旭将 徳永
凌也 片渕
Original Assignee
国立大学法人九州工業大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 国立大学法人九州工業大学 filed Critical 国立大学法人九州工業大学
Publication of WO2023189662A1 publication Critical patent/WO2023189662A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Definitions

  • the present invention relates to an image processing/analysis device and an image processing/analysis method that perform image segmentation using a neural network.
  • segmentation in addition to semantic segmentation, binary segmentation, instance segmentation, panoptic segmentation, etc. can be applied.
  • Creating annotations for image segmentation is much more costly than building training data for image classification.
  • a single image often includes areas where boundaries are easy to determine and areas where boundaries are difficult to determine. For example, in the case of objects with ambiguous boundaries such as an aurora, or objects with complex shapes such as blood vessels, it is expensive to specify the boundaries with polygons or curves.
  • the image processing/analysis device of the present invention uses a neural network to segment an image to be processed, and when an image to be processed is input, a segmented image is output.
  • the dataset used for semi-supervised learning consists of multiple foreground patch images that have been cropped and given positive labels. , a plurality of background patch images in which a part of the image is cut out and a negative label is given, and a plurality of unlabeled patch images in which a part of the image is cut out.
  • the image processing/analysis device of the present invention uses prior knowledge about at least the foreground region and background region of the image used for learning, so that unlabeled patch images of the dataset can minimize the cost function in semi-supervised learning.
  • the number of images that can be used is automatically generated, and semi-supervised learning may be repeatedly performed using multiple data sets to minimize the cost function.
  • the image processing/analysis device of the present invention may include a patch image forming unit that forms a plurality of patch images for input from an image to be processed, and may input the patch images for input to the classifier.
  • the image processing/analysis device of the present invention may include a contour clarifying unit that performs processing to clarify the boundary between the foreground and the background on the probability map output from the classifier.
  • the image processing/analysis device of the present invention may use a convolutional neural network as the trained model.
  • the cost function used in semi-supervised learning is a loss function used in binary classification with prior knowledge about the data added as a penalty term.
  • the image processing/analysis method of the present invention uses a neural network to segment an image to be processed, in which a portion of the image is cut out and a plurality of foreground patches are given positive labels.
  • a dataset that includes an image, multiple background patch images in which part of the image is cropped and given a negative label, and multiple unlabeled patch images in which part of the image is randomly cropped.
  • step of creating a trained model that is semi-supervised trained to output a segmented image when the image to be processed is input, and creating a segmented image by inputting the image to be processed to the trained model. Steps.
  • the annotation used for learning is not specified by tracing the boundary between the foreground area and the background area, but rather the user specifies a portion that is considered to be the foreground area or the background area as a patch image. Since the annotation is used for training (learning) the classifier, no new annotation is required at the time of inference (during segmentation processing of the image to be processed).
  • the present invention it is possible to construct a method for realizing binary segmentation from partial annotations based on semi-supervised learning. For example, the construction of training data can be completed within 30 minutes. Practical segmentation can be performed from a small amount of annotation data (about 100 to 200 images).
  • FIG. 3 is a conceptual diagram showing the flow of segmentation by the image processing device of the present invention.
  • FIG. 1 is a block diagram showing an example of an image processing/analysis device of the present invention.
  • FIG. 2 is a conceptual diagram for explaining creation of a dataset.
  • FIG. 2 is a conceptual diagram for explaining a general annotation method.
  • 3 is a flowchart showing the processing procedure of the image processing/analysis method of the present invention.
  • FIG. 2 is a conceptual diagram illustrating the first embodiment and the overall flow of processing by the image processing/analysis device.
  • FIG. 7 is a diagram showing a second example and explaining a comparison (confusion matrix) between a determination label image and a teacher label image. This is a mathematical formula for calculating ACCURACY, showing a second example.
  • the results of semantic segmentation processing on an image of a crack that has occurred in a concrete wall are shown, with (a) showing the image to be processed, and (b) showing a probability map output from the classifier.
  • the results of semantic segmentation processing for an aurora image are shown, with (a) showing the processing target image, and (b) showing a probability map output from the classifier. It is a conceptual diagram for showing another example of a data set and explaining its creation.
  • the image processing/analysis device 1 performs segmentation of the image to be processed 2 using a neural network, and is trained in a semi-supervised manner to output a segmented image 3 when the image to be processed 2 is input.
  • a classifier 5 using a trained model 4 is provided.
  • the image processing/analysis device 1 of this embodiment includes a patch image forming unit 12 that forms a plurality of input patch images 11 from a processing target image 2, and inputs the input patch images 11 to the classifier 5. It is configured as follows. Further, the image processing/analysis device 1 of this embodiment includes a contour clarifying unit 14 that performs processing to clarify the boundary between the foreground and the background on the probability map 13 output from the classifier 5.
  • FIG. 3 shows the creation of dataset 6.
  • a dataset 6 used for semi-supervised learning of the trained model 4 includes a plurality of foreground patch images 8 in which a portion of the training image 7 is cut out and given a positive label; It includes a plurality of background patch images 9 in which a portion of the learning image 7 is cut out and a negative label is attached thereto, and a plurality of unlabeled patch images 10 in which a portion of the learning image 7 is cut out.
  • the pixels of the learning image 7 are divided into a foreground region and a background region.
  • the foreground patch image 8 is, for example, a patch image cut out so that its center pixel belongs to the foreground region of the learning image 7. By performing such a cutting method, it is generally considered that the foreground patch image 8 becomes a patch image that includes more of the foreground region of the learning image 7 than the background region. Note that instead of cutting out a part of the learning image 7 so that the center pixel belongs to the foreground area of the learning image 7, a part of the learning image 7 is simply cut out so that it includes more of the foreground area. Also good.
  • the foreground patch image 8 has a rectangular shape, but it is not limited to the rectangular shape, and may be circular or other shapes.
  • Data set 6 includes a number of foreground patch images 8.
  • the background patch image 9 is, for example, a patch image cut out so that its center pixel belongs to the background area of the learning image 7. By performing such a cutting method, it is generally considered that the background patch image 9 becomes a patch image that includes more of the background area of the learning image 7 than the foreground area. Note that instead of cutting out a part of the learning image 7 so that the central pixel belongs to the background area of the learning image 7, it is possible to simply cut out a part of the learning image 7 so that it includes more of the background area. You can also do it.
  • the background patch image 9 has a rectangular shape, but it is not limited to the rectangular shape, and may be circular or other shapes. Data set 6 includes a large number of background patch images 9.
  • the unlabeled patch image 10 is a patch image in which an arbitrary position of the learning image 7 is randomly cut out, for example.
  • the shape of the unlabeled patch image 10 is a square, but it is not limited to a square, and may be circular or other shapes.
  • Data set 6 includes a large number of unlabeled patch images 10. Note that the unlabeled patch images 10 are obtained by randomly cutting out a part of the training image 7, and the larger the number of unlabeled patch images 10, the more the prior information regarding the properties of the foreground region of the training image 7 increases. It is thought that this knowledge will be easier to utilize in neural network learning.
  • the unlabeled patch images 10 are automatically generated by a patch generator (not shown) so that at least the characteristic properties of the foreground region of the learning image 7 can be correctly estimated.
  • the characteristic property of the foreground region that can be utilized for neural network learning is, for example, the average ratio of the foreground region to the area of the entire learning image.
  • the closer the average percentage given by the user as prior knowledge in the cost function is to the percentage of patch images that are predicted to be in the foreground by the neural network in the middle of learning among the 10 unlabeled patch images the more the neural network It can be determined that learning is progressing correctly.
  • the shape of the foreground region and the positional relationship between multiple foreground regions can be used for neural network learning.
  • a large number of patch images 8, 9, and 10 are formed from one learning image 7. Furthermore, the data set 6 includes patch images 8, 9, and 10 of the learning image 7 for a plurality of times. Patch images 8, 9, and 10 are images of the same size and shape, and are also images of the same size and shape as a patch image 11 for input, which will be described later. Note that the number of unlabeled patch images 10, that is, the number that allows the characteristic properties of the foreground region of the learning image 7 to be estimated correctly or to some extent correctly, is generally larger than the number of patch images 8 and 9. It is true.
  • the data set 6 having such a configuration is extremely easy to create. That is, annotation of the learning image 7 is extremely easy.
  • annotation of the learning image 7 is extremely easy.
  • an operator identifies the foreground region and background region of the learning image 17, and surrounds the foreground region with a polygonal boundary line 18. At this time, a boundary line 18 is formed by tracing the outline of the foreground area. Therefore, annotation work becomes time-consuming.
  • annotation work for images of objects whose outlines are difficult to discern, such as auroras and clouds, or images whose outlines, such as capillaries, are complex is extremely time-consuming.
  • a narrow area that is a part of the learning image 7 is surrounded and cut out with a frame 16 prepared in advance such as a bounding box, and a positive label or a negative label is added.
  • a frame 16 prepared in advance such as a bounding box
  • a positive label or a negative label is added.
  • annotated patch images 8 and 9 can be formed.
  • the frame line 16 can be moved by mouse operation or the like, and can be moved to any position on the learning image 7 displayed on the monitor.
  • Foreground patch image 8 or background patch image 9 can be easily formed by moving frame line 16 to a position that can be clearly determined to be a foreground area or background area and cutting out the image. Therefore, it becomes extremely easy to annotate learning data used in semi-supervised learning.
  • each patch image 8, 9 may partially overlap. Further, a foreground area and a positive area may coexist in one patch image 8, 9. Of course, one patch image 8 may only have a foreground area, and one patch image 9 may only have a background area.
  • the unlabeled patch image 10 can be created by cutting out areas at random, for example, the creation process can be easily automated by a computer. Therefore, it is easy to create a large number of unlabeled patch images 10, and it is easy to create a dataset 6 suitable for semi-supervised learning. Note that the unlabeled patch images 10 may partially overlap.
  • the unlabeled patch image 10 is formed by randomly cutting out a part of the learning image 7, but the invention is not limited to this. That is, as long as prior knowledge regarding the foreground region and background region of the learning image 7 can be utilized, the image does not need to be a part of the learning image 7 that is randomly cut out.
  • the cutting position of the learning image 7 may be cut out in order, for example, from end to end (for example, from the upper left to the lower right, shifting vertically and horizontally little by little) like raster scanning. In this case, each unlabeled patch image 10 may partially overlap.
  • PNU Learning for example, PNU Learning can be adopted, but the present invention is not limited to this.
  • PNU learning parameters are adjusted using PNU loss derived from PNU risk, which is a combination of the risks of PN learning, PU learning, and NU learning. It is also possible to employ semi-supervised learning in which parameters are adjusted using a cost function that includes a prior probability penalty term.
  • the image processing device 1 performs binary segmentation of the image to be processed 2 using the learned model 4 that has been semi-supervised trained using the data set 6.
  • the processing target image 2 is an image to be subjected to binary segmentation, and is stored in advance in the database 15 in this embodiment.
  • the image to be processed 2 input from the database 15 to the image processing apparatus 1 is supplied to the patch image forming section 12 .
  • the patch image forming unit 12 forms a plurality of input patch images 11 smaller in size than the processing target image 2 from the processing target image 2. That is, the patch image 11 is formed by cutting out a part of the image 2 to be processed. Patch image 11 has the same size as patch images 8 to 10 of dataset 6. In this embodiment, the cutting position of the patch image 11 is shifted vertically and horizontally (for example, by several pixels) from the upper left to the lower right of the processing target image 2, like raster scanning. The plurality of patch images 11 thus formed are supplied to the classifier 5.
  • the classifier 5 is composed of a trained model 4 using a neural network.
  • the trained model 4 is configured by a convolutional neural network (CNN).
  • CNN convolutional neural network
  • ResNet-18 is used as the convolutional neural network, but the invention is not limited to this, and it is also possible to use, for example, a normal convolutional multilayer neural network, SegNet, Mobile-Net, etc.
  • a segmented probability map 13 is output.
  • the probability map 13 output from the classifier 5 is supplied to the contour clarifying unit 14.
  • the contour clarifying unit 14 applies, for example, a CRF (Conditional Random Field) to the probability map 13 to clarify the boundary between the foreground region and the background region.
  • the contour clarifying unit 14 may apply the CRF once or multiple times.
  • the contour clarifying unit 14 outputs a binarized image into a foreground region and a background region, that is, a segmented image 3.
  • PyDenseCRF is adopted as the CRF method, but the method is not limited to this. Note that application of the CRF may be omitted.
  • FIG. 5 shows an image processing/analysis method.
  • the image processing/analysis method performs segmentation of the treatment target image 2 using a neural network, and includes a plurality of foreground patch images 8, a plurality of background patch images 9, and a plurality of unlabeled patch images 10.
  • a trained model 4 is first created in preparation for performing image processing (step S51).
  • the trained model 4 is created by semi-supervised learning using a data set 6 for machine learning.
  • This trained model 4 is incorporated into the image processing/analysis device 1 as a classifier 5.
  • step S52 the processing target image 2 stored in advance in the database 15 is supplied to the patch image forming section 12 (step S521), and image processing is started.
  • the patch image forming unit 12 generates an input patch image 11 from the processing target image 2 (step S522). In this embodiment, for example, about one to five patch images 11 are generated from one processing target image 2. The generated patch image 11 is supplied to the classifier 5.
  • the segmented probability map 13 is output (step S523).
  • This probability map 13 is a segmented image, and although this probability map 13 may be used as the final output of the segmented image 3, in this embodiment, the probability map 13 is supplied to the contour clarifying unit 14.
  • CRF is applied once or multiple times (step S524), and the output is the segmented image 3 (step S525).
  • the image processing/analysis device 1 can perform segmentation more efficiently even if the boundary between the foreground (positive) region and the background (negative) region of the processing target image 2 is ambiguous.
  • a flowchart of the entire process in the image processing/analysis device 1 is shown in FIG.
  • model training is performed using partial patch images cut out from the original image (learning image 7).
  • Patch images are composed of three classes: positive, negative, and unlabeled (foreground patch image 8, background patch image 9, and unlabeled patch image 10).
  • PNU learning is performed.
  • features of images included in positive patches foreground patch image 8
  • negative patches background patch image 9
  • unlabeled patches unlabeled patch image 10.
  • the model adjusts the parameters using the PNU loss derived by the cost function.
  • a raster scan is performed on the input image (input patch image 11), and segmentation is performed in patch units using the trained model (learned model 4).
  • a final segmentation image is obtained by applying CRF in the contour clarifying unit 14 to a probability distribution diagram (probability map 13) that is the prediction result of the model output from the trained model.
  • the cost function used in semi-supervised learning adds prior knowledge about the data as a penalty term to the loss function used in binary classification. Even when the number of label images is small, it is possible to make adjustments by configuring settings to show a high value.
  • a confusion matrix for two-class (positive: positive, negative: negative) classification will be exemplified.
  • the vertical lines of the matrix indicate the result of segmentation on the teacher label image
  • the horizontal lines of the matrix indicate the result of segmentation on the determination label image.
  • TP is the total number of pixels that match the determination label image and the teacher label and are labeled as “positive”.
  • TN is the total number of pixels that are matched and given a "negative" label in the determination label image and the teacher label image. Therefore, TP and TN represent the number of pixels in the matching portion.
  • FP is the total number of pixels that are labeled "positive” in the determination label image and labeled "negative” in the teacher label image.
  • FN is the total number of pixels to which a "negative” label is assigned in the determination label image and a "positive” label is assigned to the teacher label image. Therefore, FP and FN represent the number of pixels in the mismatched portion.
  • FIG. 7 shows a comparison (confusion matrix) between the determination label image and the teacher label image. Further, FIG. 8 shows a mathematical formula for calculating ACCURACY.
  • Equation 4 the class prior probability penalty term (penalty term of prior knowledge regarding data) is expressed by Equation 4.
  • the class prior probability ⁇ is defined by Equation 5.
  • Semantic segmentation was performed using image processing/analysis device 1.
  • (3-1) Method for creating patch images
  • patch images 8 to 11 used in semi-supervised learning square images of 32 pixels x 32 pixels were used.
  • One set of data set 6 was composed of 8:200 foreground patch images, 9:200 background patch images, and 10:4000 unlabeled patch images.
  • learning image 7 a square image of 256 pixels x 256 pixels was used.
  • FIG. 9 shows an image of a crack that occurred on a concrete wall
  • FIG. 10 shows an image of an aurora
  • 9(a) and 10(a) show the processing target image 2
  • FIG. 9(b) and FIG. 10(b) show the probability map 13 output from the classifier 5.
  • the boundary between the foreground region (smoke part) and the background region (non-smoke part) may be ambiguous, and the ambiguous region may be wide to some extent.
  • the smoke is thin at the edge of the smoke, and the smoke gets thinner as it gets closer to the edge, so the edge of the smoke becomes an ambiguous area.
  • the number of unlabeled patch images 10 in the data set 6 be larger than the number of foreground patch images 8 and background patch images 9.
  • Figure 11 shows data set 6.
  • the number of unlabeled patch images 10 in dataset 6 is greater than the number of foreground patch images 8 and background patch images 9. Since the unlabeled patch image 10 is created by, for example, randomly cutting out the learning image 7, the creation work can be easily automated by a computer. Therefore, it is easy to create a large number of unlabeled patch images 10. Moreover, since the images are randomly cropped by a computer, the more unlabeled patch images 10 there are, the more unlabeled patch images 10 are cut out from the foreground region, the unlabeled patch images 10 are cut out from the background region, and ambiguous regions are cut out. The ratio of the unlabeled patch image 10 becomes close to the ratio of the foreground area, background area, and ambiguous area of the learning image 7.
  • the class prior probability penalty term of the cost function used in PNU learning in semi-supervised learning tends to become smaller, and as a result, the cost function can be minimized. It becomes possible to do so.
  • the cost function can be minimized in semi-supervised learning, and the trained model 4 can be trained efficiently. The performance of the trained model 4 can be improved.
  • the ambiguous region is expressed as a gradient from +1 (foreground region) to -1 (background region) in probability map 13 and is output. become.
  • a plurality of data sets 6 are prepared, and semi-supervised learning is repeatedly performed to minimize the cost function.
  • the composition of dataset 6 (foreground patch image 8: background patch image 9: unlabeled patch image 10) may be, for example, 100:100:1000, or 100:100:3000. It may be set as 100 sheets: 100 sheets: 10,000 sheets, or any other number may be used. For example, the number of output probability maps 13 is adjusted so that the form of the ambiguous region expressed in the output probability map 13 becomes a desired one.
  • the boundary between the foreground region and the background region is determined. Since the position of the boundary can be adjusted by adjusting the threshold value, flexibility can be provided.
  • Such threshold processing is performed, for example, by the contour clarifying unit 14.
  • the contour clarifying unit 14 may perform CRF after performing threshold processing, for example, or may perform only threshold processing and omit CRF. Further, a threshold value processing unit that performs threshold value processing may be provided separately from the contour clarifying unit 14.
  • the foreground patch image 8 and the background patch image 9 of dataset 6 are created by the operator by manipulating the frame line 16 etc. displayed on the computer's display device, so the operator is sure to Only the portion that can be determined to be the foreground region or the background region can be cut out to create the foreground patch image 8 or the background patch image 9. Therefore, creating the foreground patch image 8 and the background patch image 9 is easy. Since the unlabeled patch image 10 is easily created as described above, the data set 6 is also easy to create.
  • the partial annotation-based image segmentation problem of creating foreground patch image 8 and background patch image 9 can be solved using P(foreground patch image 8), N(background patch image 9) + U(label This is handled as a semi-supervised learning classification problem for unbalanced data of unpatched images 10).
  • Image processing device 2 Processing target image 3 Semantic segmented image 4 Trained model 5 Classifier 6 Data set 7 Training image 8 Foreground patch image 9 Background patch image 10 Unlabeled patch image 11 Input patch image 12 Patch image forming section 13 Probability map 14 Contour clarifying section

Abstract

半教師あり学習に必要な画像のアノテーションを容易にし、データセットの作成を容易にする。 ニューラルネットワークを用いて、処理対象画像2のセグメンテーションを行う画像処理・解析装置1であって、処理対象画像2を入力するとセグメンテーションされた画像3を出力するように半教師あり学習された学習済みモデル4を用いた分類器5と、処理対象画像2から入力用のパッチ画像11を複数形成するパッチ画像形成部12と、分類器5から出力された確率マップ13に対してフォアグラウンドとバックグラウンドとの境界を明確にする処理を行う輪郭明確部14を備えている。

Description

画像処理・解析装置および画像処理・解析方法
 本発明は、ニューラルネットワークを用いて画像のセグメンテーションを行う画像処理・解析装置および画像処理・解析方法に関する。セグメンテーションとしては、セマンティックセグメンテーションの他、バイナリセグメンテーション、インスタンスセグメンテーション、パノプティックセグメンテーション等について適用可能である。
 U-Netなど、教師あり学習に基づくディープラーニング系の画像セグメンテーション手法が多数提案されている。それらを使用するためには、ディープラーニングモデルを訓練するためのアノテーション画像(セグメンテーションの正解例画像)を大量に準備しなくてはならない。ところが自然科学や医学におけるイメージングデータは、訓練データとなるセグメンテーションのアノテーション画像が存在しないことが多い。画像セグメンテーションのためのアノテーション作成作業は画像一枚あたりにかかる作成コストが非常に高く、ディープラーニング系のセグメンテーション技術を導入する上での大きな障壁となっている。
 なお、アノテーションを行うためのツールとして、例えばLabelMe(http://labelme.csail.mit.edu/Release3.0/)がある。
 また、画像のアノテーションのための装置として、例えば特許文献1に開示されてものがある。
特開2021-191429号公報
 画像セグメンテーション用のアノテーション作成は、画像分類のための訓練データ構築よりはるかに作業コストが大きい。イメージングデータによっては、1枚の画像の中に境界を決めやすい領域と決めづらい領域が混在することが多い。例えば、オーロラのように境界が曖昧なものや、血管のような形状が複雑な物体の場合、境界を多角形や曲線で指定することは作業コストが高い。
 そこで、本発明は、画像セグメンテーション用の半教師あり学習に必要な画像のアノテーションを容易にできる技術を提供することを目的とする。
 かかる目的を達成するため、本発明の画像処理・解析装置は、ニューラルネットワークを用いて、処理対象画像のセグメンテーションを行うものであって、処理対象画像を入力するとセグメンテーションされた画像を出力するように半教師あり学習された学習済みモデルを用いた分類器を備え、半教師あり学習に使用されるデータセットは、画像の一部が切り取られてポジティブ・ラベルが付与された複数のフォアグラウンド・パッチ画像と、画像の一部が切り取られてネガティブ・ラベルが付与された複数のバックグラウンド・パッチ画像と、画像の一部が切り取られた複数のラベル無しパッチ画像と、を含んでいる。
 また、本発明の画像処理・解析装置は、データセットのラベル無しパッチ画像が、半教師あり学習においてコスト関数を最小化すべく、少なくとも学習に用いられた画像のフォアグラウンド領域とバックグラウンド領域に関する事前知識が活用できる程度の枚数を自動生成されたものであり、複数のデータセットを使用し、コスト関数を最小化するように半教師あり学習が繰り返し行われるようにしても良い。
 また、本発明の画像処理・解析装置は、処理対象画像から入力用のパッチ画像を複数形成するパッチ画像形成部を備え、分類器に入力用のパッチ画像を入力するようにしても良い。
 また、本発明の画像処理・解析装置は、分類器から出力された確率マップに対してフォアグラウンドとバックグラウンドとの境界を明確にする処理を行う輪郭明確化部を備えていても良い。
 また、本発明の画像処理・解析装置は、学習済みモデルを畳み込みニューラルネットワークとしても良い。
 さらに、本発明の画像処理・解析装置は、半教師あり学習において用いられるコスト関数が、二値分類に使用される損失関数に、データに関する事前知識を罰則項として加えたものである。
 また、本発明の画像処理・解析方法は、ニューラルネットワークを用いて、処置対象画像のセグメンテーションを行うものであって、画像の一部が切り取られてポジティブ・ラベルが付与された複数のフォアグラウンド・パッチ画像と、画像の一部が切り取られてネガティブ・ラベルが付与された複数のバックグラウンド・パッチ画像と、画像の一部がランダムに切り取られた複数のラベル無しパッチ画像とを含むデータセットを用いて、処理対象画像を入力するとセグメンテーションされた画像を出力するように半教師あり学習された学習済みモデルを作成するステップと、学習済みモデルに処理対象画像を入力してセグメンテーションされた画像を作成するステップと、を備えるものである。
 本発明によれば、学習に用いるアノテーションは、フォアグラウンド領域とバックグラウンド領域の境界をなぞって指定するのではなく、フォアグラウンド領域又はバックグラウンド領域と思われる部分をパッチ画像としてユーザが指定する。アノテーションは分類器の訓練(学習)のために用いるので、推論時(処理対象画像のセグメンテーション処理時)には新たなアノテーションは不要となる。
 また、本発明によれば、半教師あり学習に基づき、部分的なアノテーションからバイナリセグメンテーションを実現する手法を構築できる。例えば30分以内に訓練データの構築が終わる。少数のアノテーションデータ(100~200枚程度の画像)から、実用的なセグメンテーションができるようになる。
本発明の画像処理装置によるセグメンテーションの流れを示す概念図である。 本発明の画像処理・解析装置の一例を示すブロック図である。 データセットの作成を説明するための概念図である。 一般的なアノテーションの手法を説明するための概念図である。 本発明の画像処理・解析方法の処理の手順を示すフローチャートである。 第1の実施例を示し、画像処理・解析装置による処理全体の流れを示す概念図である。 第2の実施例を示し、判定用ラベル画像と教師ラベル画像との比較(混同行列)を説明するための図である。 第2の実施例を示し、ACCURACYを求める数式である。 コンクリート壁面に生じたクラックの画像を対象にしたセマンティックセグメンテーション処理の結果を示し、(a)は処理対象画像を示す図、(b)は分類器から出力された確率マップを示す図である。 オーロラの画像を対象にしたセマンティックセグメンテーション処理の結果を示し、(a)は処理対象画像を示す図、(b)は分類器から出力された確率マップを示す図である。 データセットの他の実施例を示し、その作成を説明するための概念図である。
 以下、本発明に係る画像処理・解析装置の実施形態の一例について、図面を参照しながら説明する。
 図1及び図2に、本発明に係る画像処理・解析装置を示す。画像処理・解析装置1は、ニューラルネットワークを用いて、処理対象画像2のセグメンテーションを行うものであって、処理対象画像2を入力するとセグメンテーションされた画像3を出力するように半教師あり学習された学習済みモデル4を用いた分類器5を備えている。本実施形態の画像処理・解析装置1は、処理対象画像2から入力用のパッチ画像11を複数形成するパッチ画像形成部12を備えており、分類器5に入力用のパッチ画像11を入力するように構成されている。また、本実施形態の画像処理・解析装置1は、分類器5から出力された確率マップ13に対してフォアグラウンドとバックグラウンドとの境界を明確にする処理を行う輪郭明確部14を備えている。
 先ず、学習済みモデル4の機械学習に使用されるデータセット6について説明する。図3にデータセット6の作成を示す。学習済みモデル4の半教師あり学習に使用されるデータセット6は、学習用画像7の一部が切り取られてポジティブ・ラベルが付与された複数のフォアグラウンド・パッチ画像8と、学習用画像7の一部が切り取られてネガティブ・ラベルが付与された複数のバックグラウンド・パッチ画像9と、学習用画像7の一部が切り取られた複数のラベル無しパッチ画像10とを含んでいる。
 学習用画像7のピクセルはフォアグラウンド領域とバックグラウンド領域とに分かれている。フォアグラウンド・パッチ画像8は、例えば、その中心のピクセルが学習用画像7のフォアグラウンド領域に属するように切り取られたパッチ画像である。このような切り取り方をすることで、一般的には、フォアグラウンド・パッチ画像8が学習用画像7のフォアグラウンド領域をバックグラウンド領域よりも多く含むパッチ画像になると考えられる。なお、中心のピクセルが学習用画像7のフォアグラウンド領域に属するように学習用画像7の一部を切り取る代わりに、単にフォアグラウンド領域をより多く含むように学習用画像7の一部を切り取るようにしても良い。本実施形態では、フォアグラウンド・パッチ画像8の形状を四角形としているが、四角形に限るものではなく、円形でも良く、その他の形状でも良い。データセット6には多数のフォアグラウンド・パッチ画像8が含まれる。
 バックグラウンド・パッチ画像9は、例えば、その中心のピクセルが学習用画像7のバックグラウンド領域に属するように切り取られたパッチ画像である。このような切り取り方をすることで、一般的には、バックグラウンド・パッチ画像9が学習用画像7のバックグラウンド領域をフォアグラウンド領域よりも多く含むパッチ画像になると考えられる。なお、中心のピクセルが学習用画像7のバックグラウンド領域に属するように学習用画像7の一部を切り取る代わりに、単にバックグラウンド領域をより多く含むように学習用画像7の一部を切り取るようにしても良い。本実施形態では、バックグラウンド・パッチ画像9の形状を四角形としているが、四角形に限るものではなく、円形でも良く、その他の形状でも良い。データセット6には多数のバックグラウンド・パッチ画像9が含まれる。
 ラベル無しパッチ画像10は、学習用画像7の任意の位置が例えばランダムに切り取られたパッチ画像である。本実施形態では、ラベル無しパッチ画像10の形状を四角形としているが、四角形に限るものではなく、円形でも良く、その他の形状でも良い。データセット6には多数のラベル無しパッチ画像10が含まれる。なお、ラベル無しパッチ画像10は学習用画像7の一部を例えばランダムに切り取ったものであり、ラベル無しパッチ画像10の枚数を多くすればするほど、学習用画像7のフォアグラウンド領域の性質に関する事前知識をニューラルネットワークの学習に活用しやすくなると考えられる。そのため、ラベル無しパッチ画像10は、少なくとも学習用画像7のフォアグラウンド領域に関する特徴的な性質を正しく推定できる枚数を図示しないパッチジェネレータによって自動生成されている。なお、ニューラルネットワークの学習に活用できるフォアグラウンド領域についての特徴的性質とは、例えば学習用画像全体の面積に対してフォアグラウンド領域が占める平均的な割合などである。この場合、コスト関数の中に事前知識としてユーザが与えた上記平均的割合と、ラベルなしパッチ画像10のうち学習途中のニューラルネットワークがフォアグラウンドと予測したパッチ画像が占める割合が近いほど、ニューラルネットワークの学習が正しく進んでいると判断できる。その他、フォアグラウンド領域の形状や複数のフォアグラウンド領域の位置関係などが、ニューラルネットワークの学習に活用できると考えられる。
 1枚の学習用画像7から多数のパッチ画像8,9,10が形成される。また、データセット6には、複数回分の学習用画像7のパッチ画像8,9,10が含まれる。
 パッチ画像8,9,10は同サイズ且つ同形状の画像であり、更に後述する入力用のパッチ画像11とも同サイズ且つ同形状の画像である。
 なお、ラベル無しパッチ画像10の枚数、すなわち、学習用画像7のフォアグラウンド領域に関する特徴的性質が正しく推定又はある程度正しく推定できる程度の枚数は、パッチ画像8,9の枚数よりも多くなることが一般的である。
 このような構成のデータセット6は作成が極めて容易である。すなわち、学習用画像7のアノテーションが極めて容易である。
 一般的なアノテーションでは、図4に示すように、学習用画像17のフォアグラウンド領域とバックグラウンド領域を作業者が見極め、フォアグラウンド領域を多角形の境界線18で囲む。このとき、フォアグラウンド領域の輪郭をなぞるようにして境界線18を形成する。そのため、アノテーションの作業が手間のかかるものとなる。特に、オーロラや雲等の輪郭の見極めが難しいものの画像や、毛細血管等の輪郭の形状が複雑な画像についてのアノテーション作業は極めて手間のかかるものとなる。
 これに対し、データセット6では、図3に示すように、学習用画像7の一部である狭い領域をバウンディングボックス等の予め準備された枠線16で囲んで切り取り、ポジティブ・ラベル又はネガティブ・ラベルを付与することでアノテーションされたパッチ画8,9を形成することができる。枠線16はマウス操作等によって移動可能になっており、モニタに表示されている学習用画像7上の任意の位置に枠線16を移動させることができる。フォアグラウンド領域又はバックグラウンド領域であると明確に判定できる位置に枠線16を移動させて画像を切り取ることで、フォアグラウンド・パッチ画像8又はバックグラウンド・パッチ画像9を簡単に形成することができる。そのため、半教師あり学習に使用する学習用データのアノテーション作業が極めて容易になる。
 このようにして必要枚数のパッチ画像8,9が形成される。各パッチ画像8,9は部分的に重なっていても良い。また、1枚のパッチ画像8,9の中にフォアグラウンド領域とポジティブ領域が混在していても良い。もちろん、1枚のパッチ画像8の中はフォアグラウンド領域だけでも良く、1枚のパッチ画像9の中はバックグラウンド領域だけでも良い。
 また、ラベル無しパッチ画像10は例えばランダムに領域を切り取れば良いので、作成作業のコンピュータによる自動化が容易である。そのため、ラベル無しパッチ画像10の大量枚数の作成が容易であり、半教師あり学習に適したデータセット6の作成が容易である。なお、各ラベル無しパッチ画像10は部分的に重なっていても良い。
 なお、上述の説明では、ラベル無しパッチ画像10を、学習用画像7の一部をランダムに切り取ることで形成していたが、これに限るものではない。すなわち、学習用画像7のフォアグラウンド領域とバックグラウンド領域に関する事前知識が活用することが可能であれば、学習用画像7の一部をランダムに切り取った画像でなくても良い。例えば、学習用画像7の切り取り位置をラスタースキャンのように例えば端から端まで(例えば左上から右下まで縦横に少しずつずらして)順番に切り取るようにしても良い。この場合、各ラベル無しパッチ画像10は部分的に重なっていても良い。
 半教師あり学習としては、例えばPNU学習(PNU Learning)が採用可能であるが、これに限るものではない。
 例えば、PNU学習では、PN学習、PU学習、NU学習のリスクを組み合わせたPNUリスクから導出されるPNU lossを用いてパラメータの調整が行われるが、Focal Lossを半教師あり学習に拡張し且つクラス事前確率罰則項を加えたコスト関数を用いてパラメータの調整が行われる半教師あり学習を採用することも可能である。
 半教師あり学習では複数のデータセット6が使用される。また、コスト関数を最小化するように半教師あり学習が繰り返し行われる。データセット6に含まれるラベル無しパッチ画像10は、学習用画像7のフォアグラウンド領域とバックグラウンド領域に関する事前知識を活用するのに必要な枚数設けられているので、半教師あり学習での罰則項を最小化してコスト関数を最小化し易くなる。
 データセット6を使用して半教師あり学習された学習済みモデル4を用いて画像処理装置1は処理対象画像2のバイナリセグメンテーションを行う。
 処理対象画像2はバイナリセグメンテーションの対象となる画像であり、本実施形態ではデータベース15に予め記憶されている。データベース15から画像処理装置1に入力された処理対象画像2はパッチ画像形成部12に供給される。
 パッチ画像形成部12は、処理対象画像2から当該処理対象画像2よりもサイズの小さな入力用のパッチ画像11を複数枚形成する。すなわち、処理対象画像2の一部を切り取ることでパッチ画像11を形成する。パッチ画像11は、データセット6のパッチ画像8~10と同サイズである。本実施形態では、パッチ画像11の切り取り位置をラスタースキャンのように例えば処理対象画像2の左上から右下まで縦横に少しずつ(例えば数ピクセルずつ)ずらしている。形成した複数枚のパッチ画像11は分類器5に供給される。
 分類器5は、ニューラルネットワークを用いた学習済みモデル4により構成されている。好ましくは、学習済みモデル4は畳み込みニューラルネットワーク(CNN、Convolutional neural network)により構成される。畳み込みニューラルネットワークを用いることで、画像セグメンテーションを精度良く行うことが可能になる。本実施形態では、畳み込みニューラルネットワークとして、例えばResNet-18を採用しているが、これに限るものではなく、例えば通常の畳み込み多層ニューラルネットワークや、SegNet、Mobile-Net等の採用も可能である。
 データセット6を用いて半教師あり学習された学習済みモデル4にパッチ画像11を入力すると、セグメンテーションされた確率マップ13が出力される。
 分類器5から出力された確率マップ13は、輪郭明確化部14に供給される。輪郭明確化部14では確率マップ13に対して例えばCRF(Conditional Random Field、条件付き確率場)が適用され、フォアグラウンド領域とバックグラウンド領域の境界が明確化される。輪郭明確化部14ではCRFを1回適用しても良いし、複数回適用しても良い。輪郭明確化部14からフォアグラウンド領域とバックグラウンド領域に二値化された画像、すなわちセグメンテーションされた画像3が出力される。本実施形態では、CRFの手法としてPyDenseCRFを採用しているがこれに限るものではない。なお、CRFの適用を省略しても良い。
 次に、本発明の画像処理・解析方法について説明する。図5に、画像処理・解析方法を示す。画像処理・解析方法は、ニューラルネットワークを用いて、処置対象画像2のセグメンテーションを行うもので、複数のフォアグラウンド・パッチ画像8と、複数のバックグラウンド・パッチ画像9と、複数のラベル無しパッチ画像10とを含むデータセット6を用いて、処理対象画像2から形成したパッチ画像を入力するとセグメンテーションされた画像3を出力するように半教師あり学習された学習済みモデル4を作成するステップS51と、学習済みモデル4に処理対象画像2を入力してセグメンテーションされた画像3を作成するステップS52と、を備えている。
 本発明の画像処理・解析方法では、画像処理を行うための準備として、先ず学習済みモデル4が作成される(ステップS51)。学習済みモデル4は機械学習用のデータセット6を使用した半教師あり学習によって作成される。この学習済みモデル4は分類器5として画像処理・解析装置1に組み込まれる。
 ステップS52では、予めデータベース15に記憶されている処理対象画像2がパッチ画像形成部12に供給され(ステップS521)、画像処理が開始される。パッチ画像形成部12では、処理対象画像2から入力用のパッチ画像11を生成する(ステップS522)。本実施形態では、例えば、1枚の処理対象画像2から1枚~5枚程度のパッチ画像11が生成される。生成されたパッチ画像11は分類器5に供給される。
 分類器5にパッチ画像11が入力されると、セグメンテーションされた確率マップ13が出力される(ステップS523)。この確率マップ13はセグメンテーションされたものであり、この確率マップ13を最終的な出力としてのセグメンテーションされた画像3としても良いが、本実施形態では確率マップ13を輪郭明確化部14に供給してCRFを1回又は複数回適用し(ステップS524)、その出力をセグメンテーションされた画像3とする(ステップS525)。
 本発明では、処理対象画像2よりもサイズが小さい入力用のパッチ画像11を分類器5に入力させてセグメンテーションを行うので、分類器5の学習済みモデル4として比較的規模の小さな畳み込みニューラルネットワークを採用することができ、学習の計算量を減らすことができる。
 画像処理・解析装置1は、処理対象画像2のフォアグラウンド(ポジティブ)領域とバックグラウンド(ネガティブ)領域との境界が曖昧であってもより効率的にセグメンテーションを行うことができる。画像処理・解析装置1における処理全体のフローチャートを図6に示す。
 画像処理・解析装置1に用いられる学習済みモデル4では、元画像(学習用画像7)から切り出した部分的なパッチ画像を用いてモデルの訓練(半教師あり学習)を行う。パッチ画像はpositive、negative、unlabeledの3クラスから構成されている(フォアグラウンド・パッチ画像8、バックグラウンド・パッチ画像9、ラベル無しパッチ画像10)。
 訓練段階(Training phase)ではPNU学習が行われる。PNU学習では、positive patches(フォアグラウンド・パッチ画像8)、negative patches(バックグラウンド・パッチ画像9)、unlabeled patches(ラベル無しパッチ画像10)に含まれる画像の特徴を抽出し、モデルの訓練を行う。このとき、モデルは、コスト関数によって導出されたPNU lossを用いてパラメータの調整を行う。
 テスト段階(Test phase)では、入力された画像(入力用のパッチ画像11)に対してラスタースキャンを行い、訓練済みモデル(学習済みモデル4)を用いて、パッチ単位でのセグメンテーションを行う。訓練済みモデルから出力されたモデルの予測結果である確率分布図(確率マップ13)に対して、輪郭明確化部14においてCRFを適応することで、最終的なセグメンテーション画像(画像3)を得る。
 半教師あり学習において用いられるコスト関数は、二値分類に使用される損失関数に、データに関する事前知識を罰則項として加えるが、当該罰則項として、図8に示すACCURACYがラベル画像数と多い場合とラベル画像数が少ない場合でも高い値を示すように設定を行うことで調整を行うことが可能である。
 上記の判定用ラベル画像と教師ラベル画像とのラベルを比較する。判定用ラベル画像と教師ラベル画像との比較方法として、2クラス(正:ポジティブ、負:ネガティブ)分類の混同行列を例示する。行列の縦が教師ラベル画像におけるセグメンテーションの結果、行列の横が判定用ラベル画像におけるセグメンテーションの結果を示す。TPは、判定用ラベル画像と教師ラベルとで一致して「ポジティブ」のラベルを付与した画素の総数である。TNは、判定用ラベル画像と教師ラベル画像とで一致して「ネガティブ」のラベルを付与した画素の総数である。したがって、TP、TNは、一致部分の画素数を表す。一方、FPは、判定用ラベル画像では「ポジティブ」のラベルを付与して教師ラベル画像では「ネガティブ」のラベルを付与した画素の総数である。FNは、判定用ラベル画像では「ネガティブ」のラベルを付与して教師ラベル画像では「ポジティブ」のラベルを付与した画素の総数である。したがって、FP、FNは、不一致部分の画素数を表す。
 一例として、数式1で示される検出率(RecallまたはTrue Positive Rate;TPR)である。検出率:Kは感度とも呼ばれる。
 [数1]
    K=TP/(TP+FN)
 検出率は、「本来ポジティブ(正)に分類するべきアイテム(画素)を、正しくポジティブに分類できたアイテムの割合」を示し、未検出の少なさを表す。
 数式2で示される精度(Precision):Gである。
 [数2]
    G=TP/(TP+FP)
 精度は、「ポジティブ(正)に分類されたアイテムのうち、実際にポジティブであったアイテムの割合」を示し、誤検出の少なさを表す。
 数式3で示されるACCURACYである。
 [数3]
    ACCURACY=(TP+TN)/(TP+FP+FN+TN)
 ACCURACYは、ポジティブとネガティブの両方の精度を評価する。
 図7に、判定用ラベル画像と教師ラベル画像との比較(混同行列)を示す。
 また、図8にACCURACYを求める数式を示す。
 また、クラス事前確率罰則項(データに関する事前知識の罰則項)は数式4で表される。
Figure JPOXMLDOC01-appb-M000001
 
 ここで、クラス事前確率 π は、数式5で定義される。
Figure JPOXMLDOC01-appb-M000002
 
 画像処理・解析装置1を使用してセマンティックセグメンテーションを行った。
(3-1)パッチ画像の作成方法
 半教師あり学習に使用した各パッチ画像8~11として、32ピクセル×32ピクセルの正方形の画像を使用した。フォアグラウンド・パッチ画像8:200枚、バックグラウンド・パッチ画像9:200枚、ラベル無しパッチ画像10:4000枚で一組のデータセット6を構成した。学習用画像7は、256ピクセル×256ピクセルの正方形の画像を使用した。
(3-2)学習のパラメータ・パイパーパラメータ
 学習タイプ:PNU
(PNとPU及びPNとNUのリスク損失関数の最小化)
 損失:シグモイド型PNU損失
 prior:0.2
 eta:0.1
 Learning Rate:0.000001
 Batchsize:8
 Epoch:40
 上記の条件で画像処理・解析装置1を使用してセマンティックセグメンテーションを行った。図9はコンクリート壁面に生じたクラックの画像を、図10はオーロラの画像をそれぞれ対象にしている。図9(a)及び図10(a)は処理対象画像2、図9(b)及び図10(b)は分類器5から出力された確率マップ13である。
 処理対象画像2が例えば煙突から出る煙等の場合、フォアグラウンド領域(煙の部分)とバックグラウンド領域(煙以外の部分)との境界が曖昧で、しかもその曖昧領域がある程度広いことがある。例えば煙の画像では、煙の縁の部分は煙が薄く、しかも縁に近づくほど煙が薄くなるので、煙の縁の部分が曖昧領域となる。このようにフォアグラウンド領域とバックグラウンド領域との境界が曖昧で、しかもその曖昧領域が広い画像(以下、曖昧領域が広い画像という)のセマンティックセグメンテーションでは、煙など明確な境界が存在しないはずの物体(画像中の物体)に対しても明確な境界を決めてしまう虞がある。すなわち、学習済みモデル4による推論結果が境界部分では連続的に変化せず、出力された確率マップ13では+1(フォアグラウンド領域)または-1(バックグラウンド領域)の極端な値しかとらないことになる。つまり、曖昧領域であるにもかかわらず学習済みモデル4による推論結果が極端な値に二値化されて勾配が消失すると共に、1通りのセグメンテーション結果しか得られないことで柔軟性が失われることになる。したがって、曖昧領域が広い画像については、曖昧領域は確率マップ13では+1から-1への勾配として表現されることが望ましい。
 このような場合、データセット6のラベル無しパッチ画像10の枚数を、フォアグラウンド・パッチ画像8やバックグラウンド・パッチ画像9の枚数よりも多くすることが望ましい。
 図11に、データセット6を示す。データセット6のラベル無しパッチ画像10の枚数をフォアグラウンド・パッチ画像8およびバックグラウンド・パッチ画像9の枚数よりも多くしている。ラベル無しパッチ画像10は学習用画像7を例えばランダムに切り取ることで作成されるので、作成作業のコンピュータによる自動化が容易である。そのため、ラベル無しパッチ画像10の大量作成は容易である。しかも、コンピュータによって例えばランダムに切り取るので、ラベル無しパッチ画像10の枚数が多くなればなるほど、フォアグラウンド領域を切り取ったラベル無しパッチ画像10とバックグラウンド領域を切り取ったラベル無しパッチ画像10と曖昧領域を切り取ったラベル無しパッチ画像10の割合が、学習用画像7のフォアグラウンド領域とバックグラウンド領域と曖昧領域の割合に近くなる。
 したがって、データセット6のラベル無しパッチ画像10の枚数を多くすることで、半教師あり学習においてPNU学習で用いるコスト関数のクラス事前確率罰則項が小さくなる傾向となり、その結果、コスト関数を最小化することが可能になる。このように、データセット6のラベル無しパッチ画像10の枚数を多くすることで半教師あり学習においてコスト関数の最小化を図ることができ、学習済みモデル4の学習を効率良く行うことができると共に学習済みモデル4としての性能を高くすることができる。
 また、データセット6のラベル無しパッチ画像10の枚数を多くすることで、曖昧領域が確率マップ13では+1(フォアグラウンド領域)から-1(バックグラウンド領域)への勾配として表現されて出力されるようになる。
 データセット6は複数準備され、コスト関数を最小化するように半教師あり学習が繰り返し行われる。
 データセット6の構成(フォアグラウンド・パッチ画像8:バックグラウンド・パッチ画像9:ラベル無しパッチ画像10)としては、例えば100枚:100枚:1000枚としても良いし、100枚:100枚:3000枚としても良いし、100枚:100枚:10000枚としても良いし、その他のでも良い。例えば、出力される確率マップ13に表現される曖昧領域の態様が所望のものになるように枚数調整される。
 そして、確率マップ13に表現された曖昧領域をフォアグラウンド領域とバックグラウンド領域に分ける閾値を調整することで、フォアグラウンド領域とバックグラウンド領域との境界が決定される。閾値の調整によって境界の位置を調節することができるので、柔軟性を持たせることができる。
 このような閾値処理は、例えば輪郭明確化部14によって行われる。輪郭明確化部14は、例えば閾値処理を行った後CRFを行っても良いし、閾値処理のみを行いCRFを省略しても良い。また、輪郭明確化部14とは別に閾値処理を行う閾値処理部を設けても良い。
 なお、データセット6のフォアグラウンド・パッチ画像8およびバックグラウンド・パッチ画像9は作業者がコンピュータの表示装置に表示された枠線16等を操作して作成されるものであり、作業者は確実にフォアグラウンド領域またはバックグラウンド領域と判断できる部分のみを切り取ってフォアグラウンド・パッチ画像8またはバックグラウンド・パッチ画像9にすることができる。そのため、フォアグラウンド・パッチ画像8およびバックグラウンド・パッチ画像9の作成は容易である。そして、ラベル無しパッチ画像10の作成も上述の通り容易であるので、データセット6の作成も容易である。
 このように、フォアグラウンド・パッチ画像8およびバックグラウンド・パッチ画像9の作成という部分的アノテーションに基づく画像セグメンテーション問題を、P(フォアグラウンド・パッチ画像8),N(バックグラウンド・パッチ画像9)+U(ラベル無しパッチ画像10)の不均衡データに対する半教師あり学習分類問題として取り扱うものである。
1 画像処理装置
2 処理対象画像
3 セマンティックセグメンテーションされた画像
4 学習済みモデル
5 分類器
6 データセット
7 学習用画像
8 フォアグラウンド・パッチ画像
9 バックグラウンド・パッチ画像
10 ラベル無しパッチ画像
11 入力用のパッチ画像
12 パッチ画像形成部
13 確率マップ
14 輪郭明確化部

Claims (7)

  1.  ニューラルネットワークを用いて、処理対象画像のセグメンテーションを行う画像処理・解析装置であって、
     前記処理対象画像を入力するとセグメンテーションされた画像を出力するように半教師あり学習された学習済みモデルを用いた分類器を備え、
     前記半教師あり学習に使用されるデータセットは、画像の一部が切り取られてポジティブ・ラベルが付与された複数のフォアグラウンド・パッチ画像と、前記画像の一部が切り取られてネガティブ・ラベルが付与された複数のバックグラウンド・パッチ画像と、前記画像の一部が切り取られた複数のラベル無しパッチ画像と、を含むことを特徴とする画像処理・解析装置。
  2.  前記データセットの前記ラベル無しパッチ画像は、前記半教師あり学習においてコスト関数を最小化すべく少なくとも前記学習に用いられた画像のフォアグラウンド領域とバックグラウンド領域に関する事前知識が活用できる程度の枚数を自動生成されたものであり、
     複数の前記データセットを使用し、前記コスト関数を最小化するように前記半教師あり学習が繰り返し行われることを特徴とする請求項1記載の画像処理・解析装置。
  3.  前記処理対象画像から入力用のパッチ画像を複数形成するパッチ画像形成部を備え、
     前記分類器には前記入力用のパッチ画像が入力されることを特徴とする請求項1記載の画像処理・解析装置。
  4.  前記分類器から出力された確率マップに対してフォアグラウンドとバックグラウンドとの境界を明確にする処理を行う輪郭明確化部を備えることを特徴とする請求項1に記載の画像処理・解析装置。
  5.  前記学習済みモデルは、畳み込みニューラルネットワークであることを特徴とする請求項1に記載の画像処理・解析装置。
  6.  前記半教師あり学習において用いられるコスト関数は、二値分類に使用される損失関数に、データに関する事前知識を罰則項として加えたものであることを特徴とする請求項1に記載の画像処理・解析装置。
  7.  ニューラルネットワークを用いて、処置対象画像のセグメンテーションを行う画像処理・解析方法であって、
     画像の一部が切り取られてポジティブ・ラベルが付与された複数のフォアグラウンド・パッチ画像と、前記画像の一部が切り取られてネガティブ・ラベルが付与された複数のバックグラウンド・パッチ画像と、前記画像の一部が切り取られた複数のラベル無しパッチ画像とを含むデータセットを用いて、前記処理対象画像を入力するとセグメンテーションされた画像を出力するように半教師あり学習された学習済みモデルを作成するステップと、
     前記学習済みモデルに前記処理対象画像を入力してセグメンテーションされた画像を作成するステップと、
    を備えることを特徴とする画像処理・解析方法。
PCT/JP2023/010330 2022-03-31 2023-03-16 画像処理・解析装置および画像処理・解析方法 WO2023189662A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022-059045 2022-03-31
JP2022059045 2022-03-31

Publications (1)

Publication Number Publication Date
WO2023189662A1 true WO2023189662A1 (ja) 2023-10-05

Family

ID=88201818

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/010330 WO2023189662A1 (ja) 2022-03-31 2023-03-16 画像処理・解析装置および画像処理・解析方法

Country Status (1)

Country Link
WO (1) WO2023189662A1 (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020504349A (ja) * 2016-10-21 2020-02-06 ナントミクス,エルエルシー デジタル病理組織診断及び顕微解剖

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020504349A (ja) * 2016-10-21 2020-02-06 ナントミクス,エルエルシー デジタル病理組織診断及び顕微解剖

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
NAGAMURA, TORU; TOKUNAGA, TERUMASA; OKITA, TSUYOSHI: "Pneumonia Detection Using Anomaly Detection by U-net", IPSJ SYMPOSIUM SERIES: MULTIMEDIA, DISTRIBUTED, COOPERATIVE AND MOBILE (DICOMO2020) SYMPOSIUM PROCEEDINGS, vol. 2020, 25 June 2020 (2020-06-25), pages 526 - 533, XP009549693 *
WANG YUCHAO; WANG HAOCHEN; SHEN YUJUN; FEI JINGJING; LI WEI; JIN GUOQIANG; WU LIWEI; ZHAO RUI; LE XINYI: "Semi-Supervised Semantic Segmentation Using Unreliable Pseudo-Labels", 2022 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR), IEEE, 18 June 2022 (2022-06-18), pages 4238 - 4247, XP034196177, DOI: 10.1109/CVPR52688.2022.00421 *
WEIZHE LIU; DAVID FERSTL; SAMUEL SCHULTER; LUKAS ZEBEDIN; PASCAL FUA; CHRISTIAN LEISTNER: "Domain Adaptation for Semantic Segmentation via Patch-Wise Contrastive Learning", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 22 April 2021 (2021-04-22), 201 Olin Library Cornell University Ithaca, NY 14853 , XP081942465 *

Similar Documents

Publication Publication Date Title
Oliveira et al. dhSegment: A generic deep-learning approach for document segmentation
CN110738207B (zh) 一种融合文字图像中文字区域边缘信息的文字检测方法
CN109791693B (zh) 用于提供可视化全切片图像分析的数字病理学系统及相关工作流程
CN109741347B (zh) 一种基于卷积神经网络的迭代学习的图像分割方法
CN107358262B (zh) 一种高分辨率图像的分类方法及分类装置
EP2806374B1 (en) Method and system for automatic selection of one or more image processing algorithm
US11861925B2 (en) Methods and systems of field detection in a document
JP2015087903A (ja) 情報処理装置及び情報処理方法
CN114494160B (zh) 一种基于完全融合集成网络候选框的骨折检测方法
CN113469294B (zh) 一种rpa机器人中图标检测方法及其系统
US11348349B2 (en) Training data increment method, electronic apparatus and computer-readable medium
JP6988995B2 (ja) 画像生成装置、画像生成方法および画像生成プログラム
CN112966777B (zh) 一种基于人机交互的半自动标注方法及系统
Li et al. AM-SegNet for additive manufacturing in situ X-ray image segmentation and feature quantification
CN113537017A (zh) 基于级联型回归修正的光学遥感图像飞机检测方法和装置
WO2023189662A1 (ja) 画像処理・解析装置および画像処理・解析方法
Gupta et al. Simsearch: A human-in-the-loop learning framework for fast detection of regions of interest in microscopy images
CN113705531B (zh) 一种基于显微成像的合金粉末夹杂物的识别方法
Christensen et al. Learning to segment object affordances on synthetic data for task-oriented robotic handovers
KR20190136493A (ko) 이미지 분할 방법 및 장치
CN114140551A (zh) 一种基于轨迹图像的高速道路分歧合流点推测方法及系统
Ma et al. Visual detection of cells in brain tissue slice for patch clamp system
CN117593648B (zh) 基于弱监督学习的遥感目标建筑物提取方法
CN116188973B (zh) 认知生成机制裂缝检测方法
Dicken et al. Quantitative and qualitative methods for efficient evaluation of multiple 3D organ segmentations

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23779680

Country of ref document: EP

Kind code of ref document: A1