WO2024024175A1 - 判定評価装置、方法、およびプログラム - Google Patents

判定評価装置、方法、およびプログラム Download PDF

Info

Publication number
WO2024024175A1
WO2024024175A1 PCT/JP2023/013968 JP2023013968W WO2024024175A1 WO 2024024175 A1 WO2024024175 A1 WO 2024024175A1 JP 2023013968 W JP2023013968 W JP 2023013968W WO 2024024175 A1 WO2024024175 A1 WO 2024024175A1
Authority
WO
WIPO (PCT)
Prior art keywords
uncertainty
evaluation
determination
image
result
Prior art date
Application number
PCT/JP2023/013968
Other languages
English (en)
French (fr)
Inventor
瑞紀 宮永
正史 恵木
明佳 倉田
喬之 神田
Original Assignee
株式会社日立製作所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社日立製作所 filed Critical 株式会社日立製作所
Publication of WO2024024175A1 publication Critical patent/WO2024024175A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation

Definitions

  • the present disclosure relates to a technique for evaluating the judgment ability of artificial intelligence that analyzes an image and classifies each pixel into a class.
  • Artificial intelligence is used in the process of dividing images taken into multiple regions in various fields. For example, in the fields of medicine and materials science, artificial intelligence is useful for processing images that capture a mixture of multiple materials and coloring each material separately. In order to enable judgment by artificial intelligence, it is necessary to construct a judgment model by learning training data consisting of a pre-prepared image and correct labels for each area of the image.
  • Patent Document 1 discloses a technique for searching for measures to improve the value of a predetermined index while ensuring that the uncertainty representing the degree of reliability of the estimation result is within an acceptable range. Disclosed.
  • Patent Document 1 is a technique for searching for measures as described above, and is not suitable for evaluating how reliable the results of determination processing by artificial intelligence are.
  • One objective included in the present disclosure is to provide a technique for evaluating how reliable the results of a determination based on a determination model are.
  • a decision evaluation device is a decision evaluation device that evaluates a decision result for input data based on a decision model, and includes an uncertainty calculation unit that calculates the uncertainty of the decision result; and an analysis and evaluation section that evaluates the determination result based on certainty.
  • An evaluation determination method is a determination evaluation method that evaluates a determination result for input data based on a determination model, calculates the uncertainty of the determination result, and calculates the uncertainty of the determination result based on the uncertainty. Evaluate the judgment results.
  • An evaluation determination program is a determination evaluation program that evaluates a determination result for input data based on a determination model, calculates the uncertainty of the determination result, and calculates the uncertainty of the determination result based on the uncertainty. Make the computer evaluate the judgment results.
  • FIG. 1 is a block diagram showing a configuration example of a determination evaluation device according to the present embodiment.
  • An example of learning data according to the present embodiment is shown.
  • An example of a machine learning model according to this embodiment is shown.
  • An example of test data according to this embodiment is shown.
  • An example of determination result data according to the present embodiment is shown.
  • An example of uncertainty data according to the present embodiment is shown.
  • An example of the evaluation rule according to the present embodiment is shown.
  • An example of evaluation results according to the present embodiment is shown.
  • FIG. 2 is a block diagram showing details of an analysis and evaluation section according to the present embodiment.
  • 7 is a flowchart illustrating an example of processing by an uncertainty calculation unit according to the present embodiment.
  • 7 is a flowchart illustrating an example of processing by the analysis and evaluation section according to the present embodiment.
  • 12 is a flowchart illustrating an example of processing when the condition of rule ID “1001” in FIG. 7 is applied in step S206 illustrated in FIG. 11. It is a
  • FIG. 1 is a block diagram showing a configuration example of a determination evaluation device 1 according to the present embodiment.
  • the judgment evaluation device 1 calculates the uncertainty of the boundary of the segment (that is, the boundary between different classes). This is a device for evaluation. Uncertainty is an index indicating the low reliability of the segment boundaries calculated by the machine learning model 103. That is, the boundaries of segments with high uncertainty have low confidence, and the boundaries of segments with low uncertainty have high confidence.
  • the judgment evaluation device 1 includes a machine learning section 101, a judgment section 110, an uncertainty calculation section 111, an analysis evaluation section 109, and an evaluation result display section 112.
  • the judgment evaluation device 1 also stores learning data 102, machine learning model 103, test data 104, judgment result data 105, uncertainty data 106, evaluation rules 107, and evaluation results 108. .
  • the learning data 102 is data used for learning the machine learning model 103.
  • FIG. 2 shows an example of the learning data 102 according to this embodiment. As shown in FIG. 2, the learning data 102 is data in which a learning data ID 201 and a learning data content 202 are associated and recorded.
  • the learning data ID 201 is information for identifying the learning data content 202.
  • the learning data content 202 includes the pixel value of each pixel constituting the input image for learning and the correct class (correct label) into which each pixel constituting the input image is classified.
  • the machine learning unit 101 uses the learning data 102 to perform machine learning on a machine learning model 103 that determines the class (assigns a label) to each pixel of the input image.
  • Machine learning may be deep learning.
  • Examples of the machine learning model 103 may be CNN (Convolutional Neural Network), SegNet, U-Net, PSPNet, etc.
  • FIG. 3 shows an example of the machine learning model 103 according to this embodiment.
  • the machine learning model 103 is represented by data in which a layer 301, a layer type 302, and a layer parameter 303 are associated with each other.
  • the layer 301 is information for identifying the layer of the machine learning model 103.
  • Layer type 302 is information indicating the type of layer 301. Examples of the types of layers include input layers, convolution layers, pooling layers, fully connected layers, and output layers.
  • the layer parameter is information indicating the parameter of the layer 301 (for example, the weight of each neuron).
  • the test data 104 is data used to evaluate the machine learning model 103.
  • FIG. 4 shows an example of test data 104 according to this embodiment. As shown in FIG. 4, the test data 104 includes a test data ID 401 and test data content 402 as items.
  • the test data ID 401 is information for identifying the test data content 402.
  • test data content 402 the pixel value of each pixel of the input image for evaluation and determination is recorded.
  • the determination unit 110 performs evaluation determination of the machine learning model 103 using the test data 104 and generates determination result data 105.
  • FIG. 5 shows an example of determination result data 105 according to this embodiment.
  • the determination result data 105 is data in which a determination result ID 501, a test data ID 502, and a determination result content 503 are recorded in association with each other for each entry.
  • the determination result ID 501 is information for identifying the determination result in the entry.
  • the test data ID 502 is information that identifies the test data used for evaluation determination in the entry, and corresponds to the test data ID 401 shown in FIG. 4.
  • the determination result content 503 indicates the content of the determination result for the entry.
  • the probability of classification of each pixel constituting the test data content 402 (test image) of the test data ID 502 into each class by the machine learning model 103 is shown.
  • the determination result content 503 is data indicating the probability that each pixel constituting the test image is classified into each class.
  • the determination result for a pixel near the boundary between the first segment and the second segment includes the probability of belonging to the first segment (first class) and the probability of belonging to the second segment (second class), It is conceivable that the sum of the probability of belonging to the first segment and the probability of belonging to the second segment is 1.
  • the uncertainty calculation unit 111 calculates the uncertainty of the machine learning model 103 using the test data 104 and generates the uncertainty data 106.
  • FIG. 6 shows an example of the uncertainty data 106 according to this embodiment. As shown in FIG. 6, for each entry, the uncertainty data 106 is data in which an uncertainty ID 601, a determination result ID 602, and test data 603 are recorded in association with each other.
  • the uncertainty ID 601 is information for identifying the entry for which uncertainty calculation was performed using test data.
  • the determination result ID 602 is information for identifying the determination result corresponding to the entry, and corresponds to the determination result ID 501 shown in FIG. 5.
  • the test data ID 603 is information for identifying the test data used to calculate the uncertainty in the entry, and corresponds to the test data ID 401 shown in FIG. 4 and the test data ID 502 shown in FIG. 5.
  • the uncertainty content 604 indicates the value of uncertainty calculated in the entry. That is, the uncertainty content 604 records the uncertainty value of each pixel calculated using the test data 104 of the test data ID 603.
  • Uncertainty is obtained, for example, by the following process.
  • a plurality of machine learning models (hereinafter referred to as Monte Carlo dropout models) are generated in which some of the plurality of nodes constituting the machine learning model 103 are intentionally dropped out using the Monte Carlo method.
  • the input image is input to each Monte Carlo dropout model, and respective determination results (class classification of each pixel) are obtained.
  • the variance value of the plurality of determination results for each pixel obtained in this way is calculated and used as the value of the uncertainty of the pixel.
  • the uncertainty can be said to be the variance value of each pixel class obtained from different Monte Carlo dropout models.
  • the uncertainty can be said to be a value indicating how much the segmentation boundary obtained by each Monte Carlo dropout model fluctuates depending on each dropout model (that is, the reliability of the segmentation boundary).
  • the uncertainty calculation unit 111 may use the variance value of each pixel class calculated using Monte Carlo dropout as the uncertainty. Thereby, the uncertainty calculation unit 111 can calculate uncertainty using test data without a correct answer label.
  • the evaluation rule 107 is a rule used for evaluating uncertainty.
  • FIG. 7 shows an example of the evaluation rule 107 according to this embodiment. As shown in FIG. 7, in the evaluation rule 107, a rule ID 701, a condition 702, and a display template 703 are recorded in association with each other for each rule.
  • the rule ID 701 is information for identifying the rule, and thereby identifies the set of the condition 702 and display template 703 of the rule.
  • the condition 702 is information indicating the conditions (evaluation method) used for evaluating uncertainty. For example, if the condition is met, the uncertainty is evaluated as high.
  • the display template 703 is a template that defines the content to be displayed when the condition 702 is satisfied.
  • the display content is defined to indicate that there is a high degree of uncertainty and a recommended countermeasure.
  • the details of the uncertainty are displayed based on the display template 703 associated with the condition 702.
  • the user can see the details of the uncertainty displayed based on the display template 703 and know what kind of uncertainty may occur and how to deal with it to further reduce the uncertainty. .
  • the analysis and evaluation unit 109 performs analysis and evaluation using the evaluation rules 107, test data 104, judgment result data 105, and uncertainty data 106, and generates evaluation results 108. Details of the analysis and evaluation process will be described later.
  • FIG. 8 shows an example of the evaluation result 108 according to this embodiment.
  • the evaluation result 108 is, for example, data recorded in association with an evaluation result ID 801, a rule ID 802, an uncertainty ID 803, a judgment result ID 804, a test data ID 805, and an evaluation content 806 for each entry of analysis and evaluation. It is.
  • the evaluation result ID 801 is information for identifying the analysis evaluation of the entry.
  • the rule ID 802 is information for identifying the rule used for analysis and evaluation of the entry, and corresponds to the rule ID 701 shown in FIG. 7.
  • the uncertainty ID 803 is information for identifying the uncertainty data used for analysis and evaluation of the entry, and corresponds to the uncertainty ID 601 shown in FIG. 6.
  • the determination result ID 804 is information for identifying the determination result used in the analysis and evaluation of the entry, and corresponds to the determination result ID 501 shown in FIG. 5.
  • the test data ID 805 is information for identifying the test data used for analysis and evaluation of the entry, and corresponds to the test data ID 502 shown in FIG. 4.
  • the evaluation content 806 applies the evaluation rule indicated by the rule ID 802 to the test data indicated by the test data ID 805, the judgment result indicated by the judgment result ID 804, and the uncertainty indicated by the uncertainty ID 803.
  • the contents of the evaluation obtained by application are shown. For example, when the evaluation rule condition 702 of an entry with a certain rule ID 701 shown in FIG. 7 is met, the display content defined in the display template 703 of that entry is recorded in the evaluation content 806.
  • the evaluation result display unit 112 generates an evaluation result display screen 1000 (see FIG. 13) based on the test data 104, judgment result data 105, uncertainty data 106, and evaluation result 108, and displays it on a monitor or the like. indicate.
  • the decision evaluation device 1 is a device that evaluates a decision result for input data based on a decision model, and includes an uncertainty calculation unit 111 that calculates the uncertainty of the decision result, and a It has an analysis and evaluation section 109 that evaluates the determination results. Thereby, the judgment evaluation device 1 can evaluate how reliable the judgment result based on the judgment model is.
  • the input data is an input image
  • the above determination is a process of classifying the input image into regions of multiple classes.
  • the analysis and evaluation unit 109 may calculate the classification uncertainty for each pixel of the input image, and evaluate the determination result based on the class distribution on the input image and the uncertainty distribution on the input image. . Thereby, it is possible to evaluate how reliable the determination result by the determination model is based on the distribution of uncertainty at each position within the image in the determination result of dividing the image into a plurality of regions.
  • FIG. 9 is a block diagram showing details of the analysis and evaluation section 109 according to the present embodiment.
  • the analysis and evaluation unit 109 includes an area division unit 901, a color histogram generation unit 902, a histogram matching calculation unit 903, a boundary determination unit 904, a boundary uncertainty width measurement unit 905, and a mode extraction unit 906. , a high uncertainty pixel extraction section 907 , a mask processing section 908 , an average calculation section 909 , a low frequency component extraction section 910 , and a control section 911 .
  • the area dividing unit 901 divides the image of the test data 104 into a plurality of areas, for example, in a grid pattern.
  • the color histogram generation unit 902 generates a color histogram for each area divided by area division.
  • the histogram matching calculation unit 903 calculates the matching of color histograms between areas generated by color histogram generation.
  • the boundary portion determination unit 904 determines the class boundary portion in the image based on the determination result data 105.
  • the boundary uncertainty measurement unit 905 measures the width of uncertainty in the boundary portion of the class determined by the boundary portion determination 904.
  • the width of uncertainty at the boundary indicates the degree of uncertainty at the boundary, that is, the height of the uncertainty at the boundary. The method for calculating the uncertainty range will be described later.
  • the mode extraction unit 906 extracts the mode from among the multiple uncertainty widths measured by the boundary uncertainty measurement 905.
  • the high-uncertainty pixel extraction unit 907 extracts pixels with high uncertainty (for example, the uncertainty value is greater than or equal to a predetermined threshold) based on the uncertainty data 106.
  • the mask processing unit 908 masks data of pixels extracted in the high uncertainty pixel extraction 907 in the determination result data 105.
  • the average calculation unit 909 calculates the average value of the uncertainty values in the uncertainty data 106.
  • the low frequency component extraction unit 910 extracts low frequency components (for example, frequency components below a predetermined threshold) of the uncertainty value in the uncertainty data 106.
  • the control unit 911 performs processing according to the evaluation rules 107 based on the results of the histogram matching calculation 903, the mode extraction 906, the mask processing 908, the average calculation 909, and the low frequency component extraction 910. Evaluation is performed by applying each of the rules, and the evaluation result 108 is output.
  • FIG. 10 is a flowchart illustrating an example of processing by the uncertainty calculation unit 111 according to the present embodiment.
  • the uncertainty calculation unit 111 reads the machine learning model 103 (S101).
  • the uncertainty calculation unit 111 repeats steps S102 to S107 for the number of entries included in the test data 104 (S102).
  • the uncertainty calculation unit 111 reads the test data of the next entry from the test data 104 (S103).
  • the uncertainty calculation unit 111 repeats step S105 a predetermined number of Monte Carlo dropout models (the number of MCD determinations) (S104).
  • the uncertainty calculation unit 111 selects one of the plurality of Monte Carlo dropout models generated from the machine learning model read out in step S101, and uses the selected Monte Carlo dropout model to proceed to step S103. Each pixel of the test data (that is, the input image) read out is classified into a class. (S105).
  • the uncertainty calculation unit 111 repeats step S105 while switching the Monte Carlo dropout model by the number of Monte Carlo dropout models (the number of MCD determinations), and then advances the process to step S107 (S106).
  • the uncertainty calculation unit 111 calculates the variance value of the determination results obtained from the different Monte Carlo dropout models in step S105 for each pixel, and stores it in the uncertainty data 106 (S107).
  • the uncertainty calculation unit 111 repeats steps S103 to S107 as many times as the number of entries included in the test data 104 (that is, the number of test data) (S108), and then ends this process.
  • FIG. 11 is a flowchart illustrating an example of processing by the analysis and evaluation unit 109 according to the present embodiment.
  • the analysis and evaluation unit 109 repeats steps S202 to S209 for the number of entries included in the uncertainty data 106 (S201).
  • the analysis and evaluation unit 109 reads the next entry of the uncertainty data 106 (S202).
  • the analysis and evaluation unit 109 reads out the test data 104 and determination result data 105 corresponding to the entry of the uncertainty data 106 read out in step S201 (S203).
  • the analysis and evaluation unit 109 repeats steps S205 to S208 for the number of entries included in the evaluation rule 107 (S204).
  • the analysis and evaluation unit 109 reads the next entry of the evaluation rule 107 (S205).
  • the analysis evaluation unit 109 applies the conditions of the evaluation rule 107 of the entry read out in step S205 to the uncertainty data 106 read out in step S202 and the test data 104 and determination result data 105 read out in step S203. (S206).
  • the analysis and evaluation unit 109 determines whether the uncertainty data 106, test data 104, and determination result data 105 satisfy the condition 702 of the evaluation rule 107 (S207).
  • step S207 If the condition 702 is not satisfied (S207: No), the analysis evaluation unit 109 advances the process to step S209.
  • the analysis and evaluation unit 109 stores the display content defined in the display template 703 of the evaluation rule 107 with variables in the evaluation result 108 (S208), and performs processing. The process proceeds to step S209.
  • step S210 After repeating steps S205 to S208 for the number of entries included in the evaluation rule 107 (S209), the analysis evaluation unit 109 advances the process to step S210.
  • the analysis and evaluation unit 109 repeats steps S205 to S208 as many times as the number of entries in the uncertainty data 106 (S210), and then ends this process.
  • FIG. 12 is a flowchart showing a process when applying the condition 702 of rule ID "1001" in FIG. 7 as an example of the process in step S206 shown in FIG. 11.
  • the analysis and evaluation unit 109 repeats steps S302 to S305 for each column of the uncertainty content 604 of the entry of the uncertainty data to be processed (S301).
  • the analysis and evaluation unit 109 repeats steps S303 and S304 as many times as there are local peaks of uncertainty existing in the column selected in step S301 (S302).
  • a local peak of uncertainty is a location where the uncertainty value is larger than the uncertainty values on both sides.
  • the analysis evaluation unit 109 selects a class of pixels (hereinafter referred to as left-side pixels) that are one-fourth of the value of the local peak on the left side of the local peak. It is determined whether or not the class of the pixel having a quarter of the local peak value on the right side of the local peak (hereinafter referred to as the pixel on the right side) is different from the class of the pixel (hereinafter referred to as the pixel on the right side) (S303). If the class of the pixel on the left side of the local peak is different from the class of the pixel on the right side, it can be said that the vicinity of the local peak is the boundary of the segment.
  • the class of the pixel on the left side of the local peak is different from the class of the pixel on the right side, it can be said that the vicinity of the local peak is the boundary of the segment.
  • the analysis and evaluation unit 109 advances the process to step S305.
  • the analysis evaluation unit 109 measures the half-width of this local peak (S304), and advances the process to step S305.
  • the analysis and evaluation unit 109 repeats steps S303 and S304 by the number of local peaks of uncertainty, and then advances the process to step S306 (S305).
  • the analysis and evaluation unit 109 repeats steps S302 to S305 for the number of columns of uncertainty data, and then advances the process to step S307 (S306).
  • the analysis and evaluation unit 109 creates a histogram of the plurality of half widths measured in step S304 (S307).
  • the analysis evaluation unit 109 obtains the mode of the half-width based on the histogram created in step S307 (S308).
  • the analysis evaluation unit 109 determines whether the mode of the half-width calculated in step S308 is larger than a predetermined threshold (“2” in the example of the evaluation rule with the rule ID “1001”) based on the evaluation rule. It is returned as a condition determination result (S309). Then, this process ends.
  • the degree of reliability required for this boundary varies depending on the user, the field of application, etc. If the user requires high reliability for the boundary, the user may set the threshold value in step S309 small, and if the user does not require high reliability for the boundary, the user may set the threshold value in step S309 large.
  • the analysis evaluation unit 109 may perform the following process. That is, the analysis and evaluation unit 109 calculates the half-width of the local peak at a location where there are regions of different classes in the class distribution on both sides of the local peak of uncertainty in the uncertainty distribution over the entire input image. , the mode of the half width is calculated, and if the mode exceeds a predetermined threshold, the image determination result is evaluated as having high boundary uncertainty. Thereby, it can be evaluated that the boundary uncertainty is high, that is, there is a possibility that the resolution of the input image is low.
  • the analysis evaluation unit 109 may perform the following process. That is, if the average value of uncertainty in the input image is smaller than a predetermined threshold value, the analysis evaluation unit 109 evaluates the determination result of the input image as having low uncertainty. Thereby, it is possible to evaluate that the uncertainty of the input image as a whole is low. It becomes possible to add good images with low uncertainty to training data. When adding a good image with low uncertainty to the training data, if there is an uncertain part in the image, that part may be partially corrected.
  • FIG. 13 is a diagram showing an example of an evaluation result display screen 1000 according to the present embodiment.
  • the evaluation result display screen 1000 may be generated by the evaluation result display section 112 and displayed on a monitor or the like.
  • the evaluation result display screen 1000 includes a machine learning model input area 1301, a test data input area 1302, an evaluation rule input area 1303, a diagnosis execution button 1311, a test data selection area 1321, an input image display area 1322, and a judgment area. It has a result display area 1323, an uncertainty display area 1324, and an evaluation result display area 1325.
  • the user inputs the machine learning model 103 to be evaluated into the machine learning model input area 1301. For example, the user may select the file of the machine learning model 103 in the machine learning model input area 1301.
  • the user inputs the test data 104 used for evaluation into the test data input area 1302. For example, the user may select the test data 104 file in the test data input area 1302.
  • the user inputs the evaluation rule 107 used for evaluation into the evaluation rule input area 1303. For example, the user may select the file of evaluation rule 107 in evaluation rule input area 1303.
  • the determination evaluation device 1 executes the above-described uncertainty evaluation process.
  • the user selects an input image whose evaluation result is desired to be confirmed from among the images included in the test data 104.
  • the evaluation result display section 112 displays the input image selected in the test data selection area 1321 in the input image display area 1322.
  • the evaluation result display section 112 displays a determination result image indicating the determination result for the input image displayed in the input image display area 1322 in the determination result display area 1323.
  • the determination result image may be an image indicating class classification (segmentation result) for the input image.
  • the evaluation result display section 112 displays, in the uncertainty display area 1324, an uncertainty image for the determination result image displayed in the determination result display area 1323.
  • the uncertainty image may be an image that indicates the level of uncertainty at the boundaries of the segments. For example, in the uncertainty image, lines indicating boundaries of segments may be expressed as thicker depending on the height of uncertainty. Alternatively, in the uncertainty image, lines indicating boundaries of segments may be expressed in a heat map with a higher color depending on the height of the uncertainty.
  • the evaluation result display section 112 displays the evaluation result 108 in the evaluation result display area 1325. For example, if the mode of the half-width shown in step S309 of FIG. Information indicating that is larger than a predetermined threshold may be displayed.
  • the evaluation result display unit 112 may display the input image, the image of the class distribution on the input image that is the determination result, and the image of the uncertainty distribution on the input image. This allows the user to visually recognize the uncertainty of the segment boundaries with respect to the input image.
  • the evaluation result display unit 112 corrects the determination result of the part of the input image where the uncertainty is high, creates a correct answer label, and adds it to the training data. It is recommended that Thereby, the machine learning model 103 can be retrained using the added teacher data, and the uncertainty of the input image of the machine learning model 103 can be reduced (that is, the reliability can be improved).
  • each part of the judgment evaluation device 1 in the embodiment described above can also be realized by causing a computer equipped with a processor and a memory to execute a software program that defines the processing procedure of each part.
  • Judgment result device 101 Machine learning section 102: Learning data 103: Machine learning model 104: Test data 105: Judgment result data 106: Uncertainty data 107: Evaluation rule 108: Evaluation result 109: Analysis evaluation section 110: Judgment unit 111: Uncertainty calculation unit 112: Evaluation result display unit 201: Learning data ID 202: Learning data content 301: Layer 302: Layer type 303: Layer parameter 401: Test data ID 402: Test data content 501: Judgment result ID 502: Test data ID 503: Judgment result content 601: Uncertainty ID 602: Judgment result ID 603: Test data ID 604: Uncertainty content 701: Rule ID 702: Condition 703: Display template 801: Evaluation result ID 802: Rule ID 803: Uncertainty ID 804: Judgment result ID 805: Test data ID 806: Evaluation content 901: Area division 902: Color histogram generation 903: Histogram matching degree calculation 904

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

判定モデルによる判定の結果がどの程度信頼できるかを評価する。判定モデルに基づく入力データに対する判定結果を評価する判定評価装置は、判定結果の不確実性を算出する不確実性算出部と、不確実性に基づいて判定結果を評価する分析評価部と、を有する。

Description

判定評価装置、方法、およびプログラム
 本開示は、画像を解析して各ピクセルをクラスに分類する人工知能の判定能力を評価する技術に関する。
 様々な分野において撮影された画像を複数の領域に分けるという処理に人工知能が利用される。例えば、医療や材料科学の分野などでは、複数の材料を混合した様子を撮影した画像を材料毎に塗り分けるといった処理に人工知能は有用である。人工知能による判定を可能にするには、予め用意した画像とその画像を領域毎に塗り分けた正解ラベルとからなる教師データを学習して判定モデルを構築する必要がある。
 しかし、精度の高い教師データを用意するには、画像に対する正解ラベルの付与を人手によって正確に行う必要があり、それが時間のかかる作業となっている。そのため教師データが不足する場合が多い。教師データが足りなければ、判定モデルに十分に教師データを学べていない部分が生じる。その場合、そのような部分に属する画像に対する判定結果の精度は低下する。このような問題に関連して、特許文献1には、推定結果の信用できる度合いを表す不確実性が許容できる範囲内となるようにしつつ、所定指標の値を向上する施策を探索する技術が開示されている。
特開2020-30500号公報
 人工知能による判定処理の結果が信頼できるものであれば、その判定結果を基に教師データを作成することが容易となり、入力データに正解ラベルを付与する際の人手による作業が削減される。
 しかしながら、特許文献1の技術は、上述のように施策を探索するための技術であり、人工知能による判定処理の結果がどの程度信頼できるかを評価するには不向きである。
 本開示に含まれるひとつの目的は、判定モデルによる判定の結果がどの程度信頼できるかを評価する技術を提供することである。
 本開示のひとつの態様による判定評価装置は、判定モデルに基づく入力データに対する判定結果を評価する判定評価装置であって、前記判定結果の不確実性を算出する不確実性算出部と、前記不確実性に基づいて前記判定結果を評価する分析評価部と、を有する。
 本開示のひとつの態様による評価判定方法は、判定モデルに基づく入力データに対する判定結果を評価する判定評価方法であって、前記判定結果の不確実性を算出し、前記不確実性に基づいて前記判定結果を評価する。
 本開示のひとつの態様による評価判定プログラムは、判定モデルに基づく入力データに対する判定結果を評価する判定評価プログラムであって、前記判定結果の不確実性を算出し、前記不確実性に基づいて前記判定結果を評価する、ことをコンピュータに実行させる。
 本開示のひとつの態様によれば、判定モデルによる判定の結果がどの程度信頼できるかを評価することが可能となる。
本実施の形態に係る判定評価装置の構成例を示すブロック図である。 本実施の形態に係る学習用データの一例を示す。 本実施の形態に係る機械学習モデルの一例を示す。 本実施の形態に係るテストデータの一例を示す。 本実施の形態に係る判定結果データの一例を示す。 本実施の形態に係る不確実性データの一例を示す。 本実施の形態に係る評価ルールの一例を示す。 本実施の形態に係る評価結果の一例を示す。 本実施の形態に係る分析評価部の詳細を示すブロック図である。 本実施の形態に係る不確実性算出部の処理の一例を示すフローチャートである。 本実施の形態に係る分析評価部の処理の一例を示すフローチャートである。 図11に示すステップS206にて、図7のルールID「1001」の条件を適用する場合の処理の一例を示すフローチャートである。 本実施の形態に係る評価結果表示画面1の一例を示す図である。
 以下、本発明の実施形態について図面を参照して説明する。
(本実施の形態)
 図1は、本実施の形態に係る判定評価装置1の構成例を示すブロック図である。
 判定評価装置1は、機械学習モデル103を用いて入力画像に対するセグメンテーション(つまり各画素のクラスへの分類)を行った際に、そのセグメントの境界(つまり異なるクラス間の境界)の不確実性を評価する装置である。不確実性とは、機械学習モデル103によって算出されたセグメントの境界の信頼度の低さを示す指標である。つまり、不確実性が高いセグメントの境界は信頼度が低く、不確実性が低いセグメントの境界は信頼度が高い。
 判定評価装置1は、機械学習部101と、判定部110と、不確実性算出部111と、分析評価部109と、評価結果表示部112とを含んで構成される。また、判定評価装置1は、学習用データ102と、機械学習モデル103と、テストデータ104と、判定結果データ105と、不確実性データ106と、評価ルール107と、評価結果108とを格納する。
 学習用データ102は、機械学習モデル103の学習に用いられるデータである。図2は、本実施の形態に係る学習用データ102の一例を示す。図2に示すように、学習用データ102は、学習用データID201と、学習用データ内容202とを対応づけて記録したデータである。
 学習用データID201は、学習用データ内容202を識別するための情報である。学習用データ内容202は、学習用の入力画像を構成する各画素(ピクセル)の画素値と、その入力画像を構成する各画素(ピクセル)が分類される正解のクラス(正解のラベル)とを有する。
 機械学習部101は、学習用データ102を用いて、入力画像の各画素についてクラスの判定(ラベルの付与)を行う機械学習モデル103に対して機械学習を行う。機械学習は、深層学習であってよい。機械学習モデル103の例として、CNN(Convolutional Neural Network)、SegNet、U-Net、PSPNet等であってよい。図3は、本実施の形態に係る機械学習モデル103の一例を示す。機械学習モデル103は、レイヤー301と、レイヤー種別302と、レイヤーパラメータ303とを対応づけたデータにより表される。
 レイヤー301は、機械学習モデル103のレイヤーを識別するための情報である。
 レイヤー種別302は、レイヤー301の種別を示す情報である。レイヤーの種別の例として、入力層、畳み込み層、プーリング層、全結合層、出力層等が挙げられる。
 レイヤーパラメータは、レイヤー301のパラメータ(例えば各ニューロンの重み)を示す情報である。
 テストデータ104は、機械学習モデル103の評価判定に用いられるデータである。図4は、本実施の形態に係るテストデータ104の一例を示す。図4に示すように、テストデータ104は、項目として、テストデータID401と、テストデータ内容402とを有する。
 テストデータID401は、テストデータ内容402を識別するための情報である。
 テストデータ内容402として、評価判定用の入力画像の各画素の画素値が記録されている。
 判定部110は、テストデータ104を用いて機械学習モデル103の評価判定を行い、判定結果データ105を生成する。図5は、本実施の形態に係る判定結果データ105の一例を示す。図5に示すように、判定結果データ105は、エントリ毎に、判定結果ID501と、テストデータID502と、判定結果内容503とが対応づけて記録されたデータである。
 判定結果ID501は、当該エントリにおける判定結果を識別するための情報である。
 テストデータID502は、当該エントリにおける評価判定に用いられたテストデータを識別する情報であり、図4に示したテストデータID401に対応する。
 判定結果内容503は、当該エントリにおける判定結果の内容を示す。判定結果の内容として、機械学習モデル103による、テストデータID502のテストデータ内容402(テスト用の画像)を構成する各画素の各クラスへの分類の確率が示されている。つまり、判定結果内容503は、テスト用の画像を構成する各画素について、その画素が各クラスに分類される確率を示すデータである。例えば、第1セグメントと第2セグメントの境界付近の画素についての判定結果には、第1セグメント(第1クラス)に属する確率と、第2セグメント(第2クラス)に属する確率とが含まれ、第1セグメントに属する確率と第2セグメントに属する確率との合計が1になっていることが考えられる。
 例えば、不確実性算出部111は、テストデータ104を用いて機械学習モデル103の不確実性を算出し、不確実性データ106を生成する。図6は、本実施の形態に係る不確実性データ106の一例を示す。図6に示すように、エントリ毎に、不確実性データ106は、不確実性ID601と、判定結果ID602と、テストデータ603とを対応づけて記録したデータである。
 不確実性ID601は、テストデータを用いて不確実性の算出を実施した当該エントリを識別するための情報である。
 判定結果ID602は、当該エントリに対応する判定結果を識別するための情報であり、図5に示した判定結果ID501に対応する。
 テストデータID603は、当該エントリにおける不確実性の算出に用いたテストデータを識別するための情報であり、図4に示したテストデータID401及び図5に示したテストデータID502に対応する。
 不確実性内容604は、当該エントリにおいて算出された不確実性の値を示す。つまり、不確実性内容604には、テストデータID603のテストデータ104を用いて算出された各画素の不確実性の値が記録される。
 不確実性は、例えば、次の処理により求められる。まず、機械学習モデル103を構成する複数のノードの一部をモンテカルロ法により意図的にドロップアウトした機械学習モデル(以下、モンテカルロドロップアウトモデルと称する)を複数生成する。次に、入力画像を各モンテカルロドロップアウトモデルに入力し、それぞれの判定結果(各画素のクラス分類)を得る。そして、このように得た画素毎の複数の判定結果の分散値を算出し、当該画素の不確実性の値とする。つまり、不確実性は、互いに異なるモンテカルロドロップアウトモデルから得られた各画素のクラスの分散値であるといえる。別言すると、不確実性は、モンテカルロドロップアウトモデルのそれぞれによって得られるセグメンテーションの境界が各ドロップアウトモデルによってどのくらい揺らぐか(つまりセグメンテーションの境界の信頼度)を示す値であるといえる。
 すなわち、不確実性算出部111は、モンテカルロドロップアウトを用いて算出した各画素のクラスの分散値を不確実性としてよい。これにより、不確実性算出部111は、正解ラベルの無いテストデータを用いて不確実性を算出することができる。
 評価ルール107は、不確実性の評価に用いられるルールである。図7は、本実施の形態に係る評価ルール107の一例を示す。図7に示すように、評価ルール107には、ルール毎に、ルールID701と、条件702と、表示テンプレート703とが対応づけて記録されている。
 ルールID701は、当該ルールを識別するための情報であり、これにより当該ルールの条件702と表示テンプレート703のセットが識別される。
 条件702は、不確実性の評価に用いる条件(評価方法)を示す情報である。例えば、当該条件が満たされた場合には不確実性が高いと評価される。
 表示テンプレート703は、条件702が満たされた場合に表示する内容を定義したテンプレートである。例えば、不確実性が高いという旨と、それに対して推奨される対処方法とが表示されるように表示内容が定義されている。
 すなわち、条件702が満たされた場合、当該条件702に対応付けられている表示テンプレート703に基づいて、不確実性の内容が表示される。ユーザは、表示テンプレート703に基づいて表示された不確実性の内容を見て、どのような不確実性が発生し得るのか、さらに不確実性を小さくするための対処方法等を知ることができる。
 分析評価部109は、評価ルール107と、テストデータ104と、判定結果データ105と、不確実性データ106とを用いて分析評価を行い、評価結果108を生成する。分析評価の処理の詳細は後述する。図8は、本実施の形態に係る評価結果108の一例を示す。評価結果108は、例えば、分析評価のエントリ毎に、評価結果ID801と、ルールID802と、不確実性ID803と、判定結果ID804と、テストデータID805と、評価内容806とを対応づけて記録したデータである。
 評価結果ID801は、当該エントリの分析評価を識別するための情報である。
 ルールID802は、当該エントリの分析評価に用いられたルールを識別するための情報であり、図7に示したルールID701に対応する。
 不確実性ID803は、当該エントリの分析評価に用いられた不確実性データを識別するための情報であり、図6に示した不確実性ID601に対応する。
 判定結果ID804は、当該エントリの分析評価に用いられた判定結果を識別するための情報であり、図5に示した判定結果ID501に対応する。
 テストデータID805は、当該エントリの分析評価に用いられたテストデータを識別するための情報であり、図4に示したテストデータID502に対応する。
 評価内容806は、テストデータID805により示されたテストデータ、判定結果ID804により示された判定結果、および不確実性ID803により示された不確実性に対して、ルールID802により示された評価ルールを適用して得られた評価の内容を示す。例えば、図7に示された、あるルールID701のエントリの評価ルールの条件702に該当した場合には、そのエントリの表示テンプレート703に定義された表示内容が、評価内容806に記録される。
 なお、分析評価部109の詳細については後述する(図9参照)。
 評価結果表示部112は、テストデータ104と、判定結果データ105と、不確実性データ106と、評価結果108とに基づいて、評価結果表示画面1000(図13参照)を生成し、モニタ等に表示する。
 上述したように、判定評価装置1は、判定モデルに基づく入力データに対する判定結果を評価する装置であり、判定結果の不確実性を算出する不確実性算出部111と、不確実性に基づいて判定結果を評価する分析評価部109とを有する。これにより、判定評価装置1は、判定モデルによる判定の結果がどの程度信頼できるかを評価することができる。
 本実施形態では、入力データが入力画像であり、上記判定が入力画像を複数クラスの領域に分類する処理である。分析評価部109は、入力画像の画素毎の分類の不確実性を算出し、入力画像上のクラスの分布と、入力画像上の不確実性の分布とに基づいて判定結果を評価してよい。これにより、画像を複数の領域に分ける判定結果において画像内の各位置での不確実性の分布に基づいて、判定モデルによる判定の結果がどの程度信頼できるかを評価することができる。
 図9は、本実施の形態に係る分析評価部109の詳細を示すブロック図である。
 分析評価部109は、エリア分割部901と、色ヒストグラム生成部902と、ヒストグラム一致度算出部903と、境界部判別部904と、境界不確実性幅計測部905と、最頻値抽出部906と、高不確実性ピクセル抽出部907と、マスク処理部908と、平均算出部909と、低周波数成分抽出部910と、制御部911とを含む。
 エリア分割部901は、テストデータ104の画像を例えば格子状に複数のエリアに分割する。
 色ヒストグラム生成部902は、エリア分割で分割された各エリアの色ヒストグラムを生成する。
 ヒストグラム一致度算出部903は、色ヒストグラム生成で生成されたエリア同士の色ヒストグラムの一致度を算出する。
 境界部判別部904は、判定結果データ105に基づいて画像におけるクラスの境界部分を判別する。
 境界不確実性計測部905は、不確実性データ106に基づいて、境界部判別904により判別されたクラスの境界部分における不確実性の幅を計測する。境界部分における不確実性の幅とは、その境界部分における不確実性の度合い、つまり境界の不確実性の高さを示す。不確実性の幅の算出方法については後述する。
 最頻値抽出部906は、境界不確実性計測905によって計測された複数の不確実性の幅のうちの最頻値を抽出する。
 高不確実性ピクセル抽出部907は、不確実性データ106に基づき、不確実性の高い(例えば不確実性の値が所定の閾値以上である)画素を抽出する。
 マスク処理部908は、判定結果データ105における、高不確実性ピクセル抽出907で抽出された画素のデータをマスキングする。
 平均算出部909は、不確実性データ106における不確実性の値の平均値を算出する。
 低周波数成分抽出部910は、不確実性データ106における不確実性の値の低周波数成分(例えば所定の閾値以下の周波数成分)を抽出する。
 制御部911は、ヒストグラム一致度算出903の結果、最頻値抽出906の結果、マスク処理908の結果、平均算出909の結果、低周波数成分抽出910の結果に対して、評価ルール107に規定された各ルールを適用して評価を行い、その評価結果108を出力する。
 図10は、本実施の形態に係る不確実性算出部111の処理の一例を示すフローチャートである。
 不確実性算出部111は、機械学習モデル103を読み出す(S101)。
 不確実性算出部111は、テストデータ104に含まれるエントリの数だけステップS102からステップS107を繰り返す(S102)。
 不確実性算出部111は、テストデータ104から次のエントリのテストデータを読み出す(S103)。
 不確実性算出部111は、予め定められたモンテカルロドロップアウトモデルの数(MCD判定回数)だけステップS105を繰り返す(S104)。
 不確実性算出部111は、ステップS101にて読み出した機械学習モデルから生成した複数のモンテカルロドロップアウトモデルのうちのいずれか1つを選択し、選択したモンテカルロドロップアウトモデルを用いて、ステップS103にて読み出したテストデータ(つまり入力画像)の各画素をクラスに分類する。(S105)。
 不確実性算出部111は、モンテカルロドロップアウトモデルの数(MCD判定回数)だけ、モンテカルロドロップアウトモデルを切り替えながらステップS105を繰り返した後、処理をステップS107に進める(S106)。
 不確実性算出部111は、各画素について、ステップS105にて互いに異なるモンテカルロドロップアウトモデルから得られた判定結果の分散値を算出し、不確実性データ106に格納する(S107)。
 不確実性算出部111は、テストデータ104に含まれるエントリの数(つまりテストデータの数)だけステップS103~S107を繰り返した後(S108)、本処理を終了する。
 以上の処理により、不確実性データが得られる。
 図11は、本実施の形態に係る分析評価部109の処理の一例を示すフローチャートである。
 分析評価部109は、不確実性データ106に含まれるエントリの数だけステップS202からステップS209を繰り返す(S201)。
 分析評価部109は、不確実性データ106の次のエントリを読み出す(S202)。
 分析評価部109は、ステップS201にて読み出した不確実性データ106のエントリに対応するテストデータ104と判定結果データ105とを読み出す(S203)。
 分析評価部109は、評価ルール107に含まれるエントリの数だけステップS205からステップS208を繰り返す(S204)。
 分析評価部109は、評価ルール107の次のエントリを読み出す(S205)。
 分析評価部109は、ステップS205にて読み出したエントリの評価ルール107の条件を、ステップS202にて読み出した不確実性データ106とステップS203にて読み出したテストデータ104および判定結果データ105とに適用する(S206)。
 分析評価部109は、不確実性データ106、テストデータ104、および判定結果データ105が、評価ルール107の条件702を満たすか否かを判定する(S207)。
 条件702が満たされない場合(S207:No)、分析評価部109は、処理をステップS209に進める。
 条件702が満たされた場合(S207:YES)、分析評価部109は、評価ルール107の表示テンプレート703に定義された表示内容に変数を代入したものを評価結果108に格納し(S208)、処理をステップS209に進める。
 分析評価部109は、評価ルール107に含まれるエントリの数だけステップS205からステップS208を繰り返した後(S209)、処理をステップS210に進める。
 分析評価部109は、不確実性データ106のエントリの数だけステップS205からステップS208を繰り返した後(S210)、本処理を終了する。
 以上の処理により、評価結果108が得られる。
 図12は、図11に示すステップS206の処理の一例として、図7のルールID「1001」の条件702を適用する場合の処理示すフローチャートである。
 分析評価部109は、処理対象となっている不確実性データのエントリの不確実性内容604の各列の分だけステップS302からステップS305を繰り返す(S301)。
 分析評価部109は、ステップS301で選択した列に存在する不確実性の局所ピークの数だけステップS303からステップS304を繰り返す(S302)。不確実性の局所ピークは、両隣の不確実性の値よりも大きい値を示す箇所である。
 分析評価部109は、ステップS302にて選択した不確実性の局所ピークについて、局所ピークを挟んで左側における局所ピークの値の4分の1になる画素(以下、左側の画素と称する)のクラスと、局所ピークを挟んで右側における局所ピーク値の4分の1になる画素(以下、右側の画素と称する)のクラスとが異なるか否かを判定する(S303)。局所ピークの左側の画素のクラスと右側の画素のクラスとが異なれば、その局所ピークの近傍がセグメントの境界となっていると言える。
 分析評価部109は、局所ピークの左側の画素のクラスと右側の画素のクラスとが異ならない場合(S303:NO)、処理をステップS305に進める。
 分析評価部109は、局所ピークの左側の画素のクラスと右側の画素のクラスとが異なる場合(S303:YES)、この局所ピークの半値幅を計測し(S304)、処理をステップS305に進める。
 分析評価部109は、不確実性の局所ピークの数だけステップS303からステップS304を繰り返した後、処理をステップS306に進める(S305)。
 分析評価部109は、不確実性データの列数だけステップS302からステップS305を繰り返した後、処理をステップS307に進める(S306)。
 分析評価部109は、ステップS304にて計測した複数の半値幅のヒストグラムを作成する(S307)。
 分析評価部109は、ステップS307にて作成したヒストグラムに基づいて、半値幅の最頻値を取得する(S308)。
 分析評価部109は、ステップS308にて算出した半値幅の最頻値が所定の閾値(ルールID「1001」の評価ルールの例では「2」)よりも大きいか否かを、この評価ルールの条件判定結果として返す(S309)。そして、本処理は終了する。
 半値幅が大きい場合、セグメントの境界の揺らぎが大きい(つまり境界の不確実性が高い)ことを意味し、半値幅が小さい場合、セグメントの境界の揺らぎが小さい(つまり境界の不確実性が低い)ことを意味する。この境界に信頼性をどこまで求めるかは、ユーザや適用分野等により異なる。ユーザは、境界に高い信頼性を求める場合、ステップS309の閾値を小さく設定し、境界にそれほど高い信頼性を求めなくてもよい場合、ステップS309の閾値を大きく設定してよい。
 上述したように、分析評価部109は、図7に示すルールID701「1001」の条件702を適用する場合、次の処理を行ってよい。すなわち、分析評価部109は、入力画像の全体にわたり、不確実性の分布における不確実性の局所ピークの両側に、クラスの分布において異なるクラスの領域がある箇所における局所ピークの半値幅を算出し、半値幅の最頻値を算出し、最頻値が所定の閾値を超えていたら、画像の判定結果を、境界の不確実性が高いと評価する。これにより、境界の不確実性が高い、すなわち、入力画像の解像度が低い恐れがあると評価することができる。
 なお、分析評価部109は、図7に示すルールID701「1002」の条件702を適用する場合、次の処理を行ってよい。すなわち、分析評価部109は、入力画像における不確実性の平均値が所定の閾値より小さければ、入力画像の判定結果を、不確実性が低いと評価する。これにより、入力画像の全体として不確実性が低いことを評価することができる。不確実性が低い良好な画像を教師データに加えるといったことが可能となる。不確実性の低い良好な画像を教師データに加える際、画像内に不確実な箇所があればその箇所を部分的に修正してもよい。
 図13は、本実施の形態に係る評価結果表示画面1000の一例を示す図である。
 評価結果表示画面1000は、評価結果表示部112によって生成され、モニタ等に表示されてよい。評価結果表示画面1000は、機械学習モデル入力領域1301と、テストデータ入力領域1302と、評価ルール入力領域1303と、診断実行ボタン1311と、テストデータ選択領域1321と、入力画像表示領域1322と、判定結果表示領域1323と、不確実性表示領域1324と、評価結果表示領域1325とを有する。
 ユーザは、機械学習モデル入力領域1301に、評価対象とする機械学習モデル103を入力する。例えば、ユーザは機械学習モデル入力領域1301にて械学習モデル103のファイルを選択すればよい。
 ユーザは、テストデータ入力領域1302に、評価に用いるテストデータ104を入力する。例えば、ユーザはテストデータ入力領域1302にてテストデータ104のファイルを選択すればよい。
 ユーザは、評価ルール入力領域1303に、評価に用いる評価ルール107を入力する。例えば、ユーザは評価ルール入力領域1303にて評価ルール107のファイルを選択すればよい。
 ユーザが診断実行ボタン1311を押下すると、判定評価装置1は、上述した不確実性の評価処理を実行する。
 ユーザは、テストデータ選択領域1321から、テストデータ104に含まれる画像の中から評価結果を確認したい入力画像を選択する。
 評価結果表示部112は、入力画像表示領域1322に、テストデータ選択領域1321にて選択された入力画像を表示する。
 評価結果表示部112は、判定結果表示領域1323に、入力画像表示領域1322に表示されている入力画像に対する判定結果を示す判定結果画像を表示する。判定結果画像は、入力画像に対するクラス分類(セグメンテーション結果)を示す画像であってよい。
 評価結果表示部112は、不確実性表示領域1324に、判定結果表示領域1323に表示されている判定結果画像に対する不確実性画像を表示する。不確実性画像は、セグメントの境界の不確実性の高さを示す画像であってよい。例えば、不確実性画像は、不確実性の高さに応じて、セグメントの境界を示す線が太く表現されてよい。あるいは、不確実性画像は、不確実性の高さに応じて、セグメントの境界を示す線がヒートマップの高い色で表現されてもよい。
 評価結果表示部112は、評価結果表示領域1325に、評価結果108を表示する。例えば、評価結果表示部112は、図12のステップS309に示す半値幅の最頻値が所定の閾値よりも大きい場合、評価結果表示領域1325に、境界の不確実性の半値幅の最頻値が所定の閾値よりも大きい旨を示す情報を表示してよい。
 上述したように、評価結果表示部112は、入力画像と、判定結果である入力画像上のクラスの分布の画像と、入力画像上の不確実性の分布の画像とを表示してよい。これにより、ユーザは、入力画像に対するセグメントの境界の不確実性を視覚的に認識できる。
 なお、評価結果表示部112は、不確実性が低いと評価された入力画像について、当該入力画像の不確実性が高い箇所の判定結果を修正して正解ラベルを作成して教師データに追加することを推奨してよい。これにより、追加した教師データを用いて機械学習モデル103を再学習し、当該機械学習モデル103の入力画像に対する不確実性を低減(つまり信頼性を向上)することができる。
 なお、上述した実施形態における判定評価装置1の各部は、各部の処理手順を規定したソフトウェアプログラムを、プロセッサ及びメモリを備えるコンピュータに実行させることにより実現することもできる。
 また、上述した実施形態は開示のための例示であり、本発明の範囲をその実施形態のみに限定する趣旨ではない。当業者は、本発明の範囲を逸脱することなしに、他の様々な態様で本発明を実施することができる。
 1:判定結果装置 101:機械学習部 102:学習用データ 103:機械学習モデル 104:テストデータ 105:判定結果データ 106:不確実性データ 107:評価ルール 108:評価結果 109:分析評価部 110:判定部 111:不確実性算出部 112:評価結果表示部 201:学習用データID 202:学習用データ内容 301:レイヤー 302:レイヤー種別 303:レイヤーパラメータ 401:テストデータID 402:テストデータ内容 501:判定結果ID 502:テストデータID 503:判定結果内容 601:不確実性ID 602:判定結果ID 603:テストデータID 604:不確実性内容 701:ルールID 702:条件 703:表示テンプレート 801:評価結果ID 802:ルールID 803:不確実性ID 804:判定結果ID 805:テストデータID 806:評価内容 901:エリア分割 902:色ヒストグラム生成 903:ヒストグラム一致度算出 904:境界部判別 905:境界不確実性幅計測 905:境界不確実性計測 906:最頻値抽出 907:高不確実性ピクセル抽出 908:マスク処理 909:平均算出 910:低周波数成分抽出 911:制御部 1000:評価結果表示画面 1301:機械学習モデル入力領域 1302:テストデータ入力領域 1303:評価ルール入力領域 1311:診断実行ボタン 1321:テストデータ選択領域 1322:入力画像表示領域 1323:判定結果表示領域 1324:不確実性表示領域 1325:評価結果表示領域
 

Claims (9)

  1.  判定モデルに基づく入力データに対する判定結果を評価する判定評価装置であって、
     前記判定結果の不確実性を算出する不確実性算出部と、
     前記不確実性に基づいて前記判定結果を評価する分析評価部と、
    を有する判定評価装置。
  2.  前記入力データが画像であり、
     前記判定が前記画像を複数クラスの領域に分類する処理であり、
     前記分析評価部は、前記画素毎の分類の不確実性を算出し、前記画像上のクラスの分布と、前記画像上の不確実性の分布に基づいて前記判定結果を評価する、
    請求項1に記載の判定評価装置。
  3.  前記分析評価部は、前記画像の全体にわたり、前記不確実性の分布における不確実性の局所ピークの両側に、前記クラスの分布において異なるクラスの領域がある箇所における前記局所ピークの半値幅を算出し、前記半値幅の最頻値を算出し、前記最頻値が所定の閾値を超えていたら、前記画像の判定結果を、境界の不確実性が高いと評価する、
    請求項2に記載の判定評価装置。
  4.  前記分析評価部は、前記画像における前記不確実性の平均値が所定の閾値より小さければ、前記画像の判定結果を、不確実性が低いと評価する、
    請求項2に記載の判定評価装置。
  5.  前記判定結果の評価に基づく画面を表示する評価結果表示部を更に有し、
     前記評価結果表示部は、不確実性が低いと評価された画像について、当該画像の不確実性が高い箇所の判定結果を修正して正解ラベルを作成して教師データに追加することを推奨する、
    請求項4に記載の判定評価装置。
  6.  前記判定結果の評価に基づく画面を表示する評価結果表示部を更に有し、
     前記評価結果表示部は、前記入力データである画像と、前記判定結果である前記画像上のクラスの分布の画像と、前記画像上の不確実性の分布の画像とを表示する、
    請求項2に記載の判定評価装置。
  7.  前記不確実性算出部は、モンテカルロドロップアウトを用いて算出した各画素のクラスの分散値を不確実性とする、
    請求項2に記載の判定評価装置。
  8.  判定モデルに基づく入力データに対する判定結果を評価する判定評価方法であって、
     前記判定結果の不確実性を算出し、
     前記不確実性に基づいて前記判定結果を評価する、
     判定評価方法。
  9.  判定モデルに基づく入力データに対する判定結果を評価する判定評価プログラムであって、
     前記判定結果の不確実性を算出し、
     前記不確実性に基づいて前記判定結果を評価する、
     ことをコンピュータに実行させる、判定評価プログラム。
PCT/JP2023/013968 2022-07-28 2023-04-04 判定評価装置、方法、およびプログラム WO2024024175A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022120852A JP2024017902A (ja) 2022-07-28 2022-07-28 判定評価装置、方法、およびプログラム
JP2022-120852 2022-07-28

Publications (1)

Publication Number Publication Date
WO2024024175A1 true WO2024024175A1 (ja) 2024-02-01

Family

ID=89705923

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/013968 WO2024024175A1 (ja) 2022-07-28 2023-04-04 判定評価装置、方法、およびプログラム

Country Status (2)

Country Link
JP (1) JP2024017902A (ja)
WO (1) WO2024024175A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020042338A (ja) * 2018-09-06 2020-03-19 京セラ株式会社 選択方法、及び選択プログラム
JP2022527525A (ja) * 2019-04-04 2022-06-02 コーニンクレッカ フィリップス エヌ ヴェ 画像データ中の病変部の境界の識別

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020042338A (ja) * 2018-09-06 2020-03-19 京セラ株式会社 選択方法、及び選択プログラム
JP2022527525A (ja) * 2019-04-04 2022-06-02 コーニンクレッカ フィリップス エヌ ヴェ 画像データ中の病変部の境界の識別

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
MARC GORRIZ; AXEL CARLIER; EMMANUEL FAURE; XAVIER GIRO-I-NIETO: "Cost-Effective Active Learning for Melanoma Segmentation", ARXIV.ORG, 25 November 2017 (2017-11-25), XP080840014 *

Also Published As

Publication number Publication date
JP2024017902A (ja) 2024-02-08

Similar Documents

Publication Publication Date Title
Nam et al. Relative attributing propagation: Interpreting the comparative contributions of individual units in deep neural networks
US8086041B2 (en) Pattern evaluation method, pattern matching method and computer readable medium
JP2007334766A (ja) 異常領域検出装置および異常領域検出方法
WO2020121564A1 (ja) 寸法計測装置、寸法計測プログラム及び半導体製造システム
JPWO2011074067A1 (ja) 文字認識方法、文字認識装置および文字認識プログラム
CN112070079B (zh) 基于特征图重赋权的x光违禁品包裹检测方法及装置
WO2020240808A1 (ja) 学習装置、分類装置、学習方法、分類方法、学習プログラム、及び分類プログラム
CN113642823B (zh) 数据分析系统、数据分析方法和非暂时性计算机可读介质
JP6879749B2 (ja) 支援装置および支援方法
Yadav et al. An improved deep learning-based optimal object detection system from images
US6885772B2 (en) Process for cyclic, interactive image analysis, and also computer system and computer program for performing the process
WO2024024175A1 (ja) 判定評価装置、方法、およびプログラム
JP2021162892A (ja) 評価装置、評価方法及び記憶媒体
CN114003511B (zh) 针对模型解释工具的评测方法和装置
US20230080978A1 (en) Machine learning method and information processing apparatus for machine learning
CN113205067A (zh) 作业人员监控方法、装置、电子设备和存储介质
CN113807316A (zh) 烟雾浓度估计模型的训练方法、装置、电子设备及介质
CN111753915A (zh) 一种图像处理装置、方法、设备及介质
JP2010218303A (ja) Gui評価結果提示装置、gui評価結果提示方法およびgui評価結果提示プログラム
Lucas et al. Visual Explanations from Deep Networks via Riemann-Stieltjes Integrated Gradient-based Localization
CN113112515B (zh) 一种纹样图像分割算法评价方法
US20240046066A1 (en) Training a neural network by means of knowledge graphs
EP4328801A2 (en) Determination program, determination apparatus, and determination method
CN117131218A (zh) 对多种计算机视觉任务统一分析的可视分析系统和方法
JP7455086B2 (ja) 機械学習モデル特性可視化装置、機械学習モデル特性可視化方法、及び機械学習モデル特性可視化プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23845915

Country of ref document: EP

Kind code of ref document: A1