WO2023032317A1 - プログラム、情報処理装置、情報処理方法 - Google Patents

プログラム、情報処理装置、情報処理方法 Download PDF

Info

Publication number
WO2023032317A1
WO2023032317A1 PCT/JP2022/013178 JP2022013178W WO2023032317A1 WO 2023032317 A1 WO2023032317 A1 WO 2023032317A1 JP 2022013178 W JP2022013178 W JP 2022013178W WO 2023032317 A1 WO2023032317 A1 WO 2023032317A1
Authority
WO
WIPO (PCT)
Prior art keywords
area
prediction
region
image
gaze
Prior art date
Application number
PCT/JP2022/013178
Other languages
English (en)
French (fr)
Inventor
晃平 楳木
秀敏 永野
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Priority to JP2023545060A priority Critical patent/JPWO2023032317A1/ja
Publication of WO2023032317A1 publication Critical patent/WO2023032317A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Definitions

  • the present technology relates to the technical field of programs, information processing devices, and information processing methods that perform processing for determining whether the grounds for prediction results of image recognition using artificial intelligence are appropriate.
  • Patent Document 1 There is a technology that visualizes the basis of prediction results of image recognition by artificial intelligence (for example, Patent Document 1).
  • This technology was created in view of such problems, and aims to reduce the cost required to confirm the basis for the prediction results of image recognition using artificial intelligence.
  • a program according to the present technology includes a prediction region, which is an image region in which a recognition target is predicted to exist by image recognition using artificial intelligence for an input image, and a gaze region, which is an image region on which the prediction is based. Based on this, the arithmetic processing unit is caused to execute a validity evaluation function for evaluating the validity of the region of interest. For example, it is possible to determine both whether or not the gaze area is valid, to determine only that the gaze area is valid, or to determine only that the gaze area is invalid.
  • An information processing apparatus includes a prediction region, which is an image region in which a recognition target is predicted to exist by image recognition using artificial intelligence for an input image, and a gaze region, which is an image region based on the prediction. and a validity evaluation unit that evaluates the validity of the region of interest based on .
  • An information processing method includes a prediction region, which is an image region in which a recognition target is predicted to exist by image recognition using artificial intelligence for an input image, and a gaze region, which is an image region based on the prediction.
  • the arithmetic processing unit executes validity evaluation processing for evaluating the validity of the region of interest.
  • FIG. 1 is a functional block diagram of an information processing device according to the present technology
  • FIG. It is a figure which shows an example of an input image. It is a figure which shows an example of a prediction area
  • FIG. 3 is a functional block diagram of a gaze area specifying unit;
  • FIG. 10 is a diagram showing an example of a state in which an input image is divided into partial image areas;
  • FIG. 4 is a diagram showing an example of a mask image;
  • FIG. This is the first example of the visualized contribution.
  • FIG. 10 is a diagram showing an example in which two gaze regions are specified for one prediction region; 4 is a functional block diagram of a classification unit;
  • FIG. 1 is a block diagram of a computer device
  • 10 is a flowchart showing an example of processing executed by the information processing device until an evaluation result of adequacy of the gaze region is presented to the user; 8 is a flowchart showing an example of contribution degree visualization processing; 6 is a flowchart showing an example of classification processing; 9 is a flowchart showing another example of classification processing; 4 is a flowchart showing processing executed by each information processing device until a user creates an AI model for achieving a purpose; 10 is a flowchart showing processing executed by each information processing device when misrecognition occurs in the created AI model;
  • the information processing device 1 is a device that performs various types of processing according to instructions from a user (operator) who confirms the validity of processing results of image recognition using artificial intelligence (AI).
  • AI artificial intelligence
  • the information processing device 1 may be, for example, a computer device as a user terminal used by a user, or a computer device as a server device connected to the user terminal.
  • the information processing device 1 uses the result of image recognition processing as input data, and outputs information that the user wants to confirm.
  • the information processing device 1 includes a contribution degree visualization processing unit 2 , a gaze area identification processing unit 3 , a classification unit 4 and a display control unit 5 .
  • the contribution visualization processing unit 2 calculates and visualizes the contribution DoC for each predicted area FA in which the recognition target RO is predicted to exist in the input image II.
  • the calculated contribution DoC is used to identify the gaze area GA in the later stage.
  • FIG. 2 is an example of an input image II in which an American football player is captured. As shown, Input Image II includes four players.
  • the predicted areas FA1, FA2, and FA3 are extracted by image recognition processing using the AI model.
  • the predicted areas FA1, FA2, and FA3 are areas estimated by the AI to have a high possibility of containing uniform numbers.
  • each predicted area FA is highly likely to contain a uniform number based on different areas.
  • the region on which the prediction is based for the prediction region FA be the attention region GA.
  • FIG. 3 shows the gaze area GA1 with respect to the prediction area FA1. Note that there is a possibility that a plurality of gaze areas GA exist for one predicted area FA. Also, the gaze area GA does not have to be rectangular.
  • the contribution visualization processing unit 2 calculates the contribution DoC for each prediction area FA on the input image II. In the following description, processing for calculating the contribution DoC for the prediction area FA1 will be described.
  • the contribution visualization processing unit 2 includes an area division processing unit 21 , a mask image generation unit 22 , an image recognition processing unit 23 , a contribution calculation unit 24 and a visualization processing unit 25 .
  • the area division processing unit 21 divides the input image II into a plurality of partial image areas DI.
  • a division method for example, super pixels may be used.
  • the area division processing unit 21 divides the input image II into a grid so that rectangular partial image areas DI are arranged in a matrix.
  • FIG. 1 An example of the input image II and the partial image area DI is shown in FIG. As shown, the input image II is divided into a large number of partial image areas DI.
  • the mask image generator 22 generates a mask image MI by applying a mask pattern for masking a part of the partial image area DI to the input image II.
  • a mask pattern is created by determining whether to mask each of the M partial image areas DI included in the input image II.
  • FIG. 6 shows an example of a mask image MI obtained by applying one of the created mask patterns to the input image II.
  • the masked partial image area DI be a partial image area DIM. Assuming that the number of partial image areas DI is M, there are 2 to the M-th power types of mask images MI.
  • the mask image generation unit 22 generates, for example, hundreds to tens of thousands of types of mask images MI.
  • the image recognition processing unit 23 performs image recognition processing using an AI model with the mask image MI generated by the mask image generation unit 22 as input data.
  • the prediction result likelihood PLF (inference score) for the prediction area FA1 is calculated for each mask image MI.
  • the prediction result likelihood PLF is information indicating the likelihood of the estimation result that the recognition target RO (for example, uniform number) is included in the prediction area FA1 to be processed, that is, the correctness of the inference.
  • the prediction result likelihood PLF is reduced.
  • the prediction result likelihood PLF increases.
  • the difference between the prediction result likelihood PLF when masked and the prediction result likelihood PLF when not masked increases.
  • the difference between the prediction result likelihood PLF when masked and the prediction result likelihood PLF when not masked is small. In other words, the difference between the prediction result likelihood PLF when each partial image area DI is masked and when it is not masked is calculated, and the greater the difference, the higher the importance of the partial image area DI in prediction. can do.
  • the image recognition processing unit 23 calculates the prediction result likelihood PLF for each prepared mask image MI.
  • the contribution calculation unit 24 calculates the contribution DoC for each partial image region DI using the prediction result likelihood PLF for each mask image MI.
  • the contribution DoC is information indicating the contribution to detection of the recognition target RO. That is, the partial image area DI with a high degree of contribution DoC is regarded as an area with a high degree of contribution to the detection of the recognition target RO.
  • the prediction result likelihood PLF when a certain partial image area DI is masked, the prediction result likelihood PLF is low, and when it is not masked, the prediction result likelihood PLF is high. becomes higher.
  • the input image II is divided into M partial image areas DI, which are partial image areas DI1, DI2, . . . DIM.
  • PLF1 A1 x DoC1 + A2 x DoC2 + ... + AM x DoCM ... formula (1)
  • the visualization processing unit 25 performs processing to visualize the degree of contribution DoC. Several visualization methods are conceivable.
  • Fig. 7 shows the first example of the visualized degree of contribution DoC.
  • the level of contribution DoC is indicated by the shade of the color of the fill. That is, a partial image area DI with a higher degree of contribution DoC is filled with a darker color.
  • FIG. 1 A second example of the visualized degree of contribution DoC is shown in FIG.
  • the partial image areas DI whose contribution DoC is equal to or greater than a certain value are displayed in a solid color.
  • the color depth of the contribution DoC is proportional to the height of the contribution DoC.
  • a third example of the visualized degree of contribution DoC is shown in FIG.
  • the contribution DoC is displayed as a numerical value (0 to 100) within the frame of the partial image area DI. is.
  • the partial image area DI with a high degree of contribution DoC is visualized in an easy-to-understand manner.
  • An image in which the degree of contribution DoC is visualized that is, an image of the degree of contribution DoC such as a heat map shown in FIGS.
  • the gaze area identification processing unit 3 analyzes the degree of contribution DoC as a pre-stage process for performing the classification processing by the subsequent classification unit 4 and performs processing to identify the gaze area GA.
  • a partial image area DI with a high contribution DoC is identified as the gaze area GA.
  • the area is identified as one gaze area GA.
  • the partial image area DI when one partial image area DI is treated as one cell, after smoothing the contribution DoC with a maximum value filter consisting of 3 cells each in length and width, the partial image area DI whose value does not change before and after smoothing is The contribution DoC of the other partial image areas DI is set to 0 without changing the contribution DoC.
  • a partial image area DI having a contribution DoC other than 0 remains after the above processing.
  • Each cluster of the remaining partial image areas DI is treated as one attention area GA, and the partial image area DI is treated as a representative area RP of the attention area GA.
  • one gaze area GA can be configured to include the peripheral partial image areas DI around the representative area RP.
  • the area in which the degree of contribution DoC before processing is equal to or greater than a predetermined value is included in one gaze area GA centering on the representative area RP.
  • one gaze area GA can include a plurality of partial image areas DI.
  • FIG. 10 shows a state in which the gaze areas GA1-1 and GA1-2 are identified as the gaze area GA corresponding to the predicted area FA1 in the input image II.
  • a representative area RP is set for each of the gaze areas GA1-1 and GA1-2.
  • an area with a greater degree of contribution DoC than the adjacent partial image area DI is extracted.
  • the partial image areas DI whose contribution DoC is lower than the threshold are excluded. Finally, among the remaining partial image areas DI, the partial image areas DI that are close to each other are collectively treated as one gaze area GA.
  • the representative area (or representative point) of the gaze area GA is the centroid point of the partial image area DI included in the gaze area GA.
  • the center of gravity may be obtained using each contribution DoC as a weight.
  • the gaze area identification processing unit 3 analyzes the gaze area GA identified using various methods in this way.
  • the number of gaze areas GA, the position of the gaze area GA with respect to the prediction area FA, the difference between the contribution DoC of the prediction area FA and the contribution DoC outside the prediction area FA, etc. are considered.
  • the number of gaze areas GA is "2", and the positions with respect to the prediction area FA are such that the gaze area GA1-1 is inside the prediction area FA, and the gaze area GA1-2 is outside the prediction area FA. be done.
  • the average value of the contribution DoC of the prediction area FA and the average value of the contribution DoC outside the prediction area FA are calculated. calculate.
  • Each of these pieces of information is used for classification processing in the classification unit 4 in the latter stage.
  • the classification unit 4 uses each piece of information obtained by the attention area identification processing unit 3 to evaluate and classify the appropriateness of the attention area GA with respect to the predicted area FA.
  • the classification unit 4 includes a classification processing unit 41 and a priority determination unit 42, as shown in FIG.
  • the classification processing unit 41 evaluates the validity of the gaze area GA, and classifies each data into categories based on the result. Specifically, the classification processing unit 41 assigns a “appropriate” category, a “confirmation required” category, and a “use for analysis” category to the prediction result of the input image II.
  • the "appropriate” category is a category classified when the recognition target RO can be detected based on correct grounds, and data that does not require the user to confirm the validity of the gaze area GA is classified. Category. In other words, the cases classified into the "appropriate” category are the cases with the lowest presentation priority to the user.
  • the "confirmation required" category and "use for analysis” category are categories that are classified when it cannot be determined to be appropriate. That is, there is a possibility that the recognition target RO is detected based on correct grounds and the recognition target RO is detected based on wrong grounds, and it is highly necessary for the user to confirm. It is a category classified into cases.
  • the "confirmation required" category is a category classified when it cannot be determined whether or not the gaze area GA as the basis of prediction is appropriate, and is a category in which data that the user wants to confirm the validity is classified. is.
  • the "use for analysis” category is a category classified when the AI model cannot make predictions based on a high degree of reliability, and is a category in which it is desirable for the user to analyze the cause.
  • FIG. 12 shows an example of classification of the input image II based on the presence/absence of the prediction area FA, the position of the gaze area GA with respect to the prediction area FA, and the correctness/incorrectness of the prediction result.
  • the correctness of the prediction result and the positional relationship of the gaze area GA with respect to the prediction area FA are important.
  • the gaze area GA does not exist, it is classified into the "use for analysis" category.
  • No recognition target is a case where the recognition target RO has not been detected, which contradicts the existence of the prediction area FA. Since there is no such data, classification into categories is not performed.
  • the recognition target RO cannot be detected for the input image II that does not have the recognition target RO, so it is classified into the "appropriate” category.
  • the priority determining unit 42 assigns confirmation priority to each input image II and its prediction result data.
  • the priority determining unit 42 gives higher priority to data that requires user confirmation.
  • the priority determination unit 42 sets the lowest priority for data given the "appropriate" category.
  • the priority determining unit 42 sets the highest priority (for example, first priority) to data to which the "confirmation required" category is assigned.
  • the priority determination unit 42 sets the data assigned the "use for analysis” category to the next highest priority (for example, the second priority) after the data assigned the "confirmation required” category.
  • a high priority is set for cases in which the prediction result is incorrect, so that the user is given priority to confirm.
  • the priority setting by the priority determination unit 42 may be performed by assigning a score such as 0 to 100, or by assigning flag information indicating whether confirmation by the user is required. There may be. Also, when flag information is added, only "1" may be added to items that require confirmation. That is, it is not necessary to perform the process of assigning "0" to items that do not require confirmation. Alternatively, flags may be added only to those that do not require confirmation.
  • the display control unit 5 performs processing for displaying, on the display unit, a heat map of the contribution DoC, the validity of the gaze area GA, and the like so that the user can understand the confirmation priority.
  • the display unit may be included in the information processing apparatus 1 or may be included in another information processing apparatus (for example, a user terminal used by a user) configured to be communicable with the information processing apparatus 1 .
  • FIG. 13 shows a first example of the presentation screen.
  • the presentation screen includes a data display section 51 for displaying various information such as images and data to be presented to the user, and a change operation section 52 for changing the display mode of the data displayed on the data display section 51. is provided.
  • the data display unit 51 displays the original image to be recognized with one prediction area FA superimposed thereon, a heat map of the degree of contribution DoC, and the region of interest.
  • the data display unit 51 displays the file name of the original image, the recognition target RO, the prediction result likelihood PLF, the average contribution degree DoC in the gaze area GA, the number of the gaze area GA, the gaze An average value of contribution DoC outside the area GA, a category, a valid mark column and an invalid mark column for inputting confirmation results, etc. are displayed.
  • the correctness or wrongness of the prediction result may be displayed.
  • the input image II and its data are displayed in descending order of presentation priority to the user.
  • the change operation unit 52 includes a data number change unit 61 for changing the number of data displayed on one page, a search column 62 for searching for data, and a display for displaying and changing the locations of input data and output data. It has a data address display column 63, a display button 64 for displaying data with settings specified by the user, a reload button 65, and a filter condition change button 66 for changing filter conditions.
  • the data display unit 51 has a sorting function as a function of changing the display mode. For example, by selecting each item name in the table of the data display section 51, the display order of the data display section 51 is changed so as to correspond to the selected item.
  • FIG. 14 shows a second example of the presentation screen.
  • similar information is presented as in the first example.
  • the size of each image is changed and displayed according to the classified category. Specifically, the image to which the “confirmation required” category is assigned is displayed in a large size. This makes it easier for the user to recognize the data requiring confirmation.
  • the input image II and its data are displayed in descending order of presentation priority to the user.
  • the data with the "confirmation required" category may be emphasized by changing the color of the frame, or by changing the color of the text.
  • FIG. 15 shows a third example of the presentation screen.
  • the third example only one image is displayed for one data.
  • a heat map of contribution DoC is displayed.
  • the details of the data related to the selected image include the file name of the original image, recognition target RO, prediction result likelihood PLF, contribution in gaze area GA
  • the degree DoC average value, the number of gaze areas GA, the contribution degree DoC average value outside the gaze area GA, categories, and the like may be displayed.
  • the size of the image differs for each data as shown. For example, an image of data with high confirmation priority is displayed large, and an image of data with low confirmation priority is displayed small. It should be noted that the display of the image of the data to which the "appropriate" category, which is given the lowest confirmation priority, may be omitted.
  • FIG. 16 shows a fourth example of the presentation screen.
  • each data is displayed for each classification result shown in FIG.
  • FIG. 17 shows a fifth example of the presentation screen.
  • the image of each data is displayed in a matrix.
  • the outer frame of the image is illustrated, and the contents of the image (the input image II and the heat map of the contribution DoC superimposed thereon) are not illustrated in consideration of the visibility of the drawing. omitted.
  • the user can confirm a lot of data at once.
  • images with high confirmation priority may be displayed larger, or only images with high presentation priority may be displayed.
  • the details of the data for that image may be displayed.
  • Computer device> The information processing device 1 and the user terminal used by the user described above are configured as a computer device.
  • FIG. 18 shows a functional block diagram of the computer device. It should be noted that each computer device does not need to have all the configurations shown below, and may have only a part of them.
  • Various processes are executed in accordance with a program stored in the memory 79 or a program loaded from the storage unit 79 to a RAM (random access memory) 73 .
  • the RAM 73 also stores data necessary for the CPU 71 to execute various processes.
  • the CPU 71 , ROM 72 , RAM 73 and nonvolatile memory section 74 are interconnected via a bus 83 .
  • An input/output interface 75 is also connected to this bus 83 .
  • the input/output interface 75 is connected to an input section 76 including operators and operating devices.
  • an input section 76 including operators and operating devices.
  • various operators and operation devices such as a keyboard, mouse, key, dial, touch panel, touch pad, remote controller, etc. are assumed.
  • a user's operation is detected by the input unit 76 , and a signal corresponding to the input operation is interpreted by the CPU 71 .
  • the input/output interface 75 is connected integrally or separately with a display unit 77 such as an LCD (Liquid Crystal Display) or an organic EL panel, and an audio output unit 78 such as a speaker.
  • a display unit 77 is a display unit that performs various displays, and is configured by, for example, a separate display device or the like connected to a computer device.
  • the display unit 77 displays images for various types of image processing, moving images to be processed, etc. on the display screen based on instructions from the CPU 71 . Further, the display unit 77 displays various operation menus, icons, messages, etc., ie, as a GUI (Graphical User Interface), based on instructions from the CPU 71 .
  • GUI Graphic User Interface
  • the input/output interface 75 may be connected to a storage unit 79 made up of a hard disk, a solid-state memory, etc., and a communication unit 80 made up of a modem or the like.
  • the communication unit 80 performs communication processing via a transmission line such as the Internet, wired/wireless communication with various devices, bus communication, and the like.
  • a drive 81 is also connected to the input/output interface 75 as required, and a removable storage medium 82 such as a magnetic disk, optical disk, magneto-optical disk, or semiconductor memory is appropriately mounted.
  • Data files such as image files and various computer programs can be read from the removable storage medium 82 by the drive 81 .
  • the read data file is stored in the storage unit 79 , and the image and sound contained in the data file are output by the display unit 77 and the sound output unit 78 .
  • Computer programs and the like read from the removable storage medium 82 are installed in the storage unit 79 as required.
  • software for the processing of this embodiment can be installed via network communication by the communication unit 80 or via the removable storage medium 82 .
  • the software may be stored in advance in the ROM 72, the storage unit 79, or the like.
  • the computer device constituting the information processing device 1 is not limited to the single information processing device shown in FIG. 18, and may be configured by systematizing a plurality of information processing devices.
  • the plurality of information processing apparatuses may be systematized by LAN or the like, or may be remotely located by VPN or the like using the Internet or the like.
  • the plurality of information processing devices may include information processing devices as a group of servers (cloud) that can be used by a cloud computing service.
  • the CPU 71 of the information processing device 1 performs visualization processing of the degree of contribution DoC in step S101 of FIG. A detailed processing flow of this processing will be described later.
  • An image as shown in FIG. 7 or an image as shown in FIG. 8 is output by the visualization processing of the contribution DoC.
  • the frame representing the prediction area FA shown in each drawing does not have to be superimposed on the image. That is, in the process of step S101, an image is generated in which the degree of contribution DoC is visualized so that the level of the degree of contribution DoC for each partial image area DI can be known, or the partial image area DI having a high degree of contribution DoC can be known. be.
  • step S102 the CPU 71 of the information processing device 1 executes processing for identifying the gaze area GA.
  • an area with a high degree of contribution DoC is identified as the gaze area GA.
  • the CPU 71 of the information processing device 1 executes classification processing in step S103.
  • the input image II is labeled and classified into categories according to the relationship between the predicted area FA and the gaze area GA. Labels include labels such as "within focused area” label, "outside focused area” label, and "no focused area” label shown in FIG. A specific processing flow will be described later.
  • step S104 the CPU 71 of the information processing device 1 performs a process of giving priority to each data.
  • the data classified into categories for each input image II are given a presentation priority according to the category.
  • the CPU 71 of the information processing device 1 executes display control processing in step S105.
  • display control processing in step S105.
  • presentation screens corresponding to various display modes shown in FIGS. 13 to 17 are displayed on the display unit such as the monitor provided in the information processing apparatus 1 and the display units provided in other information processing apparatuses.
  • the CPU 71 of the information processing device 1 performs region division processing in step S201. Through this processing, the input image II is divided into partial image areas DI (see FIG. 5). Note that the partial image area DI may have a shape other than a rectangle by using super pixels or the like.
  • step S202 the CPU 71 of the information processing device 1 executes processing for generating the mask image MI.
  • FIG. 6 is an example of the mask image MI.
  • step S203 the CPU 71 of the information processing device 1 executes image recognition processing using the AI model.
  • image recognition processing for detecting the designated recognition target RO is executed.
  • step S204 the CPU 71 of the information processing device 1 executes processing for calculating the degree of contribution DoC.
  • the contribution DoC is calculated for each partial image area DI.
  • step S205 the CPU 71 of the information processing device 1 performs processing for visualizing the degree of contribution DoC.
  • Various visualization methods are conceivable, and examples thereof are shown in FIGS. 7 to 9 in the above description.
  • FIG. 21 shows an example of details of the classification processing in step S103 of FIG. Note that the classification process is executed by the number of input images II.
  • the CPU 71 of the information processing apparatus 1 determines whether or not the recognition target RO exists within the input image II.
  • the CPU 71 of the information processing apparatus 1 determines "no recognition target" for the input image II in step S302. Give a label.
  • step S303 the CPU 71 of the information processing device 1 determines whether or not the prediction result that the recognition target RO could not be detected is correct. Whether or not the prediction result is correct may be determined and input by the user.
  • the CPU 71 of the information processing device 1 classifies the input image II into the "appropriate" category in step S304. This case corresponds to the case where the AI model draws the correct conclusions based on the correct grounds.
  • step S303 determines whether the prediction result that the recognition target RO could not be detected is incorrect, that is, if the recognition target RO cannot be detected even though it exists in the input image II.
  • the information processing apparatus In step S305, the CPU 71 of No. 1 classifies the input image II into the "use for analysis" category.
  • step S304 After executing either step S304 or step S305, the CPU 71 of the information processing apparatus 1 ends the classification processing shown in FIG.
  • step S301 When it is determined in step S301 that the recognition target RO exists within the input image II, the CPU 71 of the information processing device 1 determines in step S306 whether or not the gaze area GA exists.
  • the CPU 71 of the information processing apparatus 1 puts the input image II in step S307 under the "no gaze area” label. and classified into the “used for analysis” category.
  • the CPU 71 of the information processing apparatus 1 that has finished the processing of step S307 ends the classification processing shown in FIG.
  • step S306 determines whether or not there is a gaze area GA.
  • N for example, a numerical value less than 10 at most, such as 4 or 5, is set.
  • the CPU 71 of the information processing device 1 proceeds to the process of step S307.
  • the CPU 71 of the information processing device 1 determines in step S309 whether or not the gaze area GA exists only within the predicted area FA.
  • the CPU 71 of the information processing device 1 gives the input image II a label "within the predicted area FA" in step S310.
  • step S311 the CPU 71 of the information processing device 1 determines whether or not the prediction result is correct.
  • the CPU 71 of the information processing device 1 classifies the input image II into the "appropriate" category in step S312.
  • the CPU 71 of the information processing device 1 classifies the input image II into the "confirmation required" category in step S313.
  • step S312 After finishing either step S312 or step S313, the CPU 71 of the information processing apparatus 1 finishes the classification process shown in FIG.
  • step S309 if the gaze area GA does not exist only within the predicted area FA, that is, if the gaze area GA exists at least outside the predicted area FA, the CPU 71 of the information processing apparatus 1 determines in step S314 that the gaze area It is determined whether or not the GA exists only outside the prediction area FA.
  • the CPU 71 of the information processing device 1 When determining that the attention area GA exists only outside the prediction area FA, the CPU 71 of the information processing device 1 assigns the label "outside the prediction area” to the input image II in step S315 and classifies it into the "confirmation required” category. .
  • the information processing apparatus 1 assigns the label “inside/outside prediction region” to the input image II and classifies it into the “confirmation required” category.
  • step S315 or step S316 the CPU 71 of the information processing apparatus 1 finishes the classification process shown in FIG.
  • step S103 of FIG. 19 Another example of the classification processing in step S103 of FIG. 19 is shown in FIG.
  • the same step numbers are assigned to the same processes as in FIG. 21, and the description thereof is omitted as appropriate.
  • step S301 the CPU 71 of the information processing device 1 determines whether or not the recognition target RO exists within the input image II.
  • the CPU 71 of the information processing device 1 When it is determined that there is no recognition target RO, the CPU 71 of the information processing device 1 appropriately executes each process from step S302 to step S305 and finishes the series of processes shown in FIG.
  • the CPU 71 of the information processing device 1 in step S321 determines that the average value of the contribution DoC within the prediction area FA is higher than the average value of the contribution DoC outside the prediction area FA. It is determined whether the difference is greater than or equal to the first threshold value Th1.
  • the prediction area FA If it is determined that the average value of the contribution DoC within the prediction area FA is equal to or less than the average value of the contribution DoC outside the prediction area FA, or the difference is less than the first threshold Th1, for example, the prediction area If the average value of the contribution DoC inside and outside the FA is about the same, if the contribution DoC outside the prediction area FA is higher, or if the contribution DoC inside the prediction area FA is slightly higher, the information processing device In step S322, the CPU 71 of No. 1 determines whether or not the gaze area GA exists outside the prediction area FA.
  • the gaze area GA does not exist outside the predicted area FA, it means that the gaze area GA does not exist within the predicted area FA. Give the label “no attention area” and classify it into the “used for analysis” category.
  • the CPU 71 of the information processing device 1 determines in step S323 whether the average value of the contribution DoC within the prediction area FA is equal to or greater than the second threshold Th2. judge.
  • step S316 the CPU 71 of No. 1 assigns the label “inside/outside prediction region” to the input image II and classifies it into the “confirmation required” category.
  • step S323 When it is determined in step S323 that the degree of contribution DoC within the prediction area FA is less than the second threshold Th2, the attention area GA does not exist within the prediction area FA. , the input image II is labeled as “outside prediction region” and classified into the “confirmation required” category.
  • step S321 If it is determined in step S321 that the average value of the contribution DoC within the prediction area FA is greater than the average value of the contribution DoC outside the prediction area FA, and the difference is greater than or equal to the first threshold Th1, in step S324, the CPU 71 of the information processing device 1 determines whether or not the gaze area GA exists outside the prediction area FA.
  • the CPU 71 of the information processing device 1 When determining that the gaze area GA exists outside the prediction area FA, the CPU 71 of the information processing device 1 assigns the "prediction area inside/outside" label to the input image II in step S316, and classifies it into the "confirmation required” category.
  • step S324 if it is determined in step S324 that the attention area GA does not exist outside the prediction area FA, the CPU 71 of the information processing device 1 executes the processes from step S310 to step S313 and finishes the series of processes shown in FIG.
  • each input image II input to the AI model is labeled and classified into categories.
  • FIGS. 23 and 24 A processing flow for the user to achieve the purpose by using the above-described processing executed by the information processing apparatus 1 will be described with reference to FIGS. 23 and 24.
  • FIG. 23 and 24 A processing flow for the user to achieve the purpose by using the above-described processing executed by the information processing apparatus 1 will be described with reference to FIGS. 23 and 24.
  • FIG. 23 shows an example of a processing flow when a user uses a user terminal to connect to the information processing device 1 as a server device to use the AI model generation function provided by the information processing device 1. be.
  • the CPU 71 of the information processing device 1 sets and examines the problem in step S401.
  • This process is, for example, a process of setting and examining a problem that the user wants to solve, such as analysis of a customer's flow line.
  • the CPU 71 of the information processing device 1 performs initial settings for generating the AI model according to the purpose designated by the user and the specification information of the device that operates the AI model. In the initial settings, for example, the number of layers and the number of nodes of the AI model are set.
  • the CPU 71 of the information processing device 1 collects learning data in step S402.
  • the learning data is a plurality of image data, and may be specified by the user, or may be automatically acquired from the image DB (database) by the CPU 71 of the information processing apparatus 1 according to the purpose.
  • the CPU 71 of the information processing device 1 performs learning using the learning data in step S403. A trained AI model is thus obtained.
  • step S404 the CPU 71 of the information processing device 1 evaluates the performance of the learned AI model. For example, the performance evaluation is performed using the correct/incorrect rate of the recognition result of the image recognition processing.
  • step S405 the CPU 71 of the information processing device 1 evaluates the validity of the gaze area. This process executes at least steps S101, S102, and S103 of FIG. Further, the processing of steps S104 and S105 in FIG. 19 may be executed as processing for confirmation by the user.
  • step S406 the CPU 71 of the information processing device 1 determines whether or not the target performance has been achieved.
  • the CPU 71 of the information processing device 1 may execute this determination process, or the CPU 71 of the information processing device 1 and the CPU 71 of the user terminal may execute the process of allowing the user to select whether or not the target performance is achieved. good.
  • the CPU 71 of the information processing apparatus 1 determines in step S407 whether or not the gaze area GA is appropriate. judge.
  • the AI model will start operating.
  • the CPU 71 of the information processing device 1 may perform processing for starting the operation of the AI model. For example, a process of transmitting the AI model to the user terminal may be executed, or a process of storing the completed AI model in the DB may be executed.
  • step S406 If it is determined in step S406 that the target performance has not been achieved, or if the user selects that the target performance has not been achieved, the CPU 71 of the information processing apparatus 1 adds random learning data in step S408. Determine whether performance improvement can be expected.
  • step S408 it is determined in step S408 that performance improvement can be expected by adding random learning data.
  • the CPU 71 of the information processing device 1 returns to step S402 and collects learning data.
  • the CPU 71 of the information processing apparatus 1 performs analysis based on the evaluation result of the adequacy of the gaze area GA in step S409. That is, analysis processing is performed based on the validity evaluation result in step S405 described above.
  • step S410 the CPU 71 of the information processing device 1 determines whether or not additional data having characteristics to be collected could be identified, that is, whether or not additional data to be collected could be identified. If additional data to be collected can be identified, the CPU 71 of the information processing apparatus 1 returns to step S402 and collects learning data.
  • the CPU 71 of the information processing device 1 returns to step S401 and starts over from problem setting and examination.
  • the AI model obtained in this way is operated by the user to achieve the desired purpose.
  • FIG. 24 shows the processing flow when misrecognition occurs during operation. Note that the same step numbers are given to the same processes as in FIG. 23, and description thereof will be omitted as appropriate.
  • step S501 the CPU 71 of the information processing device 1 performs analysis processing of the gaze area GA.
  • this process is a process of labeling recognition results focusing on the attention area GA and classifying them into categories.
  • step S502 the CPU 71 of the information processing device 1 analyzes the analysis result of the gaze area GA.
  • step S408 the CPU 71 of the information processing apparatus 1 determines whether performance improvement can be expected by adding learning data at random. If it is determined that random addition of learning data can be expected to improve performance, the CPU 71 of the information processing apparatus 1 proceeds to processing for collecting learning data in step S402.
  • the CPU 71 of the information processing device 1 re-learns in step S503, and updates the AI model in step S504.
  • the updated AI model is deployed and utilized in the user's environment.
  • step S408 when it is determined in step S408 that performance improvement cannot be expected by adding random learning data, the CPU 71 of the information processing apparatus 1 determines in step S410 whether or not there is additional data having characteristics to be collected. do. Then, when determining that there is additional data having characteristics to be collected, the CPU 71 of the information processing apparatus 1 determines in step S505 whether there is data to be deleted.
  • step S506 If it is determined that there is data to be deleted, that is, if there is an input image II that is not suitable for AI model learning, the CPU 71 of the information processing apparatus 1 deletes the corresponding input image II in step S506, The process proceeds to step S503.
  • step S505 if it is determined in step S505 that there is no data to be deleted, the CPU 71 of the information processing device 1 reexamines the AI model in step S507. In this process, for example, the processes of steps S401, S402, and S403 in FIG. 23 are executed.
  • the CPU 71 of the information processing device 1 updates the AI model in step S504.
  • the AI model newly acquired in step S507 is deployed to the user environment.
  • the program to be executed by the information processing device 1 as the arithmetic processing device is an image in which the recognition target RO is predicted to exist by image recognition using artificial intelligence (AI) for the input image II.
  • AI artificial intelligence
  • FA FA1, FA2, FA3
  • GA GA1, GA1-1, GA1-2
  • It has a validity evaluation function (function of the classification processing unit 41) that evaluates validity. For example, it is possible to determine both whether or not the gaze area GA is valid, to determine only whether the gaze area GA is valid, or to determine only whether the gaze area GA is invalid.
  • the validity evaluation it may be determined that the gaze area GA is valid. Thereby, it is possible to specify the case where the recognition target RO is predicted based on the appropriate gaze area GA. In other words, it is possible to extract a case where the recognition target RO is predicted without an appropriate gaze area GA, or a case where it is unclear whether the gaze area GA is appropriate in the first place. Therefore, the input image to be confirmed by the operator and its prediction result can be specified.
  • the validity evaluation function (function of the classification processing unit 41) may perform evaluation based on comparison between the predicted area FA and the gaze area GA. For example, the validity is evaluated based on the positional relationship and degree of overlap between the predicted area FA and the gaze area GA. As a result, it is possible to appropriately evaluate whether the gaze area GA is appropriate, so that the input image II to be confirmed by the operator and its prediction result can be appropriately specified.
  • the validity evaluation function (function of the classification processing unit 41) may perform evaluation based on the positional relationship between the predicted area FA and the gaze area GA.
  • the predicted area FA and the focused area GA match, it is determined that the focused area GA is appropriate. Therefore, it is possible to specify the input image II and its prediction result that does not require confirmation by the operator, and to improve work efficiency.
  • the validity evaluation function (function of the classification processing unit 41) may perform evaluation based on whether or not the gaze area GA is positioned within the prediction area FA. Specifically, when the gaze area GA is included in the predicted area FA, it can be evaluated that the recognition target RO is being detected based on an appropriate gaze area GA. That is, it can be evaluated that the gaze area GA is appropriate.
  • the validity evaluation function (function of the classification processing unit 41) may perform evaluation based on the number of gaze areas GA. For example, when there is only one gaze area GA, there is a high possibility that the gaze area GA is appropriate. On the other hand, there is a case where the degree of contribution DoC for the entire area of the input image II is large and the number of gaze areas GA is large. In such a case, there is a high possibility that the gaze area GA is inappropriate. Therefore, by focusing on the number of gaze areas GA, it is possible to evaluate whether prediction (detection) of the recognition target RO is performed based on appropriate gaze areas GA.
  • the gaze area GA exists only within the prediction area FA and the prediction of the recognition target RO is correct, the gaze area It may be determined that the GA is appropriate.
  • Such a prediction is highly likely to correctly predict the recognition target RO based on correct grounds.
  • the validity evaluation function (function of the classification processing unit 41) cannot determine that the gaze area GA is appropriate, it is determined whether or not the gaze area GA exists.
  • the information processing device 1 as an arithmetic processing device may be caused to execute a classification function (function of the classification unit 4) for classifying the prediction result of image recognition accordingly. If the gaze area GA does not exist, it cannot be determined whether the gaze area GA is valid in the first place. For such input image II, the predicted result likelihood PLF is also low, so it is desirable for the operator to analyze the cause. According to this configuration, such an input image II can be classified into the "use for analysis" category, and the input image II to be used for analysis can be clarified.
  • the gaze area GA when it cannot be determined that the gaze area GA is valid and the gaze area GA does not exist, the gaze area GA cannot be determined to be valid and the gaze area
  • the information processing device 1 as an arithmetic processing device is caused to execute a priority determination function (function of the priority determination unit 42) for determining priority so that the priority of confirmation is higher when a GA exists. good too. For example, if the gaze area GA cannot be determined to be valid and the gaze area GA exists, the priority of checking the prediction result of image recognition is determined as the first priority, and the gaze area GA is determined to be valid.
  • a priority determination function (function of the priority determination unit 42) for determining the priority of confirmation of the prediction result of image recognition as the second priority when the determination is not possible and the gaze area GA does not exist is provided as an arithmetic processing device. may be executed by the information processing apparatus 1, and the first priority may be set higher than the second priority.
  • the input image II having the first priority includes cases where the recognition target RO is erroneously recognized based on the gaze area GA within the prediction area FA. Such a case corresponds to a case in which the AI model confidently detects an incorrect target as the recognition target RO.
  • Such an input image II is useful for reducing the possibility of erroneous detection and improving the performance of the AI model by using it for re-learning or additional learning for machine learning. Therefore, by setting the priority of such input image II as the first priority higher than the second priority, efficient learning of the AI model can be performed.
  • the contribution calculation function (function of the contribution calculation unit 24) for calculating the contribution DoC to the prediction result by image recognition for each partial image region DI in the input image II.
  • a gaze area specifying function (function of the gaze area specifying processor 3) for specifying the gaze area GA based on the contribution DoC.
  • the validity evaluation function (function of the classification processing unit 41), based on the difference between the contribution DoC for the prediction area FA and the contribution DoC for the areas other than the prediction area FA, may be evaluated. For example, even if the contribution DoC for the prediction area FA is high and it is determined that the gaze area GA exists within the prediction area FA, the contribution DoC for areas other than the prediction area FA may also be generally high. In such a case, areas other than the prediction area FA are also largely taken into consideration when detecting the recognition target RO, so it cannot necessarily be said to be an appropriate state. According to this configuration, it is possible to prevent the validity from being erroneously evaluated high by evaluating the validity based on the difference in contribution DoC between the prediction area FA and the other areas.
  • the contribution degree calculation function changes the mask presence/absence pattern for each partial image region DI in the input image II.
  • the contribution DoC may be calculated based on the prediction result likelihood PLF for the prediction area FA obtained as a result of performing prediction on a plurality of mask images MI.
  • the degree of contribution DoC is an index that indicates how much it contributes to the derivation of the prediction result, in other words, the detection of the recognition target RO.
  • the partial image area DI may be a pixel area divided into a lattice.
  • a method of dividing the input image II into partial image areas DI for example, it is conceivable to use super-pixels in which similar pixels are collectively regarded as one area. However, with superpixels, the partial image area DI becomes a large area, and sufficient resolution may not be obtained. On the other hand, it is possible to obtain sufficient resolution for calculating the degree of contribution DoC by determining the partial image area DI by dividing the image into a grid without considering the similarity of each pixel.
  • a display control function (function of the display control unit 5) for executing display control for presenting prediction results of image recognition is provided to the information processing device 1 as an arithmetic processing device. may be executed.
  • the work efficiency of the worker can be improved by displaying the input image II or the like that needs to be confirmed by the worker.
  • by displaying information such as the prediction area FA, the gaze area GA, and whether the prediction result is correct or incorrect together with the input image II, it is possible to provide an environment in which the operator can easily perform confirmation work.
  • the display control function (function of the display control unit 5) displays an image in which the predicted area FA and the gaze area GA are superimposed on the input image II.
  • Display control may be executed as follows. This makes it easy to grasp the positions of the prediction area FA and the gaze area GA with respect to the input image II. Therefore, the working efficiency of the worker can be improved.
  • the priority determination function (function of the priority determination unit 42) for determining the priority of confirmation of the predicted result of image recognition is implemented as an arithmetic processing device. may be executed by the information processing apparatus 1, and the display control function (function of the display control unit 5) may be caused to execute display control so that a display based on the priority is performed in presenting the predicted result of image recognition. For example, display control may be performed so that the input image II and the prediction result are displayed in order of priority, or display control may be performed so that only the input image II and the prediction result having the highest priority are displayed. , display control is performed so that the input image II having a high priority and the prediction result are displayed conspicuously. As a result, the efficiency of confirmation work can be improved.
  • the display control function (function of the display control unit 5) executes display control so that the display is performed in the display order based on the priority. good too. This makes it easy for the operator to grasp the input image II and the prediction results with high priority.
  • the display control function (function of the display control unit 5) executes display control so that prediction results of image recognition with low priority are not displayed. good too. As a result, the operator is not presented with the input image II or the prediction result that does not require confirmation, so that work efficiency can be improved.
  • Such a program is a program to be executed by the information processing apparatus 1 described above, and includes an HDD (Hard Disk Drive) as a storage medium built in a device such as a computer device, a ROM in a microcomputer having a CPU, or the like.
  • the program may be a flexible disk, a CD-ROM (Compact Disk Read Only Memory), an MO (Magneto Optical) disk, a DVD (Digital Versatile Disc), a Blu-ray Disc (registered trademark), a magnetic disk, a semiconductor It can be temporarily or permanently stored (recorded) in a removable storage medium such as a memory or memory card.
  • Such removable storage media can be provided as so-called package software.
  • it can also be downloaded from a download site via a network such as a LAN (Local Area Network) or the Internet.
  • LAN Local Area Network
  • the above-described information processing apparatus 1 includes a predicted area FA, which is an image area predicted to contain a recognition target RO by image recognition using an artificial intelligence AI for an input image II, and a gaze area, which is an image area based on which the prediction is based. and a validity evaluation unit (classification processing unit 41) that evaluates the validity of the attention area GA based on the area GA.
  • a predicted area FA which is an image area predicted to contain a recognition target RO by image recognition using an artificial intelligence AI for an input image II
  • a gaze area which is an image area based on which the prediction is based.
  • a validity evaluation unit classification processing unit 41
  • the information processing method executed by the information processing apparatus 1 includes a prediction region FA, which is an image region in which the recognition target RO is predicted to exist by image recognition of the input image II using the artificial intelligence AI, and an image serving as the basis for the prediction.
  • the arithmetic processing unit executes validity evaluation processing (processing by the classification processing unit 41) for evaluating the validity of the attention area GA.
  • the present technology can also adopt the following configuration.
  • the region of interest is determined based on a prediction region, which is an image region in which a recognition target is predicted to exist by image recognition using artificial intelligence for an input image, and a region of interest, which is an image region on which the prediction is based.
  • a program that causes an arithmetic processing unit to execute a validity evaluation function that evaluates the validity of (2) The program according to (1) above, wherein the evaluation of validity determines that the gaze region is valid.
  • a classification function for classifying the prediction result of the image recognition according to whether or not the region of interest exists when the validity evaluation function fails to determine that the region of interest is valid;
  • the program according to (2) above to be executed.
  • the confirmation priority is higher in the case where the gaze region cannot be determined to be valid and the gaze region does not exist than in the case where the gaze region cannot be determined to be valid and the gaze region does not exist.
  • the program according to (8) above causing the arithmetic processing device to execute a priority determination function of determining the priority as above.
  • (10) a contribution degree calculation function for calculating a contribution degree to a prediction result by the image recognition for each partial image region in the input image;
  • the program according to any one of (1) to (9) above, causing an arithmetic processing device to execute a gaze area specifying function of specifying the gaze area based on the contribution.
  • (11) The program according to (10) above, wherein in the validity evaluation function, the evaluation is performed based on a difference between the degree of contribution for the prediction region and the degree of contribution for regions other than the prediction region.
  • the contribution calculation function the prediction result likelihood of the prediction region obtained as a result of performing the prediction on a plurality of mask images in which patterns of presence/absence of the mask are changed for each of the partial image regions in the input image.
  • the display control function executes the display control so that an image in which the prediction region and the attention region are superimposed on an input image is displayed.
  • the region of interest is determined based on a prediction region, which is an image region in which a recognition target is predicted to exist by image recognition using artificial intelligence for an input image, and a region of interest, which is an image region on which the prediction is based.
  • An information processing device comprising a validity evaluation unit that evaluates the validity of (20)
  • the region of interest is determined based on a prediction region, which is an image region in which a recognition target is predicted to exist by image recognition using artificial intelligence for an input image, and a region of interest, which is an image region on which the prediction is based.
  • An information processing method in which an arithmetic processing unit executes validity evaluation processing for evaluating the validity of
  • Gaze area identification processing unit (gazing area identification function) 4 Classification part (classification function) 5 Display control unit (display control function) 24 contribution calculation unit (contribution calculation function) 41 Classification processing unit (validity evaluation function) 42 Priority determination unit (priority determination function) II Input image RO Recognition target FA, FA1, FA2, FA3 Prediction area GA, GA1, GA1-1, GA1-2 Attention area DI, DIM Partial image area MI Mask image PLF Prediction result likelihood DoC Contribution

Landscapes

  • Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

プログラムは、入力画像に対する人工知能を用いた画像認識によって認識対象が存在すると予測された画像領域である予測領域と、前記予測の根拠とされた画像領域である注視領域と、に基づいて、前記注視領域についての妥当性の評価を行う妥当性評価機能を、演算処理装置に実行させるものとした。

Description

プログラム、情報処理装置、情報処理方法
 本技術は、人工知能を用いた画像認識の予測結果の根拠が妥当であることを判定する処理を行うプログラム、情報処理装置、情報処理方法の技術分野に関する。
 人工知能(AI:Artificial Intelligence)を用いた画像認識を行うことにより、被写体の検出や分類を行う技術がある。
 このような人工知能に用いられるAIモデルの性能評価においては、予測結果の正しさだけでなく予測結果が導かれた根拠が妥当であるか否かを考慮することが重要である。
 人工知能による画像認識の予測結果の根拠を可視化する技術が存在する(例えば、特許文献1)。
特開2021-093004号公報
 しかし、AIモデルの学習に用いられる画像は膨大であり、その全ての画像について予測結果の根拠についての妥当性を確認するのは困難である。
 本技術はこのような問題に鑑みて為されたものであり、人工知能を用いた画像認識の予測結果が導かれた根拠の確認に要するコストを削減することを目的とする。
 本技術に係るプログラムは、入力画像に対する人工知能を用いた画像認識によって認識対象が存在すると予測された画像領域である予測領域と、前記予測の根拠とされた画像領域である注視領域と、に基づいて、前記注視領域についての妥当性の評価を行う妥当性評価機能を、演算処理装置に実行させるものである。
 例えば、注視領域が妥当であるか否かの双方を判定することや、注視領域が妥当であることのみを判定することや、注視領域が妥当でないことのみを判定することなどが行われる。
 本技術に係る情報処理装置は、入力画像に対する人工知能を用いた画像認識によって認識対象が存在すると予測された画像領域である予測領域と、前記予測の根拠とされた画像領域である注視領域と、に基づいて、前記注視領域についての妥当性の評価を行う妥当性評価部を、備えたものである。
 本技術に係る情報処理方法は、入力画像に対する人工知能を用いた画像認識によって認識対象が存在すると予測された画像領域である予測領域と、前記予測の根拠とされた画像領域である注視領域と、に基づいて、前記注視領域についての妥当性の評価を行う妥当性評価処理を、演算処理装置が実行するものである。
 このような情報処理装置や情報処理方法によっても上記した作用を得ることができる。
本技術に係る情報処理装置の機能ブロック図である。 入力画像の一例を示す図である。 予測領域と注視領域の一例を示す図である。 注視領域特定部の機能ブロック図である。 入力画像を部分画像領域に分割した状態の一例を示す図である。 マスク画像の一例を示す図である。 可視化された寄与度の一つ目の例である。 可視化された寄与度の二つ目の例である。 可視化された寄与度の三つ目の例である。 一つの予測領域に対して二つの注視領域が特定された例を示す図である。 分類部の機能ブロック図である。 分類結果の一例を示す図である。 提示画面の第1例を示す図である。 提示画面の第2例を示す図である。 提示画面の第3例を示す図である。 提示画面の第4例を示す図である。 提示画面の第5例を示す図である。 コンピュータ装置のブロック図である。 注視領域の妥当性の評価結果がユーザに提示されるまでに情報処理装置が実行する処理の一例を示すフローチャートである。 寄与度可視化処理の一例を示すフローチャートである。 分類処理の一例を示すフローチャートである。 分類処理の他の例を示すフローチャートである。 ユーザが目的を達するためのAIモデルを作成するまでに各情報処理装置が実行する処理を示すフローチャートである。 作成したAIモデルにおいて誤認識が発生した場合に各情報処理装置が実行する処理を示すフローチャートである。
 以下、添付図面を参照し、本技術に係る実施の形態を次の順序で説明する。
<1.情報処理装置の構成>
<2.コンピュータ装置>
<3.処理フロー>
<4.適用例>
<5.まとめ>
<6.本技術>
<1.情報処理装置の構成>
 本実施の形態における情報処理装置1の機能構成について図1を参照して説明する。
 情報処理装置1は、人工知能(AI:Artificial Intelligence)を用いた画像認識の処理結果の妥当性を確認するユーザ(作業者)の指示に従って各種の処理を行う装置である。
 情報処理装置1は、例えば、ユーザが使用するユーザ端末としてのコンピュータ装置であってもよいし、ユーザ端末と接続されるサーバ装置としてのコンピュータ装置であってもよい。
 情報処理装置1は、画像認識の処理結果を入力データとして、その中からユーザに確認して欲しい情報を出力する。
 情報処理装置1は、寄与度可視化処理部2と注視領域特定処理部3と分類部4と表示制御部5とを備えている。
 寄与度可視化処理部2は、入力画像IIにおいて認識対象ROが存在すると予測された予測領域FAについての領域ごとの寄与度DoCを算出して可視化する処理を行う。算出した寄与度DoCは、後段における注視領域GAの特定に用いられる。
 ここで、入力画像IIと予測領域FAと注視領域GAについての説明を行う。図2は、アメリカンフットボールの選手が撮像された入力画像IIの一例である。図示するように、入力画像IIには、4人の選手が含まれている。
 認識対象ROを「背番号」とした場合には、AIモデルを用いた画像認識処理によって予測領域FA1、FA2、FA3が抽出される。即ち、予測領域FA1、FA2、FA3は、それぞれ背番号が含まれている可能性が高いとAIによって推測された領域である。
 各予測領域FAは、それぞれ異なる領域を根拠として背番号が含まれている可能性が高いと判定されている。予測領域FAに対してその予測の根拠となる領域を注視領域GAとする。
 図3は、予測領域FA1に対する注視領域GA1を示したものである。なお、一つの予測領域FAに対して複数の注視領域GAが存在する可能性がある。また、注視領域GAは矩形とされていなくてもよい。
 例えば、図3に示す例では、予測領域FA1に対して二つの注視領域GA1-1、GA1-2が存在する。
 即ち、AIモデルにおいては、背番号の数字の部分だけでなく、選手の首の部分も考慮して背中の位置を特定し数字が背番号であることを推定することにより、認識対象ROとしての背番号を認識している。
 寄与度可視化処理部2は、入力画像II上の予測領域FAごとに寄与度DoCを算出する。以降の説明においては、予測領域FA1についての寄与度DoCを算出する処理について説明する。
 寄与度可視化処理部2の詳細な機能構成を図4に示す。
 寄与度可視化処理部2は、領域分割処理部21とマスク画像生成部22と画像認識処理部23と寄与度算出部24と可視化処理部25とを備えている。
 領域分割処理部21は、入力画像IIを複数の部分画像領域DIに分割する。分割方法としては、例えばスーパーピクセルなどを用いてもよい。
 本実施の形態においては、領域分割処理部21は、矩形状の部分画像領域DIがマトリクス状に並ぶように入力画像IIを格子状に分割する。
 入力画像IIと部分画像領域DIの一例について図5に示す。図示するように入力画像IIは多数の部分画像領域DIに分割される。
 マスク画像生成部22は、部分画像領域DIの一部をマスクするためのマスクパターンを入力画像IIに適用することによりマスク画像MIを生成する。
 マスクパターンは、入力画像IIに含まれるM個の部分画像領域DIのそれぞれについてマスクするかしないかを決定することにより作られる。
 入力画像IIに対して、作成されたマスクパターンの一つを適用したマスク画像MIの一例を図6に示す。マスクされた部分画像領域DIを部分画像領域DIMとする。
 部分画像領域DIの数をM個とすると、2のM乗種類のマスク画像MIが存在する。
 寄与度DoCの算出に用いるマスク画像MIの数が多すぎると演算量が過度に増大してしまうため、マスク画像生成部22は、例えば、数百~数万種類のマスク画像MIを生成する。
 画像認識処理部23は、マスク画像生成部22が生成したマスク画像MIを入力データとしてAIモデルを用いた画像認識処理を行う。
 具体的には、予測領域FA1についての予測結果尤度PLF(推論スコア)をマスク画像MIごとに算出する。
 予測結果尤度PLFは、処理対象とされた予測領域FA1に認識対象RO(例えば背番号)が含まれているとの推定結果の確からしさ、即ち推論の正しさを示す情報とされる。
 例えば、予測において重要な部分画像領域DIがマスクされている場合には、予測結果尤度PLFが小さくなる。
 一方、予測において重要な部分画像領域DIがマスクされていない場合には、予測結果尤度PLFは大きくなる。
 また、予測において重要な部分画像領域DIについては、マスクされた場合の予測結果尤度PLFとマスクされていない場合の予測結果尤度PLFの差分が大きくなる。そして、予測において重要でない部分画像領域DIについては、マスクされた場合の予測結果尤度PLFとマスクされていない場合の予測結果尤度PLFの差分は小さい。
 換言すれば、部分画像領域DIごとにマスクされた場合とされていない場合の予測結果尤度PLFの差分を算出し、その差分が大きいほど予測における当該部分画像領域DIの重要度が高いと推定することができる。
 画像認識処理部23は、用意されたマスク画像MIごとに予測結果尤度PLFを算出する。
 寄与度算出部24は、マスク画像MIごとの予測結果尤度PLFを用いて部分画像領域DIごとの寄与度DoCを算出する。
 寄与度DoCは、認識対象ROの検出に対する貢献度を示す情報である。即ち、寄与度DoCが高い部分画像領域DIは、認識対象ROの検出への貢献度が高い領域とされる。
 例えば、ある部分画像領域DIがマスクされている場合に予測結果尤度PLFが低くなり、マスクされていない場合に予測結果尤度PLFが高くなる場合には、当該部分画像領域DIの寄与度DoCは高くなる。
 寄与度DoCの算出方法の一例を挙げる。
 入力画像IIはM個の部分画像領域DIに分割されており、それぞれ部分画像領域DI1、DI2、・・・DIMとされている。
 マスク画像MI1に対する画像認識処理を行った結果の予測結果尤度PLFを予測結果尤度PLF1とする。
 部分画像領域DI1、DI2、・・・DIMのそれぞれの寄与度DoCを寄与度DoC1、DoC2、・・・DoCMとする。
 このとき、予測結果尤度PLF1について以下の式(1)が得られる。
 PLF1=A1×DoC1+A2×DoC2+・・・+AM×DoCM・・・式(1)
 ここで、A1、A2、・・・AMは部分画像領域DIごとの係数であり、マスクされている場合には「0」とされ、マスクされていない場合には「1」とされる。
 例えば、1000種類のマスク画像MI1~MI1000を用いた場合には、式(1)の左辺と右辺の係数A1~AMのパターンを異ならせた式を1000個得る事ができる。
 多数の式(1)を用いることにより、寄与度DoC1~DoCMの最適解を得ることができる。即ち、用意するマスク画像MIが多いほど、算出される寄与度DoCの精度が高まる。
 なお、部分画像領域DIが格子状に分割された領域とされることにより、スーパーピクセルでは一つの領域とされていた部分を複数の領域に分割することが可能となるため、寄与度DoCの高い領域をより細かく分析することが可能となる。
 可視化処理部25は、寄与度DoCを可視化する処理を行う。可視化の方法は、幾つか考えられる。
 可視化された寄与度DoCの一つ目の例を図7に示す。本例は、寄与度DoCの高さを塗りつぶしの色の濃淡で示したものである。即ち、寄与度DoCが高い部分画像領域DIほど濃い色で塗りつぶされている。
 図示するように、予測領域FA1に含まれている部分画像領域DIと選手の首の辺りの部分画像領域DIの寄与度DoCが高いことが分かる。
 可視化された寄与度DoCの二つ目の例を図8に示す。本例は、寄与度DoCが一定値以上とされた部分画像領域DIのみを塗りつぶして表示したものである。寄与度DoCの塗りつぶしの色の濃さは寄与度DoCの高さに比例する。
 可視化された寄与度DoCの三つ目の例を図9に示す。本例は、寄与度DoCが一定値以上とされた部分画像領域DIのみ枠を有して表示すると共に、部分画像領域DIの枠内に寄与度DoCを数値(0~100)で表示したものである。
 何れの方法であっても、寄与度DoCが高い部分画像領域DIが分かりやすいように可視化されている。
 寄与度DoCが可視化された画像、即ち、ヒートマップなどの図7~図9に示すような寄与度DoCについての画像は、後段の表示制御部5によってユーザに提示される。
 注視領域特定処理部3は、後段の分類部4による分類処理を行うための前段階の処理として寄与度DoCの解析を行って注視領域GAを特定する処理を行う。
 寄与度DoCの解析処理では、例えば、寄与度DoCが高い部分画像領域DIを注視領域GAとして特定する。なお、寄与度DoCが高い部分画像領域DIが固まって存在する場合には、その領域を一つの注視領域GAとして特定する。
 寄与度DoCのヒートマップから注視領域GAを特定する方法としては各種考えられる。
 例えば、一つの部分画像領域DIを一つのセルとしたときに、縦横それぞれ3セルからなる最大値フィルタで寄与度DoCを平滑化したあと、平滑化前後で値の変わらなかった部分画像領域DIの寄与度DoCを変更せずにそれ以外の部分画像領域DIの寄与度DoCを0にする。
 更に、所定の値に満たない寄与度DoCを0に変更することにより、小さいピークを排除する。
 以上の処理後に0以外の寄与度DoCを有する部分画像領域DIが残る。残った部分画像領域DIの塊ごとに一つの注視領域GAとして扱い、当該部分画像領域DIを注視領域GAの代表領域RPとして扱う。
 また、一つの注視領域GAは代表領域RPを中心として周辺の部分画像領域DIを含んで構成され得る。例えば、代表領域RPの周辺の部分画像領域DIの中で処理前の寄与度DoCが所定値以上とされた領域は、代表領域RPを中心とした一つの注視領域GAに含まれる。
 即ち、一つの注視領域GAは、複数の部分画像領域DIを含み得る。
 図10は、入力画像IIにおける予測領域FA1に対応する注視領域GAとして注視領域GA1-1、GA1-2が特定された状態を示している。また、注視領域GA1-1、GA1-2それぞれについて代表領域RPが設定されている。
 注視領域GAを特定するその他の方法としては、例えば、先ず隣接する部分画像領域DIよりも寄与度DoCが大きい領域を抽出する。
 次に、寄与度DoCが閾値よりも低い部分画像領域DIを除外する。
 最後に、残った部分画像領域DIのうち距離が近い部分画像領域DIをまとめて一つの注視領域GAとして扱う。
 注視領域GAの代表領域(或いは代表点)は、注視領域GAに含まれる部分画像領域DIの重心点とする。なお、このとき、それぞれの寄与度DoCを重みとして用いて重心を求めてもよい。
 このように各種の方法を用いて特定した注視領域GAに対して、注視領域特定処理部3は解析を行う。
 具体的には、注視領域GAの数、予測領域FAに対する注視領域GAの位置、予測領域FAの寄与度DoCと予測領域FA外の寄与度DoCの差分などを考慮する。
 図10に示す例では、注視領域GAの数は「2」とされ、予測領域FAに対する位置は、注視領域GA1-1が予測領域FA内とされ、注視領域GA1-2が予測領域FA外とされる。また、予測領域FAの寄与度DoCと予測領域FA外の寄与度DoCの差分を算出するために、予測領域FAの寄与度DoCの平均値と、予測領域FA外の寄与度DoCの平均値を算出する。
 これらの各情報は、後段の分類部4における分類処理に用いられる。
 分類部4は、注視領域特定処理部3によって得られた各情報を用いて予測領域FAに対する注視領域GAの妥当性を評価して分類する処理を行う。
 分類部4は、図11に示すように、分類処理部41と優先度決定部42とを備える。
 分類処理部41は、注視領域GAの妥当性の評価を行い、その結果に基づいて各データをカテゴリに分類する。具体的には、分類処理部41は、「妥当」カテゴリと、「要確認」カテゴリと、「分析に活用」カテゴリとを入力画像IIの予測結果に付与する。
 「妥当」カテゴリは、正しい根拠に基づいて認識対象ROを検出できている場合に分類されるカテゴリであり、注視領域GAの妥当性をユーザに確認してもらう必要性が低いデータが分類されるカテゴリである。即ち、「妥当」カテゴリに分類されたケースは、ユーザへの提示優先度は最も低いケースである。
 「要確認」カテゴリと「分析に活用」カテゴリは、妥当であると判定できない場合に分類されるカテゴリである。即ち、正しい根拠に基づいて認識対象ROが検出されている場合と誤った根拠に基づいて認識対象ROが検出されている場合の双方の可能性があり、ユーザに確認してもらう必要性が高い場合に分類されるカテゴリである。
 「要確認」カテゴリは、予測の根拠としての注視領域GAが妥当であるかどうか判定しきれない場合に分類されるカテゴリであり、妥当性をユーザに確認してもらいたいデータが分類されるカテゴリである。
 「分析に活用」カテゴリは、AIモデルが高い信頼度に基づいて予測できていない場合に分類されるカテゴリであり、ユーザがその原因の分析を行うことが望ましいデータが分類されるカテゴリである。
 図12に、予測領域FAの存在の有無と、予測領域FAに対する注視領域GAの位置と、予測結果の正誤とに基づく入力画像IIの分類の一例を示す。
 予測領域FAがある場合には、予測結果の正誤と予測領域FAに対する注視領域GAの位置関係が重要となる。
 具体的に、予測領域FAがある場合につい説明する。
 予測結果が正しく、且つ、予測領域FA内にのみ注視領域GAが存在する場合には、注視領域GAの妥当性評価として「妥当」カテゴリに分類する。
 また、予測結果が正しく、且つ、予測領域FA内と予測領域FA外の双方に注視領域GAが存在する場合(図10に示すケース)には、注視領域GAの妥当性評価として「要確認」カテゴリに分類する。
 また、予測結果が正しく、且つ、予測領域FA外のみに注視領域GAが存在する場合には、注視領域GAの妥当性評価として「要確認」カテゴリに分類する。
 また、予測結果が誤っており、且つ、予測領域FA内のみに注視領域GAが存在する場合には、注視領域GAの妥当性評価として「要確認」カテゴリに分類する。
 また、予測結果が誤っており、且つ、予測領域FA内と予測領域FA外の双方に注視領域GAが存在する場合には、注視領域GAの妥当性評価として「要確認」カテゴリに分類する。
 また、予測結果が誤っており、且つ、予測領域FA外のみに注視領域GAが存在する場合には、注視領域GAの妥当性評価として「要確認」カテゴリに分類する。
 また、注視領域GAが存在しない場合には、「分析に活用」カテゴリに分類する。
 「認識対象なし」は、認識対象ROを検出できていない場合であり予測領域FAが存在することと矛盾する。そのようなデータは無いため、カテゴリへの分類は行われない。
 次に、予測領域FAがない場合について説明する。
 予測領域FAがない場合は、認識対象ROが検出できず注視領域GAも存在しないため、注視領域GAと予測領域FAの関係性に基づくカテゴリへの分類は行われない。
 予測結果が正しく「認識対象なし」の場合は、認識対象ROが存在しない入力画像IIに対して認識対象ROを検出できない場合であるため、「妥当」カテゴリに分類する。
 予測結果が誤っており、「認識対象なし」の場合は、入力画像IIに認識対象ROが存在するにも関わらず認識対象ROが存在しないと判定している場合であり、「分析に活用」カテゴリに分類する。
 優先度決定部42は、入力画像IIとその予測結果のデータごとに確認優先度を付与する。優先度決定部42は、ユーザの確認が必要なデータほど高い優先度を付与する。
 具体的に、優先度決定部42は、「妥当」カテゴリが付与されたデータは、優先度を最低に設定する。
 また、優先度決定部42は、「要確認」カテゴリが付与されたデータは、優先度を最も高く(例えば第1優先度)設定する。
 更に、優先度決定部42は、「分析に活用」カテゴリが付与されたデータは、「要確認」カテゴリが付与されたデータの次に高い優先度(例えば第2優先度)を設定する。
 ここで、「要確認」カテゴリが付与されたデータには図12に示すように各種のパターンが存在する。従って、「要確認」カテゴリが付与されたデータの中で更に優先度を異ならせることが考えられる。
 「要確認」カテゴリが付与されたデータの中でどのデータに高い優先度を設定するかは状況に応じて異なる。
 例えば、AIモデルによる推定の正答率を高めることを目的とする場合には、予測結果が誤っているケースに高い優先度を設定することでユーザに優先的に確認させる。
 一方、AIの正答率は十分であり予測の根拠の妥当性を確認したい場合には、予測結果が正しく、予測領域FA外に注視領域GAが存在するケースに高い優先度を設定する。
 なお、優先度決定部42による優先度の設定は、0~100などのスコアを付与する態様であってもよいし、ユーザによる確認を必要とするか否かを示すフラグ情報を付与するものであってもよい。
 また、フラグ情報を付与する場合には、確認が必要なものを対象として「1」を付与するだけでもよい。即ち、確認が不要なものを対象として「0」を付与する処理を行わなくてもよい。
 或いは、確認が不要なもののみにフラグを付与してもよい。
 また、ここでは、「妥当」カテゴリと「要確認」カテゴリと「分析に活用」カテゴリの三つに分類する例を説明したが、「要確認」カテゴリと「それ以外」カテゴリの2種類に分類してもよいし、「妥当」カテゴリと「それ以外」カテゴリの2種類に分類してもよい。
 表示制御部5は、ユーザに対して確認の優先度が分かるように寄与度DoCについてのヒートマップや注視領域GAの妥当性などを表示部に表示させる処理を行う。
 なお、表示部は、情報処理装置1が備えていてもよいし、情報処理装置1と通信可能に構成された他の情報処理装置(例えばユーザが使用するユーザ端末)が備えていてもよい。
 ユーザに提示する提示画面を幾つか例示する。
 図13は、提示画面の第1例を示したものである。提示画面には、ユーザに提示するための画像やデータなど各種の情報が表示されるデータ表示部51と、データ表示部51に表示されるデータの表示態様を変更するための変更操作部52とが設けられている。
 データ表示部51には、一つの予測領域FAが重畳された画像認識対象の元画像と、寄与度DoCのヒートマップと、注視領域が表示される。
 また、これらの画像に加えて、データ表示部51には、元画像のファイル名、認識対象RO、予測結果尤度PLF、注視領域GA内の寄与度DoC平均値、注視領域GAの数、注視領域GA外の寄与度DoC平均値、カテゴリ、確認結果を入力するための妥当マーク欄及び非妥当マーク欄などが表示される。また、それ以外にも、予測結果の正誤などが表示されてもよい。
 図13に示す状態は、ユーザへの提示優先度が高い順に入力画像IIとそのデータが表示されている。
 変更操作部52には、1ページに表示されるデータ数を変更するデータ数変更部61と、データを検索するための検索欄62と、入力データと出力データの場所を表示及び変更するためのデータアドレス表示欄63と、ユーザによって指定された設定でデータを表示させるための表示ボタン64と、リロードボタン65と、フィルタ条件を変更するためのフィルタ条件変更ボタン66とを備えている。
 フィルタ機能を用いることにより、提示優先度の高いデータのみを表示することが可能とされている。後述する他の提示画面についても同様である。
 また、表示態様を変更する機能として、データ表示部51はソート機能を備えている。例えば、データ表示部51の表の各項目名を選択することにより、選択された項目に応じた表示順となるようにデータ表示部51の表示順が変更される。
 図14は、提示画面の第2例を示したものである。第2例においては、第1例と同様の情報が提示される。加えて、分類されたカテゴリに応じて各画像の大きさが変えられて表示される。具体的には、「要確認」カテゴリが付与された画像を大きく表示するものである。
 これにより、確認が必要なデータをユーザが認識しやすくされている。
 また、図14に示す状態は、ユーザへの提示優先度が高い順に入力画像IIとそのデータが表示されている。
 なお、画像の大きさを変える以外にも、枠の色を変えることにより「要確認」カテゴリが付与されたデータを強調してもよいし、文字色を変えることにより強調してもよい。
 図15は、提示画面の第3例を示したものである。第3例においては、一つのデータに対して一つの画像だけが表示される。図示する例では、寄与度DoCのヒートマップが表示されている。
 なお、図15に示す複数の画像から一つが選択された場合に当該選択された画像に係るデータの詳細として元画像のファイル名、認識対象RO、予測結果尤度PLF、注視領域GA内の寄与度DoC平均値、注視領域GAの数、注視領域GA外の寄与度DoC平均値、カテゴリなどを表示してもよい。
 なお、第3例においては、図示するように画像の大きさがデータごとに異なっている。例えば、確認の優先度が高いデータの画像を大きく表示すると共に、確認の優先度が低いデータの画像を小さく表示する。なお、確認の優先度が最も低いとされた「妥当」カテゴリが付与されたデータの画像は表示を省略してもよい。
 なお、図15に示す状態は、ユーザへの提示優先度が高い画像が上部に表示されている。
 図16は、提示画面の第4例を示したものである。第4例においては、図12に示した分類の結果ごとに各データを表示する。
 例えば、分類されたカテゴリだけでなく、分類結果ごとにデータを確認したい場合に好適である。また、第3例と同様に、一つの画像が選択された場合には、当該画像についてのデータの詳細を表示するようにしてもよい。
 図17は、提示画面の第5例を示したものである。第5例においては、各データの画像のみをマトリクス状に表示させたものである。なお、図17においては、画像の外枠のみを図示しており、画像の中身(入力画像IIやそこに重畳される寄与度DoCのヒートマップ)については図面の見やすさを考慮して図示を省略している。
 この表示態様においては、ユーザは、一度に多くのデータを確認することができる。
 なお、確認優先度の高い画像を大きく表示させるようにしてもよいし、提示優先度の高い画像のみが表示されるようにしてもよい。
 また、第3例や第4例と同様に、一つの画像が選択された場合には、当該画像についてのデータの詳細を表示するようにしてもよい。
<2.コンピュータ装置>
 上述した情報処理装置1やユーザが使用するユーザ端末は、コンピュータ装置としての構成を備えている。コンピュータ装置の機能ブロック図を図18に示す。
 なお、各コンピュータ装置が以下に示す全ての構成を備えている必要はなく、一部のみを備えていてもよい。
 各コンピュータ装置のCPU(Central Processing Unit)71は、図18に示すように、ROM(Read Only Memory)72や例えばEEP-ROM(Electrically Erasable Programmable Read-Only Memory)などの不揮発性メモリ部74に記憶されているプログラム、または記憶部79からRAM(Random Access Memory)73にロードされたプログラムに従って各種の処理を実行する。また、RAM73にはCPU71が各種の処理を実行する上で必要なデータなども適宜記憶される。
 CPU71、ROM72、RAM73、不揮発性メモリ部74は、バス83を介して相互に接続されている。このバス83にはまた、入出力インタフェース75も接続されている。
 入出力インタフェース75には、操作子や操作デバイスよりなる入力部76が接続される。
 例えば入力部76としては、キーボード、マウス、キー、ダイヤル、タッチパネル、タッチパッド、リモートコントローラ等の各種の操作子や操作デバイスが想定される。
 入力部76によりユーザの操作が検知され、入力された操作に応じた信号はCPU71によって解釈される。
 また入出力インタフェース75には、LCD(Liquid Cristal Display)或いは有機ELパネルなどよりなる表示部77や、スピーカなどよりなる音声出力部78が一体又は別体として接続される。
 表示部77は各種表示を行う表示部であり、例えばコンピュータ装置に接続される別体のディスプレイデバイス等により構成される。
 表示部77は、CPU71の指示に基づいて表示画面上に各種の画像処理のための画像や処理対象の動画等の表示を実行する。また表示部77はCPU71の指示に基づいて、各種操作メニュー、アイコン、メッセージ等、即ちGUI(Graphical User Interface)としての表示を行う。
 入出力インタフェース75には、ハードディスクや固体メモリなどより構成される記憶部79や、モデムなどより構成される通信部80が接続される場合もある。
 通信部80は、インターネット等の伝送路を介しての通信処理や、各種機器との有線/無線通信、バス通信などによる通信を行う。
 入出力インタフェース75にはまた、必要に応じてドライブ81が接続され、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブル記憶媒体82が適宜装着される。
 ドライブ81により、リムーバブル記憶媒体82からは画像ファイル等のデータファイルや、各種のコンピュータプログラムなどを読み出すことができる。読み出されたデータファイルは記憶部79に記憶されたり、データファイルに含まれる画像や音声が表示部77や音声出力部78で出力されたりする。またリムーバブル記憶媒体82から読み出されたコンピュータプログラム等は必要に応じて記憶部79にインストールされる。
 このコンピュータ装置では、例えば本実施の形態の処理のためのソフトウェアを、通信部80によるネットワーク通信やリムーバブル記憶媒体82を介してインストールすることができる。或いは当該ソフトウェアは予めROM72や記憶部79等に記憶されていてもよい。
 CPU71が各種のプログラムに基づいて処理動作を行うことで、情報処理装置1において必要な通信処理が実行される。
 なお、情報処理装置1を構成するコンピュータ装置は、図18のような情報処理装置が単一で構成されることに限らず、複数の情報処理装置がシステム化されて構成されてもよい。複数の情報処理装置は、LAN等によりシステム化されていてもよいし、インターネット等を利用したVPN等により遠隔地に配置されたものでもよい。複数の情報処理装置には、クラウドコンピューティングサービスによって利用可能なサーバ群(クラウド)としての情報処理装置が含まれてもよい。
<3.処理フロー>
 画像の認識処理においてAIモデルが判断の根拠とした画素領域である注視領域GAの妥当性の評価結果をユーザに提示するために情報処理装置1が実行する処理について添付図を参照して説明する。
 情報処理装置1のCPU71は、図19のステップS101において、寄与度DoCの可視化処理を行う。この処理の詳細な処理フローについては後述する。
 寄与度DoCの可視化処理によって、図7に示すような画像や図8に示すような画像が出力される。なお、各図に示された予測領域FAを表す枠は画像に重畳されていなくてもよい。
 即ち、ステップS101の処理では、部分画像領域DIごとの寄与度DoCの高さがわかるように、或いは、寄与度DoCの高い部分画像領域DIが分かるように寄与度DoCを可視化した画像が生成される。
 情報処理装置1のCPU71はステップS102において、注視領域GAを特定する処理を実行する。この処理では、図10に示すように、寄与度DoCが高い領域が注視領域GAとして特定される。
 情報処理装置1のCPU71は、ステップS103において、分類処理を実行する。この処理により、予測領域FAと注視領域GAの関係性等に応じて入力画像IIに対してラベルが付与されると共にカテゴリに分類される。ラベルとは、図12に示す「注視領域内」ラベルや「注視領域外」ラベルや、「注視領域なし」ラベルなどである。具体的な処理フローについては後述する。
 情報処理装置1のCPU71はステップS104において、データごとに優先度を付与する処理を行う。入力画像IIごとにカテゴリに分類されたデータは、カテゴリに応じた提示優先度が付与される。
 この提示優先度に基づいて、情報処理装置1のCPU71はステップS105において、表示制御処理を実行する。この処理により、情報処理装置1が備えるモニタ等の表示部や、他の情報処理装置が備える表示部に図13~図17に示す各種表示態様に応じた提示画面が表示される。
 ステップS101の寄与度可視化処理の詳細について図20に示す。
 寄与度可視化処理では、情報処理装置1のCPU71はステップS201において、領域分割処理を行う。この処理により、入力画像IIが部分画像領域DIに分割される(図5参照)。なお、スーパーピクセル等を用いることにより部分画像領域DIが矩形以外の形状とされてもよい。
 情報処理装置1のCPU71はステップS202において、マスク画像MIを生成する処理を実行する。図6はマスク画像MIの一例である。
 情報処理装置1のCPU71はステップS203において、AIモデルを用いた画像認識処理を実行する。この処理により、指定された認識対象ROを検出するための画像認識処理が実行される。
 情報処理装置1のCPU71はステップS204において、寄与度DoCを算出する処理を実行する。この処理では、部分画像領域DIごとに寄与度DoCが算出される。
 情報処理装置1のCPU71は、ステップS205において、寄与度DoCを可視化する処理を行う。可視化の方法は種々考えられ、前述の説明においては、図7~図9にその一例を示した。
 図19のステップS103の分類処理の詳細について一例を図21に示す。
 なお、分類処理は、入力画像IIの数だけ実行される。
 情報処理装置1のCPU71は、ステップS301において、入力画像II内に認識対象ROが存在するか否かを判定する。
 認識対象ROが存在しないと判定した場合、即ち、入力画像II内に認識対象ROが検出できなかった場合、情報処理装置1のCPU71はステップS302において、入力画像IIに対して「認識対象なし」ラベルを付与する。
 続いて、情報処理装置1のCPU71はステップS303において、認識対象ROが検出できなかったという予測結果が正しいか否かを判定する。予測結果が正しいか否かはユーザによって判断されて入力されてもよい。
 予測結果が正しい場合、情報処理装置1のCPU71はステップS304において、入力画像IIを「妥当」カテゴリに分類する。このケースは、AIモデルが正しい根拠に基づいて正しい結論を導き出した場合に相当する。
 一方、ステップS303において認識対象ROが検出できなかったという予測結果は正しくないと判定した場合、即ち、認識対象ROが入力画像II内に存在するにも関わらず検出できなかった場合、情報処理装置1のCPU71はステップS305において入力画像IIを「分析に活用」カテゴリに分類する。
 ステップS304またはステップS305の何れかを実行した後、情報処理装置1のCPU71は図21に示す分類処理を終了する。
 ステップS301において、入力画像II内に認識対象ROが存在すると判定した場合、情報処理装置1のCPU71はステップS306において、注視領域GAが存在するか否かを判定する。
 注視領域GAが存在しないと判定した場合、即ち、寄与度DoCが大きい部分画像領域DIが存在しない場合、情報処理装置1のCPU71はステップS307において、入力画像IIに対して「注視領域なし」ラベルを付与し「分析に活用」カテゴリに分類する。
 ステップS307の処理を終えた情報処理装置1のCPU71は図21に示す分類処理を終了する。
 一方、ステップS306において注視領域GAが存在すると判定した場合、情報処理装置1のCPU71はステップS308において、注視領域GAがN個以下かどうかを判定する。Nは例えば、4や5など多くても10未満の数値が設定される。
 注視領域GAがN個よりも多い場合、情報処理装置1のCPU71はステップS307の処理へと進む。
 一方、注視領域GAがN個以下である場合、情報処理装置1のCPU71はステップS309において、注視領域GAが予測領域FA内だけに存在するか否かを判定する。
 注視領域GAが予測領域FA内だけに存在する場合、情報処理装置1のCPU71はステップS310において、入力画像IIに対して「予測領域FA内」ラベルを付与する。
 続いて、情報処理装置1のCPU71はステップS311において、予測結果が正しいか否かを判定する。
 予測結果が正しい場合、即ち、認識対象ROが適切に検出できている場合、情報処理装置1のCPU71はステップS312において、入力画像IIを「妥当」カテゴリに分類する。
 一方、予測結果が誤っている場合、情報処理装置1のCPU71はステップS313において、入力画像IIを「要確認」カテゴリに分類する。
 ステップS312またはステップS313の何れかの処理を終えた後、情報処理装置1のCPU71は図21に示す分類処理を終える。
 ステップS309において、注視領域GAが予測領域FA内だけに存在するものではない、即ち、注視領域GAが少なくとも予測領域FAの外に存在する場合、情報処理装置1のCPU71はステップS314において、注視領域GAが予測領域FA外のみに存在するか否かを判定する。
 予測領域FA外のみに注視領域GAが存在すると判定した場合、情報処理装置1のCPU71はステップS315において、入力画像IIに対して「予測領域外」ラベルを付与し「要確認」カテゴリに分類する。
 一方、予測領域FA外のみに注視領域GAが存在するわけではないと判定した場合、即ち、予測領域FA内と予測領域FA外の双方に注視領域GAが存在すると判定した場合、情報処理装置1のCPU71はステップS316において、入力画像IIに対して「予測領域内外」ラベルを付与し「要確認」カテゴリに分類する。
 ステップS315またはステップS316の何れかの処理を終えた後、情報処理装置1のCPU71は図21に示す分類処理を終える。
 図19のステップS103の分類処理の他の例について図22に示す。なお、図21と同様の処理については同じステップ番号を付し適宜説明を省略する。
 情報処理装置1のCPU71はステップS301において、入力画像II内に認識対象ROが存在するか否かを判定する。
 認識対象ROが存在しないと判定した場合、情報処理装置1のCPU71はステップS302からステップS305の各処理を適宜実行して図22に示す一連の処理を終える。
 一方、認識対象ROが存在すると判定した場合、情報処理装置1のCPU71はステップS321において、予測領域FA内の寄与度DoCの平均値の方が予測領域FA外の寄与度DoCの平均値よりも大きく、且つ、その差分が第1閾値Th1以上であるか否かを判定する。
 予測領域FA内の寄与度DoCの平均値の方が予測領域FA外の寄与度DoCの平均値以下であるか、或いは、差分が第1閾値Th1未満であると判定した場合、例えば、予測領域FA内外の寄与度DoCの平均値が同程度である場合や、予測領域FA外の寄与度DoCの方が高い場合や、予測領域FA内の寄与度DoCの方が少し高い場合、情報処理装置1のCPU71はステップS322において、注視領域GAが予測領域FA外に存在するか否かを判定する。
 注視領域GAが予測領域FA外に存在しないと判定した場合、予測領域FA内にも注視領域GAが存在しないこととなるため、情報処理装置1のCPU71はステップS307において、入力画像IIに対して「注視領域なし」ラベルを付与し「分析に活用」カテゴリに分類する。
 一方、注視領域GAが予測領域FA外に存在すると判定した場合、情報処理装置1のCPU71はステップS323において、予測領域FA内の寄与度DoCの平均値は第2閾値Th2以上であるか否かを判定する。
 予測領域FA内の寄与度DoCが第2閾値Th2以上であると判定した場合、予測領域FA外の寄与度DoCの平均値も第2閾値Th2以上と同等かそれ以上であるため、情報処理装置1のCPU71はステップS316において、入力画像IIに対して「予測領域内外」ラベルを付与し「要確認」カテゴリに分類する。
 ステップS323において予測領域FA内の寄与度DoCが第2閾値Th2未満であると判定した場合、予測領域FA内には注視領域GAが存在しないこととなるため、情報処理装置1のCPU71はステップS315において、入力画像IIに対して「予測領域外」ラベルを付与し「要確認」カテゴリに分類する。
 ステップS307、ステップS315、ステップS316の何れかの処理を実行した後、情報処理装置1のCPU71は図22に示す一連の処理を終える。
 ステップS321において、予測領域FA内の寄与度DoCの平均値の方が予測領域FA外の寄与度DoCの平均値よりも大きく、且つ、その差分が第1閾値Th1以上であると判定した場合、情報処理装置1のCPU71はステップS324において、注視領域GAは予測領域FA外に存在するか否かを判定する。
 注視領域GAが予測領域FA外に存在すると判定した場合、情報処理装置1のCPU71はステップS316において、入力画像IIに対して「予測領域内外」ラベルを付与し「要確認」カテゴリに分類する。
 一方、ステップS324において注視領域GAが予測領域FA外に存在しないと判定した場合、情報処理装置1のCPU71はステップS310からステップS313の各処理を実行して図22に示す一連の処理を終える。
 図21や図22に示す分類処理の何れかを実行することにより、AIモデルに入力された入力画像IIごとに、ラベルが付与されカテゴリに分類される。

<4.適用例>
 情報処理装置1が実行する上述の各処理を利用することにより、ユーザが目的を達するための処理フローについて図23及び図24を参照して説明する。
 図23は、ユーザがユーザ端末を用いてサーバ装置としての情報処理装置1に接続することにより、情報処理装置1が提供するAIモデル生成機能を利用する場合の処理フローの一例を示したものである。
 なお、以下の説明においては、図23及び図24に示す各処理が情報処理装置1において実行されるものとして記載するが、一部の処理がユーザ端末において実行されてもよい。
 情報処理装置1のCPU71は、ステップS401において、問題の設定及び検討を行う。この処理は、例えば、来店客の動線分析などユーザが解決したい問題の設定や検討を行う処理である。具体的には、ユーザが指定した目的やAIモデルを運用する装置の仕様情報などに応じて情報処理装置1のCPU71はAIモデルを生成するための初期設定を行う。初期設定では、例えば、AIモデルのレイヤ数やノード数などが設定される。
 情報処理装置1のCPU71はステップS402において、学習データの収集を行う。学習データは、複数の画像データであり、ユーザにより指定されてもよいし、目的に応じて情報処理装置1のCPU71が自動的に画像DB(Database)から取得してもよい。
 情報処理装置1のCPU71はステップS403において、学習データを用いた学習を行う。これにより、学習済みのAIモデルが獲得される。
 情報処理装置1のCPU71はステップS404において、学習済みのAIモデルの性能評価を行う。例えば、画像認識処理の認識結果の正誤率などを用いて性能評価が行われる。
 情報処理装置1のCPU71はステップS405において、注視領域の妥当性の評価を行う。この処理は、少なくとも図19のステップS101、S102、S103の処理を実行する。また、ユーザに確認してもらうための処理として図19のステップS104、S105の処理を実行してもよい。
 情報処理装置1のCPU71はステップS406において、目標性能を達成しているか否かを判定する。この判定処理を情報処理装置1のCPU71が実行してもよいし、目標性能を達成しているか否かをユーザによって選択させる処理を情報処理装置1のCPU71及びユーザ端末のCPU71が実行してもよい。
 目標性能を達成していると判定した場合、或いは、目標性能を達成しているとユーザが選択した場合、情報処理装置1のCPU71はステップS407において、注視領域GAが妥当であるか否かを判定する。
 妥当であると判定した場合、AIモデルの運用が開始される。AIモデルの運用の開始にあたって、情報処理装置1のCPU71は、AIモデルの運用を開始させるための処理を行ってもよい。例えば、AIモデルをユーザ端末に送信する処理を実行してもよいし、完成したAIモデルをDBに記憶させる処理を実行してもよい。
 ステップS406において目標性能を達成していないと判定した場合、或いは、目標性能を達成していないとユーザが選択した場合、情報処理装置1のCPU71はステップS408において、無作為な学習用データ追加で性能向上が期待できるか否かを判定する。
 例えば、学習イテレーションの不足が疑われる場合に、ステップS408において、無作為な学習用データ追加で性能向上が期待できると判定される。
 この場合、情報処理装置1のCPU71はステップS402へと戻り、学習データの収集を行う。
 一方、無作為な学習用データ追加で性能向上が期待できないと判定した場合、情報処理装置1のCPU71はステップS409において、注視領域GAの妥当性の評価結果に基づく分析を行う。即ち、上述したステップS405における妥当性の評価結果に基づく分析処理を行う。
 続いて、情報処理装置1のCPU71はステップS410において、収集すべき特徴を有する追加データを特定できたか否か、即ち収集すべき追加データを特定できたか否かを判定する。収集すべき追加データを特定できた場合には、情報処理装置1のCPU71はステップS402へと戻り、学習データの収集を行う。
 一方、収集すべき追加データを特定できなかったと判定した場合、情報処理装置1のCPU71はステップS401へと戻り、問題の設定及び検討からやり直す。
 このようにして得られたAIモデルは、所望の目的を果たすためにユーザにより運用される。
 そして、運用中において、誤認識が発生した場合の処理フローについて、図24に示す。なお、図23と同様の処理については同じステップ番号を付し適宜説明を省略する。
 情報処理装置1のCPU71はステップS501において、注視領域GAの解析処理を行う。この処理は、上述したように、注視領域GAに着目した認識結果のラベル付けやカテゴリへの分類処理である。
 情報処理装置1のCPU71はステップS502において、注視領域GAの解析結果について分析を行う。
 情報処理装置1のCPU71はステップS408において、無作為な学習用データ追加で性能向上が期待できるか否かを判定する。無作為な学習用データ追加で性能向上が期待できると判定した場合、情報処理装置1のCPU71はステップS402の学習データの収集処理へと進む。
 そして、情報処理装置1のCPU71はステップS503において、再学習を行い、ステップS504において、AIモデルの更新を行う。更新されたAIモデルは、ユーザ環境においてデプロイされて利用される。
 一方、ステップS408において無作為な学習用データ追加で性能向上が期待できないと判定した場合、情報処理装置1のCPU71はステップS410において、収集すべき特徴を有する追加データが存在するか否かを判定する。そして、収集すべき特徴を有する追加データが存在すると判定した場合、情報処理装置1のCPU71はステップS505において、削除すべきデータが存在するか否かを判定する。
 削除すべきデータが存在すると判定した場合、即ち、AIモデルの学習に適切ではない入力画像IIが存在する場合、情報処理装置1のCPU71はステップS506において、該当する入力画像IIを削除した後、ステップS503の処理へと進む。
 一方、ステップS505において削除すべきデータは存在しないと判定した場合、情報処理装置1のCPU71はステップS507において、AIモデルの再検討を行う。この処理では、例えば、図23のステップS401、S402、S403の各処理が実行される。
 続いて、情報処理装置1のCPU71はステップS504において、AIモデルの更新を行う。この処理により、例えば、ステップS507において新たに獲得したAIモデルがユーザ環境にデプロイされる。
<5.まとめ>
 上述した各例において説明したように、演算処理装置としての情報処理装置1に実行させるプログラムは、入力画像IIに対する人工知能(AI)を用いた画像認識によって認識対象ROが存在すると予測された画像領域である予測領域FA(FA1、FA2、FA3)と、予測の根拠とされた画像領域である注視領域GA(GA1、GA1-1、GA1-2)と、に基づいて、注視領域GAについての妥当性の評価を行う妥当性評価機能(分類処理部41の機能)を、備えるものである。
 例えば、注視領域GAが妥当であるか否かの双方を判定することや、注視領域GAが妥当であることのみを判定することや、注視領域GAが妥当でないことのみを判定することなどが行われる。
 従って、人工知能の性能向上のために作業者が確認すべき入力画像とその予測結果を特定することができるため、効率よく作業を行うことができ、予測結果が導かれた根拠の確認に要する人的コストや時間的コストを削減することができる。
 図21等を参照して説明したように、妥当性の評価では、注視領域GAが妥当であることを判定してもよい。
 これにより、適切な注視領域GAに基づいて認識対象ROが予測された場合を特定することができる。換言すれば、適切な注視領域GAに基づかないで認識対象ROが予測された場合や、そもそも注視領域GAが妥当かどうか不明な場合を抽出することが可能となる。
 従って、作業者が確認すべき入力画像とその予測結果を特定することができる。
 図21や図22等を参照して説明したように、妥当性評価機能(分類処理部41の機能)では、予測領域FAと注視領域GAとの比較に基づいて評価を行ってもよい。
 例えば、予測領域FAと注視領域GAの位置関係や重なり具合などに基づいて妥当性の評価を行う。これにより、注視領域GAが妥当であることを適切に評価することができるため、作業者が確認すべき入力画像IIとその予測結果を適切に特定することができる。
 図21等を参照して説明したように、妥当性評価機能(分類処理部41の機能)では、予測領域FAと注視領域GAの位置関係に基づいて評価を行ってもよい。
 これにより例えば予測領域FAと注視領域GAが一致している場合などに注視領域GAが妥当であると判定される。従って、作業者の確認が不要な入力画像IIとその予測結果を特定することができ、作業効率の向上を図ることができる。
 図21等を参照して説明したように、妥当性評価機能(分類処理部41の機能)では、注視領域GAが予測領域FA内に位置しているか否かに基づいて評価を行ってもよい。
 具体的には、注視領域GAが予測領域FAに含まれている場合には適切な注視領域GAに基づいて認識対象ROの検出が行われていると評価することができる。即ち、注視領域GAが妥当であると評価することができる。
 図21等を参照して説明したように、妥当性評価機能(分類処理部41の機能)では、注視領域GAの数に基づいて評価を行ってもよい。
 例えば、注視領域GAが一つである場合には注視領域GAが妥当である可能性が高くなる。一方、入力画像IIの全領域についての寄与度DoCが大きく注視領域GAの数が多くなる場合がある。このような場合には、注視領域GAが妥当で無い可能性が高い。
 従って、注視領域GAの数に着目することで、適切な注視領域GAに基づいて認識対象ROの予測(検出)が行われているかを評価することができる。
 図21等を参照して説明したように、妥当性評価機能(分類処理部41の機能)では、注視領域GAが予測領域FA内のみに存在し認識対象ROの予測が正しい場合に、注視領域GAが妥当であると判定してもよい。
 このような予測は、正しい根拠に基づいて正しく認識対象ROを予測できている可能性が極めて高い。このような入力画像IIと予測結果を妥当であると評価することにより確認作業の効率化を図ることができる。
 図21等を参照して説明したように、妥当性評価機能(分類処理部41の機能)において注視領域GAが妥当であると判定できなかった場合に、注視領域GAが存在するか否かに応じて画像認識の予測結果を分類する分類機能(分類部4の機能)を、演算処理装置としての情報処理装置1に実行させてもよい。
 注視領域GAが存在しない場合にはそもそも注視領域GAが妥当であるか判定することができない。そのような入力画像IIについては、予測結果尤度PLFについても低いことから、作業者が原因の分析を行うことが望ましい。本構成によれば、このような入力画像IIについて「分析に利用」カテゴリに分類することができ、分析に用いる入力画像IIを明確化することができる。
 図11や図21等を参照して説明したように、注視領域GAが妥当であると判定できず且つ注視領域GAが存在しない場合よりも注視領域GAが妥当であると判定できず且つ注視領域GAが存在する場合の方が確認の優先度が高くなるように優先度を決定する優先度決定機能(優先度決定部42の機能)を、演算処理装置としての情報処理装置1に実行させてもよい。
 例えば、注視領域GAが妥当であると判定できず且つ注視領域GAが存在する場合に画像認識の予測結果についての確認の優先度を第1優先度と決定し、注視領域GAが妥当であると判定できず且つ注視領域GAが存在しない場合に画像認識の予測結果についての確認の優先度を第2優先度と決定する優先度決定機能(優先度決定部42の機能)を、演算処理装置としての情報処理装置1に実行させ、第1優先度は第2優先度よりも高くされてもよい。
 第1優先度とされた入力画像IIの中には、予測領域FA内の注視領域GAに基づいて認識対象ROを誤認識している場合などが含まれる。このようなケースは、AIモデルが自信を持って誤った対象を認識対象ROとして検出しているケースに該当する。
 このような入力画像IIは、機械学習の再学習や追加学習に用いることにより、誤検出の可能性を低減させAIモデルの性能向上を図るために有用である。従って、このような入力画像IIの優先度を第1優先度として第2優先度より高くすることにより、AIモデルの効率的な学習を行うことができる。
 図19や図20等を参照して説明したように、入力画像IIにおける部分画像領域DIごとに画像認識による予測結果に対する寄与度DoCを算出する寄与度算出機能(寄与度算出部24の機能)と、寄与度DoCに基づいて注視領域GAを特定する注視領域特定機能(注視領域特定処理部3の機能)とを、演算処理装置としての情報処理装置1に実行させてもよい。
 所定の画像領域ごとに寄与度DoCを算出することにより、注視領域GAを特定することが可能となる。
 図22等を参照して説明したように、妥当性評価機能(分類処理部41の機能)では、予測領域FAについての寄与度DoCと予測領域FA以外の領域についての寄与度DoCの差分に基づいて評価を行ってもよい。
 例えば、予測領域FAについての寄与度DoCが高く予測領域FA内に注視領域GAが存在すると判定された場合であっても、予測領域FA以外の領域についての寄与度DoCも総じて高い場合がある。
 このような場合は、予測領域FA以外の領域も多分に考慮されて認識対象ROが検出されているため、必ずしも適切な状態とは言えない。
 本構成によれば、予測領域FAとそれ以外の領域の寄与度DoCの差分に基づいて妥当性の評価を行うことにより、誤って妥当性が高く評価されてしまうことを防止することができる。
 図4や図6や20等を参照して説明したように、寄与度算出機能(寄与度算出部24の機能)では、入力画像IIにおける部分画像領域DI単位でマスクの有無のパターンを異ならせた複数のマスク画像MIに対して予測を行った結果得られた予測領域FAについての予測結果尤度PLFに基づいて寄与度DoCを算出してもよい。
 即ち、寄与度DoCは、予測結果の導出、換言すれば、認識対象ROの検出にどれだけ貢献しているかを示す指標である。部分画像領域DIごとに寄与度DoCを算出することにより、注視領域GAを適切に特定することができる。
 図5等を参照して説明したように、部分画像領域DIは格子状に分割された画素領域とされてもよい。
 入力画像IIを部分画像領域DIに分ける方法としては、例えば、類似した画素をまとめて一つの領域と見なすスーパーピクセルを用いることが考えられる。しかし、スーパーピクセルでは、部分画像領域DIが大きな領域となってしまい、十分な分解能を得られない場合がある。
 一方、画素ごとの類似を考慮せずに格子状に分割して部分画像領域DIを決定することで、寄与度DoCの算出についての十分な分解能を得ることができる。
 図1等を参照して説明したように、画像認識の予測結果を提示するための表示制御を実行させる表示制御機能(表示制御部5の機能)を、演算処理装置としての情報処理装置1に実行させてもよい。
 作業者の確認が必要な入力画像IIなどが表示されることにより、作業者の作業効率を高めることができる。また、入力画像IIと共に予測領域FAや注視領域GAや予測結果の正誤などの情報が表示されることにより、作業者が確認作業を行いやすい環境を提供することができる。
 図13から図17の各図を参照して説明したように、表示制御機能(表示制御部5の機能)では、入力画像IIに予測領域FAと注視領域GAを重畳させた画像が表示されるように表示制御を実行させてもよい。
 これにより、入力画像IIに対する予測領域FAや注視領域GAの位置を把握しやすい。従って、作業者の作業効率を向上させることができる。
 図13から図17の各図を参照して説明したように、画像認識の予測結果についての確認の優先度を決定する優先度決定機能(優先度決定部42の機能)を、演算処理装置としての情報処理装置1に実行させ、表示制御機能(表示制御部5の機能)では、画像認識の予測結果の提示において優先度に基づいた表示が行われるように表示制御を実行させてもよい。
 例えば、優先度が高い順に入力画像IIと予測結果などが表示されるように表示制御を行うことや、優先度が高い入力画像IIと予測結果のみが表示されるように表示制御を行うことや、優先度が高い入力画像IIや予測結果が目立つような表示がなされるように表示制御を行う。これにより、確認作業の効率を向上させることができる。
 図13から図15の各図を参照して説明したように、表示制御機能(表示制御部5の機能)では、優先度に基づいた表示順で表示が行われるように表示制御を実行させてもよい。
 これにより、作業者は、優先度の高い入力画像IIや予測結果を把握しやすい。
 図13から図17の各図を参照して説明したように、表示制御機能(表示制御部5の機能)では、優先度が低い画像認識の予測結果が表示されないように表示制御を実行させてもよい。
 これにより、作業者に対して確認の不要な入力画像IIや予測結果が提示されないため、作業効率を向上させることができる。
 このようなプログラムは、上述した情報処理装置1に実行させるプログラムであり、コンピュータ装置等の機器に内蔵されている記憶媒体としてのHDD(Hard Disk Drive)や、CPUを有するマイクロコンピュータ内のROM等に予め記録しておくことができる。あるいはまたプログラムは、フレキシブルディスク、CD-ROM(Compact Disk Read Only Memory)、MO(Magneto Optical)ディスク、DVD(Digital Versatile Disc)、ブルーレイディスク(Blu-ray Disc(登録商標))、磁気ディスク、半導体メモリ、メモリカードなどのリムーバブル記憶媒体に、一時的あるいは永続的に格納(記録)しておくことができる。このようなリムーバブル記憶媒体は、いわゆるパッケージソフトウェアとして提供することができる。
 また、このようなプログラムは、リムーバブル記憶媒体からパーソナルコンピュータ等にインストールする他、ダウンロードサイトから、LAN(Local Area Network)、インターネットなどのネットワークを介してダウンロードすることもできる。
 上述した情報処理装置1は、入力画像IIに対する人工知能AIを用いた画像認識によって認識対象ROが存在すると予測された画像領域である予測領域FAと、予測の根拠とされた画像領域である注視領域GAと、に基づいて、注視領域GAについての妥当性の評価を行う妥当性評価部(分類処理部41)を、備えたものである。
 情報処理装置1が実行する情報処理方法は、入力画像IIに対する人工知能AIを用いた画像認識によって認識対象ROが存在すると予測された画像領域である予測領域FAと、予測の根拠とされた画像領域である注視領域GAと、に基づいて、注視領域GAについての妥当性の評価を行う妥当性評価処理(分類処理部41による処理)を、演算処理装置が実行するものである。
 なお、本明細書に記載された効果はあくまでも例示であって限定されるものではなく、また他の効果があってもよい。
 また、上述した各例はいかように組み合わせてもよく、各種の組み合わせを用いた場合であっても上述した種々の作用効果を得ることが可能である。
<6.本技術>
 本技術は以下のような構成を採ることも可能である。
(1)
 入力画像に対する人工知能を用いた画像認識によって認識対象が存在すると予測された画像領域である予測領域と、前記予測の根拠とされた画像領域である注視領域と、に基づいて、前記注視領域についての妥当性の評価を行う妥当性評価機能を、演算処理装置に実行させる
 プログラム。
(2)
 前記妥当性の評価では、前記注視領域が妥当であることを判定する
 上記(1)に記載のプログラム。
(3)
 前記妥当性評価機能では、前記予測領域と前記注視領域との比較に基づいて前記評価を行う
 上記(1)から上記(2)の何れかに記載のプログラム。
(4)
 前記妥当性評価機能では、前記予測領域と前記注視領域の位置関係に基づいて前記評価を行う
 上記(3)に記載のプログラム。
(5)
 前記妥当性評価機能では、前記注視領域が前記予測領域内に位置しているか否かに基づいて前記評価を行う
 上記(4)に記載のプログラム。
(6)
 前記妥当性評価機能では、前記注視領域の数に基づいて前記評価を行う
 上記(1)から上記(5)の何れかに記載のプログラム。
(7)
 前記妥当性評価機能では、前記注視領域が前記予測領域内のみに存在し前記認識対象の予測が正しい場合に、前記注視領域が妥当であると判定する
 上記(2)に記載のプログラム。
(8)
 前記妥当性評価機能において前記注視領域が妥当であると判定できなかった場合に、前記注視領域が存在するか否かに応じて前記画像認識の予測結果を分類する分類機能を、演算処理装置に実行させる
 上記(2)に記載のプログラム。
(9)
 前記注視領域が妥当であると判定できず且つ前記注視領域が存在しない場合よりも前記注視領域が妥当であると判定できず且つ前記注視領域が存在する場合の方が確認の優先度が高くなるように優先度を決定する優先度決定機能を、演算処理装置に実行させる
 上記(8)に記載のプログラム。
(10)
 前記入力画像における部分画像領域ごとに前記画像認識による予測結果に対する寄与度を算出する寄与度算出機能と、
 前記寄与度に基づいて前記注視領域を特定する注視領域特定機能とを、演算処理装置に実行させる
 上記(1)から上記(9)の何れかに記載のプログラム。
(11)
 前記妥当性評価機能では、前記予測領域についての前記寄与度と前記予測領域以外の領域についての前記寄与度の差分に基づいて前記評価を行う
 上記(10)に記載のプログラム。
(12)
 前記寄与度算出機能では、前記入力画像における前記部分画像領域単位でマスクの有無のパターンを異ならせた複数のマスク画像に対して前記予測を行った結果得られた前記予測領域についての予測結果尤度に基づいて前記寄与度を算出する
 上記(10)から上記(11)の何れかに記載のプログラム。
(13)
 前記部分画像領域は格子状に分割された画素領域とされた
 上記(10)から上記(12)の何れかに記載のプログラム。
(14)
 前記画像認識の予測結果を提示するための表示制御を実行させる表示制御機能を、演算処理装置に実行させる
 上記(1)から上記(13)の何れかに記載のプログラム。
(15)
 前記表示制御機能では、入力画像に前記予測領域と前記注視領域を重畳させた画像が表示されるように前記表示制御を実行させる
 上記(14)に記載のプログラム。
(16)
 前記画像認識の予測結果についての確認の優先度を決定する優先度決定機能を、演算処理装置に実行させ、
 前記表示制御機能では、前記画像認識の予測結果の提示において前記優先度に基づいた表示が行われるように前記表示制御を実行させる
 上記(14)から上記(15)の何れかに記載のプログラム。
(17)
 前記表示制御機能では、前記優先度に基づいた表示順で表示が行われるように前記表示制御を実行させる
 上記(16)に記載のプログラム。
(18)
 前記表示制御機能では、前記優先度が低い前記画像認識の予測結果が表示されないように前記表示制御を実行させる
 上記(16)から上記(17)の何れかに記載のプログラム。
(19)
 入力画像に対する人工知能を用いた画像認識によって認識対象が存在すると予測された画像領域である予測領域と、前記予測の根拠とされた画像領域である注視領域と、に基づいて、前記注視領域についての妥当性の評価を行う妥当性評価部を、備えた
 情報処理装置。
(20)
 入力画像に対する人工知能を用いた画像認識によって認識対象が存在すると予測された画像領域である予測領域と、前記予測の根拠とされた画像領域である注視領域と、に基づいて、前記注視領域についての妥当性の評価を行う妥当性評価処理を、演算処理装置が実行する
 情報処理方法。
1 情報処理装置
3 注視領域特定処理部(注視領域特定機能)
4 分類部(分類機能)
5 表示制御部(表示制御機能)
24 寄与度算出部(寄与度算出機能)
41 分類処理部(妥当性評価機能)
42 優先度決定部(優先度決定機能)
II 入力画像
RO 認識対象
FA、FA1、FA2、FA3 予測領域
GA、GA1、GA1-1、GA1-2 注視領域
DI、DIM 部分画像領域
MI マスク画像
PLF 予測結果尤度
DoC 寄与度

Claims (20)

  1.  入力画像に対する人工知能を用いた画像認識によって認識対象が存在すると予測された画像領域である予測領域と、前記予測の根拠とされた画像領域である注視領域と、に基づいて、前記注視領域についての妥当性の評価を行う妥当性評価機能を、演算処理装置に実行させる
     プログラム。
  2.  前記妥当性の評価では、前記注視領域が妥当であることを判定する
     請求項1に記載のプログラム。
  3.  前記妥当性評価機能では、前記予測領域と前記注視領域との比較に基づいて前記評価を行う
     請求項1に記載のプログラム。
  4.  前記妥当性評価機能では、前記予測領域と前記注視領域の位置関係に基づいて前記評価を行う
     請求項3に記載のプログラム。
  5.  前記妥当性評価機能では、前記注視領域が前記予測領域内に位置しているか否かに基づいて前記評価を行う
     請求項4に記載のプログラム。
  6.  前記妥当性評価機能では、前記注視領域の数に基づいて前記評価を行う
     請求項1に記載のプログラム。
  7.  前記妥当性評価機能では、前記注視領域が前記予測領域内のみに存在し前記認識対象の予測が正しい場合に、前記注視領域が妥当であると判定する
     請求項2に記載のプログラム。
  8.  前記妥当性評価機能において前記注視領域が妥当であると判定できなかった場合に、前記注視領域が存在するか否かに応じて前記画像認識の予測結果を分類する分類機能を、演算処理装置に実行させる
     請求項2に記載のプログラム。
  9.  前記注視領域が妥当であると判定できず且つ前記注視領域が存在しない場合よりも前記注視領域が妥当であると判定できず且つ前記注視領域が存在する場合の方が確認の優先度が高くなるように優先度を決定する優先度決定機能を、演算処理装置に実行させる
     請求項8に記載のプログラム。
  10.  前記入力画像における部分画像領域ごとに前記画像認識による予測結果に対する寄与度を算出する寄与度算出機能と、
     前記寄与度に基づいて前記注視領域を特定する注視領域特定機能とを、演算処理装置に実行させる
     請求項1に記載のプログラム。
  11.  前記妥当性評価機能では、前記予測領域についての前記寄与度と前記予測領域以外の領域についての前記寄与度の差分に基づいて前記評価を行う
     請求項10に記載のプログラム。
  12.  前記寄与度算出機能では、前記入力画像における前記部分画像領域単位でマスクの有無のパターンを異ならせた複数のマスク画像に対して前記予測を行った結果得られた前記予測領域についての予測結果尤度に基づいて前記寄与度を算出する
     請求項10に記載のプログラム。
  13.  前記部分画像領域は格子状に分割された画素領域とされた
     請求項10に記載のプログラム。
  14.  前記画像認識の予測結果を提示するための表示制御を実行させる表示制御機能を、演算処理装置に実行させる
     請求項1に記載のプログラム。
  15.  前記表示制御機能では、入力画像に前記予測領域と前記注視領域を重畳させた画像が表示されるように前記表示制御を実行させる
     請求項14に記載のプログラム。
  16.  前記画像認識の予測結果についての確認の優先度を決定する優先度決定機能を、演算処理装置に実行させ、
     前記表示制御機能では、前記画像認識の予測結果の提示において前記優先度に基づいた表示が行われるように前記表示制御を実行させる
     請求項14に記載のプログラム。
  17.  前記表示制御機能では、前記優先度に基づいた表示順で表示が行われるように前記表示制御を実行させる
     請求項16に記載のプログラム。
  18.  前記表示制御機能では、前記優先度が低い前記画像認識の予測結果が表示されないように前記表示制御を実行させる
     請求項16に記載のプログラム。
  19.  入力画像に対する人工知能を用いた画像認識によって認識対象が存在すると予測された画像領域である予測領域と、前記予測の根拠とされた画像領域である注視領域と、に基づいて、前記注視領域についての妥当性の評価を行う妥当性評価部を、備えた
     情報処理装置。
  20.  入力画像に対する人工知能を用いた画像認識によって認識対象が存在すると予測された画像領域である予測領域と、前記予測の根拠とされた画像領域である注視領域と、に基づいて、前記注視領域についての妥当性の評価を行う妥当性評価処理を、演算処理装置が実行する
     情報処理方法。
PCT/JP2022/013178 2021-09-02 2022-03-22 プログラム、情報処理装置、情報処理方法 WO2023032317A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2023545060A JPWO2023032317A1 (ja) 2021-09-02 2022-03-22

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021-143413 2021-09-02
JP2021143413 2021-09-02

Publications (1)

Publication Number Publication Date
WO2023032317A1 true WO2023032317A1 (ja) 2023-03-09

Family

ID=85412496

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/013178 WO2023032317A1 (ja) 2021-09-02 2022-03-22 プログラム、情報処理装置、情報処理方法

Country Status (2)

Country Link
JP (1) JPWO2023032317A1 (ja)
WO (1) WO2023032317A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020089712A (ja) * 2018-12-04 2020-06-11 Hoya株式会社 情報処理装置、内視鏡用プロセッサ、情報処理方法およびプログラム
JP2020102657A (ja) * 2018-12-19 2020-07-02 シャープ株式会社 電子機器、制御装置、制御方法および制御プログラム
JP2021022159A (ja) * 2019-07-26 2021-02-18 株式会社 日立産業制御ソリューションズ 説明支援装置、および、説明支援方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020089712A (ja) * 2018-12-04 2020-06-11 Hoya株式会社 情報処理装置、内視鏡用プロセッサ、情報処理方法およびプログラム
JP2020102657A (ja) * 2018-12-19 2020-07-02 シャープ株式会社 電子機器、制御装置、制御方法および制御プログラム
JP2021022159A (ja) * 2019-07-26 2021-02-18 株式会社 日立産業制御ソリューションズ 説明支援装置、および、説明支援方法

Also Published As

Publication number Publication date
JPWO2023032317A1 (ja) 2023-03-09

Similar Documents

Publication Publication Date Title
CN102591321B (zh) 监视控制系统
US9122995B2 (en) Classification of stream-based data using machine learning
US8311299B2 (en) Method and system for intelligent qualitative and quantitative analysis of digital radiography softcopy reading
CN108090032B (zh) 逻辑回归模型的可视化解释方法及装置
JP2013534310A5 (ja)
CN106611291A (zh) 信息推送方法和装置
US20110161857A1 (en) Graphic for Displaying Multiple Assessments of Critical Care Performance
US20160361878A1 (en) System and method for evaluating additive manufacturing index
EP3336656A1 (en) Model based detection of user reaction times and further effects as well as systems therefore
CN108133223B (zh) 确定卷积神经网络cnn模型的装置和方法
CN107168705A (zh) 图形界面语义描述系统及其建立方法和操作路径生成方法
JP2019125206A (ja) 情報処理装置、情報処理方法及びプログラム
CN114419631A (zh) 一种基于rpa的网管虚拟系统
WO2023032317A1 (ja) プログラム、情報処理装置、情報処理方法
EP2608152B1 (en) Medical imaging diagnosis apparatus and medical imaging diagnosis method for providing diagnostic basis
US20210182701A1 (en) Virtual data scientist with prescriptive analytics
JP2012037787A (ja) プラント運転熟練度評価装置および方法
CN111860661B (zh) 基于用户行为的数据分析方法、装置、电子设备及介质
JP6852004B2 (ja) データ解析システム、データ解析方法、及びプログラム
JP2010218303A (ja) Gui評価結果提示装置、gui評価結果提示方法およびgui評価結果提示プログラム
JPWO2020085374A1 (ja) 熟練指数提供装置、熟練指数提供方法、及びプログラム
JP2008146533A (ja) 操作受付装置および操作受付方法
CN111612023A (zh) 一种分类模型构建方法及装置
JP6996618B2 (ja) 適応型インタフェース提供装置、適応型インタフェース提供方法、及びプログラム
CN108229691A (zh) 数据有效性确定方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22863907

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2023545060

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE