WO2021181654A1 - 情報処理装置、プログラム及び情報処理方法 - Google Patents

情報処理装置、プログラム及び情報処理方法 Download PDF

Info

Publication number
WO2021181654A1
WO2021181654A1 PCT/JP2020/011066 JP2020011066W WO2021181654A1 WO 2021181654 A1 WO2021181654 A1 WO 2021181654A1 JP 2020011066 W JP2020011066 W JP 2020011066W WO 2021181654 A1 WO2021181654 A1 WO 2021181654A1
Authority
WO
WIPO (PCT)
Prior art keywords
variation
samples
classes
label
degree
Prior art date
Application number
PCT/JP2020/011066
Other languages
English (en)
French (fr)
Inventor
健瑠 白神
信秋 田中
Original Assignee
三菱電機株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 三菱電機株式会社 filed Critical 三菱電機株式会社
Priority to CN202080097931.1A priority Critical patent/CN115280307A/zh
Priority to PCT/JP2020/011066 priority patent/WO2021181654A1/ja
Priority to JP2021571818A priority patent/JP7130153B2/ja
Priority to DE112020006501.4T priority patent/DE112020006501T5/de
Priority to KR1020227030270A priority patent/KR102552786B1/ko
Priority to TW109129093A priority patent/TWI807214B/zh
Publication of WO2021181654A1 publication Critical patent/WO2021181654A1/ja
Priority to US17/882,296 priority patent/US20220383147A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/20Drawing from basic elements, e.g. lines or circles
    • G06T11/206Drawing of charts or graphs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Definitions

  • This disclosure relates to an information processing device, a program, and an information processing method.
  • the quality of the data may deteriorate due to variations in the measurement environment or sensing. For example, it is conceivable that different measurers may cause differences in the sensor mounting method, which may change the nature of the data. If the variation in data due to factors unrelated to the original purpose becomes large, it becomes an obstacle in identifying the label that is originally desired to be identified, for example, an abnormality or normality.
  • time series data is divided into data for each predetermined time unit, similarity for each time unit is calculated, and correlation for each predetermined time based on the calculated similarity is obtained in advance on a two-dimensional plane.
  • a correlation analyzer that displays at a defined position is described.
  • the correlation analyzer described in Patent Document 1 can display the correlation based on the degree of similarity for each time unit. As a result, the variation in data caused by the time change becomes clear. However, factors other than time, such as "measurer” or "individual device", are not considered.
  • the information processing apparatus includes a plurality of columns arranged horizontally according to the order in which the plurality of samples are arranged, and a plurality of columns arranged vertically according to the order from a data set having a plurality of samples.
  • a sample corresponding to the one column and the sample corresponding to the one column are provided.
  • a similarity matrix generator that generates a similarity matrix that stores the similarity between the samples corresponding to one row, and a plurality of labels, each of which has a plurality of classes, are used for each of the plurality of samples.
  • the plurality of samples in the similarity matrix are arranged for each of the plurality of classes in the target label, which is a label designated from the plurality of labels.
  • An order adjustment unit that generates an adjustment similarity matrix by adjusting the order
  • a visualization unit that generates an evaluation screen image showing each column of the adjustment similarity matrix with brightness according to the similarity, and the above. It is characterized by including a display unit for displaying an evaluation screen image.
  • the information processing apparatus shows the result of labeling each of a plurality of samples contained in the data set using a plurality of labels each having a plurality of classes.
  • the degree of variation of the plurality of samples caused by each of the plurality of labels is calculated, and at least one label contained in the plurality of labels and the variation corresponding to the at least one label are calculated. It is characterized by including a variation calculation unit for generating a variation result screen image for displaying the degree and a display unit for displaying the variation result screen image.
  • the information processing apparatus shows the result of labeling each of a plurality of samples contained in the data set using a plurality of labels each having a plurality of classes.
  • the degree of variation of the plurality of samples caused by each of the plurality of classes is calculated, and the variation of displaying the plurality of classes and the degree of variation corresponding to each of the plurality of classes is displayed. It is characterized by including a variation calculation unit that generates a result screen image and a display unit that displays the variation result screen image.
  • a computer is arranged vertically from a data set having a plurality of samples with a plurality of columns arranged horizontally according to the order in which the plurality of samples are arranged and vertically arranged according to the order.
  • a sample corresponding to the one column and a sample corresponding to the one column are provided in one column having a plurality of rows and specified by one column in the plurality of columns and one row in the plurality of rows.
  • a similarity matrix generator that generates a similarity matrix that stores similarity between samples corresponding to one row, and a plurality of labels each having a plurality of classes for each of the plurality of samples.
  • the similarity matrix is arranged so that the plurality of samples are arranged for each of the plurality of classes in the target label which is the label specified from the plurality of labels.
  • An order adjustment unit that generates an adjustment similarity matrix by adjusting the order in the above
  • a visualization unit that generates an evaluation screen image showing each column of the adjustment similarity matrix with brightness according to the similarity
  • a display unit for displaying the evaluation screen image.
  • the program according to the second aspect of the present disclosure shows the result of labeling a computer on each of a plurality of samples contained in a data set using a plurality of labels, each of which has a plurality of classes.
  • the degree of variation of the plurality of samples caused by each of the plurality of labels is calculated, and at least one label contained in the plurality of labels and the said corresponding to the at least one label. It is characterized in that it functions as a variation calculation unit that generates a variation result screen image that displays the degree of variation and a display unit that displays the variation result screen image.
  • the program according to the third aspect of the present disclosure shows the result of labeling a computer on each of a plurality of samples contained in a data set using a plurality of labels, each of which has a plurality of classes.
  • the degree of variation of the plurality of samples caused by each of the plurality of classes is calculated, and the plurality of classes and the degree of variation corresponding to each of the plurality of classes are displayed. It is characterized in that it functions as a variation calculation unit that generates a variation result screen image and a display unit that displays the variation result screen image.
  • the information processing method includes a plurality of columns arranged horizontally according to the order in which the plurality of samples are arranged, and a plurality of columns arranged vertically according to the order from a data set having a plurality of samples.
  • a sample corresponding to the one column and the sample corresponding to the one column are provided.
  • the result of generating a similarity matrix storing the similarity between the samples corresponding to one row and labeling each of the plurality of samples with a plurality of labels each having a plurality of classes.
  • the information processing method shows the result of labeling each of a plurality of samples contained in the data set using a plurality of labels each having a plurality of classes.
  • the degree of variation of the plurality of samples caused by each of the plurality of labels is calculated, and at least one label contained in the plurality of labels and the variation corresponding to the at least one label are calculated.
  • a variation result screen image for displaying the degree is generated, and the variation result screen image is displayed.
  • the information processing method shows the result of labeling each of a plurality of samples contained in the data set using a plurality of labels each having a plurality of classes.
  • the degree of variation of the plurality of samples caused by each of the plurality of classes is calculated, and the variation of displaying the plurality of classes and the degree of variation corresponding to each of the plurality of classes is displayed. It is characterized in that a result screen image is generated and the variation result screen image is displayed.
  • FIG. (A) and (B) are graphs showing the distance between the distributions of two samples. It is the schematic which shows an example of the distance matrix. It is the schematic which shows the 1st example of the adjustment distance matrix. (A) and (B) are schematic views showing the second and third examples of the adjustment distance matrix. (A) and (B) are schematic views showing the fourth and fifth examples of the adjustment distance matrix. It is the schematic which shows the 6th example of the adjustment distance matrix. It is the schematic which shows the 1st example of the evaluation screen image which visualized the adjustment distance matrix. It is the schematic which shows the 2nd example of the evaluation screen image which visualized the adjustment distance matrix.
  • FIG. It is a flowchart which shows the 1st process in the data visualization apparatus which concerns on Embodiment 2.
  • FIG. It is a flowchart which shows the 2nd process in the data visualization apparatus which concerns on Embodiment 2.
  • FIG. It is a block diagram which shows schematic structure of the data visualization apparatus which concerns on Embodiment 3.
  • FIG. It is a flowchart which shows the process in the data visualization apparatus which concerns on Embodiment 3.
  • FIG. 1 is a block diagram schematically showing a configuration of a data visualization device 100, which is an information processing device according to the first embodiment.
  • the data visualization device 100 includes an input unit 101, a storage unit 102, a data acquisition unit 103, a distance matrix calculation unit 104, an order adjustment unit 105, a visualization unit 106, and a display unit 107.
  • the input unit 101 receives an input of an instruction from the user. For example, the input unit 101 receives input for designating one label as a target label from a plurality of labels.
  • the storage unit 102 stores programs and data required for processing in the data visualization device 100. For example, the storage unit 102 stores the data set to be visualized and its label information.
  • a dataset is, for example, a set of time series data obtained by measurement.
  • a dataset is organized as a set of multiple samples.
  • the sample constituting the data set is one unit for calculating the distance matrix by the distance matrix calculation unit 104.
  • the sample is, for example, time series data obtained by a vibration sensor or a microphone.
  • the sample is one-dimensional data showing one value measured at each time, but it is not limited to one-dimensional data.
  • the sample may be multidimensional data showing a plurality of values at each time.
  • Label information indicates the attributes associated with each sample contained in the dataset.
  • the label information is information indicating the result of labeling each of a plurality of samples using a plurality of labels.
  • Each of the plurality of labels has a plurality of classes.
  • label information associated with a sample which is measurement data collected for the purpose of diagnosing an abnormality of a device, will be described. Then, the purpose of measuring the data is to distinguish between abnormal and normal from the measured data. In this case, each sample is given label information including a label indicating the inspection result.
  • the inspection result label which is a label indicating the inspection result
  • the class here indicates a certain state contained in the same label. For example, different classes will indicate different states contained in the same label.
  • the measurement data may include a label that is expected to be irrelevant to the label (here, normal or abnormal) corresponding to the purpose of the measurement data. Examples include “measurer”, “measured place”, “measured date and time”, and the like.
  • the data acquisition unit 103 acquires the data set DS and its label information LI from the storage unit 102.
  • the acquired data set DS and its label information LI are given to the distance matrix calculation unit 104.
  • the distance matrix calculation unit 104 includes a plurality of columns arranged horizontally according to the order in which a plurality of samples are arranged, and a plurality of rows arranged vertically according to the order, among the plurality of columns.
  • the degree of similarity between the sample corresponding to that one column and the sample corresponding to that one row in one column identified by one column and one row of the plurality of rows.
  • It is a similarity matrix generator that generates a distance matrix, which is a similarity matrix that stores.
  • the similarity included in the distance matrix is also referred to as an element constituting the distance matrix.
  • the distance matrix calculation unit 104 calculates the inter-sample distance from the combination of all the samples included in the data set DS, and uses the calculated inter-sample distance as a matrix in which each of the number of rows and the number of columns is the number of samples. Generate a distance matrix.
  • the distance between samples is an index showing the degree of similarity between two samples.
  • the distance between samples becomes smaller as the two samples are similar, and becomes 0 when they are exactly the same. Therefore, the distance matrix is also called a similarity matrix.
  • vibration data collected for the purpose of abnormality diagnosis will be described as an example.
  • the measurement data measured for a certain period of time under a certain condition is treated as one sample.
  • one sample is time-series data showing one-dimensional values at each time.
  • each sample is given a "test result label” indicating normality or abnormality, which is the inspection result of the device, and a "measurement date label” indicating when the measurement was performed, as label information.
  • the distance matrix calculation unit 104 shows an example of the process of actually calculating the distance between samples and creating the distance matrix.
  • the similarity between the probability distributions of the two samples is defined as the similarity between the two samples.
  • the distance matrix calculation unit 104 calculates the distribution formed by each sample. At this point, one distribution is calculated for each sample. As the assumed distribution, a normal distribution or the like can be considered.
  • the distance matrix calculation unit 104 calculates the distance between the distributions formed by the two samples as an index of the similarity between the samples. Examples of the method for calculating the distance between distributions include Batacharya distance, KL (Kullback-Leibler) divergence, JS (Jensen-Shannon) divergence, and the like.
  • FIG. 2 (A) and 2 (B) are graphs showing the distance between the distributions of the two samples.
  • FIG. 2A shows a case where the distance between the distributions of the two samples is large
  • FIG. 2B shows a case where the distance between the distributions of the two samples is small.
  • the distance matrix calculation unit 104 generates a distance matrix based on the distances between the distributions calculated by combining all the samples. It is assumed that the horizontal columns and vertical rows of the distance matrix are arranged in the order of eight samples, respectively.
  • FIG. 3 is a schematic view showing an example of a distance matrix. Here, as mentioned above, there are eight samples over two days. Here, it is assumed that each sample is assigned a sample number which is sample identification information for identifying each sample. At this time, the elements of the Nth row and Mth column of the distance matrix represent the distance between the Nth sample and the Mth sample.
  • N and M are integers of 1 or more and 8 or less.
  • the diagonal values of the distance matrix shown in FIG. 3 are all 0 because they are the distances in the same sample.
  • a symmetric method such as the batachary distance is used to calculate the distance between samples, the distance value does not change even if the samples are replaced, so that the distance matrix becomes a symmetric matrix.
  • the order adjusting unit 105 refers to the label information LI and arranges a plurality of samples in the similarity matrix so that a plurality of samples are arranged for each of a plurality of classes in the target label which is a label specified from the plurality of labels. By adjusting, an adjustment similarity matrix is generated. Specifically, the order adjusting unit 105 adjusts the order of the samples forming the distance matrix generated by the distance matrix calculation unit 104 according to the designated label. Specifically, as described above, when the "inspection result label" and the "measurement date label” are included as the label information, the order adjusting unit 105 of the "inspection result label" and the "measurement date label” Each adjusts the order of the distance matrix samples.
  • the inspection result label when the distance matrix is rearranged by the inspection result label, the inspection result label includes two classes, "normal class” and "abnormal class", so that the order adjusting unit 105 first belongs to the normal class. Adjust the order of the samples so that they are lined up for each class so that (normal sample) and the sample belonging to the abnormal class (abnormal sample) follow it. For example, as shown in FIG. 3, when the sample having an odd sample number is a normal class and the sample having an even number is an abnormal class among the eight samples, the order adjusting unit 105 shows the sample in FIG. As for the distance matrix, the order of the samples is adjusted as in the adjustment distance matrix shown in FIG.
  • the adjustment distance matrix is also referred to as an adjustment similarity matrix.
  • the order adjustment unit 105 first The order of the samples is changed so that the sample belongs to the June 12th class and the sample belongs to the June 13th class after that. For example, as shown in FIG. 3, when the samples with sample numbers 1 to 4 are in the June 12 class and the 5th to 8th samples are in the June 13 class among the eight samples. , The order adjusting unit 105 uses the distance matrix shown in FIG. 3 as it is as the adjusting distance matrix.
  • the visualization unit 106 generates an evaluation screen image that visualizes the adjustment distance matrix, and displays the evaluation screen image on the display unit 107 to present the evaluation screen image to the user. For example, the visualization unit 106 determines the lightness of the color of the column corresponding to the element according to the value of the element included in the adjustment distance matrix whose order is adjusted by the order adjustment unit 105, thereby determining the evaluation screen. Generate an image. In this way, by changing the brightness of the column corresponding to the element of the adjustment distance matrix according to the value of that column, it is possible to visually express the quality problem of the data set caused by the label used for the order change. Can be done.
  • the visualization unit 106 compares the value in the column of the adjustment distance matrix with a predetermined threshold value, and if it is less than the predetermined threshold value, the color of the column is changed to the predetermined threshold value. Make it darker than the color in the above value column.
  • the data set here is assumed to be a data set for abnormality diagnosis. Therefore, it is preferable that the abnormal sample and the normal sample have as different properties as possible.
  • the measurement date label which is a label expected to be unrelated to the diagnosis of abnormality and normality, it is expected that the characteristics of the sample do not change even if the class is different.
  • the first condition is that the distance between samples of different classes in the test result label is large. In other words, there is low similarity between samples of different classes in the test result label.
  • the second condition is that the distances between different samples are not grouped on the measurement date label. In other words, the similarity between samples is low or high even if the classes are the same or different in the measurement date label.
  • the test result label is divided into a normal class and an abnormal class, and by adjusting the order of the samples, the samples included in the normal class and the abnormal class are used.
  • the distance between the samples included in is less than the predetermined threshold, the color of the corresponding column becomes dark, and the distance between the sample included in the normal class and the sample included in the abnormal class is When it is equal to or more than a predetermined threshold value and the color of the corresponding column is bright, it can be confirmed that the above-mentioned first condition is satisfied.
  • the measurement date label is divided into the June 12 class and the June 13 class, and by adjusting the sample order, the samples in the same class can be used. If the bright column and the dark column are not combined between the samples of different classes, it can be confirmed that the above second condition is satisfied.
  • the inspection result label is divided into a normal class and an abnormal class, and by adjusting the sample order, the samples of the same class can be separated from each other. If the bright column and the dark column are not combined between the samples of different classes, it means that the above first condition is not satisfied.
  • the measurement date label is divided into the June 12 class and the June 13 class, and by adjusting the sample order, the June 12 class is obtained.
  • the distance between the included samples and the samples included in the June 13th class is less than a predetermined threshold, the corresponding column is darkened and included in the June 12th class. If the distance between the sample and the sample included in the June 13th class is greater than or equal to a predetermined threshold and the corresponding column is brighter in color, the second condition above is met. It will not be. In such a case, it is possible to identify that the variation in the data on the measurement date is the cause of the deterioration of the inspection result.
  • the inspection result label is divided into a normal class and an abnormal class, and after adjusting the order of the samples, they are included in each of the normal class and the abnormal class.
  • the samples may be further subdivided into the June 12 and June 13 classes included in the measurement date label and the order of the samples may be adjusted.
  • the sample is further classified into the June 12 class and the June 13 class, respectively. ..
  • FIG. 7 shows that in the normal class and the abnormal class, the sample is further classified into the June 12 class and the June 13 class, respectively. ..
  • FIGS. 8 to 12 show four examples in which an adjustment distance matrix whose order is adjusted by labels of three classes is visualized as an evaluation screen image for a data set having nine sample numbers.
  • the three classes are numbered 1 to 3, and it is assumed that the adjusted distance matrix is generated by arranging the samples included in the distance matrix in ascending order. ..
  • the sample belonging to the first class and the sample belonging to the third class are similar, and the sample belonging to the second class, the first class, and the sample belonging to the third class are similar. Even if the samples belonging to the 3rd class are not similar and the different samples belonging to the 2nd class are not similar, only the data of the 2nd class is the data of the 1st class and the 3rd class. It can be seen that it is different from the data and there are variations between the second data.
  • FIG. 13 is a block diagram showing a hardware configuration example of the data visualization device 100.
  • the data visualization device 100 can be composed of a computer 130 including an input device 131, a display device 132, a storage device 133, a memory 134, and a processor 135.
  • the input device 131 is a device for the user to input an instruction, such as a mouse, a touch panel, a keyboard, an HMD (Head Mounted Display) gesture operation input device, or a line-of-sight operation input device.
  • the display device 132 is a device that displays an application such as a display to be presented to the user at the time of visualization.
  • the display device 132 also includes, for example, a see-through type display of the HMD.
  • the storage device 133 is a device that performs storage, and includes an HDD (Hard Disk Drive), an SSD (Solid State Drive), and the like.
  • the memory 134 is a device that performs temporary storage, and includes a RAM (Random Access Memory).
  • the processor 135 is a processing circuit such as a CPU (Central Processing Unit).
  • CPU Central Processing Unit
  • the input unit 101 can be realized by the processor 135 using the input device 131.
  • the display unit 107 can be realized by the processor 135 using the display device 132.
  • the storage unit 102 can be realized by the processor 135 using the memory 134.
  • the data acquisition unit 103, the distance matrix calculation unit 104, the order adjustment unit 105, and the visualization unit 106 are realized by the processor 135 reading the program stored in the storage device 133 into the memory 134 and executing the program. be able to.
  • a program may be provided through a network, or may be recorded and provided on a recording medium. That is, such a program may be provided as, for example, a program product.
  • FIG. 14 is a flowchart showing processing in the data visualization device 100 according to the first embodiment.
  • the data acquisition unit 103 acquires the data set DS and its label information LI from the storage unit 102 (S10).
  • the acquired data set DS and its label information LI are given to the distance matrix calculation unit 104.
  • the distance matrix calculation unit 104 generates a distance matrix composed of the similarity of each sample constituting the data set DS (S11). For example, the distance matrix calculation unit 104 calculates the inter-sample distance from the combination of all the samples included in the data set DS, and sets the calculated inter-sample distance as the number of samples in each of the number of rows and the number of columns. Generate a distance matrix.
  • the input unit 101 accepts a label designation from the user in order to adjust the order of the samples in the distance matrix (S12).
  • the user information UI indicating the designated label is given to the order adjusting unit 105.
  • the label specified here is also referred to as a target label.
  • the order adjustment unit 105 generates an adjustment distance matrix by adjusting the distance matrix generated by the distance matrix calculation unit 104 so that the samples are lined up for each class of the designated label (S13).
  • the visualization unit 106 generates an evaluation screen image that visualizes the adjustment distance matrix, and causes the display unit 107 to display the evaluation screen image (S14). For example, the visualization unit 106 determines the brightness of the color of the column containing the value according to the value included in the adjustment distance matrix whose order has been changed by the order adjustment unit 105, thereby determining the evaluation screen. Generate an image.
  • the order adjusting unit 105 determines whether or not to continue the visualization process (S15). For example, the order adjusting unit 105 determines that the visualization process is continued when the user information UI indicating the label is sent from the input unit 101. The order adjusting unit 105 determines that the visualization process is not continued when the user information UI indicating an instruction to end the process is sent from the input unit 101.
  • the process returns to step S12, and when the visualization process is not continued (No in S14), the process is terminated.
  • Embodiment 2 the user interprets the variation of the data depending on the label by visualizing the result of adjusting the order of the samples of the distance matrix according to the designated label.
  • the degree of variation in the data is calculated in advance, and the designation of the label for adjusting the order is supported.
  • a label for adjusting the order is automatically specified according to the calculated degree of variation.
  • FIG. 15 is a block diagram schematically showing the configuration of the data visualization device 200 according to the second embodiment.
  • the data visualization device 200 includes an input unit 101, a storage unit 102, a data acquisition unit 103, a distance matrix calculation unit 104, an order adjustment unit 105, a visualization unit 106, a display unit 107, and a variation calculation unit 208.
  • the order adjustment support unit 209 is provided.
  • the input unit 101, the storage unit 102, the data acquisition unit 103, the distance matrix calculation unit 104, the order adjustment unit 105, the visualization unit 106, and the display unit 107 of the data visualization device 200 according to the second embodiment are used for data visualization according to the first embodiment.
  • This is the same as the input unit 101, the storage unit 102, the data acquisition unit 103, the distance matrix calculation unit 104, the order adjustment unit 105, the visualization unit 106, and the display unit 107 of the device 100.
  • the data acquisition unit 103 also gives the acquired data set DS and the label information LI to the variation calculation unit 208
  • the distance matrix calculation unit 104 also gives the generated distance matrix to the variation calculation unit 208.
  • the variation calculation unit 208 calculates the degree of variation of a plurality of samples as data generated by each label.
  • the quality problem is clarified by the user interpreting the visualized adjustment distance matrix. For example, as in the adjustment distance matrix 120 shown in FIG. 8, when the brightness of the divisions where the same classes intersect on the diagonal line is low and the brightness of the other divisions is high, it is determined that there is variation due to the label. be able to.
  • variation calculation unit 208 It is the role of the variation calculation unit 208 to quantify the characteristics of such a distance matrix as numerical values rather than letting the user interpret them.
  • the variation calculation unit 208 makes it possible to quantify the “degree of variation in data caused by a specific label”. Hereinafter, specific processing of the variation calculation unit 208 will be described.
  • N is an integer of 2 or more
  • C is an integer of 2 or more
  • each class is represented as 1, 2, ..., C.
  • M be an adjustment distance matrix in which a sample of the distance matrix calculated from this data set is adjusted so as to be in the order of 1, 2, ..., C.
  • the distance matrix is composed of the butterfly distance between the samples.
  • the number of elements of M is N ⁇ N.
  • there is a submatrix in the adjustment distance matrix M which is a region of C ⁇ C. These submatrixes will be referred to as D 11 , D 12 , ..., DCC , as shown in FIG.
  • D ij is a submatrix composed of a sample belonging to class i (i is an integer satisfying 1 ⁇ i ⁇ C) and a sample belonging to class j (j is an integer satisfying 1 ⁇ j ⁇ C). Become. The number of samples belonging to class i and N i, when the number of samples belonging to the class j and N j, D ij is the matrix of N i ⁇ N j. Each element of D ij is written as d kl (ij).
  • the average value ⁇ ij of the elements of the submatrix is calculated and used as the representative value of each section corresponding to each submatrix D ij. Due to the symmetry of the adjustment distance matrix M, the filled section in FIG. 17 is used when calculating ⁇ ij.
  • the following formula (1) is a formula for calculating ⁇ ij.
  • the average value ⁇ ij is used as a representative value of the submatrix D ij , but the second embodiment is not limited to such an example.
  • the median of the elements contained in the partial matrix D ij may be used as the representative value of the partial matrix D ij.
  • the degree of variation V of the data caused by a certain label can be formulated, for example, as in the following equation (2).
  • Eq. (2) The left term of Eq. (2) is to calculate ⁇ ij when i ⁇ j for all combinations and calculate the average. This shows how much the data varies when the classes are different.
  • V has a high value for the label to be identified in the data set (here, the inspection result label) and a low value for the label expected to be unrelated to the label (here, the measurement date label). ..
  • the variation calculation unit 208 subtracts the representative value of the similarity between the samples classified into the same class from the representative value of the similarity between the samples classified into different classes in a plurality of classes.
  • the degree of variation V calculated by is calculated with all the labels given in advance. For example, if the dataset is labeled with 5 labels, this process yields 5 Vs corresponding to each label.
  • the order adjustment support unit 209 displays the variation result screen image, which is the result obtained by the variation calculation unit 208, on the display unit 107, presents the result to the user, and specifies a label to be used for adjustment.
  • the variation result screen image is, for example, a screen image in which labels are displayed in descending order of the degree of variation V. The user may specify the target label by referring to such a screen.
  • the order adjustment support unit 209 does not display the variation result screen image, but notifies the order adjustment unit 105 of the result obtained by the variation calculation unit 208, and automatically orders the samples included in the distance matrix.
  • the adjustment distance matrix may be generated by adjusting.
  • the order adjustment support unit 209 may specify the label having the highest degree of variation as the target label, and cause the order adjustment unit 105 to generate an adjustment distance matrix according to the target label. Further, the order adjustment support unit 209 may designate a plurality of labels as target labels in order from the one having the highest degree of variation. Further, the order adjustment support unit 209 may designate a label having the highest degree of variation and a label having the lowest degree of variation as target labels.
  • the data visualization device 200 can also be configured by the computer 130 shown in FIG.
  • the variation calculation unit 208 and the order adjustment support unit 209 can be realized by the processor 135 reading the program stored in the storage device 133 into the memory 134 and executing the program.
  • FIG. 18 is a flowchart showing the first process in the data visualization device 200 according to the second embodiment.
  • the first process is a process in which the order adjustment support unit 209 displays the variation result screen image, which is the result obtained by the variation calculation unit 208, on the display unit 107.
  • the data acquisition unit 103 acquires the data set DS and its label information LI from the storage unit 102 (S20).
  • the acquired data set DS and its label information LI are given to the distance matrix calculation unit 104 and the variation calculation unit 208.
  • the distance matrix calculation unit 104 calculates a distance matrix composed of the similarity of each sample constituting the data set DS (S21). The generated distance matrix is given to the order adjusting unit 105 and the variation calculation unit 208.
  • the variation calculation unit 208 repeats the processes of steps S23 and S24 for the number of labels indicated by the label information LI (S22 and S25).
  • step S23 the variation calculation unit 208 identifies a label for which the variation degree V has not yet been calculated from the label indicated by the label information LI, and according to the specified label, the sample included in the distance matrix. Adjust the order.
  • step S24 the variation calculation unit 208 calculates the degree of variation V of the data according to the specified label based on the adjusted distance matrix which is the adjusted distance matrix.
  • the order adjustment support unit 209 causes the display unit 107 to display a variation result screen image indicating the variation degree V calculated by the variation calculation unit 208 (S26).
  • the input unit 101 accepts a label designation from the user in order to adjust the order of the samples included in the distance matrix (S27).
  • the user information UI indicating the designated label is given to the order adjusting unit 105.
  • the user may specify the label with reference to the variation result screen image displayed on the display unit 107.
  • the order adjustment unit 105 generates an adjustment distance matrix by adjusting the distance matrix generated by the distance matrix calculation unit 104 so that the samples are lined up for each class of the designated label (S28).
  • the visualization unit 106 generates an evaluation screen image that visualizes the adjustment distance matrix, and causes the display unit 107 to display the evaluation screen image (S29).
  • the order adjusting unit 105 determines whether or not to continue the visualization process (S30). For example, the order adjusting unit 105 determines that the visualization process is continued when the user information UI indicating the label is sent from the input unit 101. The order adjusting unit 105 determines that the visualization process is not continued when the user information UI indicating an instruction to end the process is sent from the input unit 101.
  • the process returns to step S27, and when the visualization process is not continued (No in S30), the process is terminated.
  • FIG. 19 is a flowchart showing a second process in the data visualization device 200 according to the second embodiment.
  • the second process is a process in which the order adjustment support unit 209 specifies a label based on the variation result, which is the result obtained by the variation calculation unit 208.
  • the data acquisition unit 103 acquires the data set DS and its label information LI from the storage unit 102 (S40).
  • the acquired data set DS and its label information LI are given to the distance matrix calculation unit 104 and the variation calculation unit 208.
  • the distance matrix calculation unit 104 calculates a distance matrix composed of the similarity of each sample constituting the data set DS (S41). The generated distance matrix is given to the order adjusting unit 105 and the variation calculation unit 208.
  • the variation calculation unit 208 repeats the processes of steps S43 and S44 for the number of labels indicated by the label information LI (S42 and S45).
  • step S43 the variation calculation unit 208 identifies a label for which the variation degree V has not yet been calculated from the label indicated by the label information LI, and according to the specified label, the sample included in the distance matrix. Adjust the order.
  • step S44 the variation calculation unit 208 calculates the degree of variation V of the data according to the specified label based on the adjusted distance matrix which is the adjusted distance matrix.
  • the order adjustment support unit 209 designates labels according to the degree of variation V calculated by the variation calculation unit 208 (S46). For example, the order adjustment support unit 209 may specify the label having the largest variation degree V.
  • the order adjustment unit 105 generates an adjustment distance matrix by adjusting the distance matrix generated by the distance matrix calculation unit 104 so that the samples are lined up for each class of the designated label (S47).
  • the visualization unit 106 generates an evaluation screen image that visualizes the adjustment distance matrix, and causes the display unit 107 to display the evaluation screen image (S48).
  • the second embodiment it is possible to support or automate the adjustment of the sample included in the distance matrix by obtaining the variation of the data generated by each label in advance by the variation calculation unit 208.
  • step S46 of the flowchart shown in FIG. 19 when the order adjustment support unit 209 specifies a plurality of labels, a plurality of evaluation screen images are displayed on the display unit 107 via steps S47 and S48. You may. In this case, the order adjustment support unit 209 may specify a plurality of labels in order from the label having the highest degree of variation V.
  • the automation of label designation and the label designation by the user may be combined. For example, first, an evaluation screen image with a label automatically specified as shown in FIG. 19 is displayed, and then, for example, a variation result screen image is displayed according to an instruction from the user, and the label is displayed by the user. May be specified.
  • FIG. 20 is a block diagram schematically showing the configuration of the data visualization device 300 according to the third embodiment.
  • the data visualization device 300 includes a storage unit 102, a data acquisition unit 103, a distance matrix calculation unit 104, a display unit 107, and a variation calculation unit 308.
  • the storage unit 102, the data acquisition unit 103, the distance matrix calculation unit 104, and the display unit 107 of the data visualization device 300 according to the third embodiment are the storage unit 102 and the data acquisition unit 103 of the data visualization device 100 according to the first embodiment. , The same as the distance matrix calculation unit 104 and the display unit 107.
  • the data visualization device 300 according to the third embodiment is provided with an input unit 101, an order adjustment unit 105, a visualization unit 106, and an order adjustment support unit 209 as compared with the data visualization device 200 according to the second embodiment. Not.
  • the variation calculation unit 308 calculates the degree of variation in the data generated by each of all the labels indicated by the label information LI, similarly to the variation calculation unit 208 in the second embodiment. Then, the variation calculation unit 308 causes the display unit 107 to display a variation result screen image indicating the calculated variation degree.
  • the variation result screen image may be, for example, a screen image displaying a predetermined number of labels in descending order of the variation degree V, or a screen image displaying the variation degree V of all the labels. In other words, the variation calculation unit 308 may display at least one label included in all the labels indicated by the label information LI and the degree of variation corresponding to the at least one label on the variation result screen image.
  • FIG. 21 is a flowchart showing processing in the data visualization device 300 according to the third embodiment.
  • the data acquisition unit 103 acquires the data set DS and its label information LI from the storage unit 102 (S50).
  • the acquired data set DS and its label information LI are given to the distance matrix calculation unit 104 and the variation calculation unit 308.
  • the distance matrix calculation unit 104 calculates a distance matrix composed of the similarity of each sample constituting the data set DS (S51). The generated distance matrix is given to the order adjusting unit 105 and the variation calculation unit 308.
  • variation calculation unit 308 repeats the processes of steps S53 and S54 for the number of labels indicated by the label information LI (S52 and S55).
  • step S53 the variation calculation unit 308 identifies a label for which the variation degree V has not yet been calculated from the label indicated by the label information LI, and according to the identified label, the sample included in the distance matrix. Adjust the order.
  • step S54 the variation calculation unit 308 calculates the degree of variation V of the data according to the specified label based on the adjusted distance matrix which is the adjusted distance matrix.
  • the variation calculation unit 308 causes the display unit 107 to display a variation result screen image indicating the calculated variation degree V (S56).
  • the third embodiment by presenting the degree of variation V for each label to the user, it is possible to clarify the label caused by the quality problem of the data set.
  • the processing sound collected for the purpose of automatically detecting a processing defect during cutting processing by a laser processing machine can be mentioned.
  • This data can be collected by attaching a microphone, which is an acoustic sensor, to the processing head of the processing machine. Since the purpose is to detect processing defects, each data is given an "inspection result label" indicating the presence or absence of defects. Finally, it is expected that the presence or absence of processing defects will be detected from the characteristics of the processing sound data by machine learning.
  • the data visualization devices 100 to 300 are used for visualizing and quantifying the quality of data as a preliminary step for learning the data. If the quality deterioration and deterioration factors can be confirmed by the data visualization devices 100 to 300, "the data used for learning is thinned out (in other words, the data causing the quality deterioration is not used)" according to the result. By taking measures such as “improving the data collection method", the data quality can be improved. In addition, at the time of data collection, information on labels that are expected to be irrelevant to the inspection results such as "measurement time”, “measurer”, “aircraft number” or “measurement location” is also recorded, and the embodiment The degree of variation in the data for each label is visualized and quantified by the processes described in 1 to 3.
  • time-series data showing one-dimensional values for each time is handled, but one sample does not necessarily have to be data showing one-dimensional values for each time.
  • Time-series data showing multidimensional values for each time may be used, which is converted into multidimensional data by performing feature extraction processing on a one-dimensional signal. Also, it does not have to be time series data.
  • the variation calculation units 208 and 308 described in the second and third embodiments calculate the degree of variation for each "label", but the variation calculation units 208 and 308 pay attention to a certain label.
  • the "degree of variation caused by each class" included in the label may be calculated.
  • V (c) Assuming that the degree of variation in data caused by class c (c is an integer satisfying 1 ⁇ c ⁇ C) is V (c), for example, V (c) can be formulated as in the following equation (3). be.
  • V (c) includes a variation between classes V out (c), it is calculated by the difference between the variation V in (c) in the class.
  • V out (c) indicates how much the sample of class c deviates from the sample of another class, and V in (c) indicates how much the sample of class c is dispersed.
  • V (c) when V (c) is obtained in all the classes 1 to 3 with respect to the adjustment distance matrix 123 shown in FIG. 11, V (1) and V (3) are compared with V ( The value of 2) becomes large. This makes it possible to quantitatively show that only the class 2 sample has different properties from the other class samples.
  • V (c) is a high value in the class included in the identification target label (here, the inspection result label) of the data set, but the label is expected to be unrelated to the label (here, the measurement date label). It is desirable that a low value is obtained in the class included in).
  • V (c) is set to (4) below. It may be calculated by an equation.
  • the variation calculation units 208 and 308 use one class for calculating the degree of variation V (c) as the target class among the plurality of classes, the sample classified into the target class and the target class are excluded.
  • the degree of variation V (c) may be calculated by subtracting the representative value of the similarity between the samples classified into the target class from the representative value of the similarity with the samples classified into the class. Further, the variation calculation units 208 and 308 set the representative value of the similarity between the sample classified in the target class and the sample classified in the class other than the target class to the similarity between the samples classified in the target class.
  • the degree of variation V (c) may be calculated by adding the representative values.
  • the order adjustment support unit 209 or the variation calculation unit 308 generates a variation result screen image that displays the plurality of classes and the variation degree V (c) corresponding to each of the plurality of classes, and displays the variation result screen image on the display unit 107. It may be displayed.
  • the variation calculation units 208 and 308 may calculate the variation degree V depending on the label and the variation degree V (c) generated by each class of the label for all the given labels.
  • the degree of variation V is also referred to as the degree of label variation
  • the degree of variation V (c) is also referred to as the degree of class variation.
  • V and V (c) may be performed on the submatrix Dii after adjustment by a certain label.
  • the variation calculation unit 208, 308 is a label (e.g., test results label) the samples included in the partial matrix D ii located on a diagonal line of the adjustment distance matrix M, which is adjusted by the further otherwise rearranging a certain label, after obtaining a readjusted distance matrix M i, in the same procedure to determine the degree of variation V i and V i (c) from readjusted distance matrix M i.
  • the final V and V (c) for example, can be calculated by taking the average of V i and V i (c). This method can be used to calculate the degree of variation of other labels when the labels having large variations are known in advance. This makes it possible to calculate the degree of variation due to other labels without being affected by the label for which the first adjustment was made.
  • the variation calculation units 208 and 308 may calculate the “degree of variation of data by each class included in a specific label”. For example, the variation calculation unit 208 may calculate the variation degree V (c) of each class included in the label when the user specifies the label via the input unit 101. Further, the variation calculation units 208 and 308 calculate the variation degree V for each label and the variation degree V (c) for each class, and the calculation results V and V (c) are obtained as a variation result screen image. It may be included in and displayed.
  • the value in the column of the adjustment distance matrix is compared with a predetermined threshold value, and when the value is less than the predetermined threshold value, the color of the column is predetermined.
  • the evaluation screen image is generated by making the color darker than the color of the column having a value equal to or higher than the specified threshold value, but the first and second embodiments are not limited to such an example.
  • the adjustment distance matrix may be visualized as a heat map, and the values in the adjustment distance matrix column may be expressed by "shades of color".
  • visualization may be performed with a heat map in which a smaller value is a darker color and a larger value is a brighter color. It is also possible to combine the expression by the heat map and the expression by the threshold value.
  • all columns that exceed the preset upper limit are "the brightest color in the heat map (for example, white)", and all columns that are below the preset lower limit are "the darkest color in the heat map (for example, white)”.
  • black for example, black
  • 100, 200, 300 data visualization device 101 input unit, 102 storage unit, 103 data acquisition unit, 104 distance matrix calculation unit, 105 order adjustment unit, 106 visualization unit, 107 display unit, 208, 308 variation calculation unit, 209 order Coordination support department.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Algebra (AREA)
  • Operations Research (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

複数のサンプルを有するデータセットから、その複数のサンプルが並ぶ順序に従って並べられた複数の列及び複数の行を備え、その複数の列の内の一つの列と、その複数の行の内の一つの行とで特定される一つの欄に、その一つの列及びその一つの行に対応するサンプル間の類似度を格納した類似度行列を生成する距離行列算出部(104)と、その複数のサンプルの各々に対して、各々が複数のクラスを有する複数のラベルを用いてラベリングを行なった結果を示すラベル情報を参照し、その複数のラベルから指定されたラベルである対象ラベルにおける複数のクラス毎にその複数のサンプルが並ぶように、類似度行列における順序を調整することで、調整類似度行列を生成する順序調整部(105)と、その調整類似度行列の各々欄を、類似度に応じた明度で示す評価画面画像を生成する可視化部(106)と、その評価画面画像表示する表示部(107)とを備える。

Description

情報処理装置、プログラム及び情報処理方法
 本開示は、情報処理装置、プログラム及び情報処理方法に関する。
 近年、計測技術の発達により、様々なデータが計測され活用されている。例えば、機器の異常診断を行う際には、機器に振動センサ又はマイクを設置して、機器から得られる振動及び音が計測される。そのようにして得られたデータを用いて機器の異常が診断される。
 このような計測データを扱うとき、計測環境又はセンシングのばらつきによってデータの品質が低下する場合がある。例えば、計測者が異なることでセンサの取り付け方法に差異が生まれ、それによってデータの性質が変わるようなケースが考えられる。本来の目的とは無関係の要因によるデータのばらつきが大きくなると、本来識別したいラベル、例えば、異常又は正常を識別する上で障害となる。
 特許文献1には、時系列データを所定の時間単位毎のデータに分割し、時間単位毎の類似度を算出し、算出された類似度に基づく所定時間毎の相関を、二次元平面の予め定められた位置に表示する相関分析装置が記載されている。
特開2015-225637号公報
 特許文献1に記載された相関分析装置は、時間単位毎の類似度に基づく相関を表示することができる。これにより、時間変化によって生じるデータのばらつきが明らかとなる。しかしながら、「計測者」又は「機器の個体」等の時間以外の要因については考慮されていない。
 そこで、本開示の一又は複数の態様は、本来の目的とは無関係の要因によって生じるデータのばらつきを確認することができる。
 本開示の第1の態様に係る情報処理装置は、複数のサンプルを有するデータセットから、前記複数のサンプルが並ぶ順序に従って横に並べられた複数の列と、前記順序に従って縦に並べられた複数の行とを備え、前記複数の列の内の一つの列と、前記複数の行の内の一つの行とで特定される一つの欄に、前記一つの列に対応するサンプルと、前記一つの行に対応するサンプルとの間の類似度を格納した類似度行列を生成する類似度行列生成部と、前記複数のサンプルの各々に対して、各々が複数のクラスを有する複数のラベルを用いてラベリングを行なった結果を示すラベル情報を参照して、前記複数のラベルから指定されたラベルである対象ラベルにおける前記複数のクラス毎に前記複数のサンプルが並ぶように、前記類似度行列における前記順序を調整することで、調整類似度行列を生成する順序調整部と、前記調整類似度行列の各々の欄を、前記類似度に応じた明度で示す評価画面画像を生成する可視化部と、前記評価画面画像を表示する表示部と、を備えることを特徴とする。
 本開示の第2の態様に係る情報処理装置は、データセットに含まれている複数のサンプルの各々に対して、各々が複数のクラスを有する複数のラベルを用いてラベリングを行なった結果を示すラベル情報を参照して、前記複数のラベルの各々によって生じる、前記複数のサンプルのばらつき度合いを算出し、前記複数のラベルに含まれる少なくとも一つのラベルと、前記少なくとも一つのラベルに対応する前記ばらつき度合いとを表示するばらつき結果画面画像を生成するばらつき算出部と、前記ばらつき結果画面画像を表示する表示部と、を備えることを特徴とする。
 本開示の第3の態様に係る情報処理装置は、データセットに含まれている複数のサンプルの各々に対して、各々が複数のクラスを有する複数のラベルを用いてラベリングを行なった結果を示すラベル情報を参照して、前記複数のクラスの各々によって生じる、前記複数のサンプルのばらつき度合いを算出し、前記複数のクラスと、前記複数のクラスの各々に対応する前記ばらつき度合いとを表示するばらつき結果画面画像を生成するばらつき算出部と、前記ばらつき結果画面画像を表示する表示部と、を備えることを特徴とする。
 本開示の第1の態様に係るプログラムは、コンピュータを、複数のサンプルを有するデータセットから、前記複数のサンプルが並ぶ順序に従って横に並べられた複数の列と、前記順序に従って縦に並べられた複数の行とを備え、前記複数の列の内の一つの列と、前記複数の行の内の一つの行とで特定される一つの欄に、前記一つの列に対応するサンプルと、前記一つの行に対応するサンプルとの間の類似度を格納した類似度行列を生成する類似度行列生成部、及び、前記複数のサンプルの各々に対して、各々が複数のクラスを有する複数のラベルを用いてラベリングを行なった結果を示すラベル情報を参照して、前記複数のラベルから指定されたラベルである対象ラベルにおける前記複数のクラス毎に前記複数のサンプルが並ぶように、前記類似度行列における前記順序を調整することで、調整類似度行列を生成する順序調整部、前記調整類似度行列の各々の欄を、前記類似度に応じた明度で示す評価画面画像を生成する可視化部、及び、前記評価画面画像を表示する表示部、として機能させることを特徴とする。
 本開示の第2の態様に係るプログラムは、コンピュータを、データセットに含まれている複数のサンプルの各々に対して、各々が複数のクラスを有する複数のラベルを用いてラベリングを行なった結果を示すラベル情報を参照して、前記複数のラベルの各々によって生じる、前記複数のサンプルのばらつき度合いを算出し、前記複数のラベルに含まれる少なくとも一つのラベルと、前記少なくとも一つのラベルに対応する前記ばらつき度合いとを表示するばらつき結果画面画像を生成するばらつき算出部、及び、前記ばらつき結果画面画像を表示する表示部、として機能させることを特徴とする。
 本開示の第3の態様に係るプログラムは、コンピュータを、データセットに含まれている複数のサンプルの各々に対して、各々が複数のクラスを有する複数のラベルを用いてラベリングを行なった結果を示すラベル情報を参照して、前記複数のクラスの各々によって生じる、前記複数のサンプルのばらつき度合いを算出し、前記複数のクラスと、前記複数のクラスの各々に対応する前記ばらつき度合いとを表示するばらつき結果画面画像を生成するばらつき算出部、及び、前記ばらつき結果画面画像を表示する表示部、として機能させることを特徴とする。
 本開示の第1の態様に係る情報処理方法は、複数のサンプルを有するデータセットから、前記複数のサンプルが並ぶ順序に従って横に並べられた複数の列と、前記順序に従って縦に並べられた複数の行とを備え、前記複数の列の内の一つの列と、前記複数の行の内の一つの行とで特定される一つの欄に、前記一つの列に対応するサンプルと、前記一つの行に対応するサンプルとの間の類似度を格納した類似度行列を生成し、前記複数のサンプルの各々に対して、各々が複数のクラスを有する複数のラベルを用いてラベリングを行なった結果を示すラベル情報を参照して、前記複数のラベルから指定されたラベルである対象ラベルにおける前記複数のクラス毎に前記複数のサンプルが並ぶように、前記類似度行列における前記順序を調整することで、調整類似度行列を生成し、前記調整類似度行列の各々の欄を、前記類似度に応じた明度で示す評価画面画像を生成し、前記評価画面画像を表示することを特徴とする。
 本開示の第2の態様に係る情報処理方法は、データセットに含まれている複数のサンプルの各々に対して、各々が複数のクラスを有する複数のラベルを用いてラベリングを行なった結果を示すラベル情報を参照して、前記複数のラベルの各々によって生じる、前記複数のサンプルのばらつき度合いを算出し、前記複数のラベルに含まれる少なくとも一つのラベルと、前記少なくとも一つのラベルに対応する前記ばらつき度合いとを表示するばらつき結果画面画像を生成し、前記ばらつき結果画面画像を表示することを特徴とする。
 本開示の第3の態様に係る情報処理方法は、データセットに含まれている複数のサンプルの各々に対して、各々が複数のクラスを有する複数のラベルを用いてラベリングを行なった結果を示すラベル情報を参照して、前記複数のクラスの各々によって生じる、前記複数のサンプルのばらつき度合いを算出し、前記複数のクラスと、前記複数のクラスの各々に対応する前記ばらつき度合いとを表示するばらつき結果画面画像を生成し、前記ばらつき結果画面画像を表示することを特徴とする。
 本開示の一又は複数の態様によれば、本来の目的とは無関係の要因によって生じるデータのばらつきを確認することができる。
実施の形態1に係るデータ可視化装置の構成を概略的に示すブロック図である。 (A)及び(B)は、二つのサンプルの分布間の距離を示すグラフである。 距離行列の一例を示す概略図である。 調整距離行列の第1の例を示す概略図である。 (A)及び(B)は、調整距離行列の第2及び第3の例を示す概略図である。 (A)及び(B)は、調整距離行列の第4及び第5の例を示す概略図である。 調整距離行列の第6の例を示す概略図である。 調整距離行列を可視化した評価画面画像の第1の例を示す概略図である。 調整距離行列を可視化した評価画面画像の第2の例を示す概略図である。 調整距離行列を可視化した評価画面画像の第3の例を示す概略図である。 調整距離行列を可視化した評価画面画像の第4の例を示す概略図である。 調整距離行列を可視化した評価画面画像の第5の例を示す概略図である。 データ可視化装置のハードウェア構成例を示すブロック図である。 実施の形態1に係るデータ可視化装置での処理を示すフローチャートである。 実施の形態2に係るデータ可視化装置の構成を概略的に示すブロック図である。 部分行列の一例を示す概略図である。 算出方法を説明するための概略図である。 実施の形態2に係るデータ可視化装置での第1の処理を示すフローチャートである。 実施の形態2に係るデータ可視化装置での第2の処理を示すフローチャートである。 実施の形態3に係るデータ可視化装置の構成を概略的に示すブロック図である。 実施の形態3に係るデータ可視化装置での処理を示すフローチャートである。
実施の形態1.
 図1は、実施の形態1に係る情報処理装置であるデータ可視化装置100の構成を概略的に示すブロック図である。
 データ可視化装置100は、入力部101と、記憶部102と、データ取得部103と、距離行列算出部104と、順序調整部105と、可視化部106と、表示部107とを備える。
 入力部101は、ユーザからの指示の入力を受ける。例えば、入力部101は、複数のラベルから、一つのラベルを対象ラベルとして指定する入力を受ける。
 記憶部102は、データ可視化装置100での処理に必要なプログラム及びデータを記憶する。例えば、記憶部102は、可視化対象のデータセット及びそのラベル情報を記憶する。
 データセットは、例えば、計測によって得られる時系列データの集合である。データセットは複数のサンプルの集合として構成される。
 データセットを構成するサンプルは、距離行列算出部104で距離行列を算出する一単位である。サンプルは、例えば、振動センサ又はマイクによって得られる時系列データである。
 ここでは、サンプルは、各々の時刻において計測等された一つの値を示す1次元のデータであるが、一次元のデータには限らない。サンプルは、各々の時刻において複数の値を示す多次元のデータであってもよい。
 ラベル情報は、データセットに含まれる各サンプルに紐付けられている属性を示す。ラベル情報は、複数のサンプルの各々に対して、複数のラベルを用いてラベリングを行なった結果を示す情報である。複数のラベルの各々は、複数のクラスを有する。
 ここでは、一例として、機器の異常診断を目的に収集された計測データであるサンプルに紐付けられるラベル情報について説明する。そして、データを計測する目的は、計測データから異常か正常を見分けることとする。
 この場合、各サンプルには、検査結果を示すラベルを含むラベル情報が付与されている。このとき、検査結果を示すラベルである検査結果ラベルは、「正常クラス」及び「異常クラス」の二つのクラスで構成されていてもよいし、異常の種類に応じて、「正常クラス」、「第1の異常クラス」及び「第2の異常クラス」というように三つ以上のクラスで構成されていてもよい。ここでのクラスは、同じラベルに含まれるある状態のことを示す。例えば、クラスが異なると、同じラベルに含まれている別の状態を示すこととなる。
 また、計測データには、計測データの目的に対応するラベル(ここでは、正常又は異常)とは無関係であると期待されるようなラベルが存在する場合がある。例として、「計測者」、「計測した場所」又は「計測した日時」等が挙げられる。
 データ取得部103は、記憶部102から、データセットDS及びそのラベル情報LIを取得する。取得されたデータセットDS及びそのラベル情報LIは、距離行列算出部104に与えられる。
 距離行列算出部104は、データセットDSから、複数のサンプルが並ぶ順序に従って横に並べられた複数の列と、その順序に従って縦に並べられた複数の行とを備え、その複数の列の内の一つの列と、その複数の行の内の一つの行とで特定される一つの欄に、その一つの列に対応するサンプルと、その一つの行に対応するサンプルとの間の類似度を格納した類似度行列である距離行列を生成する類似度行列生成部である。なお、距離行列に含まれる類似度を、距離行列を構成する要素ともいう。
 例えば、距離行列算出部104は、データセットDSに含まれる全てのサンプルの組み合わせでサンプル間距離を算出し、算出されたサンプル間距離により、行数及び列数の各々をサンプル数とする行列である距離行列を生成する。
 サンプル間距離は、二つのサンプルの類似度を表す指標である。サンプル間距離は、二つのサンプルが類似しているほど小さな値となり、完全に一致している場合は0となる。このため、距離行列は、類似度行列ともいう。
 以下では、異常診断を目的に収集された振動データを例に説明する。
 ある条件下で一定時間に計測された計測データを1サンプルとして扱う。今回の例では、1サンプルは、各々の時刻において1次元の値を示す時系列データである。このとき、各サンプルには、機器の検査結果である正常又は異常を示す「検査結果ラベル」及び計測をいつ行ったかを示す「計測日ラベル」がラベル情報として付与されているものとする。
 そして、ここでは、計測日ラベルである6月12日に、正常サンプル及び異常サンプルを二つずつ、計測日ラベルである6月13日に、正常サンプル及び異常サンプルを二つずつ計測されたものとする。
 以上の場合に、距離行列算出部104が、実際にサンプル間距離を算出し、距離行列を作成する処理の例を示す。ここでの例では、二つのサンプルの確率分布間の類似度を、その二つのサンプル間の類似度とする。
 具体的には、距離行列算出部104は、各サンプルが形成する分布を算出する。この時点で一つのサンプルにつき一つの分布が算出される。仮定する分布としては、正規分布等が考えられる。
 次に、距離行列算出部104は、サンプル間の類似度の指標として、二つのサンプルが形成する分布間の距離を算出する。分布間の距離を算出する方法として、バタチャリヤ距離、KL(Kullback-Leibler)ダイバージェンス、又は、JS(Jensen-Shannon)ダンバージェンス等が挙げられる。
 図2(A)及び(B)は、二つのサンプルの分布間の距離を示すグラフである。
 図2(A)は、二つのサンプルの分布間の距離が大きい場合であり、図2(B)は、二つのサンプルの分布間の距離が小さい場合である。
 次に、距離行列算出部104は、全てのサンプルの組み合わせで算出された分布間の距離により距離行列を生成する。距離行列の横の列と縦の行とは、それぞれ、八つのサンプルの順序に従って配置されているものとする。
 図3は、距離行列の一例を示す概略図である。
 ここでは、上記のように、二日にわたり八つのサンプルが存在する。ここでは、各サンプルに、各サンプルを特定するためのサンプル識別情報であるサンプル番号が振られているものとする。このとき、距離行列のN行M列の要素はN番目のサンプルとM番目のサンプルとの距離を表す。ここでは、N及びMは、1以上、8以下の整数である。
 図3に示されている距離行列の対角線上の値は、同じサンプルでの距離であるため、全て0となる。
 サンプル間距離の算出に、バタチャリヤ距離のような対称性のある手法が使用された場合、サンプルを入れ替えても距離の値は変わらないため、距離行列は対称行列となる。
 順序調整部105は、ラベル情報LIを参照して、複数のラベルから指定されたラベルである対象ラベルにおける複数のクラス毎に複数のサンプルが並ぶように、類似度行列における複数のサンプルが並ぶ順序を調整することで、調整類似度行列を生成する。
 具体的には、順序調整部105は、距離行列算出部104によって生成された距離行列を構成するサンプルの順序を、指定されたラベルに応じて調整する。具体的には、上記のように、ラベル情報として、「検査結果ラベル」及び「計測日ラベル」が含まれている場合、順序調整部105は、「検査結果ラベル」及び「計測日ラベル」のそれぞれによって、距離行列のサンプルの順序を調整する。
 例えば、検査結果ラベルによって距離行列を並び替える場合、検査結果ラベルは、「正常クラス」及び「異常クラス」の二つのクラスを含んでいるため、順序調整部105は、最初に正常クラスに属するサンプル(正常サンプル)、その後ろに異常クラスに属するサンプル(異常サンプル)となるように、クラス毎に並ぶようにサンプルの順序を調整する。例えば、図3に示されているように、八つのサンプルのうち、サンプル番号が奇数のサンプルが正常クラス、偶数のサンプルが異常クラスの場合には、順序調整部105によって、図3に示されている距離行列は、図4に示されている調整距離行列のように、サンプルの順序が調整される。なお、調整距離行列を調整類似度行列ともいう。
 また、計測日ラベルによって距離行列を並び替える場合、計測日ラベルは、「6月12日クラス」及び「6月13日クラス」の二つのクラスを含んでいるため、順序調整部105は、最初に6月12日クラスに属するサンプル、その後ろに6月13日クラスに属するサンプルとなるように、サンプルの順序を変更する。例えば、図3に示されているように、八つのサンプルのうち、サンプル番号が1~4番のサンプルが6月12日クラス、5~8番目のサンプルが6月13日クラスの場合には、順序調整部105は、図3に示されている距離行列をそのまま、調整距離行列とする。
 可視化部106は、調整距離行列を可視化した評価画面画像を生成し、表示部107にその評価画面画像を表示させることで、ユーザに提示する。
 例えば、可視化部106は、順序調整部105によって順序が調整された調整距離行列に含まれている要素の値に応じて、その要素に対応する欄の色の明度を決定することで、評価画面画像を生成する。このように、調整距離行列の要素に対応する欄の明暗を、その欄の値に応じて変更することで、順序変更に使用したラベルに起因するデータセットの品質問題を視覚的に表現することができる。
 具体的には、可視化部106は、調整距離行列の欄の値を、予め定められた閾値と比較し、予め定められた閾値未満である場合に、その欄の色を、予め定められた閾値以上の値の欄の色よりも暗くする。
 以下、評価画面画像によって得られる効果について説明する前に、「良いデータセット」について説明する。
 ここでのデータセットは、異常診断のためのデータセットであるものとする。このため、異常のサンプルと、正常のサンプルとは、出来るだけ異なる性質を持っていることが好ましい。一方で、異常及び正常の診断とは無関係であると期待されるラベルである計測日ラベルについては、クラスが異なる場合でもサンプルの特性が変化しないことが期待される。上記を踏まえて、この例における「良いデータセット」とは、以下の二つの条件を満たすデータセットであるといえる。
 第1の条件は、検査結果ラベルにおいてクラスが異なるサンプル間の距離が大きいことである。言い換えると、検査結果ラベルにおいてクラスが異なるサンプル間の類似度が低いことである。
 第2の条件は、計測日ラベルにおいて異なるサンプル間の距離がまとまっていないことである。言い換えると、計測日ラベルにおいてクラスが同じでも、異なっていてもサンプル間の類似度が低かったり、高かったりすることである。
 距離行列を、指定された一つのラベルに含まれているクラス毎に順序を調整した調整距離行列を可視化することで、データセットが上記の二つの条件を満たしているかどうかを視覚的に確認することができる。
 例えば、図5(A)に示されているように、検査結果ラベルにおいて、正常クラス及び異常クラスに分けて、サンプルの順序を調整することで、正常クラスに含まれているサンプル同士及び異常クラスに含まれているサンプル同士の距離が予め定められた閾値未満であり、対応する欄の色が暗くなり、正常クラスに含まれているサンプルと、異常クラスに含まれているサンプルとの距離が予め定められた閾値以上であり、対応する欄の色が明るくなっている場合には、上記の第1の条件が満たされていることを確認することができる。
 一方、図5(B)に示されているように、計測日ラベルにおいて、6月12日クラス及び6月13日クラスに分けて、サンプルの順序を調整することで、同じクラスのサンプル間と、異なるクラスのサンプル間とで、明るい欄と、暗い欄とがまとまっていない場合には、上記の第2の条件が満たされていることを確認することができる。
 これに対して、例えば、図6(A)に示されているように、検査結果ラベルにおいて、正常クラス及び異常クラスに分けて、サンプルの順序を調整することで、同じクラスのサンプル間と、異なるクラスのサンプル間とで、明るい欄と、暗い欄とがまとまっていない場合には、上記の第1の条件が満たされていないこととなる。
 そして、図6(B)に示されているように、計測日ラベルにおいて、6月12日クラス及び6月13日クラスに分けて、サンプルの順序を調整することで、6月12日クラスに含まれているサンプル同士及び6月13日クラスに含まれているサンプル同士の距離が予め定められた閾値未満であり、対応する欄の色が暗くなり、6月12日クラスに含まれているサンプルと、6月13日クラスに含まれているサンプルとの距離が予め定められた閾値以上であり、対応する欄の色が明るくなっている場合には、上記の第2の条件が満たされていないこととなる。
 このような場合、計測日におけるデータのばらつきが、検査結果の悪化の原因であると特定することができる。
 なお、以上では、一つのラベルに含まれるクラス毎にサンプルの順序を調整する例を示したが、このような例に限定されない。
 例えば、図6(A)に示されているように、検査結果ラベルにおいて、正常クラス及び異常クラスに分けて、サンプルの順序を調整した後に、その正常クラス及び異常クラスの各々に含まれているサンプルを、さらに、計測日ラベルに含まれている6月12日クラス及び6月13日クラスに分けて、サンプルの順序を調整してもよい。
 このような場合、例えば、図7に示されているように、正常クラス及び異常クラスの中において、さらに、サンプルが6月12日クラス及び6月13日クラスの各々に分類されることとなる。
 このとき、図7に示されているように、正常クラス又は異常クラスの各々において、計測日の違い(計測日ラベルの違い)によって行列要素の明暗がまとまってしまうと、計測日におけるデータのばらつきが、検査結果の悪化の原因であることを特定することができる。
 可視化された評価画面画像の解釈方法について述べる。
 ここでは、九つのサンプル数のデータセットについて、三つのクラス数のラベルによって順序を調整した調整距離行列を評価画面画像として可視化した場合の四つの例を、図8~図12に提示する。
 なお、図8~図12では、三つのクラスには、それぞれ1~3の番号が振られていて、距離行列に含まれるサンプルを、昇順に並べることで調整距離行列が生成されたものとする。
 図8に示されている調整距離行列120のように、対角線上の区画だけ明度が低く、他の区画の明度が高い場合、同じクラス同士のサンプルは似ているが、別のクラスのサンプルとは類似していないため、対応するラベルによるデータのばらつきが発生しているということである。なお、例えば、二つのクラスの場合には、図6(B)のようになる。
 図9に示されている調整距離行列121のように、クラスの違いによって明度の変化が起きず、全ての欄が暗い色である場合、全てのデータが類似していることを表しているため、ラベルによるデータのばらつきは発生していない。
 図10に示されている調整距離行列122のように、対角線上の同じサンプル同士の欄以外の全ての欄の色が明るい色である場合は、クラスの違いに関係なく全データがばらついていることが分かる。この場合はラベルによるデータのばらつきは無いが、データセットとしてまとまりが全くないことを表しているため、データの品質に問題がある可能性が高い。
 図11に示されている調整距離行列123のように、対角線上の区画(図8を参照)に加えて、1番のクラスに含まれるサンプルと、3番のクラスに含まれるサンプルとの間の値を示す欄の明度が低くなっている場合は、2番のクラスのデータだけが他のクラスのデータと異なる性質を持っていることが分かる。
 例えば、クラスがデータの計測者を表す場合、2番のクラスに対応する計測者(ここでは、2番の計測者とする)のデータだけが他の計測者(1番の計測者及び3番の計測者)のデータと異なっていることを視認することができる。これにより、2番の計測者の計測方法に問題があった可能性がある、といったようにデータ品質の劣化要因を考察することができる。
 図12に示されている調整距離行列124のように、1番のクラスに属するサンプルと、3番のクラスに属するサンプルとが類似し、2番のクラスに属するサンプルと、1番のクラス及び3番のクラスに属するサンプルとが類似しない場合であって、2番のクラスに属する異なるサンプル同士も類似しない場合にも、2番のクラスのデータのみが1番のクラス及び3番のクラスのデータと異なるとともに、2番のデータ同士にもばらつきがあることが分かる。
 なお、可視化を行う際には、図5~図7に示されているように、並び替えに使用したラベルのクラスの順序が分かるように、調整距離行列の左及び上にクラスを示す情報を表示してもよい。
 図13は、データ可視化装置100のハードウェア構成例を示すブロック図である。
 データ可視化装置100は、入力装置131と、表示装置132と、記憶装置133と、メモリ134と、プロセッサ135とを備えるコンピュータ130により構成することができる。
 入力装置131は、マウス、タッチパネル、キーボード、HMD(Head Mounted Display)のジェスチャー操作入力装置、又は、視線操作入力装置等のように、ユーザが指示を入力する装置である。
 表示装置132は、可視化の際にユーザに提示するディスプレイ等のアプリケーションを表示する装置である。表示装置132は、例えば、HMDのシースルー型のディスプレイ等も含む。
 記憶装置133は、記憶を行なう装置であり、HDD(Hard Disk Drive)又はSSD(Solid State Drive)等を含む。
 メモリ134は、一時的な記憶を行なう装置であり、RAM(Random Access Memory)を含む。
 プロセッサ135は、CPU(Central Processing Unit)等の処理回路である。
 例えば、入力部101は、プロセッサ135が入力装置131を利用することで実現することができる。
 表示部107は、プロセッサ135が、表示装置132を利用することで実現することができる。
 記憶部102は、プロセッサ135が、メモリ134を利用することで実現することができる。
 データ取得部103、距離行列算出部104、順序調整部105及び可視化部106は、プロセッサ135が、記憶装置133に記憶されているプログラムをメモリ134に読み出して、そのプログラムを実行することで実現することができる。
 このようなプログラムは、ネットワークを通じて提供されてもよく、また、記録媒体に記録されて提供されてもよい。即ち、このようなプログラムは、例えば、プログラムプロダクトとして提供されてもよい。
 図14は、実施の形態1に係るデータ可視化装置100での処理を示すフローチャートである。
 まず、データ取得部103は、記憶部102から、データセットDS及びそのラベル情報LIを取得する(S10)。取得されたデータセットDS及びそのラベル情報LIは、距離行列算出部104に与えられる。
 距離行列算出部104は、データセットDSを構成する各サンプルの類似度から構成される距離行列を生成する(S11)。例えば、距離行列算出部104は、データセットDSに含まれる全てのサンプルの組み合わせでサンプル間距離を算出し、算出されたサンプル間距離を、行数及び列数の各々をサンプル数とする行列である距離行列を生成する。
 次に、入力部101は、距離行列におけるサンプルの順序を調整するため、ユーザからラベルの指定を受け付ける(S12)。指定されたラベルを示すユーザ情報UIは、順序調整部105に与えられる。ここで指定されたラベルを対象ラベルともいう。
 順序調整部105は、指定されたラベルのクラス毎にサンプルが並ぶように、距離行列算出部104で生成された距離行列を調整することで、調整距離行列を生成する(S13)。
 可視化部106は、調整距離行列を可視化した評価画面画像を生成し、表示部107にその評価画面画像を表示させる(S14)。例えば、可視化部106は、順序調整部105によって順序が変更された調整距離行列に含まれている値に応じて、その値が含まれている欄の色の明度を決定することで、評価画面画像を生成する。
 そして、順序調整部105は、可視化処理を継続するか否かを判断する(S15)。例えば、順序調整部105は、入力部101からラベルを示すユーザ情報UIが送られてきた場合に、可視化処理を継続すると判断する。順序調整部105は、入力部101から処理を終了する指示を示すユーザ情報UIが送られてきた場合に、可視化処理を継続しないと判断する。可視化処理を継続する場合(S14でYes)には、処理はステップS12に戻り、可視化処理を継続しない場合(S14でNo)には、処理は終了される。
 以上のように、実施の形態1によれば、任意のラベルで距離行列におけるサンプルの順序を調整して、可視化することで、指定されたラベルによって生じるデータセットのばらつきを直感的に表すことができる。これにより、調整に使用されたラベルに起因するデータセットの品質問題を明らかにすることができる。
実施の形態2.
 実施の形態1では、指定されたラベルによって距離行列のサンプルの順序を調整した結果を可視化することで、ユーザがラベルによるデータのばらつきを解釈していた。
 実施の形態2では、予めデータのばらつき度合いを算出し、順序を調整するラベルの指定を支援する。または、算出されたばらつき度合いにより、順序を調整するラベルを自動的に指定する。
 図15は、実施の形態2に係るデータ可視化装置200の構成を概略的に示すブロック図である。
 データ可視化装置200は、入力部101と、記憶部102と、データ取得部103と、距離行列算出部104と、順序調整部105と、可視化部106と、表示部107と、ばらつき算出部208と、順序調整支援部209とを備える。
 実施の形態2におけるデータ可視化装置200の入力部101、記憶部102、データ取得部103、距離行列算出部104、順序調整部105、可視化部106及び表示部107は、実施の形態1におけるデータ可視化装置100の入力部101、記憶部102、データ取得部103、距離行列算出部104、順序調整部105、可視化部106及び表示部107と同様である。
 但し、データ取得部103は、取得されたデータセットDS及びラベル情報LIをばらつき算出部208にも与え、距離行列算出部104は、生成した距離行列をばらつき算出部208にも与える。
 ばらつき算出部208は、各々のラベルによって生じる、データとしての複数のサンプルのばらつき度合いを算出する。
 実施の形態1では、可視化された調整距離行列をユーザが解釈することで品質問題を明らかにしていた。例えば、図8に示されている調整距離行列120のように、対角線上の同じクラス同士が交わる区画の明度が低く、それ以外の区画の明度が高い場合は、ラベルによるばらつきがあると判断することができる。
 このような距離行列の特徴をユーザに解釈させるのではなく数値として定量化するのがばらつき算出部208の役割である。ばらつき算出部208によって「特定のラベルによって生じるデータのばらつき度合い」を定量化することが可能となる。以下、ばらつき算出部208の具体的な処理を説明する。
 ここでは、サンプル数がN個(Nは、2以上の整数)のデータセットについて、あるラベルによって生じるデータのばらつきを算出する例を説明する。
 算出対象のラベルに含まれるクラス数をC個(Cは、2以上の整数)として、それぞれのクラスを1,2,・・・,Cと表すこととする。
 また、このデータセットから算出される距離行列のサンプルを、1,2,・・・,Cの順序となるように調整した調整距離行列をMとする。なお、この例では、距離行列がサンプル間のバタチャリヤ距離により構成されているものとする。
 Mの要素の数は、N×N個である。ここでは、クラス数がC個のラベルで距離行列のサンプルを調整しているため、調整距離行列M内に、C×C個の領域である部分行列が存在する。これらの部分行列を、図16に示されているように、D11、D12、・・・、DCCと表すこととする。
 Dijは、クラスi(iは、1≦i≦Cを満たす整数)に属するサンプルと、クラスj(jは、1≦j≦Cを満たす整数)に属するサンプルとによって構成される部分行列となる。
 クラスiに属するサンプルの数をNとし、クラスjに属するサンプルの数をNとすると、Dijは、N×Nの行列となる。Dijの各要素は、dkl (ij)と表記する。
 ここで、部分行列の要素の平均値μijを算出し、各部分行列Dijに対応する各区画の代表値とする。
 調整距離行列Mの対称性により、μijを算出する際には、図17において塗りつぶされた区画が使用される。i=jのときには、Dij自体が対称行列となるため対角線より右上の要素のみを使用して平均値が算出される。また、μij=μjiとなるため、i>jとなる区画については計算を行なう必要がない。
 下記の(1)式は、μijの算出式である。
Figure JPOXMLDOC01-appb-M000001
 なお、ここでは、平均値μijを部分行列Dijの代表値として用いたが、実施の形態2はこのような例に限定されない。例えば、部分行列Dijに含まれている要素の中央値が部分行列Dijの代表値として用いられてもよい。
 平均値μijの定性的な意味としては、i≠jの場合は、クラスiに属しているデータと、クラスjに属しているデータとの類似度を表していると考えることができる。例えば、μ12が小さな値を示していた場合、クラス1のデータと、クラス2のデータとが類似しており、クラスの違いによるデータのばらつきは発生していないと見なせる。また、i=jの場合は、平均値μijは、同じクラスに属しているデータ同士のばらつき度合いを表している。
 ラベルによってデータのばらつきが発生している状態では、図6(B)又は図8のように、距離行列の対角線上に位置するDiiに含まれる調整距離行列の要素の値が低く、それ以外の要素の値は高くなる。よって、あるラベルによって生じるデータのばらつき度合いVは、例えば、下記の(2)式のように定式化可能である。
Figure JPOXMLDOC01-appb-M000002
 (2)式の左項は、i≠jのときのμijを全ての組み合わせで算出し、その平均を算出するものである。これは、クラスが異なる場合にデータがどれだけばらつくかどうかを表す。
 (2)式の右項は、i=Jのときのμijを全ての組み合わせで算出し、その平均を算出するものである。これは、同じクラス内のデータがどれだけばらついているかどうかを表す。
 図6(B)又は図8のように、ラベルによるデータのばらつきが発生しているとき、Vの値が大きくなる。Vは、データセットの識別対象のラベル(ここでは、検査結果ラベル)では高い値となり、そのラベルと無関係であると期待されるラベル(ここでは、計測日ラベル)では低い値となることが望ましい。
 以上のように、ばらつき算出部208は、複数のクラスにおいて、異なるクラスに分類されるサンプル間の類似度の代表値から、同じクラスに分類されるサンプル間の類似度の代表値を減算することにより算出されるばらつき度合いVを予め与えられた全てのラベルで算出する。例えば、データセットに5つのラベルが付与されている場合、この処理によって各ラベルに対応した5つのVが得られる。
 順序調整支援部209は、ばらつき算出部208によって得られた結果であるばらつき結果画面画像を表示部107に表示させることで、その結果をユーザに提示して、調整に使用するラベルを指定する際の支援を行う。ばらつき結果画面画像は、例えば、ばらつき度合いVの大きい順にラベルを表示する画面画像である。ユーザは、このような画面を参照して、対象ラベルの指定を行えばよい。
 順序調整支援部209は、ばらつき結果画面画像を表示するのではなく、ばらつき算出部208によって得られた結果を順序調整部105に通知して、自動的に距離行列に含まれているサンプルの順序を調整することで、調整距離行列を生成させてもよい。例えば、順序調整支援部209は、ばらつき度合いの最も高いラベルを対象ラベルとして指定して、その対象ラベルに従って、順序調整部105に調整距離行列を生成させてもよい。また、順序調整支援部209は、ばらつき度合いの高いものから順に複数のラベルを対象ラベルとして指定してもよい。さらに、順序調整支援部209は、ばらつき度合いの最も高いラベルと、ばらつき度合いの最も低いラベルとを、対象ラベルとして指定してもよい。
 実施の形態2に係るデータ可視化装置200も、図13に示されているコンピュータ130により構成することができる。
 例えば、ばらつき算出部208及び順序調整支援部209は、プロセッサ135が、記憶装置133に記憶されているプログラムをメモリ134に読み出して、そのプログラムを実行することで実現することができる。
 図18は、実施の形態2に係るデータ可視化装置200での第1の処理を示すフローチャートである。
 第1の処理は、順序調整支援部209が、ばらつき算出部208によって得られた結果であるばらつき結果画面画像を表示部107に表示させる場合の処理である。
 まず、データ取得部103は、記憶部102から、データセットDS及びそのラベル情報LIを取得する(S20)。取得されたデータセットDS及びそのラベル情報LIは、距離行列算出部104及びばらつき算出部208に与えられる。
 距離行列算出部104は、データセットDSを構成する各サンプルの類似度から構成される距離行列を算出する(S21)。生成された距離行列は、順序調整部105及びばらつき算出部208に与えられる。
 次に、ばらつき算出部208は、ラベル情報LIで示されるラベルの数だけステップS23及びS24の処理を繰り返す(S22及びS25)。
 ステップS23では、ばらつき算出部208は、ラベル情報LIで示されるラベルから、ばらつき度合いVを未だ算出していないラベルを特定し、特定されたラベルに応じて、距離行列に含まれているサンプルの順序を調整する。
 ステップS24では、ばらつき算出部208は、調整された距離行列である調整距離行列を基づいて、特定されたラベルによるデータのばらつき度合いVを算出する。
 次に、順序調整支援部209は、ばらつき算出部208によって算出されたばらつき度合いVを示すばらつき結果画面画像を表示部107に表示させる(S26)。
 次に、入力部101は、距離行列に含まれるサンプルの順序を調整するため、ユーザからラベルの指定を受け付ける(S27)。指定されたラベルを示すユーザ情報UIは、順序調整部105に与えられる。ユーザは、表示部107に表示されるばらつき結果画面画像を参考にして、ラベルを指定すればよい。
 順序調整部105は、指定されたラベルのクラス毎にサンプルが並ぶように、距離行列算出部104で生成された距離行列を調整することで、調整距離行列を生成する(S28)。
 可視化部106は、調整距離行列を可視化した評価画面画像を生成し、表示部107にその評価画面画像を表示させる(S29)。
 そして、順序調整部105は、可視化処理を継続するか否かを判断する(S30)。例えば、順序調整部105は、入力部101からラベルを示すユーザ情報UIが送られてきた場合に、可視化処理を継続すると判断する。順序調整部105は、入力部101から処理を終了する指示を示すユーザ情報UIが送られてきた場合に、可視化処理を継続しないと判断する。可視化処理を継続する場合(S30でYes)には、処理はステップS27に戻り、可視化処理を継続しない場合(S30でNo)には、処理は終了される。
 図19は、実施の形態2に係るデータ可視化装置200での第2の処理を示すフローチャートである。
 第2の処理は、順序調整支援部209が、ばらつき算出部208によって得られた結果であるばらつき結果により、ラベルを指定する場合の処理である。
 まず、データ取得部103は、記憶部102から、データセットDS及びそのラベル情報LIを取得する(S40)。取得されたデータセットDS及びそのラベル情報LIは、距離行列算出部104及びばらつき算出部208に与えられる。
 距離行列算出部104は、データセットDSを構成する各サンプルの類似度から構成される距離行列を算出する(S41)。生成された距離行列は、順序調整部105及びばらつき算出部208に与えられる。
 次に、ばらつき算出部208は、ラベル情報LIで示されるラベルの数だけステップS43及びS44の処理を繰り返す(S42及びS45)。
 ステップS43では、ばらつき算出部208は、ラベル情報LIで示されるラベルから、ばらつき度合いVを未だ算出していないラベルを特定し、特定されたラベルに応じて、距離行列に含まれているサンプルの順序を調整する。
 ステップS44では、ばらつき算出部208は、調整された距離行列である調整距離行列を基づいて、特定されたラベルによるデータのばらつき度合いVを算出する。
 次に、順序調整支援部209は、ばらつき算出部208によって算出されたばらつき度合いVに応じて、ラベルを指定する(S46)。例えば、順序調整支援部209は、ばらつき度合いVが一番大きなラベルを指定すればよい。
 次に、順序調整部105は、指定されたラベルのクラス毎にサンプルが並ぶように、距離行列算出部104で生成された距離行列を調整することで、調整距離行列を生成する(S47)。
 可視化部106は、調整距離行列を可視化した評価画面画像を生成し、表示部107にその評価画面画像を表示させる(S48)。
 以上のように、実施の形態2によれば、ばらつき算出部208によって予め各ラベルによって生じるデータのばらつきを求めることで、距離行列に含まれるサンプルの調整を支援又は自動化することができる。
 なお、図19に示されているフローチャートのステップS46において、順序調整支援部209が複数のラベルを指定することで、ステップS47及びS48を介して、複数の評価画面画像が表示部107に表示されてもよい。この場合、順序調整支援部209は、ばらつき度合いVの高いラベルから順に複数のラベルを指定すればよい。
 また、実施の形態2において、ラベル指定の自動化と、ユーザによるラベル指定とが組み合わされてもよい。例えば、最初に図19に示されているように自動的に指定されたラベルによる評価画面画像が表示され、その後に、例えば、ユーザからの指示により、ばらつき結果画面画像が表示され、ユーザによってラベルが指定されてもよい。
実施の形態3.
 図20は、実施の形態3に係るデータ可視化装置300の構成を概略的に示すブロック図である。
 データ可視化装置300は、記憶部102と、データ取得部103と、距離行列算出部104と、表示部107と、ばらつき算出部308とを備える。
 実施の形態3に係るデータ可視化装置300の記憶部102、データ取得部103、距離行列算出部104及び表示部107は、実施の形態1に係るデータ可視化装置100の記憶部102、データ取得部103、距離行列算出部104及び表示部107と同様である。
 なお、実施の形態3に係るデータ可視化装置300は、実施の形態2に係るデータ可視化装置200と比較して、入力部101、順序調整部105、可視化部106及び順序調整支援部209が設けられていない。
 ばらつき算出部308は、実施の形態2におけるばらつき算出部208と同様に、ラベル情報LIで示される全てのラベルの各々によって生じるデータのばらつき度合いを算出する。
 そして、ばらつき算出部308は、算出されたばらつき度合いを示すばらつき結果画面画像を表示部107に表示させる。
 ばらつき結果画面画像は、例えば、ばらつき度合いVの大きい順に予め定められた数のラベルを表示する画面画像であってもよく、全てのラベルのばらつき度合いVを表示する画面画像であってもよい。言い換えると、ばらつき算出部308は、ラベル情報LIで示される全てのラベルに含まれる少なくとも一つのラベルと、その少なくとも一つのラベルに対応するばらつき度合いとをばらつき結果画面画像に表示させればよい。
 図21は、実施の形態3に係るデータ可視化装置300での処理を示すフローチャートである。
 まず、データ取得部103は、記憶部102から、データセットDS及びそのラベル情報LIを取得する(S50)。取得されたデータセットDS及びそのラベル情報LIは、距離行列算出部104及びばらつき算出部308に与えられる。
 距離行列算出部104は、データセットDSを構成する各サンプルの類似度から構成される距離行列を算出する(S51)。生成された距離行列は、順序調整部105及びばらつき算出部308に与えられる。
 次に、ばらつき算出部308は、ラベル情報LIで示されるラベルの数だけステップS53及びS54の処理を繰り返す(S52及びS55)。
 ステップS53では、ばらつき算出部308は、ラベル情報LIで示されるラベルから、ばらつき度合いVを未だ算出していないラベルを特定し、特定されたラベルに応じて、距離行列に含まれているサンプルの順序を調整する。
 ステップS54では、ばらつき算出部308は、調整された距離行列である調整距離行列に基づいて、特定されたラベルによるデータのばらつき度合いVを算出する。
 次に、ばらつき算出部308は、算出されたばらつき度合いVを示すばらつき結果画面画像を表示部107に表示させる(S56)。
 実施の形態3によれば、各ラベルによるばらつき度合いVをユーザに提示することで、データセットの品質問題に起因するラベルを明らかにすることができる。
 以上に記載された実施の形態1~3に係るデータ可視化装置100~300で扱うデータセットの例として、レーザ加工機による切断加工時の加工不良を自動検出することを目的として収集された加工音データが挙げられる。このデータは、加工機の加工ヘッドに音響センサであるマイクを取り付けることで収集が可能である。加工不良を検出することが目的なので、各データには不良の有無を示した「検査結果ラベル」が付与されている。最終的には機械学習により加工音データの特徴から加工不良の有無を検出することが期待される。
 データ可視化装置100~300は、データの学習を行う前段階として、データの品質を可視化及び定量化するために使用される。データ可視化装置100~300によって品質劣化と劣化要因とを確認できた場合は、その結果に応じて、「学習に使用するデータを間引きする(言い換えると、品質劣化を招いているデータを使わない)」又は「データ収集方法を改善する」等の対策を取ることで、データ品質の向上を図ることができる。
 また、データ収集時に、「計測時刻」、「計測者」、「機体の番号」又は「計測した場所」等の検査結果とは無関係であると期待されるラベルの情報も記録し、実施の形態1~3で記した処理により各ラベルによるデータのばらつき度合いを可視化及び定量化する。
 実施の形態1~3では、時刻毎に1次元の値を示す時系列データを扱っているが、1サンプルは必ずしも時刻毎に1次元の値を示すデータである必要はない。時刻毎に多次元の値を示す時系列データ、1次元信号に対して特徴抽出処理を施し多次元データに変換したものが使用されてもよい。また、時系列データである必要もない。
 実施の形態2及び3に記載されているばらつき算出部208、308は、「ラベル」毎に、ばらつき度合いを算出しているが、ばらつき算出部208、308は、あるラベルに注目したときに、そのラベルに含まれる「各クラスによって生じるばらつき度合い」を算出してもよい。
 クラスc(cは、1≦c≦Cを満たす整数)によって生じるデータのばらつき度合いをV(c)とすると、例えば、V(c)は、下記の(3)式のように定式化可能である。
Figure JPOXMLDOC01-appb-M000003
 (3)式のように、V(c)は、クラス間のばらつきVout(c)と、クラス内のばらつきVin(c)との差によって算出される。
 Vout(c)は、クラスcのサンプルが他クラスのサンプルとどれだけ乖離しているかを表し、Vin(c)は、クラスc同士のサンプルがどれだけばらついているかを表す。
 例えば、図11に示されている調整距離行列123に対して、全てのクラス1~3で、で、V(c)を求めた場合、V(1)及びV(3)に比べ、V(2)の値が大きくなる。これにより、クラス2のサンプルだけが他のクラスのサンプルと異なる性質を持っていることを定量的に示すことが可能となる。
 V(c)の値は、データセットの識別対象のラベル(ここでは、検査結果ラベル)に含まれるクラスでは高い値が、そのラベルと無関係であると期待されるラベル(ここでは、計測日ラベル)に含まれるクラスでは低い値が出るのが望ましい。
 本来の識別対象とは無関係であると期待されるラベル(例えば、計測者、計測日又は機体番号等)に含まれるクラスのみを算出対象とする場合は、V(c)を下記の(4)式で算出してもよい。
Figure JPOXMLDOC01-appb-M000004
 即ち、ばらつき算出部208、308は、複数のクラスの内、ばらつき度合いV(c)を算出する一つのクラスを対象クラスとした場合に、対象クラスに分類されるサンプルと、対象クラスを以外のクラスに分類されるサンプルとの類似度の代表値から、対象クラスに分類されるサンプル間の類似度の代表値を減算することによりばらつき度合いV(c)を算出してもよい。
 また、ばらつき算出部208、308は、対象クラスに分類されるサンプルと、対象クラス以外のクラスに分類されるサンプルとの類似度の代表値に、対象クラスに分類されるサンプル間の類似度の代表値を加算することによりばらつき度合いV(c)を算出してもよい。
 順序調整支援部209、又は、ばらつき算出部308は、複数のクラスと、複数のクラスの各々に対応するばらつき度合いV(c)とを表示するばらつき結果画面画像を生成して、表示部107に表示させてもよい。
 この場合、図12に示されている調整距離行列124のクラス2のような「他クラスのデータと乖離しており」かつ「同じクラスのデータ同士のばらつきも大きい」クラスで値が大きくなり、そのクラスが品質劣化の要因であると考えることができる。
 以上のように、ばらつき算出部208、308は、与えられた全てのラベルについて、ラベルによるばらつき度合いVと、そのラベルの各クラスによって生じるばらつき度合いV(c)とを算出してもよい。なお、ばらつき度合いVを、ラベルばらつき度合いともいい、ばらつき度合いV(c)をクラスばらつき度合いともいう。
 また、上述のV及びV(c)の算出は、あるラベルによる調整を行った後の部分行列Diiに対して実施してもよい。その場合、ばらつき算出部208、308は、あるラベル(例えば、検査結果ラベル)によって調整された調整距離行列Mの対角線上に位置する部分行列Diiに含まれているサンプルを、更にそれ以外のあるラベルで並び替えて、再調整距離行列Mを求めた後に、同様の手順で、再調整距離行列Mからばらつき度合いV及びV(c)を求める。このとき、最終的なV及びV(c)は、例えば、V及びV(c)の平均を取ることで算出可能である。この方法は、予めばらつきが大きいラベルが分かっている場合に、それ以外のラベルのばらつき度合いを算出する際に利用することができる。これにより、最初に調整を行ったラベルの影響を受けずに、他のラベルによるばらつき度合いを算出することが可能となる。
 以上のように、ばらつき算出部208、308は、「特定のラベルに含まれる各クラスによるデータのばらつき度合い」を算出してもよい。
 例えば、ばらつき算出部208は、入力部101を介して、ユーザがラベルの指定を行なった際に、そのラベルに含まれる各クラスのばらつき度合いV(c)を算出してもよい。また、ばらつき算出部208、308は、ラベル毎のばらつき度合いVと、クラス毎のばらつき度合いV(c)とを算出して、その算出結果であるV及びV(c)を、ばらつき結果画面画像に含めて、表示させてもよい。
 以上に記載された実施の形態1及び2では、調整距離行列の欄の値を、予め定められた閾値と比較し、予め定められた閾値未満である場合に、その欄の色を、予め定められた閾値以上の値の欄の色よりも暗くすることで、評価画面画像が生成されているが、実施の形態1及び2は、このような例に限定されない。例えば、調整距離行列をヒートマップとして可視化し、調整距離行列の欄の値を「色の濃淡」で表現してもよい。例えば、値が小さいほど暗い色、値が大きいほど明るい色となるようなヒートマップで可視化が行なわれてもよい。また、ヒートマップによる表現と、閾値による表現とを組み合わせることも可能である。例えば、予め指定された上限値を超えた欄は全て「ヒートマップにおいて一番明るい色(例えば、白)」、予め指定された下限値を下回った欄は全て「ヒートマップにおいて一番暗い色(例えば、黒)」、残りの欄は、ヒートマップに従って可視化する、といった表現方法が取られてもよい。
 100,200,300 データ可視化装置、 101 入力部、 102 記憶部、 103 データ取得部、 104 距離行列算出部、 105 順序調整部、 106 可視化部、 107 表示部、 208,308 ばらつき算出部、 209 順序調整支援部。

Claims (20)

  1.  複数のサンプルを有するデータセットから、前記複数のサンプルが並ぶ順序に従って横に並べられた複数の列と、前記順序に従って縦に並べられた複数の行とを備え、前記複数の列の内の一つの列と、前記複数の行の内の一つの行とで特定される一つの欄に、前記一つの列に対応するサンプルと、前記一つの行に対応するサンプルとの間の類似度を格納した類似度行列を生成する類似度行列生成部と、
     前記複数のサンプルの各々に対して、各々が複数のクラスを有する複数のラベルを用いてラベリングを行なった結果を示すラベル情報を参照して、前記複数のラベルから指定されたラベルである対象ラベルにおける前記複数のクラス毎に前記複数のサンプルが並ぶように、前記類似度行列における前記順序を調整することで、調整類似度行列を生成する順序調整部と、
     前記調整類似度行列の各々の欄を、前記類似度に応じた明度で示す評価画面画像を生成する可視化部と、
     前記評価画面画像を表示する表示部と、を備えること
     を特徴とする情報処理装置。
  2.  前記複数のラベルから、前記対象ラベルの指定を受け付ける入力部をさらに備えること
     を特徴とする請求項1に記載の情報処理装置。
  3.  前記複数のラベルの各々によって生じる、前記複数のサンプルのばらつき度合いを算出するばらつき算出部と、
     前記複数のラベルと、前記複数のラベルの各々に対応する前記ばらつき度合いとを表示するばらつき結果画面画像を生成し、前記表示部に前記ばらつき結果画面画像を表示させる順序調整支援部と、
     前記複数のラベルから、前記対象ラベルの指定を受け付ける入力部と、をさらに備えること
     を特徴とする請求項1に記載の情報処理装置。
  4.  前記複数のラベルの各々によって生じる、前記複数のサンプルのばらつき度合いを算出し、前記ばらつき度合いが最も高いラベルを、前記対象ラベルとして指定するばらつき算出部をさらに備えること
     を特徴とする請求項1に記載の情報処理装置。
  5.  前記ばらつき度合いは、前記複数のクラスにおいて、異なるクラスに分類されるサンプル間の類似度の代表値から、同じクラスに分類されるサンプル間の類似度の代表値を減算することにより算出されること
     を特徴とする請求項3又は4に記載の情報処理装置。
  6.  前記複数のクラスの各々によって生じる、前記複数のサンプルのばらつき度合いを算出するばらつき算出部と、
     前記複数のクラスと、前記複数のクラスの各々に対応する前記ばらつき度合いとを表示するばらつき結果画面画像を生成し、前記表示部に前記ばらつき結果画面画像を表示させる順序調整支援部と、をさらに備えること
     を特徴とする請求項1に記載の情報処理装置。
  7.  前記ばらつき度合いは、前記複数のクラスの内、前記ばらつき度合いを算出する一つのクラスを対象クラスとした場合に、前記対象クラスに分類されるサンプルと、前記対象クラスを除いた前記複数のクラスに分類されるサンプルとの類似度の代表値から、前記対象クラスに分類されるサンプル間の類似度の代表値を減算することにより算出されること
     を特徴とする請求項6に記載の情報処理装置。
  8.  前記ばらつき度合いは、前記複数のクラスの内、前記ばらつき度合いを算出する一つのクラスを対象クラスとした場合に、前記対象クラスに分類されるサンプルと、前記対象クラスを除いた前記複数のクラスに分類されるサンプルとの類似度の代表値に、前記対象クラスに分類されるサンプル間の類似度の代表値を加算することにより算出されること
     を特徴とする請求項6に記載の情報処理装置。
  9.  前記評価画面画像は、前記調整類似度行列の前記複数の列及び前記複数の行に対応付けて、前記対象ラベルにおける前記複数のクラスを示すこと
     を特徴とする請求項1から8の何れか一項に記載の情報処理装置。
  10.  データセットに含まれている複数のサンプルの各々に対して、各々が複数のクラスを有する複数のラベルを用いてラベリングを行なった結果を示すラベル情報を参照して、前記複数のラベルの各々によって生じる、前記複数のサンプルのばらつき度合いを算出し、前記複数のラベルに含まれる少なくとも一つのラベルと、前記少なくとも一つのラベルに対応する前記ばらつき度合いとを表示するばらつき結果画面画像を生成するばらつき算出部と、
     前記ばらつき結果画面画像を表示する表示部と、を備えること
     を特徴とする情報処理装置。
  11.  前記ばらつき度合いは、前記複数のクラスにおける異なるクラスに分類されるサンプル間の類似度の代表値から、前記複数のクラスにおける同じクラスに分類されるサンプル間の類似度の代表値を減算することにより算出されること
     を特徴とする請求項10に記載の情報処理装置。
  12.  データセットに含まれている複数のサンプルの各々に対して、各々が複数のクラスを有する複数のラベルを用いてラベリングを行なった結果を示すラベル情報を参照して、前記複数のクラスの各々によって生じる、前記複数のサンプルのばらつき度合いを算出し、前記複数のクラスと、前記複数のクラスの各々に対応する前記ばらつき度合いとを表示するばらつき結果画面画像を生成するばらつき算出部と、
     前記ばらつき結果画面画像を表示する表示部と、を備えること
     を特徴とする情報処理装置。
  13.  前記ばらつき度合いは、前記複数のクラスの内、前記ばらつき度合いを算出する一つのクラスを対象クラスとした場合に、前記対象クラスに分類されるサンプルと、前記対象クラスを除いた前記複数のクラスに分類されるサンプルとの類似度の代表値から、前記対象クラスに分類されるサンプル間の類似度の代表値を減算することにより算出されること
     を特徴とする請求項12に記載の情報処理装置。
  14.  前記ばらつき度合いは、前記複数のクラスの内、前記ばらつき度合いを算出する一つのクラスを対象クラスとした場合に、前記対象クラスに分類されるサンプルと、前記対象クラスを除いた前記複数のクラスに分類されるサンプルとの類似度の代表値に、前記対象クラスに含まれる同じクラスに分類されるサンプル間の類似度の代表値を加算することにより算出されること
     を特徴とする請求項12に記載の情報処理装置。
  15.  コンピュータを、
     複数のサンプルを有するデータセットから、前記複数のサンプルが並ぶ順序に従って横に並べられた複数の列と、前記順序に従って縦に並べられた複数の行とを備え、前記複数の列の内の一つの列と、前記複数の行の内の一つの行とで特定される一つの欄に、前記一つの列に対応するサンプルと、前記一つの行に対応するサンプルとの間の類似度を格納した類似度行列を生成する類似度行列生成部、及び、
     前記複数のサンプルの各々に対して、各々が複数のクラスを有する複数のラベルを用いてラベリングを行なった結果を示すラベル情報を参照して、前記複数のラベルから指定されたラベルである対象ラベルにおける前記複数のクラス毎に前記複数のサンプルが並ぶように、前記類似度行列における前記順序を調整することで、調整類似度行列を生成する順序調整部、
     前記調整類似度行列の各々の欄を、前記類似度に応じた明度で示す評価画面画像を生成する可視化部、及び、
     前記評価画面画像を表示する表示部、として機能させること
     を特徴とするプログラム。
  16.  コンピュータを、
     データセットに含まれている複数のサンプルの各々に対して、各々が複数のクラスを有する複数のラベルを用いてラベリングを行なった結果を示すラベル情報を参照して、前記複数のラベルの各々によって生じる、前記複数のサンプルのばらつき度合いを算出し、前記複数のラベルに含まれる少なくとも一つのラベルと、前記少なくとも一つのラベルに対応する前記ばらつき度合いとを表示するばらつき結果画面画像を生成するばらつき算出部、及び、
     前記ばらつき結果画面画像を表示する表示部、として機能させること
     を特徴とするプログラム。
  17.  コンピュータを、
     データセットに含まれている複数のサンプルの各々に対して、各々が複数のクラスを有する複数のラベルを用いてラベリングを行なった結果を示すラベル情報を参照して、前記複数のクラスの各々によって生じる、前記複数のサンプルのばらつき度合いを算出し、前記複数のクラスと、前記複数のクラスの各々に対応する前記ばらつき度合いとを表示するばらつき結果画面画像を生成するばらつき算出部、及び、
     前記ばらつき結果画面画像を表示する表示部、として機能させること
     を特徴とするプログラム。
  18.  複数のサンプルを有するデータセットから、前記複数のサンプルが並ぶ順序に従って横に並べられた複数の列と、前記順序に従って縦に並べられた複数の行とを備え、前記複数の列の内の一つの列と、前記複数の行の内の一つの行とで特定される一つの欄に、前記一つの列に対応するサンプルと、前記一つの行に対応するサンプルとの間の類似度を格納した類似度行列を生成し、
     前記複数のサンプルの各々に対して、各々が複数のクラスを有する複数のラベルを用いてラベリングを行なった結果を示すラベル情報を参照して、前記複数のラベルから指定されたラベルである対象ラベルにおける前記複数のクラス毎に前記複数のサンプルが並ぶように、前記類似度行列における前記順序を調整することで、調整類似度行列を生成し、
     前記調整類似度行列の各々の欄を、前記類似度に応じた明度で示す評価画面画像を生成し、
     前記評価画面画像を表示すること
     を特徴とする情報処理方法。
  19.  データセットに含まれている複数のサンプルの各々に対して、各々が複数のクラスを有する複数のラベルを用いてラベリングを行なった結果を示すラベル情報を参照して、前記複数のラベルの各々によって生じる、前記複数のサンプルのばらつき度合いを算出し、
     前記複数のラベルに含まれる少なくとも一つのラベルと、前記少なくとも一つのラベルに対応する前記ばらつき度合いとを表示するばらつき結果画面画像を生成し、
     前記ばらつき結果画面画像を表示すること
     を特徴とする情報処理方法。
  20.  データセットに含まれている複数のサンプルの各々に対して、各々が複数のクラスを有する複数のラベルを用いてラベリングを行なった結果を示すラベル情報を参照して、前記複数のクラスの各々によって生じる、前記複数のサンプルのばらつき度合いを算出し、
     前記複数のクラスと、前記複数のクラスの各々に対応する前記ばらつき度合いとを表示するばらつき結果画面画像を生成し、
     前記ばらつき結果画面画像を表示すること
     を特徴とする情報処理方法。
PCT/JP2020/011066 2020-03-13 2020-03-13 情報処理装置、プログラム及び情報処理方法 WO2021181654A1 (ja)

Priority Applications (7)

Application Number Priority Date Filing Date Title
CN202080097931.1A CN115280307A (zh) 2020-03-13 2020-03-13 信息处理装置、程序和信息处理方法
PCT/JP2020/011066 WO2021181654A1 (ja) 2020-03-13 2020-03-13 情報処理装置、プログラム及び情報処理方法
JP2021571818A JP7130153B2 (ja) 2020-03-13 2020-03-13 情報処理装置、プログラム及び情報処理方法
DE112020006501.4T DE112020006501T5 (de) 2020-03-13 2020-03-13 Informationsverarbeitungsvorrichtung, programm, und informationsverarbeitungsverfahren
KR1020227030270A KR102552786B1 (ko) 2020-03-13 2020-03-13 정보 처리 장치, 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체 및 정보 처리 방법
TW109129093A TWI807214B (zh) 2020-03-13 2020-08-26 資訊處理裝置、記錄媒體、程式產品以及資訊處理方法
US17/882,296 US20220383147A1 (en) 2020-03-13 2022-08-05 Information processing apparatus, non-transitory computer-readable storage medium, and information processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/011066 WO2021181654A1 (ja) 2020-03-13 2020-03-13 情報処理装置、プログラム及び情報処理方法

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US17/882,296 Continuation US20220383147A1 (en) 2020-03-13 2022-08-05 Information processing apparatus, non-transitory computer-readable storage medium, and information processing method

Publications (1)

Publication Number Publication Date
WO2021181654A1 true WO2021181654A1 (ja) 2021-09-16

Family

ID=77671066

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/011066 WO2021181654A1 (ja) 2020-03-13 2020-03-13 情報処理装置、プログラム及び情報処理方法

Country Status (7)

Country Link
US (1) US20220383147A1 (ja)
JP (1) JP7130153B2 (ja)
KR (1) KR102552786B1 (ja)
CN (1) CN115280307A (ja)
DE (1) DE112020006501T5 (ja)
TW (1) TWI807214B (ja)
WO (1) WO2021181654A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005108111A (ja) * 2003-10-01 2005-04-21 Research Organization Of Information & Systems グループ間分別項目決定方法および同方法を実行するためのプログラム
WO2010061813A1 (ja) * 2008-11-26 2010-06-03 日本電気株式会社 能動計量学習装置、能動計量学習方法および能動計量学習プログラム
WO2017179258A1 (ja) * 2016-04-11 2017-10-19 ソニー株式会社 情報処理装置、及び情報処理方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015225637A (ja) 2014-05-30 2015-12-14 アズビル株式会社 相関分析装置、相関分析方法、および相関分析用プログラム
TWI682368B (zh) * 2018-07-03 2020-01-11 緯創資通股份有限公司 利用多維度感測器資料之監控系統及監控方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005108111A (ja) * 2003-10-01 2005-04-21 Research Organization Of Information & Systems グループ間分別項目決定方法および同方法を実行するためのプログラム
WO2010061813A1 (ja) * 2008-11-26 2010-06-03 日本電気株式会社 能動計量学習装置、能動計量学習方法および能動計量学習プログラム
WO2017179258A1 (ja) * 2016-04-11 2017-10-19 ソニー株式会社 情報処理装置、及び情報処理方法

Also Published As

Publication number Publication date
KR102552786B1 (ko) 2023-07-06
TWI807214B (zh) 2023-07-01
US20220383147A1 (en) 2022-12-01
KR20220127347A (ko) 2022-09-19
JPWO2021181654A1 (ja) 2021-09-16
CN115280307A (zh) 2022-11-01
TW202134922A (zh) 2021-09-16
JP7130153B2 (ja) 2022-09-02
DE112020006501T5 (de) 2022-11-17

Similar Documents

Publication Publication Date Title
KR101102004B1 (ko) 3차원 입체 영상에 대한 피로도를 정량화하는 방법 및시스템
US20070027637A1 (en) System and methods for characterization of chemical arrays for quality control
CN114730451A (zh) 使用纹理分析进行图像质量(iq)标准化和系统健康预测的磁共振(mr)图像伪影确定
JP2013224833A (ja) 外観検査装置、外観検査方法及びコンピュータプログラム
JP5995756B2 (ja) 欠陥検出装置、欠陥検出方法および欠陥検出プログラム
JP7446771B2 (ja) 可視化データ生成装置、可視化データ生成システム、及び可視化データ生成方法
JP6763673B2 (ja) 教師データ作成支援装置、画像分類装置、教師データ作成支援方法および画像分類方法
CN116416884A (zh) 一种显示器模组的测试装置及其测试方法
WO2021181654A1 (ja) 情報処理装置、プログラム及び情報処理方法
JP5501908B2 (ja) 要因分析方法、要因分析装置、及び記録媒体
US20230055892A1 (en) Data processing apparatus, data processing method, and storage medium storing program
US20230334832A1 (en) Image analyzing device
JP2022002029A (ja) データ解析システム、データ解析方法及びデータ解析プログラム
JP2011232302A (ja) 画像検査方法及び画像検査装置
JP7003334B2 (ja) 情報処理装置、プログラム及び情報処理方法
JP2021125786A5 (ja) 検品装置、情報処理方法、検品システム、検品方法、及びプログラム
CN113870255B (zh) Mini LED产品缺陷检测方法及相关设备
US20240086428A1 (en) Data labeling work support apparatus, data labeling work support method, and storage medium
CN116664551B (zh) 基于机器视觉的显示屏检测方法、装置、设备及存储介质
US20240094092A1 (en) Manufacturing data analysis device and method
Ghashghaei et al. Grayscale Image Statistical Attributes Effectively Distinguish the Severity of Lung Abnormalities in CT Scan Slices of COVID-19 Patients
US20240094091A1 (en) Manufacturing data analysis device, system, and method
KR20180097281A (ko) 반도체 결함 시각화 방법 및 시스템
JP2022012405A (ja) 画像処理装置、外観検査装置、学習済みパラメータ、画像処理方法、およびプログラム
CN116210032A (zh) 用于分析和检测微孔板中的执行伪影的技术

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20924842

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021571818

Country of ref document: JP

Kind code of ref document: A

122 Ep: pct application non-entry in european phase

Ref document number: 20924842

Country of ref document: EP

Kind code of ref document: A1