WO2023223477A1 - ラベルヒストグラム作成装置、ラベルヒストグラム作成方法およびラベルヒストグラム作成プログラム - Google Patents

ラベルヒストグラム作成装置、ラベルヒストグラム作成方法およびラベルヒストグラム作成プログラム Download PDF

Info

Publication number
WO2023223477A1
WO2023223477A1 PCT/JP2022/020726 JP2022020726W WO2023223477A1 WO 2023223477 A1 WO2023223477 A1 WO 2023223477A1 JP 2022020726 W JP2022020726 W JP 2022020726W WO 2023223477 A1 WO2023223477 A1 WO 2023223477A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
label
label histogram
histogram creation
sampling process
Prior art date
Application number
PCT/JP2022/020726
Other languages
English (en)
French (fr)
Inventor
英俊 川口
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2022/020726 priority Critical patent/WO2023223477A1/ja
Publication of WO2023223477A1 publication Critical patent/WO2023223477A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Definitions

  • the present invention relates to a label histogram creation device, a label histogram creation method, and a label histogram creation program.
  • a label histogram shows the probability distribution of labels for classifying certain data.
  • a label histogram is created by sampling in which multiple people independently label data. Such label histograms are generally created using crowdsourcing.
  • the monetary cost increases as the number of samples increases.
  • the number of votes may be concentrated on a specific label for most of the data.
  • the label histogram creation device includes: A label histogram indicating the probability distribution of the labels in the data is created by performing a sampling process using crowdsourcing to assign labels for classifying the data, a label histogram creation unit that sets a sampling number for each data for a data set composed of a plurality of data, performs an initial sampling process using the crowdsourcing, and creates a set of label histograms; a pickup unit that performs a pickup process of data to be subjected to a second sampling process from the data set based on the uncertainty of information included in the label histogram;
  • the label histogram creation unit is characterized in that the data picked up by the pickup unit increases the number of samplings from the first sampling process, and performs a second sampling process using the crowdsourcing.
  • FIG. 1 is a conceptual diagram of a label histogram creation system to which a label histogram creation device according to the present embodiment is applied. It is a figure explaining a label histogram.
  • FIG. 2 is a block diagram showing the functional configuration of a label histogram creation device.
  • FIG. 3 is a diagram illustrating an example of a set of label histograms.
  • FIG. 7 is a diagram showing another example of a set of label histograms.
  • 3 is a flowchart illustrating the process flow of the label histogram creation device. It is a flowchart explaining the flow of sampling processing after the second time. It is a flowchart explaining the flow of pickup processing.
  • FIG. 3 is a diagram showing an example of image data included in a data set.
  • FIG. 3 is a diagram showing an example of picked up data.
  • FIG. 2 is a hardware configuration diagram showing an example of a computer that implements the functions of the label histogram creation device according to the present embodiment.
  • FIG. 1 is a conceptual diagram of a label histogram creation system to which a label histogram creation device according to the present embodiment is applied.
  • FIG. 2 is a diagram illustrating a label histogram.
  • FIG. 3 is a block diagram showing the functional configuration of the label histogram creation device.
  • the label histogram creation system 100 includes a label histogram creation device 1 and crowdsourcing 2.
  • a data set X for which a label histogram is to be created is input to the label histogram creation device 1 from the outside.
  • Data set X is composed of multiple pieces of data x.
  • the data x is, for example, image, audio, video, or other data, and is data used for machine learning.
  • Data x belonging to data set X can be classified using the same label set Y.
  • the label set Y is composed of K types of labels y, as shown below.
  • the label histogram shows the probability distribution of label y in data x.
  • x and y are random variables sampled from a probability distribution P(x,y).
  • a label histogram is created by multiple people independently assigning a label y to data x. The act of assigning a label y to data x is called sampling.
  • FIG. 2 shows an example in which 100 people sampled one piece of data x, and 70 people gave it a label 1, 20 people gave it a label 2, and 10 people gave it a label 3.
  • the label histogram for data x is expressed as [70, 20, 10].
  • the number of times the label y is given to form the label histogram is referred to as the number of samplings.
  • the number of each label y given is called the number of votes.
  • the number of samples is 100
  • the number of votes for label 1 is 70
  • the number of votes for label 2 is 20, and the number of votes for label 3 is 10.
  • the label histogram creation device 1 creates a label histogram for each data x of the data set X using crowdsourcing 2.
  • Crowdsourcing 2 is a system that recruits an unspecified number of workers Op on the Internet and requests tasks.
  • the label histogram creation device 1 outputs a set T of data x to be sampled to the crowdsourcing 2 via the network.
  • the worker Op who received the request via crowdsourcing 2 samples each piece of data x in the set T.
  • the number of votes of worker Op is tallied, and a label histogram is created for each piece of data x.
  • a set L of label histograms which is a collection of label histograms created for each data x of the set T, is input to the label histogram creation device 1 from the crowdsourcing 2.
  • the label histogram creation device 1 normalizes the label histogram created using the crowdsourcing 2, and exports the set P of normalized label histograms for the data set X to the outside as a final product. Output.
  • the label histogram creation device 1 includes an input section 11, an output section 12, a storage section 13, a label histogram creation section 14, an information entropy calculation section 15, and a pickup section 16.
  • the input section 11 and the output section 12 are composed of a communication interface, an input/output interface, and the like.
  • the communication interface sends and receives information to and from the crowdsourcing 2 and the like via the communication network.
  • the input/output interface inputs and outputs information to and from an input device such as a keyboard (not shown) and an output device such as a display (not shown).
  • the storage unit 13 stores a program (label histogram creation program) for executing each functional unit of the label histogram creation device 1 and information necessary for processing of each functional unit.
  • the storage unit 13 stores data set X input from the outside.
  • the storage unit 13 also stores a set L of label histograms input from the crowdsourcing 2.
  • the storage unit 13 stores parameters and the like used in processing to be described later.
  • the label histogram creation unit 14 creates the set L of label histograms by performing sampling processing using crowdsourcing 2 as described above. In this embodiment, the label histogram creation unit 14 performs sampling processing using crowdsourcing 2 multiple times.
  • the label histogram creation unit 14 sets the set T and the number of samples ⁇ in each sampling process. As described above, the set T is composed of data x to be subjected to sampling processing.
  • the number of samplings ⁇ is the number of samples of each data x that constitutes the set T. That is, in each sampling process, the label histogram creation unit 14 outputs the set T of data x to be subjected to the sampling process to the crowdsourcing 2 by specifying the sampling number ⁇ .
  • the label histogram creation unit 14 receives the label histogram set L, which is the sampling result of the set T, from the crowdsourcing 2, it stores it in the storage unit 13.
  • the label histogram creation unit 14 decreases the number of samples ⁇ of each data x from the previous sampling process while decreasing the number ⁇ of data in the set T compared to the previous sampling process. Also increases. That is, the label histogram creation unit 14 narrows down the data x to be sampled, and performs intensive sampling on the narrowed down data x. In each sampling process, the number ⁇ of data to be sampled and the number ⁇ of samples of each data x are set, for example, by the operator of the label histogram creation device 1 and stored in the storage unit 13 as parameters. The number of times M for performing the second and subsequent sampling processes is similarly set by the operator and stored in the storage unit 13 as a parameter.
  • the label histogram creation unit 14 creates a label histogram set P for the data set X by normalizing the label histogram set L stored in the storage unit 13.
  • the information entropy calculation unit 15 and the pickup unit 16 perform processing to narrow down data x to be sampled.
  • the information entropy calculation unit 15 calculates the information entropy H of the label histogram for the data x for which the label histogram has been created by the sampling process.
  • Information entropy H indicates the uncertainty of information contained in the label histogram. The more uncertain the information indicated by a label histogram is, the greater the amount of information the label histogram has. That is, if the information entropy H is large, it means that the label histogram contains more information, and if the information entropy H is small, it means that the label histogram contains less information.
  • the information entropy calculation unit 15 calculates the information entropy H for each of the label histograms of the N pieces of data x that constitute the data set X. In the second and subsequent sampling processes, the information entropy calculation unit 15 calculates the information entropy H only for data x that is a sampling target and for which a label histogram has been created.
  • the pickup unit 16 performs a pickup process on the data x to be subjected to the next sampling process, based on the uncertainty of the information included in the label histogram of each data x.
  • the pickup section 16 refers to the information entropy H of the label histogram of each data x calculated by the information entropy calculation section 15, and picks up the data x in which the information entropy H is mutually dispersed.
  • the pickup unit 16 collects the picked up data x and sets a set T for the next sampling process.
  • the number of data x picked up by the pickup unit 16 corresponds to the number ⁇ of data to be sampled, which is set as a parameter for each sampling process. That is, the pickup unit 16 reduces the number of data x to be picked up each time it performs sampling processing. Details of the pickup processing by the pickup section 16 will be described later.
  • the data x to be sampled is narrowed down based on the information entropy H, and sampling is performed focused on the narrowed down data x, thereby reducing the overall number of samples and ultimately creating In a set P of label histograms, the diversity of label histograms is increased.
  • the set of label histograms created by the label histogram creation device 1 is used, for example, to evaluate the performance of a data classifier constructed by machine learning.
  • the more diverse the label histograms that make up the set the more accurately the performance evaluation of the data classifier can be performed.
  • the label histograms that make up a set have a well-balanced mixture of large, small, and medium amounts of information, and there is little bias in the amount of information, then the label histograms can be said to be diverse. can.
  • the label histograms can be said to be diverse. can.
  • even if the number of samples of all data x included in data set X is simply increased, it may not be possible to increase the diversity of the label histogram.
  • FIG. 4 is a diagram illustrating an example of a set of label histograms.
  • FIG. 5 is a diagram showing another example of a set of label histograms.
  • FIG. 4 shows an example in which a set L1 of label histograms is created by sampling a data set consisting of six pieces of data x1 to x6.
  • FIG. 5 shows an example in which a set L2 of label histograms is created by sampling a data set consisting of six pieces of data x7 to x12. Note that in the examples of FIGS. 4 and 5, the number of samplings is set to be the same.
  • the number of votes is concentrated on label 1. It can be said that such a label histogram has a small amount of information, that is, the information entropy H is small.
  • the number of votes is distributed approximately equally among each of labels 1, 2, and 3. It can be said that such a label histogram has a large amount of information, that is, the information entropy H is large.
  • the label histogram for data x5 in Figure 4 has a relatively large number of votes for label 3, but unlike data x1, the number of votes is not extremely concentrated on one label, so it can be said to have a medium amount of information. . In this way, in the set L1 of FIG. 4, the amount of information contained in the label histograms of data x1 to x6 is less biased and dispersed, and it can be said that the diversity of the label histograms is relatively high.
  • set L2 in Figure 5 has a lower diversity of label histograms than set L1 in Figure 4, but it is created with the same number of samplings as set L1, so the cost of using crowdsourcing 2 is This is the same as set L1.
  • the cost required for sampling the discarded label histogram is wasted. That is, the number of samples of data included in the set L2 that is finally output is small compared to the overall cost required to create the set L2, and the resultant product may not be worth the cost.
  • the label histogram device of this embodiment narrows down the data x to be sampled based on the information entropy H, and performs intensive sampling by increasing the number of samples of the narrowed down data x. That is, in the first sampling process, the label histogram creation unit 14 samples all N pieces of data x included in the data set X, but the number of samples ⁇ is set to be small. Then, the pickup unit 16 picks up highly diverse combinations of data x based on the information entropy H from the label histogram obtained in the first sampling process, and increases the sampling number ⁇ for the picked data x. Perform the second sampling process.
  • the present embodiment when performing the second and subsequent sampling processes a plurality of times, each time the sampling process is performed, the number ⁇ of data to be subjected to the next sampling process is decreased, and the number ⁇ of samples is increased. As a result, the present embodiment can further narrow down the highly diverse combinations of data x and perform intensive sampling.
  • FIG. 6 is a flowchart illustrating the processing flow of the label histogram creation device.
  • FIG. 7 is a flowchart illustrating the flow of the second and subsequent sampling processes.
  • FIG. 8 is a flowchart illustrating the flow of pickup processing.
  • FIG. 9 is a diagram showing an example of data included in the data set. In FIG. 9, as an example, a plurality of image data included in the data set are arranged according to the information entropy of each label histogram.
  • FIG. 10 is a diagram showing an example of the arrangement of pins.
  • FIG. 11 is a diagram showing an example of picked up data.
  • the label histogram creation device 1 starts processing when the data set X for which a label histogram is to be created is input (step S01: Yes).
  • the label histogram creation unit 14 stores the data set X input via the input unit 11 in the storage unit 13. Note that if the data set X is not input (step S01: No), the label histogram creation device 1 waits until it is input.
  • the operator of the label histogram creation device 1 sets parameters as follows.
  • the label histogram creation unit 14 sets a set T of data x to be subjected to sampling processing (step S02).
  • the set T includes all N pieces of data x that constitute the data set X, as shown below.
  • the label histogram creation unit 14 performs an initial sampling process on the set T using crowdsourcing 2, and creates a label histogram set L (step S03). Specifically, the label histogram creation unit 14 sets the sampling number ⁇ based on the parameters, and outputs the set T of data x to the crowdsourcing 2. In crowdsourcing 2, sampling is performed for each piece of data x included in the set T by a number of workers Op corresponding to the sampling number ⁇ . The worker Op assigns one of the K types of labels y included in the label set Y to the data x.
  • FIG. 9 shows an example in which the data set X is composed of image data x of handwritten digits provided in MNIST of Non-Patent Document 1.
  • One of ten types of labels from 0 to 9 is assigned to each of these data x. For example, when the initial sampling number ⁇ is set to 10, 10 workers Op assign a label y to each piece of data x.
  • a label histogram li of data xi included in the set T is expressed by the following equation (1).
  • an operation in which a plurality of workers Op perform sampling on one data xi using crowdsourcing 2 is regarded as a function, and is expressed as Sampling.
  • a label histogram li created with the sampling number ⁇ and a set L of label histograms, which is a collection of label histograms li can be expressed by the following equations (2) and (3). can.
  • the label histogram of image data xa is [0, 7 ,0,0,0,0,0,3,0,0].
  • the set L of label histograms created for the set T is input to the input unit 11 of the label histogram creation device 1.
  • the label histogram creation unit 14 stores the set L of label histograms of the set T input from the crowdsourcing 2 in the storage unit 13, thereby completing the first sampling process.
  • the label histogram creation unit 14 sets the number k of sampling processes from the second time onward to 1 (step S04).
  • k is a natural number from 1 to M. That is, the label histogram creation unit 14 repeats the sampling process until the number k of second sampling processes becomes M.
  • the label histogram creation unit 14 performs the second and subsequent sampling processing (step S05). In the second and subsequent sampling processes, the label histogram creation unit 14 performs sampling processing on the data x narrowed down by the processing of the information entropy calculation unit 15 and the pickup unit 16.
  • the information entropy calculation unit 15 calculates the information entropy H of the label histogram li of each data xi using the set L of label histograms created in the first sampling process (step S51). .
  • the information entropy calculation unit 15 can calculate the information entropy H from the label histogram li, for example, by the following method.
  • the function H related to the uncertainty of information included in the label histogram is not limited to information entropy, and can be calculated using the following equation (9) or (10), for example.
  • the pickup unit 16 sets a set T' of data x to be subjected to the next sampling process (step S52).
  • the pickup unit 16 sets the minimum value A and maximum value B of the set T' as shown below. Specifically, the pickup unit 16 extracts the minimum value A and the maximum value B from each information entropy H of the data x calculated by the information entropy calculation unit 15.
  • the image data x included in the data set X is arranged according to the size of the information entropy H of each label histogram.
  • the information entropy H of data Xb is the minimum value A
  • the information entropy H of the data Xc is the maximum value B. All data x is located within the interval (BA) between minimum value A and maximum value B.
  • the information entropy H of image data x of characters that are easy to distinguish, ie, characters that are difficult to classify is small.
  • Image data x of characters that are difficult to distinguish, that is, characters that are difficult to classify has a large information entropy H.
  • the pickup unit 16 performs a pickup process to pick up data x to be subjected to the next sampling process in the set T' (step S53).
  • the data x is not uniformly distributed within the interval (B-A), but is biased toward the minimum value A, near the center, and maximum value B. .
  • the pickup section 16 picks up combinations of data in which the information entropy H is mutually dispersed from among these data x.
  • the pickup section 16 divides the section (BA) into equal intervals, and places pins u at the boundaries of each section.
  • the position where the pin u is placed also includes the minimum value A and the maximum value B.
  • the pickup unit 16 further sequentially picks up data x having the closest information entropy H to each pin u, and adds them to the set T'. As shown in FIG.
  • nine pieces of data x including data xb and xc having a minimum value A and a maximum value B are picked up into a set T' by the pickup process.
  • the picked-up data x has relatively little bias in information entropy H, and has a well-balanced combination of data with low, medium, and high classification difficulties. In other words, even for a data set It is possible to obtain highly diverse combinations of data x.
  • r is a natural number from 1 to ⁇ k.
  • ⁇ k is the number of data to be subjected to the next sampling process, which is set by a parameter.
  • the pickup unit 16 determines the position of the pin u using the following equation (11) (step S532).
  • the positions of the pins u are determined in order from the minimum value A side, that is, from the side with the smallest information entropy H. That is, in the first pickup, the pin u is determined to be the minimum value A, and in the ⁇ k-th pickup, the pin u is determined to be the maximum value B.
  • the pickup unit 16 picks up the data t having the information entropy H closest to the determined pin u into the set T' (step S533).
  • the pickup unit 16 uses, for example, the following equation (12) to identify the data t having the information entropy H closest to the pin u.
  • the pickup unit 16 further includes the data t in the new set T' and excludes it from the original set T using the following equation (13).
  • the pickup unit 16 overwrites the original set T with the set T' made up of the picked-up data t (step S54).
  • the set T is updated to include only the data x to be subjected to the next sampling process.
  • the label histogram creation unit 14 performs sampling processing on the newly set set T using crowdsourcing 2 (step S55). Specifically, the label histogram creation unit 14 sets the sampling number ⁇ k and outputs the data x included in the set T to the crowdsourcing 2. Here, the label histogram creation unit 14 increases the sampling number ⁇ k from the sampling number ⁇ in the first sampling process based on the set parameter.
  • the set T updated by the pickup process includes combinations of data x with high diversity in label histograms.
  • the sampling number ⁇ k for this combination it is possible to further increase the diversity of the label histograms of these data x.
  • a label histogram is created by sampling the data xi that is the target of the second sampling process in the same manner as the first sampling process, and is input to the input unit 11 of the label histogram creation device 1.
  • Ru Note that the storage unit 13 stores a label histogram li for the data xi created in the first sampling process.
  • the label histogram creation unit 14 adds and stores the label histogram created in the second sampling process to the label histogram li of the data xi created in the first sampling process, as shown in equation (14) below. do.
  • the label histogram creation device 1 can perform the following processing. For example, when a data set Set up and sample.
  • the pickup unit 16 performs pickup processing using the label histogram of 10,000 pieces of data x to narrow down the number ⁇ of data to be sampled next to 1,000 pieces.
  • the label histogram creation unit 14 performs sampling for 1000 pieces of data x by increasing the sampling number ⁇ of each piece of data x to 90.
  • the pickup unit 16 performs pickup processing using the label histogram of 1000 pieces of data x to narrow down the number ⁇ of data to be sampled next to 200 pieces.
  • the label histogram creation unit 14 performs sampling on the 200 pieces of data x by increasing the sampling number ⁇ of each piece of data x to 9900.
  • sampling processing is focused on combinations of data x with high diversity in label histograms, so the number of samplings in the entire data set It is possible to create a highly diverse set L of label histograms from the data set X while suppressing the .
  • the label histogram creation unit 14 ends the sampling process.
  • the label histogram creation unit 14 normalizes the label histogram li of the data x included in the data set Create (step S07).
  • the label histogram creation unit 14 outputs the label histogram set P for the normalized data set X to the outside via the output unit 12 (step S08), and ends the process.
  • the label histogram creation device 1 is realized by, for example, a computer 900 as shown in FIG. 12.
  • FIG. 12 is a hardware configuration diagram showing an example of a computer 900 that implements the functions of the label histogram creation device 1 according to this embodiment.
  • the computer 900 includes a CPU (Central Processing Unit) 901, a ROM (Read Only Memory) 902, a RAM (Random Access Memory) 903, an HDD (Hard Disk Drive) 904, an input/output I/F (Interface) 905, and a communication I/F 906. and a media I/F 907.
  • the CPU 901 operates based on a program (label histogram creation program) stored in the ROM 902 or HDD 904, and processes each functional unit of the label histogram creation device 1 shown in FIG. 2.
  • the ROM 902 stores a boot program executed by the CPU 901 when the computer 900 is started, programs related to the hardware of the computer 900, and the like.
  • the CPU 901 controls an input device 910 such as a mouse and a keyboard, and an output device 911 such as a display via an input/output I/F 905.
  • the CPU 901 acquires data from the input device 910 via the input/output I/F 905 and outputs the generated data to the output device 911.
  • a GPU Graphics Processing Unit
  • a GPU Graphics Processing Unit
  • the HDD 904 stores programs executed by the CPU 901 and data used by the programs.
  • the communication I/F 906 receives data from crowdsourcing 2 (see FIG. 1) and other devices via a communication network (for example, NW (Network) 920) and outputs it to the CPU 901, and also receives data generated by the CPU 901. Send.
  • NW Network
  • the media I/F 907 reads the program or data stored in the recording medium 912 and outputs it to the CPU 901 via the RAM 903.
  • the CPU 901 loads a program related to target processing from the recording medium 912 onto the RAM 903 via the media I/F 907, and executes the loaded program.
  • the recording medium 912 is an optical recording medium such as a DVD (Digital Versatile Disc) or a PD (Phase change rewritable disk), a magneto-optical recording medium such as an MO (Magneto Optical disk), a magnetic recording medium, a conductive memory tape medium, a semiconductor memory, or the like. It is.
  • the CPU 901 of the computer 900 realizes the functions of the label histogram creation device 1 by executing a program loaded onto the RAM 903. Furthermore, data in the RAM 903 is stored in the HDD 904 .
  • the CPU 901 reads a program related to target processing from the recording medium 912 and executes it. In addition, the CPU 901 may read a program related to target processing from another device via a communication network (NW 920).
  • the label histogram creation device 1 creates a label histogram showing the probability distribution of the label y in the data x by using crowdsourcing 2 to perform a sampling process that assigns a label y for classifying the data x.
  • Crowdsourcing 2 is a system that performs sampling processing requested by label histogram creation device 1 by an unspecified number of workers Op recruited on the Internet.
  • the label histogram creation device 1 includes a label histogram creation section 14 and a pickup section 16.
  • the label histogram creation unit 14 sets the sampling number ⁇ of each data x for the data set X composed of N (plural) data x, performs the first sampling process using crowdsourcing 2, Create a set L of label histograms.
  • the pickup unit 16 performs a process of picking up data x to be subjected to the second sampling process from the data set X, based on the uncertainty of the information included in the label histogram.
  • the label histogram creation unit 14 increases the sampling number ⁇ from the first sampling process for the data x picked up by the pickup unit 16, and performs a second sampling process using crowdsourcing 2.
  • the label histogram creation device 1 can create a highly diverse set L of label histograms while reducing costs.
  • the pickup unit 16 performs the pickup process based on the uncertainty of the information contained in the label histogram (for example, information entropy H), so that the next sampling process can be performed based on the amount of information contained in the label histogram. It is possible to narrow down the combination of data x with little bias and high diversity. By increasing the sampling number ⁇ and performing sampling processing on the narrowed-down data x, it is possible to further increase the diversity of the label histograms of the data x. Furthermore, in the first sampling process in which all data x of data set be able to.
  • the label histogram creation unit 14 After the first sampling process, the label histogram creation unit 14 performs the sampling process M times (multiple times) using crowdsourcing 2. Each time a sampling process is performed, the pickup unit 16 performs a process of picking up data x to be subjected to the next sampling process while reducing the number of pickups compared to the previous sampling process. The label histogram creation unit 14 performs the next sampling process on the data x picked up by the pickup unit 16 by increasing the number of samples ⁇ compared to the previous sampling process.
  • the label histogram creation device 1 of this embodiment gradually increases the sampling number ⁇ of each data x while further narrowing down the number ⁇ of data to be sampled each time the sampling process is performed. Thereby, it is possible to perform intensive sampling on combinations of data x with high diversity while reducing an increase in cost, thereby further increasing diversity.
  • the label histogram creation device 1 includes an information entropy calculation section 15.
  • the information entropy calculation unit 15 calculates the information entropy H of the label histogram for the data x for which the label histogram has been created by the sampling process.
  • the pickup unit 16 can narrow down the data x based on the information entropy H. Thereby, the pickup unit 16 can select a combination of data x whose label histograms are highly diverse.
  • the pick-up unit 16 picks up data x in which the information entropy H is mutually dispersed as a pick-up process.
  • the pickup unit 16 picks up data x whose information entropy H is dispersed with each other, so that a combination of data x with less bias in information entropy H and high diversity can be selected as the next sampling target.
  • the pickup unit 16 divides the section (B-A) between the minimum value A and the maximum value B of the information entropy H according to the number of data x to be picked up, and Pick up the data x having the information entropy H closest to the pin u indicating the position.
  • the pickup unit 16 can pick up a well-balanced combination of data x in which the information entropy H is mutually dispersed according to the number ⁇ of data to be subjected to the next sampling process.
  • the pickup unit 16 can pick up a more balanced combination of data x by dividing the section (BA) at equal intervals and arranging the pins u.
  • the above effects can also be applied to the label histogram creation method performed by the label histogram creation device 1 and the label histogram creation program for causing the computer 900 to function as the label histogram creation device 1.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)

Abstract

ラベルヒストグラム作成装置(1)のラベルヒストグラム作成部(14)は、N個のデータ(x)から構成されるデータセット(X)に対して、各データ(x)のサンプリング数(β)を設定し、クラウドソーシング(2)を用いて最初のサンプリング処理を行い、ラベルヒストグラムのセット(L)を作成する。ピックアップ部(16)は、データセット(X)から、ラベルヒストグラムが有する情報の不確かさに基づいて、2回目のサンプリング処理の対象となるデータ(x)のピックアップ処理を行う。ラベルヒストグラム作成部(14)は、ピックアップ部(16)がピックアップしたデータ(x)に対して、サンプリング数(β)を最初のサンプリング処理より増加させ、2回目のサンプリング処理を行う。

Description

ラベルヒストグラム作成装置、ラベルヒストグラム作成方法およびラベルヒストグラム作成プログラム
 本発明は、ラベルヒストグラム作成装置、ラベルヒストグラム作成方法およびラベルヒストグラム作成プログラムに関する。
 ラベルヒストグラムは、あるデータについて、そのデータを分類するラベルの確率分布を示すものである。ラベルヒストグラムは、複数人が独立してデータにラベルを付与するサンプリングを行うことにより作成される。このようなラベルヒストグラムは、クラウドソーシングを利用して作成することが一般的である。
 機械学習の分野において、複数の異なるデータに対して、同じ分類のラベルによるサンプリングを行って作成したラベルヒストグラムのセット、いわゆるベンチマークデータセット(例えば、非特許文献1参照)が数多く存在する。ベンチマークデータセットは、機械学習により構築されるデータ分類器の性能評価に用いられる。
 このようなベンチマークデータセットは、1つのデータに対してラベル付与を1回のみ行ったもの、すなわちサンプリング数が1であるものが多い。一方、サンプリング数を増加させてラベルヒストグラムの多様性を高めることにより、データ分類器の性能評価の精度を向上させることが提案されている(例えば、非特許文献2参照)。
Yann Lecun, et.al.,"THE MNIST DATABASE,"[online]、[令和4年5月6日検索]、インターネット<URL:http://yann.lecun.com/exdb/mnist/> Mimori, T., Sasada, K., Matsui, H., and Sato, I. (2021). "Diagnostic uncertainty calibration: Towards reliable machine predictions in medical domain", In Proceedings of The 24th International Conference on Artificial Intelligence and Statistics, volume 130 of Proceedings of Machine Learning Research, pages 3664-3672. PMLR.
 しかしながら、クラウドソーシングを利用する場合、サンプリング数を増加させるほど、金銭的コストが増加する。さらに、データセットを構成するデータによっては、サンプリング数を増やしても、大部分のデータにおいて、特定のラベルに投票数が集中してしまうことがある。
 そのような場合、特定のラベルに投票数が集中しているデータのラベルヒストグラムを破棄して、多様性を高めることも考えられる。しかしながら、破棄したラベルヒストグラムの作成に要したコストが無駄になってしまう。すなわち、ラベルヒストグラムのセットの作成に要したコストに対して、最終的なラベルヒストグラムのセットに含まれるデータのサンプリング数が少なく、成果物がコストに見合わなくなる可能性がある。
 ラベルヒストグラム作成装置において、コストを低減しつつ多様性の高いラベルヒストグラムのセットを作成することが求められている。
 本発明に係るラベルヒストグラム作成装置は、
 クラウドソーシングを用いて、データを分類するラベルを付与するサンプリング処理を行うことで、前記データにおける前記ラベルの確率分布を示すラベルヒストグラムを作成するものであって、
 複数のデータから構成されるデータセットに対して、各データのサンプリング数を設定し、前記クラウドソーシングを用いて最初のサンプリング処理を行い、ラベルヒストグラムのセットを作成するラベルヒストグラム作成部と、
 前記データセットから、前記ラベルヒストグラムが有する情報の不確かさに基づいて、2回目のサンプリング処理の対象となるデータのピックアップ処理を行うピックアップ部と、を有し、
 前記ラベルヒストグラム作成部は、前記ピックアップ部がピックアップしたデータに対して、前記サンプリング数を前記最初のサンプリング処理より増加させ、前記クラウドソーシングを用いて2回目のサンプリング処理を行うことを特徴とする。
 本発明によれば、コストを低減しつつ、多様性の高いラベルヒストグラムのセットを作成することができる。
本実施形態に係るラベルヒストグラム作成装置が適用される、ラベルヒストグラム作成システムの概念図である。 ラベルヒストグラムを説明する図である。 ラベルヒストグラム作成装置の機能構成を示すブロック図である。 ラベルヒストグラムのセットの一例を示す図である。 ラベルヒストグラムのセットの他の例を示す図である。 ラベルヒストグラム作成装置の処理の流れを説明するフローチャートである。 2回目以降のサンプリング処理の流れを説明するフローチャートである。 ピックアップ処理の流れを説明するフローチャートである。 データセットに含まれる画像データの一例を示す図である。 ピンの配置の一例を示す図である。 ピックアップされたデータの一例を示す図である。 本実施形態に係るラベルヒストグラム作成装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。
 次に、本発明を実施するための形態(以下、「本実施形態」と称する。)について、図面を参照して説明する。
 図1は、本実施形態に係るラベルヒストグラム作成装置が適用される、ラベルヒストグラム作成システムの概念図である。
 図2は、ラベルヒストグラムを説明する図である。
 図3は、ラベルヒストグラム作成装置の機能構成を示すブロック図である。
 図1に示すように、ラベルヒストグラム作成システム100は、ラベルヒストグラム作成装置1と、クラウドソーシング2と、を有する。
 ラベルヒストグラム作成装置1には、外部から、ラベルヒストグラムの作成対象であるデータセットXが入力される。データセットXは、複数のデータxから構成される。データxは、例えば、画像、音声、動画等のデータであり、機械学習に用いられるデータである。データセットXに属するデータxは、同じラベルセットYを用いて分類することができる。ラベルセットYは、以下に示すように、K種類のラベルyから構成される。
Figure JPOXMLDOC01-appb-M000001
 ラベルヒストグラムは、データxにおけるラベルyの確率分布を示すものである。言い換えると、xおよびyは、確率分布P(x,y)からサンプリングされる確率変数である。
 ラベルヒストグラムは、複数人が独立してデータxにラベルyを付与することで作成される。データxにラベルyを付与する行為を、サンプリングという。
 図2は、一つのデータxに対して100人がサンプリングを行い、70人がラベル1、20人がラベル2、10人がラベル3を付与した例を示している。この場合、データxについてのラベルヒストグラムは[70,20,10]と表現される。
 ここで、ラベルヒストグラムを構成するためにラベルyが付与された回数を、サンプリング数という。また、各ラベルyの付与数を、投票数という。図2の例では、サンプリング数は100であり、ラベル1の投票数は70、ラベル2の投票数は20、ラベル3の投票数は10である。
 図1に示すように、ラベルヒストグラム作成装置1は、クラウドソーシング2を用いて、データセットXの各データxについて、ラベルヒストグラムを作成する。クラウドソーシング2は、インターネット上で不特定多数の作業員Opを募集し、タスクを依頼するシステムである。
 ラベルヒストグラム作成装置1は、ネットワークを介して、クラウドソーシング2に、サンプリング対象となるデータxの集合Tを出力する。
 クラウドソーシング2を介して依頼を受けた作業員Opは、集合Tの各データxについて、サンプリングを行う。クラウドソーシング2において、作業員Opの投票数が集計され、各データxについてラベルヒストグラムが作成される。クラウドソーシング2からラベルヒストグラム作成装置1に対して、集合Tの各データxについて作成されたラベルヒストグラムをまとめた、ラベルヒストグラムのセットLが入力される。
 ラベルヒストグラム作成装置1は、このように、クラウドソーシング2を用いて作成したラベルヒストグラムを正規化し、データセットXについての、正規化されたラベルヒストグラムのセットPを、最終的な成果物として外部に出力する。
 図3に示すように、ラベルヒストグラム作成装置1は、入力部11、出力部12、記憶部13、ラベルヒストグラム作成部14、情報エントロピー算出部15およびピックアップ部16を有する。
 入力部11および出力部12は、通信インタフェースおよび入出力インタフェース等から構成される。通信インタフェースは、通信ネットワークを介して、クラウドソーシング2等と情報の送受信を行う。入出力インタフェースは、不図示のキーボード等の入力装置やディスプレイ等の出力装置との間で情報の入出力を行う。
 記憶部13には、ラベルヒストグラム作成装置1の各機能部を実行させるためのプログラム(ラベルヒストグラム作成プログラム)や、各機能部の処理に必要な情報が記憶される。
 一例として、記憶部13には、外部から入力される、データセットXが格納される。また、記憶部13には、クラウドソーシング2から入力されるラベルヒストグラムのセットLが格納される。さらに、記憶部13には、後記する処理に用いられるパラメータ等が格納される。
 ラベルヒストグラム作成部14は、前記したようにクラウドソーシング2を用いてサンプリング処理を行うことで、ラベルヒストグラムのセットLを作成する。
 本実施形態では、ラベルヒストグラム作成部14は、クラウドソーシング2を用いたサンプリン処理を、複数回行う。
 ラベルヒストグラム作成部14は、各サンプリング処理において、集合Tおよびサンプリング数βを設定する。集合Tは、前記したように、サンプリング処理の対象となるデータxから構成される。サンプリング数βは、集合Tを構成する各データxのサンプリング数である。すなわち、ラベルヒストグラム作成部14は、各サンプリング処理において、サンプリング処理の対象となるデータxの集合Tを、サンプリング数βを指定して、クラウドソーシング2に出力する。ラベルヒストグラム作成部14は、クラウドソーシング2から、集合Tのサンプリング結果であるラベルヒストグラムのセットLが入力されると、記憶部13に格納させる。
 ラベルヒストグラム作成部14は、集合Tを構成するデータ数αと、各データxのサンプリング数βを、サンプリング処理ごとに変更する。
 具体的には、ラベルヒストグラム作成部14は、最初のサンプリング処理において、データセットXに含まれるN個のデータx全てについてサンプリング処理を行う。すなわち、最初のサンプリング処理において、データ数α=Nとなる。
 ラベルヒストグラム作成部14は、2回目のサンプリング処理において、集合Tに含めるデータ数αをN個から減少させつつ、各データxのサンプリング数βを、最初のサンプリング処理より増加させる。
 ラベルヒストグラム作成部14は、2回目以降のサンプリング処理を複数回行う場合は、前のサンプリング処理よりも集合Tのデータ数αを減少させつつ、各データxのサンプリング数βを前のサンプリング処理よりも増加させる。
 すなわち、ラベルヒストグラム作成部14は、サンプリング対象となるデータxを絞り込みながら、絞り込んだデータxについて重点的にサンプリングを行う。
 各サンプリング処理における、サンプリング対象のデータ数αおよび各データxのサンプリング数βは、例えば、ラベルヒストグラム作成装置1のオペレータによって設定され、パラメータとして記憶部13に格納される。2回目以降のサンプリング処理を行う回数Mも、同様にオペレータによって設定され、パラメータとして記憶部13に格納される。
 ラベルヒストグラム作成部14は、サンプリング処理が終了すると、記憶部13に格納されているラベルヒストグラムのセットLを正規化することで、データセットXについてのラベルヒストグラムのセットPを作成する。
 情報エントロピー算出部15およびピックアップ部16は、サンプリング対象となるデータxを絞り込むための処理を行う。
 情報エントロピー算出部15は、サンプリング処理によってラベルヒストグラムが作成されたデータxについて、ラベルヒストグラムが有する情報エントロピーHを算出する。
 情報エントロピーHは、ラベルヒストグラムが有する情報の不確かさを示すものである。ラベルヒストグラムが示す情報が不確かであるほど、そのラベルヒストグラムが有する情報量が大きいことを意味する。すなわち、情報エントロピーHが大きければ、ラベルヒストグラムが含む情報が多く、情報エントロピーHが小さければ、ラベルヒストグラムが含む情報が少ないことを意味する。
 情報エントロピー算出部15は、最初のサンプリング処理に際しては、データセットXを構成するN個のデータxのラベルヒストグラムのそれぞれについて、情報エントロピーHを算出する。
 情報エントロピー算出部15は、2回目以降のサンプリング処理においては、サンプリング対象となり、ラベルヒストグラムが作成されたデータxについてのみ、情報エントロピーHを算出する。
 ピックアップ部16は、各データxのラベルヒストグラムが有する情報の不確かさに基づいて、次のサンプリング処理の対象となるデータxのピックアップ処理を行う。
 ピックアップ部16は、具体的には、情報エントロピー算出部15が算出した、各データxのラベルヒストグラムの情報エントロピーHを参照し、情報エントロピーHが互いに分散したデータxをピックアップする。
 ピックアップ部16は、ピックアップしたデータxをまとめて、次のサンプリング処理の集合Tを設定する。
 ピックアップ部16がピックアップするデータxの数は、各サンプリング処理のパラメータとして設定されるサンプリング対象のデータ数αに一致する。
 すなわち、ピックアップ部16は、サンプリング処理を行うごとに、ピックアップするデータxの数を減少させる。
 ピックアップ部16のピックアップ処理の詳細については後述する。
 このように、本実施形態では、情報エントロピーHに基づいてサンプリング対象となるデータxを絞り込み、絞り込んだデータxについて重点的にサンプリングを行うことで、全体のサンプリング数を抑えつつ、最終的に作成されるラベルヒストグラムのセットPにおける、ラベルヒストグラムの多様性を高める。
 ラベルヒストグラム作成装置1が作成するラベルヒストグラムのセットは、例えば、機械学習により構築されるデータ分類器の性能評価に用いられる。ここで、セットを構成するラベルヒストグラムが多様であるほど、データ分類器の性能評価を精度よく行うことができる。例えば、セットを構成するラベルヒストグラムが、情報量が大きいもの、少ないもの、中程度のものがバランスよく混在しており、情報量の偏りが少ない場合に、ラベルヒストグラムが多様であると言うことができる。
 ラベルヒストグラムの多様性を高めるために、各データxのサンプリング数を増加させることが考えられる。ただし、データセットXに含まれるデータx全てのサンプリング数を単純に増加させても、ラベルヒストグラムの多様性を高めることができない場合がある。
 図4は、ラベルヒストグラムのセットの一例を示す図である。
 図5は、ラベルヒストグラムのセットの他の例を示す図である。
 図4は、データx1~x6の6個のデータから構成されるデータセットに対してサンプリングを行い、ラベルヒストグラムのセットL1を作成した例を示している。図5は、データx7~x12の6個のデータから構成されるデータセットに対してサンプリングを行い、ラベルヒストグラムのセットL2を作成した例を示している。なお、図4および図5の例は、サンプリング数を同じに設定している。
 例えば、図4のデータx1のラベルヒストグラムは、ラベル1に投票数が集中している。このようなラベルヒストグラムは、情報量が少ない、すなわち情報エントロピーHが小さいと言える。一方、図4のデータx4のラベルヒストグラムは、ラベル1、2、3のそれぞれに投票数がほぼ同数に分散している。このようなラベルヒストグラムは、情報量が多い、すなわち情報エントロピーHが大きいと言える。図4のデータx5のラベルヒストグラムは、ラベル3の投票数が比較的多いが、データx1のように1つのラベルに投票数が極端に集中していないため、中程度の情報量を有すると言える。
 このように、図4のセットL1では、データx1~x6のラベルヒストグラムが有する情報量の偏りが少なく、互いに分散しており、ラベルヒストグラムの多様性が比較的高いと言える。
 一方、図5では、データx12のラベルヒストグラムは、投票数がラベル1~3にある程度分散しているが、データx7~x11のラベルヒストグラムは、1つのラベルに投票数が集中している。すなわち、セットL2では、ラベルヒストグラムの情報量が少ないデータが大部分を占めており、ラベルヒストグラムが有する情報量の偏りが大きく、ラベルヒストグラムの多様性が比較的低いと言える。
 このように、図5のセットL2は、図4のセットL1と比較してラベルヒストグラムの多様性が低いが、セットL1と同じサンプリング数で作成しているため、クラウドソーシング2を利用するコストはセットL1と同じである。
 ここで、図5のセットL2の多様性を高めるために、投票数が1つのラベルに集中しているデータx7~x11のラベルヒストグラムの一部をセットL2から破棄することも考えられる。しかしながら、その場合は、破棄したラベルヒストグラムのサンプリングに要したコストが無駄になってしまう。すなわち、セットL2の作成に要した全体のコストに対して、最終的に出力されるセットL2に含まれるデータのサンプリング数が少なく、成果物がコストに見合わなくなる可能性がある。
 一方、本実施形態のラベルヒストグラム装置は、前記したように、情報エントロピーHに基づいてサンプリング対象となるデータxを絞り込み、絞り込んだデータxについてサンプリング数を増加させて重点的にサンプリングを行う。
 すなわち、ラベルヒストグラム作成部14は、最初のサンプリング処理では、データセットXに含まれるN個のデータxの全てにサンプリングを行うが、サンプリング数βは少なく設定される。
 そして、ピックアップ部16が、最初のサンプリング処理で得られたラベルヒストグラムから、情報エントロピーHに基づいて多様性の高い組み合わせのデータxをピックアップし、ピックアップしたデータxについて、サンプリング数βを増加させて2回目のサンプリング処理を行う。
 これによって、情報量が偏っており、サンプリング数を増加させても多様性を高めにくいデータxに対しては、サンプリング数が最低限に抑えられるため、コストを低減することができる。
 さらに、本実施形態は、2回目以降のサンプリング処理を複数回行う場合、サンプリング処理を行うごとに、次のサンプリング処理の対象となるデータ数αを減少させると共に、サンプリング数βを増加させる。これによって、本実施形態は、多様性の高い組み合わせのデータxをさらに絞り込んで重点的にサンプリングを行うことができる。
 本実施形態に係るラベルヒストグラム作成装置1の処理について、フローチャートを参照して説明する。
 図6は、ラベルヒストグラム作成装置の処理の流れを説明するフローチャートである。
 図7は、2回目以降のサンプリング処理の流れを説明するフローチャートである。
 図8は、ピックアップ処理の流れを説明するフローチャートである。
 図9は、データセットに含まれるデータの一例を示す図である。図9では、一例として、データセットに含まれる複数の画像データを、それぞれのラベルヒストグラムが有する情報エントロピーに従って配置している。
 図10は、ピンの配置の一例を示す図である。
 図11は、ピックアップされたデータの一例を示す図である。
 図6に示すように、ラベルヒストグラム作成装置1は、ラベルヒストグラムの作成対象となるデータセットXが入力されると(ステップS01:Yes)、処理を開始する。ラベルヒストグラム作成部14は、入力部11を介して入力されたデータセットXを、記憶部13に格納する。なお、ラベルヒストグラム作成装置1は、データセットXが入力されなければ(ステップS01:No)、入力されるまで待つ。
 入力されたデータセットXに応じて、ラベルヒストグラム作成装置1のオペレータにより、以下の通りパラメータが設定される。
Figure JPOXMLDOC01-appb-M000002
 上記のパラメータの設定によって、サンプリング処理を行うごとにサンプリング対象のデータ数αが減少し、各データxのサンプリング数βは増加する。
 ラベルヒストグラム作成部14は、サンプリング処理の対象となるデータxの集合Tを設定する(ステップS02)。
 最初のサンプリング処理において、集合Tには、以下に示すように、データセットXを構成するN個のデータxが全て含まれる。
Figure JPOXMLDOC01-appb-M000003
 ラベルヒストグラム作成部14は、クラウドソーシング2を用いて、集合Tについて最初のサンプリング処理を行い、ラベルヒストグラムのセットLを作成する(ステップS03)。
 具体的には、ラベルヒストグラム作成部14は、パラメータに基づいてサンプリング数βを設定し、データxの集合Tをクラウドソーシング2に出力する。
 クラウドソーシング2において、集合Tに含まれるデータxのそれぞれについて、サンプリング数βに対応する数の作業員Opによってサンプリングが行われる。
 作業員Opは、データxに対し、ラベルセットYに含まれるK種類のラベルyのいずれかを付与する。
 図9では、一例として、データセットXが、非特許文献1のMNISTにおいて提供される、手書き数字の画像データxから構成される例を示している。
 これらのデータxのそれぞれに対して、0~9の10種類のラベルのいずれかが付与される。例えば、最初のサンプリング数βが10と設定された場合、10人の作業員Opが、データxのそれぞれについてラベルyの付与を行う。
 クラウドソーシング2において、データxのそれぞれについて、各作業員Opが付与したラベルyの投票数を集計され、ラベルヒストグラムが作成される。
 集合Tに含まれるデータxiのラベルヒストグラムliは、以下の式(1)により表される。
Figure JPOXMLDOC01-appb-M000004
 ここで、クラウドソーシング2を用いて、一つのデータxiに対して複数の作業員Opがサンプリングを行う操作を関数とみなして、Samplingと表記する。
 この場合、データxiに対して、サンプリング数βで作成されたラベルヒストグラムliと、ラベルヒストグラムliの集合であるラベルヒストグラムのセットLとは、以下の式(2)および(3)により表すことができる。
Figure JPOXMLDOC01-appb-M000005
 例えば、図9のデータxaに対して、サンプリング数を10としてサンプリングを行った際に、7人が1に、3人が7に投票したとすると、画像データxaのラベルヒストグラムは[0,7,0,0,0,0,0,3,0,0]と表される。
 クラウドソーシング2は、集合Tについて作成したラベルヒストグラムのセットLを、ラベルヒストグラム作成装置1の入力部11に入力する。
 ラベルヒストグラム作成部14が、クラウドソーシング2から入力された集合TのラベルヒストグラムのセットLを記憶部13に格納することで、最初のサンプリング処理が完了する。
 図6に示すように、ラベルヒストグラム作成部14は、2回目以降のサンプリング処理の数kを1に設定する(ステップS04)。ここで、kは1~Mまでの自然数である。すなわち、ラベルヒストグラム作成部14は、2回目サンプリング処理の数kがMになるまで、サンプリング処理を繰り返す。
 ラベルヒストグラム作成部14は、2回目以降のサンプリング処理を行う(ステップS05)。
 ラベルヒストグラム作成部14は、2回目以降のサンプリング処理では、情報エントロピー算出部15およびピックアップ部16の処理によって絞り込まれたデータxを対象として、サンプリング処理を行う。
 図7に示すように、情報エントロピー算出部15は、最初のサンプリング処理で作成されたラベルヒストグラムのセットLを用いて、各データxiのラベルヒストグラムliが有する情報エントロピーHを算出する(ステップS51)。
 具体的には、情報エントロピー算出部15は、例えば、以下の方法で、ラベルヒストグラムliから情報エントロピーHを算出することができる。
Figure JPOXMLDOC01-appb-M000006
 なお、ラベルヒストグラムが有する情報の不確かさに関する関数Hは、情報エントロピーのみに限定されず、例えば、以下の式(9)または(10)により算出することができる。
Figure JPOXMLDOC01-appb-M000007
 ピックアップ部16は、次のサンプリング処理の対象となるデータxの集合T`を設定する(ステップS52)。
 ピックアップ部16は、以下に示すように、集合T`の最小値Aと最大値Bを設定する。ピックアップ部16は、具体的には、情報エントロピー算出部15によって算出されたデータxのそれぞれの情報エントロピーHの中から、最小値Aと最大値Bを抽出する。
Figure JPOXMLDOC01-appb-M000008
 図9の例では、データセットXに含まれる画像データxを、それぞれのラベルヒストグラムが有する情報エントロピーHの大きさに従って配置している。データXbの情報エントロピーHが最小値Aであり、データXcの情報エントロピーHが最大値Bである。すべてのデータxは、最小値Aと最大値Bの間の区間(B-A)内に位置している。図9から明らかなように、判別しやすい文字、すなわち分類の難易度が低い文字の画像データxは情報エントロピーHが小さい。判別しにくい文字、すなわち、分類の難易度が高い文字の画像データxは、情報エントロピーHが大きい。
 図7に示すように、ピックアップ部16は、集合T`に次のサンプリング処理の対象となるデータxをピックアップする、ピックアップ処理を行う(ステップS53)。
 図9に例示したように、データxは、区間(B-A)内で均一に分散しているわけではなく、最小値A側、中央付近、最大値B側にそれぞれ偏って位置している。ピックアップ部16は、これらのデータxの中から、情報エントロピーHが互いに分散したデータの組み合わせをピックアップする。
 図10に示すように、ピックアップ部16は、区間(B-A)を等間隔に区分し、各区分の境界となる位置に、ピンuを配置する。ピンuを配置する位置には、最小値Aおよび最大値Bも含まれる。ピンuを配置する数は、次のサンプリング処理の対象となるデータ数αと一致する。例えば、α=9であれば、ピックアップ部16は、区間(B-A)を8等分して、9本のピンuを配置する。
 ピックアップ部16は、更に、各ピンuに対して最も近い情報エントロピーHを有するデータxを順次ピックアップして、集合T`に追加する。
 図11に示すように、ピックアップ処理によって、最小値Aおよび最大値Bを有するデータxb、xcを含めた9つのデータxが、集合T`にピックアップされる。ピックアップされたデータxは、情報エントロピーHの偏りが比較的少なく、分類の難易度が低いもの、中程度のもの、高いものがバランスよく組み合わされている。
 すなわち、図9に示すような、情報エントロピーHに偏りがあるデータセットXに対しても、本実施形態のピックアップ処理によって、図11に示すように、情報エントロピーHが互いに分散した、ラベルヒストグラムの多様性の高いデータxの組み合わせを得ることができる。
 具体的には、図8に示すように、ピックアップ部16は、集合T`へのデータxのピックアップ数r=1に設定する(ステップS531)。ここで、rは、1~αkの自然数である。αkは、パラメータで設定された、次のサンプリング処理の対象となるデータ数である。
 ピックアップ部16は、以下の式(11)を用いて、ピンuの位置を決定する(ステップS532)。
Figure JPOXMLDOC01-appb-M000009
 上記式(11)により、ピンuの位置が、最小値A側から、すなわち、情報エントロピーHが少ない方から、順に決定される。
 すなわち、1回目のピックアップにおいて、ピンuは最小値Aに決定され、αk回目のピックアップにおいて、ピンuは最大値Bに決定される。
 ピックアップ部16は、決定したピンuに最も近い情報エントロピーHを有するデータtを、集合T`にピックアップする(ステップS533)。
 ピックアップ部16は、例えば、以下の式(12)を用いて、ピンuに最も近い情報エントロピーHを有するデータtを特定する。
Figure JPOXMLDOC01-appb-M000010
 ピックアップ部16は、さらに、以下の式(13)を用いて、データtを新たな集合T`に含め、元の集合Tから除外する。
Figure JPOXMLDOC01-appb-M000011
 ピックアップ部16は、ピックアップ数r=αkでなければ(ステップS534:No)、r=r+1として(ステップS535)、ステップS532~S533に戻り、次のピンuを決定し、ピンuに最も近いデータtを順次集合T`にピックアップする。
 ピックアップ部16は、ピックアップ数r=αkであれば(ステップS534:Yes)、ピックアップ処理を終了する。
 図7に戻り、ピックアップ部16は、ピックアップされたデータtから構成される集合T`を、元の集合Tに対して上書きする(ステップS54)。これによって、集合Tは、次のサンプリング処理の対象となるデータxのみから構成されたものに更新される。
 ラベルヒストグラム作成部14は、クラウドソーシング2を用いて、新たに設定した集合Tについてサンプリング処理を行う(ステップS55)。
 具体的には、ラベルヒストグラム作成部14は、サンプリング数βkを設定して、集合Tに含まれるデータxをクラウドソーシング2に出力する。ここで、ラベルヒストグラム作成部14は、サンプリング数βkを、設定されたパラメータに基づいて、最初のサンプリング処理におけるサンプリング数βより増加させる。
 前記したように、ピックアップ処理で更新された集合Tには、ラベルヒストグラムの多様性が高いデータxの組み合わせが含まれている。この組み合わせについてサンプリング数βkを増加させることで、これらのデータxのラベルヒストグラムの多様性をさらに高めることができる。
 クラウドソーシング2において、2回目のサンプリング処理の対象となったデータxiについて、最初のサンプリング処理と同様にサンプリングを行うことで、ラベルヒストグラムが作成され、ラベルヒストグラム作成装置1の入力部11に入力される。
 なお、記憶部13には、最初のサンプリング処理で作成されたデータxiについてのラベルヒストグラムliが格納されている。
 ラベルヒストグラム作成部14は、以下の式(14)に示すように、最初のサンプリング処理で作成されたデータxiのラベルヒストグラムliに、2回目のサンプリング処理で作成されたラベルヒストグラムを追加して格納する。
Figure JPOXMLDOC01-appb-M000012
 図6に示すように、ラベルヒストグラム作成部14は、2回目以降のサンプリング処理の数k=Mでなければ(ステップS06:No)、k=k+1として(ステップS07)、ステップS05に戻り、更なるサンプリング処理を行う。
 サンプリング処理を行うごとに、情報エントロピー算出部15およびピックアップ部16のピックアップ処理によって、次のサンプリング処理の対象となるデータ数αkが、前のサンプリング処理よりも絞り込まれる。ラベルヒストグラム作成部14は、絞り込まれたデータxに対して、サンプリング数βkを前のサンプリング処理よりも増加させてサンプリングを行う。
 一例として、ラベルヒストグラム作成装置1は、以下のように処理を行うことができる。
 例えば、10000個のデータxから構成されるデータセットXが入力された場合、ラベルヒストグラム作成部14は、最初のサンプリング処理において、10000個のデータxについて、各データxのサンプリング数βを10に設定してサンプリングを行う。
 ピックアップ部16は、10000個のデータxのラベルヒストグラムを用いたピックアップ処理を行って、次のサンプリング対象のデータ数αを1000個に絞り込む。
 2回目のピックアップ処理において、ラベルヒストグラム作成部14は、1000個のデータxについて、各データxのサンプリング数βを90に増加させてサンプリングを行う。
 ピックアップ部16は、1000個のデータxのラベルヒストグラムを用いたピックアップ処理を行って、次のサンプリング対象のデータ数αを200個に絞り込む。
 ラベルヒストグラム作成部14は、200個のデータxについて、各データxのサンプリング数βを9900に増加させてサンプリングを行う。
 このように、データxの絞り込みとサンプリング数βの増加を繰り返すことで、ラベルヒストグラムの多様性が高いデータxの組み合わせについて、重点的にサンプリング処理が行われるため、データセットX全体でのサンプリング数を抑えながらも、データセットXから、多様性の高いラベルヒストグラムのセットLを作成することができる。
 図6に示すように、2回目以降のサンプリング処理の数k=Mとなった場合(ステップS06:Yes)、ラベルヒストグラム作成部14は、サンプリング処理を終了する。ラベルヒストグラム作成部14は、記憶部13に格納されたデータセットXに含まれるデータxのラベルヒストグラムliを、以下の式(15)により正規化して、データセットXについてのラベルヒストグラムのセットPを作成する(ステップS07)。
Figure JPOXMLDOC01-appb-M000013
 ラベルヒストグラム作成部14は、正規化されたデータセットXについてのラベルヒストグラムのセットPを、出力部12を介して外部に出力し(ステップS08)、処理を終了する。
<ハードウェア構成>
 本実施形態に係るラベルヒストグラム作成装置1は、例えば図12に示すようなコンピュータ900によって実現される。
 図12は、本実施形態に係るラベルヒストグラム作成装置1の機能を実現するコンピュータ900の一例を示すハードウェア構成図である。
 コンピュータ900は、CPU(Central Processing Unit)901、ROM(Read Only Memory)902、RAM(Random Access Memory)903、HDD(Hard Disk Drive)904、入出力I/F(Interface)905、通信I/F906およびメディアI/F907を有する。
 CPU901は、ROM902またはHDD904に記憶されたプログラム(ラベルヒストグラム作成プログラム)に基づき作動し、図2に示すラベルヒストグラム作成装置1の各機能部の処理を行う。ROM902は、コンピュータ900の起動時にCPU901により実行されるブートプログラムや、コンピュータ900のハードウェアに係るプログラム等を記憶する。
 CPU901は、入出力I/F905を介して、マウスやキーボード等の入力装置910、および、ディスプレイ等の出力装置911を制御する。CPU901は、入出力I/F905を介して、入力装置910からデータを取得するとともに、生成したデータを出力装置911へ出力する。なお、プロセッサとしてCPU901とともに、GPU(Graphics Processing Unit)等を用いても良い。
 HDD904は、CPU901により実行されるプログラムおよび当該プログラムによって使用されるデータ等を記憶する。通信I/F906は、通信網(例えば、NW(Network)920)を介してクラウドソーシング2(図1参照)や他の装置からデータを受信してCPU901へ出力し、また、CPU901が生成したデータを送信する。
 メディアI/F907は、記録媒体912に格納されたプログラムまたはデータを読み取り、RAM903を介してCPU901へ出力する。CPU901は、目的の処理に係るプログラムを、メディアI/F907を介して記録媒体912からRAM903上にロードし、ロードしたプログラムを実行する。記録媒体912は、DVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto Optical disk)等の光磁気記録媒体、磁気記録媒体、導体メモリテープ媒体又は半導体メモリ等である。
 例えば、コンピュータ900が本実施形態に係るラベルヒストグラム作成装置1として機能する場合、コンピュータ900のCPU901は、RAM903上にロードされたプログラムを実行することによりラベルヒストグラム作成装置1の機能を実現する。また、HDD904には、RAM903内のデータが記憶される。CPU901は、目的の処理に係るプログラムを記録媒体912から読み取って実行する。この他、CPU901は、他の装置から通信網(NW920)を介して目的の処理に係るプログラムを読み込んでもよい。
<上記実施形態の構成とその作用効果>
(1)ラベルヒストグラム作成装置1は、クラウドソーシング2を用いて、データxを分類するラベルyを付与するサンプリング処理を行うことで、データxにおけるラベルyの確率分布を示すラベルヒストグラムを作成する。クラウドソーシング2は、インターネット上で募集した不特定多数の作業員Opにより、ラベルヒストグラム作成装置1から依頼されたサンプリング処理を行うシステムである。
 ラベルヒストグラム作成装置1は、ラベルヒストグラム作成部14と、ピックアップ部16と、を有する。
 ラベルヒストグラム作成部14は、N個(複数)のデータxから構成されるデータセットXに対して、各データxのサンプリング数βを設定し、クラウドソーシング2を用いて最初のサンプリング処理を行い、ラベルヒストグラムのセットLを作成する。
 ピックアップ部16は、データセットXから、ラベルヒストグラムが有する情報の不確かさに基づいて、2回目のサンプリング処理の対象となるデータxのピックアップ処理を行う。
 ラベルヒストグラム作成部14は、ピックアップ部16がピックアップしたデータxに対して、サンプリング数βを最初のサンプリング処理より増加させ、クラウドソーシング2を用いて2回目のサンプリング処理を行う。
 このような構成により、ラベルヒストグラム作成装置1は、コストを低減しつつ多様性の高いラベルヒストグラムのセットLを作成することができる。
 具体的には、ピックアップ部16が、ラベルヒストグラムが有する情報の不確かさ(例:情報エントロピーH)を基準としてピックアップ処理を行うことで、次のサンプリング処理の対象を、ラベルヒストグラムが有する情報量の偏りが少ない、多様性の高いデータxの組み合わせに絞り込むことができる。絞り込んだデータxに対してサンプリング数βを増加させてサンプリング処理を行うことで、それらのデータxのラベルヒストグラムの多様性をさらに高めることができる。
 さらに、データセットXの全てのデータxについてサンプリングを行う最初のサンプリング処理では、サンプリング数βを低く設定することができるため、全体のサンプリング数を抑えて、クラウドソーシング2を利用するコストを低減することができる。
(2)ラベルヒストグラム作成部14は、最初のサンプリング処理の後に、クラウドソーシング2を用いてサンプリング処理をM回(複数回)行う。
 ピックアップ部16は、サンプリング処理が行われるごとに、前のサンプリング処理よりもピックアップ数を減少させながら、次のサンプリング処理の対象となるデータxのピックアップ処理を行う。
 ラベルヒストグラム作成部14は、ピックアップ部16がピックアップしたデータxに対して、前のサンプリング処理よりもサンプリング数βを増加させて、次のサンプリング処理を行う。
 サンプリング数βを増加させるほどラベルヒストグラムの多様性が高くなる一方、クラウドソーシング2を利用するコストも増加する。そこで、本実施形態のラベルヒストグラム作成装置1は、サンプリング処理を行うごとにサンプリング対象のデータ数αをさらに絞り込みつつ、各データxのサンプリング数βを段階的に増加させる。これによって、コストの増加を低減しつつ多様性の高いデータxの組み合わせについて重点的にサンプリングを行い、さらに多様性を高めることができる。
(3)ラベルヒストグラム作成装置1は、情報エントロピー算出部15を有する。
 情報エントロピー算出部15は、サンプリング処理によってラベルヒストグラムが作成されたデータxについて、ラベルヒストグラムが有する情報エントロピーHを算出する。
 ラベルヒストグラムが有する情報の不確かさを示す情報エントロピーHを算出することで、ピックアップ部16は、情報エントロピーHを基準としてデータxの絞り込みを行うことができる。これにより、ピックアップ部16は、ラベルヒストグラムの多様性が高いデータxの組み合わせを選択することができる。
(4)ピックアップ部16は、ピックアップ処理として、情報エントロピーHが互いに分散したデータxをピックアップする。
 ピックアップ部16が、情報エントロピーHが互いに分散したデータxをピックアップすることで、次のサンプリング対象として、情報エントロピーHの偏りが少なく、多様性の高いデータxの組み合わせを選択することができる。
(5)ピックアップ部16は、ピックアップ処理として、情報エントロピーHの最小値Aと最大値Bの間の区間(B-A)を、ピックアップするデータxの数に応じて区分し、各区分の境界位置を示すピンuに最も近い情報エントロピーHを有するデータxをピックアップする。
 これにより、ピックアップ部16は、次のサンプリング処理の対象となるデータ数αに応じて、情報エントロピーHが互いに分散したバランスの良い組み合わせのデータxをピックアップすることができる。ピックアップ部16は、例えば、区間(B-A)を等間隔で区分してピンuを配置することで、さらにバランスの良い組み合わせのデータxをピックアップすることができる。
 上記した効果は、ラベルヒストグラム作成装置1が実施するラベルヒストグラム作成方法と、コンピュータ900をラベルヒストグラム作成装置1として機能させるためのラベルヒストグラム作成プログラムにも適用することができる。
 なお、本発明は、以上説明した実施形態に限定されるものではなく、多くの変形が本発明の技術的思想内で当分野において通常の知識を有する者により可能である。
 1   ラベルヒストグラム作成装置
 2   クラウドソーシング
 11  入力部
 12  出力部
 13  記憶部
 14  ラベルヒストグラム作成部
 15  情報エントロピー算出部
 16  ピックアップ部
 100 ラベルヒストグラム作成システム
 Op  作業員

Claims (7)

  1.  クラウドソーシングを用いて、データを分類するラベルを付与するサンプリング処理を行うことで、前記データにおける前記ラベルの確率分布を示すラベルヒストグラムを作成するラベルヒストグラム作成装置であって、
     複数のデータから構成されるデータセットに対して、各データのサンプリング数を設定し、前記クラウドソーシングを用いて最初のサンプリング処理を行い、ラベルヒストグラムのセットを作成するラベルヒストグラム作成部と、
     前記データセットから、前記ラベルヒストグラムが有する情報の不確かさに基づいて、2回目のサンプリング処理の対象となるデータのピックアップ処理を行うピックアップ部と、を有し、
     前記ラベルヒストグラム作成部は、前記ピックアップ部がピックアップしたデータに対して、前記サンプリング数を前記最初のサンプリング処理より増加させ、前記クラウドソーシングを用いて2回目のサンプリング処理を行うことを特徴とする、ラベルヒストグラム作成装置。
  2.  前記ラベルヒストグラム作成部は、前記最初のサンプリング処理の後に、前記クラウドソーシングを用いてサンプリング処理を複数回行い、
     前記ピックアップ部は、前記サンプリング処理が行われるごとに、前のサンプリング処理よりもピックアップ数を減少させながら、次のサンプリング処理の対象となるデータのピックアップ処理を行い、
     前記ラベルヒストグラム作成部は、前記ピックアップ部がピックアップしたデータに対して、前のサンプリング処理よりも前記サンプリング数を増加させて、次のサンプリング処理を行うことを特徴とする請求項1に記載のラベルヒストグラム作成装置。
  3.  前記サンプリング処理によって前記ラベルヒストグラムが作成されたデータについて、前記ラベルヒストグラムが有する情報エントロピーを算出する、情報エントロピー算出部を有することを特徴とする、請求項1または請求項2に記載のラベルヒストグラム作成装置。
  4.  前記ピックアップ部は、前記ピックアップ処理として、前記情報エントロピーが互いに分散したデータをピックアップすることを特徴とする、請求項3に記載のラベルヒストグラム作成装置。
  5.  前記ピックアップ部は、前記ピックアップ処理として、前記情報エントロピーの最小値と最大値の間の区間を、ピックアップするデータの数に応じて区分し、各区分の境界位置に最も近い情報エントロピーを有するデータをピックアップすることを特徴とする、請求項4に記載のラベルヒストグラム作成装置。
  6.  クラウドソーシングを用いて、データを分類するラベルを付与するサンプリング処理を行うことで、前記データにおける前記ラベルの確率分布を示すラベルヒストグラムを作成するラベルヒストグラム作成装置のラベルヒストグラム作成方法であって、
     前記ラベルヒストグラム作成装置は、
     複数のデータから構成されるデータセットに対して、各データのサンプリング数を設定し、前記クラウドソーシングを用いて最初のサンプリング処理を行い、
     前記データセットから、前記ラベルヒストグラムが有する情報の不確かさに基づいて、2回目のサンプリング処理の対象となるデータのピックアップ処理を行い、
     前記ピックアップ処理によりピックアップしたデータに対して、前記サンプリング数を、前記最初のサンプリング処理より増加させ、前記クラウドソーシングを用いて2回目のサンプリング処理を行うことを特徴とする、ラベルヒストグラム作成方法。
  7.  コンピュータを、請求項1または請求項2に記載のラベルヒストグラム作成装置として機能させるためのラベルヒストグラム作成プログラム。
PCT/JP2022/020726 2022-05-18 2022-05-18 ラベルヒストグラム作成装置、ラベルヒストグラム作成方法およびラベルヒストグラム作成プログラム WO2023223477A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/020726 WO2023223477A1 (ja) 2022-05-18 2022-05-18 ラベルヒストグラム作成装置、ラベルヒストグラム作成方法およびラベルヒストグラム作成プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/020726 WO2023223477A1 (ja) 2022-05-18 2022-05-18 ラベルヒストグラム作成装置、ラベルヒストグラム作成方法およびラベルヒストグラム作成プログラム

Publications (1)

Publication Number Publication Date
WO2023223477A1 true WO2023223477A1 (ja) 2023-11-23

Family

ID=88834906

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/020726 WO2023223477A1 (ja) 2022-05-18 2022-05-18 ラベルヒストグラム作成装置、ラベルヒストグラム作成方法およびラベルヒストグラム作成プログラム

Country Status (1)

Country Link
WO (1) WO2023223477A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130097103A1 (en) * 2011-10-14 2013-04-18 International Business Machines Corporation Techniques for Generating Balanced and Class-Independent Training Data From Unlabeled Data Set
US20140222747A1 (en) * 2013-02-03 2014-08-07 Microsoft Corporation Learning with noisy labels from multiple judges
US20190325267A1 (en) * 2018-04-20 2019-10-24 Sas Institute Inc. Machine learning predictive labeling system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130097103A1 (en) * 2011-10-14 2013-04-18 International Business Machines Corporation Techniques for Generating Balanced and Class-Independent Training Data From Unlabeled Data Set
US20140222747A1 (en) * 2013-02-03 2014-08-07 Microsoft Corporation Learning with noisy labels from multiple judges
US20190325267A1 (en) * 2018-04-20 2019-10-24 Sas Institute Inc. Machine learning predictive labeling system

Similar Documents

Publication Publication Date Title
Li et al. Overcoming classifier imbalance for long-tail object detection with balanced group softmax
Kalash et al. Malware classification with deep convolutional neural networks
AU2011200343B2 (en) Image identification information adding program, image identification information adding apparatus and image identification information adding method
Mallik et al. ConRec: malware classification using convolutional recurrence
Mehta et al. Music genre classification using transfer learning on log-based mel spectrogram
US20200042419A1 (en) System and method for benchmarking ai hardware using synthetic ai model
Farid et al. Assigning weights to training instances increases classification accuracy
Gómez-Sirvent et al. Optimal feature selection for defect classification in semiconductor wafers
Bhosle et al. Mammogram classification using AdaBoost with RBFSVM and Hybrid KNN–RBFSVM as base estimator by adaptively adjusting γ and C value
Carcillo et al. An assessment of streaming active learning strategies for real-life credit card fraud detection
WO2023223477A1 (ja) ラベルヒストグラム作成装置、ラベルヒストグラム作成方法およびラベルヒストグラム作成プログラム
WO2021007999A1 (zh) 视频帧处理方法及装置
Abdu-Aguye et al. Novel approaches to activity recognition based on vector autoregression and wavelet transforms
Patel et al. Recognition of Pistachio Species with Transfer Learning Models
Brecheisen et al. Hierarchical genre classification for large music collections
US20210042550A1 (en) Information processing device, information processing method, and computer-readable recording medium recording information processing program
JP2014115920A (ja) 多クラス識別器、方法、及びプログラム
Pighetti et al. Improving SVM training sample selection using multi-objective evolutionary algorithm and LSH
Wang et al. Feature selection for MAUC-oriented classification systems
Pattem et al. Identification of duplicate parts of hyper spectral images based on fuzzy by dimensionality reduction techniques
Gupta Feature selection and analysis for standard machine learning classification of audio beehive samples
Rathnayake et al. An efficient approach for age-wise rice seeds classification using SURF-BOF with modified cascaded-ANFIS algorithm
Alam et al. SREMIC: Spatial Relation Extraction-based Malware Image Classification
Holewik et al. Ensemble classifiers for pulsar detection
Ajilisa et al. A Novel Clustering Based Undersampling Algorithm for Imbalanced Data Sets Using Artificial Bee Colony Algorithm

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22942682

Country of ref document: EP

Kind code of ref document: A1