WO2023181228A1 - 二項分類装置及び二項分類装置のアノテーション補正方法 - Google Patents

二項分類装置及び二項分類装置のアノテーション補正方法 Download PDF

Info

Publication number
WO2023181228A1
WO2023181228A1 PCT/JP2022/013784 JP2022013784W WO2023181228A1 WO 2023181228 A1 WO2023181228 A1 WO 2023181228A1 JP 2022013784 W JP2022013784 W JP 2022013784W WO 2023181228 A1 WO2023181228 A1 WO 2023181228A1
Authority
WO
WIPO (PCT)
Prior art keywords
reliability
histogram
annotator
distribution
corrected
Prior art date
Application number
PCT/JP2022/013784
Other languages
English (en)
French (fr)
Inventor
竜馬 谷▲高▼
Original Assignee
三菱電機株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 三菱電機株式会社 filed Critical 三菱電機株式会社
Priority to JP2023577545A priority Critical patent/JP7466808B2/ja
Priority to PCT/JP2022/013784 priority patent/WO2023181228A1/ja
Publication of WO2023181228A1 publication Critical patent/WO2023181228A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]

Definitions

  • the technology disclosed herein relates to a binary classification device and an annotation correction method for the binary classification device.
  • the problem addressed by the technology of the present disclosure is a classification problem in learning, particularly a problem called binary classification or two-class classification.
  • Non-Patent Document 1 poses the problem of how to find the identification boundary when only samples belonging to one of two classes are given, and discloses a solution. .
  • the problem is that the learning dataset obtained through annotation lacks overall uniformity due to the biases (tendencies, biases, and preconceptions) of each annotator. arise.
  • the disclosed technology aims to solve the above-mentioned problems and provide a binary classification device that can perform learning based on a uniform learning data set as a whole.
  • the binary classification device includes, for each annotator, a confidence level assignment distribution generation unit that calculates a confidence level assignment histogram for the confidence level assigned by the annotator, and a confidence level assignment distribution generation unit that calculates a confidence level assignment histogram for the confidence level assigned by the annotator, and a confidence level assignment distribution generation unit that calculates a confidence level assignment histogram for each annotator.
  • a bias correction unit that corrects the histogram into a corrected reliability assigned histogram having the same characteristics as the reference reliability assigned distribution, and a corrected reliability output unit that corrects the reliability assigned by the annotator based on the corrected reliability assigned histogram.
  • the binary classification device can perform learning based on the learning data set in which the annotator bias has been corrected.
  • FIG. 1 is a first diagram showing the concept of binary classification performed by a binary classification device according to the disclosed technology.
  • FIG. 2 is a second diagram showing the concept of binary classification performed by the binary classification device according to the disclosed technology.
  • FIG. 3 is a third diagram showing the concept of binary classification performed by the binary classification device according to the disclosed technique.
  • FIG. 4 shows an example in which an annotator's bias is modeled by the statistical distribution of the reliability assigned by the annotator.
  • FIG. 5 is a block diagram showing the functional configuration of the binary classification device according to the first embodiment.
  • FIG. 6 is a diagram illustrating how the annotator's bias is corrected based on the reference reliability assignment distribution.
  • FIG. 7 is a flowchart showing processing steps of the binary classification device according to the first embodiment.
  • FIG. 8 is a block diagram showing the hardware configuration of the binary classification device according to the first embodiment.
  • the binary classification device can be used in situations where artificial intelligence is made to learn and score events that are difficult to objectively score. More specifically, the disclosed technology can be used to generate a training data set necessary for artificial intelligence learning. The disclosed technology is particularly effective in situations where a large number of annotators share and annotate a learning data set.
  • the scenario assumed by the disclosed technology is, for example, a task in which an operator drops and deletes a location that the operator determines to be an erroneous track in a radar PPI scope (Plan Position Indicator Scope).
  • FIG. 1 is a first diagram showing the concept of binary classification performed by a binary classification device according to the disclosed technology.
  • the problem addressed by the disclosed technique is a classification problem in learning, and in particular deals with two exclusive classes.
  • the term "exclusive” here means that samples belonging to two classes at the same time are not allowed.
  • the two classes are a group displayed as “erroneous track data (positive example)” and a group displayed as “target data (negative example).”
  • “correct example” is displayed in "erroneous track data” because it is assumed that the operator drops a location corresponding to an incorrect track.
  • FIG. 1 shows the feature space as a whole. A plurality of plots indicated by circles in FIG. 1 are samples in the feature space.
  • the line segment marked with "discrimination boundary" is the solution to the classification problem in learning.
  • a support vector machine is known as a method for finding solutions to classification problems.
  • FIG. 2 is a second diagram showing the concept of binary classification performed by the binary classification device according to the disclosed technique. Unlike the example shown in Fig. 1, in the example shown in Fig. 2, only samples of the group displayed as "wrong track data (positive example)", which is one of the two classes, are recorded in the feature space. There is. As shown in FIG. 2, even if only samples belonging to one of two classes are given, there may be a situation in which a discrimination boundary must be determined. In such a situation, there is a concept of determining the discrimination boundary based on the "confidence level" of each sample. Figure 2 shows the prediction principle that the discrimination boundary should exist on the far side from samples with high confidence.
  • the given samples are considered to belong to one class, and it is possible that some of them belong to the other class. This is also illustrated by the fact that most of the samples exist on the left side of the identification boundary in FIG. 2, but one sample with low reliability exists on the right side of the identification boundary.
  • the work of attaching correct labels to data is called annotation.
  • the person or device that performs the annotation is called an annotator.
  • the annotation turns the data into training data.
  • the "reliability" of the sample shown in FIG. 2 may be determined subjectively by a human annotator.
  • bias used here is used in the dictionary meaning, such as tendency, deflection, bias, bias in data, etc., and in the electrical sense, such as DC bias, bias voltage, etc. do not have. Further, the term “bias” does not mean a y-intercept derived from a DC bias or the like.
  • the label may include the class to which the sample is considered to belong as well as the confidence level assigned by the annotator. .
  • FIG. 3 is a third diagram showing the concept of binary classification performed by the binary classification device according to the disclosed technique.
  • FIG. 3 shows a situation in which one data set consisting of eight sample data is annotated by two annotators.
  • the upper left of FIG. 3 shows the annotation result by annotator A, one of the two annotators. If we apply a rule that divides confidence into three levels of high, medium, and low, and sets an identification boundary between medium and low confidence levels, in the annotation by annotator A, the identification boundary will be at the top left and bottom right. It is built to connect.
  • the upper right corner of FIG. 3 shows the annotation result by annotator B, the other of the two annotators.
  • the identification boundary is on the left side of the whole image and is built almost vertically with respect to the diagram. .
  • the lower center of FIG. 3 shows the results of annotation performed by annotator A and annotator B.
  • the samples assigned to annotator A are the four samples circled in the upper left of FIG.
  • the samples assigned to annotator B are the four samples circled in the upper right corner of FIG.
  • the identification boundary can no longer be built with linear line segments, but only with nonlinear curves. .
  • Such a nonlinear classification surface can only be created by relying on a solution using a nonlinear support vector machine, for example.
  • classification may only be possible on a nonlinear classification surface.
  • consideration is given to increasing the number of dimensions of the feature amount. If it is not possible to increase the number of dimensions of the feature amount beyond the current number, a nonlinear classification surface may be obtained, for example, based on a solution using a nonlinear support vector machine.
  • FIG. 4 shows an example in which annotator bias and the like are modeled based on the statistical distribution of reliability assigned by the annotator.
  • the four graphs shown in FIG. 4 graphically illustrate the biases of four annotators (annotator A, annotator B, annotator C, and annotator D).
  • the four graphs shown in FIG. 4 are histograms in which the horizontal axis represents the degree of reliability and the vertical axis represents the frequency. In the histogram, the horizontal axis is called a class (also called an interval, category, or bin), and the vertical axis is called a frequency.
  • the upper left graph in FIG. 4 is a histogram showing the bias of annotator A. As shown in this histogram, it can be seen that annotator A has a bias in the way he assigns reliability, with a tendency to polarize as there are low and high frequency peaks. When the biases of people who tend to want to see things clearly in black and white are expressed in a graph, it can be expected that the characteristics will be similar to the graph in the upper left of FIG.
  • the upper right graph in FIG. 4 is a histogram showing the bias of annotator B. As shown in this histogram, annotator B has a gentle peak at a slightly higher position in the center in the way he assigns reliability, and it can be seen that he is biased toward a normal distribution.
  • the lower left graph in FIG. 4 is a histogram showing the bias of annotator C. As shown in this histogram, it can be read that annotator C has an overall weight on the higher side in the way of assigning reliability, and in the class with the highest reliability, the number of times of giving is the highest.
  • the lower right graph in FIG. 4 is a histogram showing the bias of annotator D.
  • Annotator D's bias is also different from other annotators (A, B, and C). In this way, various annotator biases can be considered.
  • FIG. 5 is a block diagram showing the functional configuration of the binary classification device according to the first embodiment.
  • the binary classification device according to the first embodiment includes a data acquisition unit 20, a reliability annotation unit 21, a reliability assignment distribution generation unit 22, a bias correction unit 23, and a corrected reliability It includes an output section 24, a reference reliability assignment distribution output section 30, and a reference reliability assignment distribution input section 31.
  • the data acquisition unit 20 is a component for acquiring data of an observation target.
  • the reliability annotation unit 21 is a component that supports inputting into the binary classification device the confidence level that an annotator subjectively considers as to how likely it is that the sample belongs to the target class for each sample. It is.
  • the reliability annotation unit 21 performs processing such as, for example, displaying a sample such as image data in one place on the display, and displaying a window in another place on the display for inputting the reliability considered by the annotator. That's fine.
  • the reliability input by the annotator may be text information such as "high”, “medium”, “low”, etc., but ultimately it needs to be converted into a score. In this specification, reliability is scored as a real number greater than or equal to 0 and less than or equal to 1.
  • the reliability annotation unit 21 may support the annotator to directly input a real number between 0 and 1 as the reliability.
  • the confidence level assignment distribution generation unit 22 is a component for calculating, for each annotator, a distribution of confidence levels assigned by the annotators (hereinafter referred to as "confidence level assignment distribution (p g )").
  • a confidence rating histogram (H g ) is a histogram of the reliability rating distribution (p g ).
  • the reliability assignment distribution generation unit 22 calculates a reliability assignment histogram (H g ) of the reliability assigned by the annotator.
  • the bin width of the confidence rating histogram (H g ) may be determined as appropriate depending on the purpose of use of the binary classification device.
  • the bias correction unit 23 is a component for correcting the annotator's bias based on a reference reliability assignment distribution (p r ) described later. More specifically, the bias correction unit 23 converts the reliability histogram (H g ) into a corrected reliability having the same characteristics as the reference reliability assignment distribution ( pr ) based on the reference reliability assignment distribution (pr ). Correct the given histogram (H G ).
  • the reference reliability assignment distribution (p r ) it is desirable to use a reliability assignment distribution generated from a distribution of results assigned by a highly skilled annotator (hereinafter referred to as "assignment distribution").
  • the reference reliability assignment distribution (p r ) is an assignment distribution of the reliability assigned by an annotator selected based on the level of proficiency.
  • the reference reliability distribution (p r ) may be a continuous probability distribution such as a beta distribution. Note that the subscript r in P r representing the reference reliability distribution (p r ) is derived from the initial letter of the English word reference, which means standard.
  • the technology disclosed herein uses statistical indicators in order to eliminate the bias of annotators, that is, graders. For example, the concept of adjusting scoring disparities using standard deviations adopted in essay-type tests for national qualification examinations. Similar to However, employing the reliability assignment distribution generated by the assignment results of a highly skilled annotator as the reference reliability assignment distribution (p r ) is a technique unique to the technology of the present disclosure.
  • the corrected reliability output unit 24 is a component for correcting the reliability input by the annotator based on the correction result of the bias correction unit 23 and outputting the corrected reliability.
  • the reliability is corrected by referring to a corrected reliability histogram (H G ) described later.
  • the reference reliability distribution output unit 30 is a component for outputting the reference reliability distribution (p r ) to an external storage device.
  • the reference reliability assignment distribution input unit 31 is a component for acquiring the reference reliability assignment distribution (p r ) stored in an external storage device from the external storage device. Note that the reference reliability assignment distribution output unit 30 and the reference reliability assignment distribution input unit 31 store the reference reliability assignment distribution (p r ) themselves. It may also function as a storage device for storing data.
  • FIG. 6 is a diagram illustrating how the annotator's bias is corrected based on the reference reliability assignment distribution (p r ).
  • the upper left graph in FIG. 6 represents the reliability assignment distribution (p g ) of the annotators to be corrected.
  • the confidence rating distribution (p g ) represents the annotator's bias.
  • the lower left graph in FIG. 6 represents the reference reliability assignment distribution (p r ). What is required of the disclosed technology is to obtain a mapping (f) from the upper left graph to the lower left graph.
  • the two graphs shown on the right side of FIG. 6 are histograms of the two distribution graphs shown on the left side of FIG.
  • the histogram in the upper right corner of FIG. 6 will be referred to as a confidence rating histogram (H g ).
  • the histogram at the lower right of FIG. 6 will be referred to as a corrected reliability assigned histogram (H G ).
  • the two graphs shown on the right side of Figure 6 show the same samples even between different distributions, assuming that the order of the samples does not change when the samples are arranged in the order of confidence assigned by any annotator. This indicates that the mapping is possible.
  • the right side of FIG. 6 also shows the processing content of arranging the samples in the upper right histogram of FIG. 6 in the order of reliability in the lower right histogram of FIG. Based on the assumption that "the order when samples are arranged in the order of the reliability assigned by any annotator does not change", a mapping (f) between arbitrary distributions can be obtained.
  • FIG. 7 is a flowchart showing processing steps of the binary classification device according to the first embodiment. Specifically, FIG. 7 shows that the annotator's confidence rating distribution ( p r ) shown in the lower right corner of FIG. This figure shows the processing steps of the bias correction unit 23 that generates the corrected reliability assigned histogram (H G ).
  • the bias correction unit 23 checks the number of bins (B) and the total number of samples (N) for the reliability assigned histogram (H g ) of the annotator to be corrected.
  • the number of bins B is 10, and the total number of samples N is 35.
  • the bias correction unit 23 uses the same number of bins (B, 10 in the example of FIG. ) and the same total number of samples (N, 35 in the example of FIG. 6) and a histogram (hereinafter referred to as a "corrected reliability histogram (H G )") with the same characteristics as the reference reliability distribution (p r ).
  • the corrected reliability assigned histogram (H G ) has not yet been associated with samples.
  • the corrected reliability assigned histogram (H G ) at the stage of the second step ST02 has no sample information.
  • a histogram in which sample information is empty is referred to as an "empty histogram" as shown in FIG. 7.
  • a bin in which sample information is empty is referred to as an "empty bin.”
  • the bias correction unit 23 starts a loop of the For statement.
  • the number of loops of the For statement is the same as the number of bins (B) confirmed in the first step ST01. In the case of the histogram illustrated in the upper right corner of FIG. 6, the number of loops of the For statement is 10. It is assumed that the counter variable of the For statement is i.
  • the bias correction unit 23 counts the number of samples (N G,i ) of the i-th bin of the corrected reliability assigned histogram (H G ).
  • the bias correction unit 23 counts the number of samples (N i ) in the i-th bin of the reliability assigned histogram (H g ). Note that the order of the fourth step ST04 and the fifth step ST05 may be changed.
  • the sixth step ST06 and the eighth step ST08 are the number of samples (NG ,i ) in the i-th bin of the corrected reliability histogram (H G ) and the sample number in the i-th bin of the reliability histogram (H g ).
  • This is a processing step for conditionally branching the flow based on the magnitude relationship with the number (N i ).
  • the sixth step ST06 and the eighth step ST08 may be an If statement or a Switch statement. If N G,i and N i are equal, the processing flow proceeds to seventh step ST07. If N G,i is larger than N i , the processing flow proceeds to the ninth step ST09, the tenth step ST10, and the eleventh step ST11. If N G,i is smaller than N i , the processing flow proceeds to the 12th step ST12, the 13th step ST13, and the 14th step ST14.
  • the bias correction unit 23 converts the sample of the i-th bin of the reliability histogram (H g ) into the sample of the corrected reliability histogram (H G ). It is associated with the i-th bin (empty bin state).
  • copying the process of associating sample information with an empty histogram or an empty bin.
  • the bias correction unit 23 converts the sample of the i-th bin of the reliability histogram (H g ) into the corrected reliability histogram (H G ). Copy to the i-th bin (empty bin).
  • the bias correction unit 23 selects samples equal to the number obtained by subtracting N i from N G,i from the i+1-th bin of the reliability assigned histogram (H g ). The criteria for selecting samples may be based on the order in which the samples are arranged in the order of reliability assigned by the annotator.
  • the criteria for selecting samples may be a rule based on the sample's plotted position in the feature space, such as the order of distance from the centroid of all samples in the feature space. All you have to do is decide.
  • the bias correction unit 23 copies the sample selected in the tenth step ST10 to the portion of the i-th bin of the corrected reliability assigned histogram (H G ) that remains empty.
  • the bias correction unit 23 calculates the number of bins equal to the number obtained by subtracting N G,i from N i from the i-th bin of the reliability histogram (H g ). , select the sample.
  • the criteria for selecting samples may be the same as in the tenth step ST10.
  • the bias correction unit 23 temporarily associates the sample selected in the 12th step ST12 with the i+1th bin of the reliability assigned histogram (H g ).
  • the bias correction unit 23 copies the sample of the i-th bin of the reliability-added histogram (H g ) to the i-th bin (empty bin state) of the corrected reliability-added histogram (H G ). do.
  • the processing step proceeds to the fifteenth step ST15.
  • the bias correction unit 23 increments the counter variable (i) of the For statement, and repeats the processing of the For statement until the end condition of the For statement is satisfied, that is, until i becomes equal to B.
  • the processing step proceeds to the 16th step ST16.
  • the bias correction unit 23 outputs a corrected reliability assigned histogram (H G ) in which the association of sample information has been completed.
  • FIG. 8 is a block diagram showing the hardware configuration of the binary classification device according to the first embodiment.
  • the hardware of the binary classifier includes a processor 40, a memory 41, a data input interface 42, a data processing processor 43, and a display interface 44.
  • a configuration is shown that includes two processors, a processor 40 that manages overall processing, and a data processing processor 43 that specializes in data processing, but this is an example and the present disclosure The technology is not limited to this.
  • each function may be realized by one processor.
  • Each function is realized by a processing circuit. That is, the binary classification device includes a processing circuit for implementing the processing steps shown in FIG. 7 and the like.
  • the processing circuit is a processor 40 (also referred to as a CPU, central processing unit, processing device, arithmetic device, microprocessor, microcomputer, or DSP) that executes a program stored in the memory 41.
  • the functions of the data acquisition section 20, reliability assignment distribution generation section 22, bias correction section 23, corrected reliability output section 24, reference reliability assignment distribution output section 30, and reference reliability assignment distribution input section 31 are performed by software. This is realized by software, firmware, or a combination of software and firmware. Software and firmware are written as programs and stored in the memory 41.
  • the processing circuit realizes the functions of each section by reading and executing programs stored in the memory 41. That is, the binary classification device includes a memory 41 for storing a program that, when executed by the processing circuit, results in the processing steps shown in FIG. 7 and the like being executed.
  • These programs also include a data acquisition section 20, a reliability assignment distribution generation section 22, a bias correction section 23, a corrected reliability output section 24, a reference reliability assignment distribution output section 30, and a reference reliability assignment distribution input section.
  • the memory 41 may be a nonvolatile or volatile semiconductor memory such as RAM, ROM, flash memory, EPROM, EEPROM, etc., for example. Further, the memory 41 may include a disk such as a magnetic disk, a flexible disk, an optical disk, a compact disk, a mini disk, or a DVD. Furthermore, the memory 41 may be in the form of an HDD or an SSD.
  • the data processing processor 43 in the binary classification device is equipped with artificial intelligence consisting of a mathematical model such as an artificial neural network.
  • the artificial intelligence performs learning using a learning data set labeled based on the corrected reliability output from the corrected reliability output unit 24.
  • the binary classification device since the binary classification device according to the first embodiment has the above configuration, learning can be performed based on the learning data set in which the annotator bias has been corrected.
  • Embodiment 2 The binary classification device according to the second embodiment is a modification of the binary classification device according to the disclosed technique. Unless otherwise specified, the same symbols used in the first embodiment are used in the second embodiment. In the second embodiment, explanations that overlap with those in the first embodiment are omitted as appropriate.
  • the binary classification device can be used in situations where artificial intelligence is made to learn and score events that are difficult to objectively score and are scored by multiple scorers.
  • the disclosed technology can be used to generate training data sets necessary for artificial intelligence learning.
  • annotator may be read as "scorer” and reliability may be read as "score”, respectively.
  • the disclosed technology can be applied to situations in which multiple graders are grading, for example, answers to an essay-based test are graded by artificial intelligence.
  • the disclosed technology can also be applied to situations in which matters that are difficult to objectively score, such as works of art such as literature, music, and paintings, are scored by artificial intelligence.
  • the bias correction unit 23 calculates and outputs the following index (T i ) along with the corrected reliability assigned histogram (H G ).
  • ⁇ x represents the average value of the scores made by grader A
  • ⁇ x represents the standard deviation of the scores made by grader A, respectively.
  • x i is the score given by grader A to the i-th sample to be graded.
  • is a parameter regarding the weight of the score
  • is a numerical value representing half of the full score. If ⁇ is 10 and ⁇ is 50, the index (T i ) will be equal to the deviation value.
  • ⁇ x and ⁇ x can be expressed by the following formulas.
  • the index (T i ) is a score adjusted by the standard deviation. That is, the bias correction unit 23 according to the second embodiment outputs the score (T i ) adjusted by the standard deviation together with the corrected reliability assigned histogram (H G ).
  • the binary classification device performs the above processing based on the learning data set in which the bias of the scorer has been corrected while checking the characteristics of the reference reliability assignment distribution (p r ). , learning can be performed.
  • the technology disclosed herein can be applied to, for example, automating the work of dropping and deleting a location of an erroneous track in a radar PPI scope, and has industrial applicability.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本開示技術に係る二項分類装置は、アノテータごとに、アノテータが付与した信頼度についての信頼度付与ヒストグラム(Hg)を算出する信頼度付与分布生成部(22)と、基準信頼度付与分布(pr)に基づいて、信頼度付与ヒストグラム(Hg)を、基準信頼度付与分布(pr)と同じ特性を有する補正信頼度付与ヒストグラム(HG)に補正するバイアス補正部(23)と、補正信頼度付与ヒストグラム(HG)に基づいて、アノテータが付与した信頼度を補正する補正済み信頼度出力部(24)と、を備える。

Description

二項分類装置及び二項分類装置のアノテーション補正方法
 本開示技術は二項分類装置及び二項分類装置のアノテーション補正方法に関する。
 本開示技術が取り扱う問題は、学習における分類の問題であり、特に、二項分類(Binary Classification)又は2クラス分類と呼ばれる問題である。
 例えば非特許文献1には、2つのクラスのうち一方のクラスに属するサンプルしか与えられていない場合において、どのようにして識別境界を求められるかという課題が提起され、その解法が開示されている。
Takashi Ishidaら著、Binary Classification from Positive-Confidence Data、NeurIPS2018(Thirty-second Conference on Neural Information Processing Systems).
 複数人のアノテータが分担してアノテーションを行う場合、それぞれのアノテータのバイアス(傾向、偏向、先入観)により、アノテーションにより得られた学習データセットが、全体としての統一性に欠けてしまう、という課題が生じる。
 本開示技術は、上記課題を解決し、全体としての統一性のある学習データセットに基づいて、学習を行うことができる二項分類装置を提供することを目的とする。
 本開示技術に係る二項分類装置は、アノテータごとに、アノテータが付与した信頼度についての信頼度付与ヒストグラムを算出する信頼度付与分布生成部と、基準信頼度付与分布に基づいて、信頼度付与ヒストグラムを、基準信頼度付与分布と同じ特性を有する補正信頼度付与ヒストグラムに補正するバイアス補正部と、補正信頼度付与ヒストグラムに基づいて、アノテータが付与した信頼度を補正する補正済み信頼度出力部と、を備える。
 上記構成により本開示技術に係る二項分類装置は、アノテータのバイアスが補正された学習データセットに基づいて、学習を行うことができる。
図1は、本開示技術に係る二項分類装置が行う二項分類の概念を示した図その1である。 図2は、本開示技術に係る二項分類装置が行う二項分類の概念を示した図その2である。 図3は、本開示技術に係る二項分類装置が行う二項分類の概念を示した図その3である。 図4は、アノテータが付す信頼度の統計分布によってアノテータのバイアスをモデル化した例を示したものである。 図5は、実施の形態1に係る二項分類装置の機能構成を示したブロック図である。 図6は、基準信頼度付与分布に基づいて、アノテータのバイアスを補正する様子を説明した図である。 図7は、実施の形態1に係る二項分類装置の処理ステップを示したフローチャートである。 図8は、実施の形態1に係る二項分類装置のハードウエア構成を示したブロック図である。
 本開示技術に係る二項分類装置は、客観的な採点が難しい事象を、人工知能に学習させて採点させる場面で利用できる。より詳細には、本開示技術は、人工知能の学習に必要な学習データセットを生成する際に利用できる。本開示技術は、特に、学習データセットを大勢のアノテータにより分担してアノテーションする場面において有効である。
 本開示技術が想定する場面は、例えば、レーダのPPIスコープ(Plan Position Indicator Scope)において、オペレータが誤航跡であると判断した箇所を、オペレータがドロップして削除する作業である。
 図1は、本開示技術に係る二項分類装置が行う二項分類の概念を示した図その1である。図1に示されるように本開示技術が取り扱う問題は、学習における分類の問題であり、特に2つの排他的なクラスを扱ったものである。ここで言う「排他的」との用語は、同時に2つのクラスに属するサンプルを許さない、という意味である。図1に示された例においては、「誤航跡データ(正例)」と表示されたグループ、及び「目標データ(負例)」と表示されたグループが、2つのクラスである。図1において、「誤航跡データ」に「正例」と表示されているのは、オペレータが誤航跡に該当する箇所をドロップする場面を想定しているためである。
 図1は、全体として、特徴量空間を示している。図1において円で示された複数のプロットは、特徴量空間におけるサンプルである。
 図1において「識別境界」との表示とともに記された線分が、学習における分類の問題の解である。分類問題の解を求める方法として、例えば、サポートベクターマシンが知られている。
 図2は、本開示技術に係る二項分類装置が行う二項分類の概念を示した図その2である。図1で示された例と違って図2での例では、特徴量空間に、2つのクラスの一方である「誤航跡データ(正例)」と表示されたグループのサンプルのみが記されている。
 図2に示されるように、2つのクラスのうち、一方のクラスに属するサンプルしか与えられていない場合でも、識別境界を求めなければならない状況があり得る。このような状況の場合、それぞれのサンプルについての「信頼度」に基づいて、識別境界を求める考え方がある。図2は、識別境界が、信頼度の高いサンプルからは遠い側に存在するはずだ、という予測原理を示している。
 厳密に言えば、与えられているサンプルは、一方のクラスに属すると考えられるものであって、中には他方のクラスに属するものが紛れ込んでいることも考えられる。図2において識別境界の左側にほとんどのサンプルが存在するが、信頼度の低い1つのサンプルが識別境界の右側に存在しているのも、このことを表している。
 機械学習等の学習において、データに対して正解のラベルを付けていく作業は、アノテーションと称されている。アノテーションを行う人(ヒト)又は装置は、アノテータと称される。アノテーションにより、データが教師データとなる。
 図2に示されるサンプルについての「信頼度」は、ヒトであるアノテータが主観的に決めることが考えられる。ここで、複数人のアノテータによってアノテーションを行うと、アノテータの個性により、付与される信頼度にバイアスが生じてしまうという課題が発生する。ここで言う「バイアス」の用語は、傾向、偏向、先入観、データ等の偏り、等の辞書に掲載されている意味で用いられるものであり、直流バイアス、バイアス電圧、等の電気的な意味ではない。また「バイアス」の用語は、直流バイアス等から派生した、y切片を意味するものでもない。
 2つのクラスのうち一方のクラスに属すると考えられるサンプルしか与えられていない状況において、ラベルには、そのサンプルが属すると考えられるクラスのほか、アノテータが付与する信頼度が含まれていてもよい。
 図3は、本開示技術に係る二項分類装置が行う二項分類の概念を示した図その3である。具体的に図3は、8個のサンプルデータから成る1つのデータセットを、2人のアノテータによってアノテーションした状況を表している。
 図3の左上は、2人のアノテータのうちの1人、アノテータAによるアノテーション結果を示したものである。信頼度を3段階の高、中、及び低で分け、識別境界を信頼度が中と低との間に設けるというルールを適用すると、アノテータAによるアノテーションでは、識別境界が左上と右下とを結ぶように築かれている。
 図3の右上は、2人のアノテータのうちのもう一人、アノテータBによるアノテーション結果を示したものである。同じく、識別境界を信頼度が中と低との間に設けるというルールを適用すると、アノテータBによるアノテーションでは、識別境界が全体の左側にあり、図に対してほぼ上下の方向に築かれている。
 図3の中央下は、アノテータAとアノテータBとが分担してアノテーションを行った結果を示したものである。アノテータAが分担したサンプルは、図3の左上において、円で囲われた4つのサンプルである。アノテータBが分担したサンプルは、図3の右上において、円で囲われた4つのサンプルである。同じく、識別境界を信頼度が中と低との間に設けるというルールを適用すると、分担によるアノテーションでは、識別境界は、もはや線形の線分では築くことができず、非線形の曲線でしか築けない。このような非線形の分類面は、例えば、非線形のサポートベクターマシンによる解決手段に頼り作成するしかない。
 なお、世の中の事象には、サンプルが属するクラスについての正解ラベルがわかっており、特徴量空間において分類を行おうとした結果、非線形の分類面でしか分類を実現できないこともある。このような場合は、例えば、特徴量の次元数を増やす検討が行われる。特徴量の次元数を現状以上に増やせない場合は、例えば、非線形のサポートベクターマシンによる解決手段に基づいて、非線形の分類面を求めればよい。
 本開示技術は、アノテータのそれぞれが持つ個性、又はバイアス(以降、「バイアス等」と称する)をモデル化し、モデル化したバイアス等を補正することにより、図2及び図3で示された課題の解決を試みるものである。
 図4は、アノテータが付す信頼度の統計分布によってアノテータのバイアス等をモデル化した例を示したものである。図4に示される4つのグラフは、4人のアノテータ(アノテータA、アノテータB、アノテータC、及びアノテータD)のバイアスをグラフで示したものである。具体的に図4で示される4つのグラフは、横軸を付与した信頼度の大きさとし、縦軸を付与した頻度とした、ヒストグラムである。なお、ヒストグラムにおいて、横軸は階級(区間、カテゴリ、又はビンとも称する)と、縦軸は度数と、それぞれ称される。
 図4の左上のグラフは、アノテータAのバイアスを示したヒストグラムである。このヒストグラムに示されるとおりアノテータAは、信頼度の付け方において、低と高とに度数のピークがあり、二極化する傾向がある、というバイアスが読み取れる。
 白黒をはっきりつけたい性質を有する人のバイアスは、グラフで表したときに、図4の左上のグラフと特徴が類似することが予想できる。
 図4の右上のグラフは、アノテータBのバイアスを示したヒストグラムである。このヒストグラムに示されるとおりアノテータBは、信頼度の付け方において、中央のやや高めの位置にゆるやかな山があり、正規分布に近い、というバイアスが読み取れる。
 図4の左下のグラフは、アノテータCのバイアスを示したヒストグラムである。このヒストグラムに示されるとおりアノテータCは、信頼度の付け方において、全体として高い側にウエートがあり、信頼度の最も高い階級において、度数である付与回数が最も多い、と読み取れる。
 図4の右下のグラフは、アノテータDのバイアスを示したヒストグラムである。アノテータDのバイアスは、他のアノテータ(A,B,及びC)とも異なるものである。このようにアノテータのバイアスは、様々なものが考えられる。
実施の形態1.
 図5は、実施の形態1に係る二項分類装置の機能構成を示したブロック図である。図5に示されるとおり実施の形態1に係る二項分類装置は、データ取得部20と、信頼度アノテーション部21と、信頼度付与分布生成部22と、バイアス補正部23と、補正済み信頼度出力部24と、基準信頼度付与分布出力部30と、基準信頼度付与分布入力部31と、を備える。
《データ取得部20》
 データ取得部20は、観測対象のデータを取得するための構成要素である。
《信頼度アノテーション部21》
 信頼度アノテーション部21は、アノテータが各サンプルについて、どの程度そのサンプルが対象クラスに属することが確からしいかと主観的に考える信頼度を、二項分類装置に入力することを支援するための構成要素である。
 信頼度アノテーション部21は、例えば、画像データ等のサンプルをディスプレイの或る場所に表示し、アノテータが考える信頼度を入力するためのウィンドウをディスプレイの別の場所に表示する、という処理を行うものでよい。
 アノテータが入力する信頼度は、「高」、「中」、「低」等の文字情報でもよいが、最終的には点数化される必要がある。本明細書においては、信頼度は、0以上かつ1以下の実数で点数化されるものとする。信頼度アノテーション部21は、アノテータが信頼度として0以上かつ1以下の実数を直接入力できるように支援してもよい。
《信頼度付与分布生成部22》
 信頼度付与分布生成部22は、アノテータごとに、アノテータが付与してきた信頼度の分布(以降、「信頼度付与分布(p)」と称する)を算出するための構成要素である。信頼度付与分布(p)をヒストグラムとして表示したものが、信頼度付与ヒストグラム(H)である。信頼度付与分布生成部22は、アノテータが付与してきた信頼度の信頼度付与ヒストグラム(H)を算出する。
 信頼度付与ヒストグラム(H)のビン幅は、二項分類装置の使用目的に応じて、適宜、決められてよい。
《バイアス補正部23》
 バイアス補正部23は、後述する基準信頼度付与分布(p)に基づいて、アノテータのバイアスを補正するための構成要素である。より具体的にバイアス補正部23は、基準信頼度付与分布(p)に基づいて、信頼度付与ヒストグラム(H)を、基準信頼度付与分布(p)と同じ特性を有する補正信頼度付与ヒストグラム(H)に補正する。
 ここで基準信頼度付与分布(p)は、熟練度の高いアノテータが付与した結果の分布(以降、「付与分布」と称する)により生成した信頼度付与分布を用いることが望ましい。別の言い方をすれば、基準信頼度付与分布(p)は、前記アノテータのうち熟練度に基づいて選択された者が付与した前記信頼度の付与分布であることが望ましい。
基準信頼度付与分布(p)は、べータ分布等の連続確率分布であってもよい。なお、基準信頼度付与分布(p)を表すPにおける下添え字のrは、基準を意味する英語referenceの頭文字に由来する。
 本開示技術は、アノテータすなわち採点者のバイアスを排除するために、統計的な指標を用いるという点で、例えば、国家資格試験の論文式試験で採用されている標準偏差により採点格差を調整する考え方と類似する。ただし、熟練度の高いアノテータの付与結果により生成された信頼度付与分布を基準信頼度付与分布(p)として採用することは、本開示技術に特有の手法である。
《補正済み信頼度出力部24》
 補正済み信頼度出力部24は、バイアス補正部23の補正結果に基づいて、アノテータが入力した信頼度を補正し、補正された信頼度を出力するための構成要素である。信頼度の補正は、後述する補正信頼度付与ヒストグラム(H)を参照することにより行われる。
《基準信頼度付与分布出力部30》
 基準信頼度付与分布出力部30は、基準信頼度付与分布(p)を外部の記憶装置へ出力するための構成要素である。
《基準信頼度付与分布入力部31》
 基準信頼度付与分布入力部31は、外部の記憶装置に格納されている基準信頼度付与分布(p)を、外部の記憶装置から取得するための構成要素である。
 なお基準信頼度付与分布出力部30及び基準信頼度付与分布入力部31は、基準信頼度付与分布出力部30及び基準信頼度付与分布入力部31自体が基準信頼度付与分布(p)を格納するための1つの記憶装置として機能してもよい。
《実施の形態1に係る二項分類装置の動作について》
 図6は、基準信頼度付与分布(p)に基づいて、アノテータのバイアスを補正する様子を説明した図である。
 図6の左上のグラフは、補正の対象であるアノテータの信頼度付与分布(p)を表したものである。信頼度付与分布(p)は、アノテータのバイアスを表している。図6の左下のグラフは、基準信頼度付与分布(p)を表したものである。本開示技術に課されていることは、左上のグラフから左下のグラフへの写像(f)を求めることである。
 図6の右側に示される2つのグラフは、図6の左側に示される2つの分布のグラフを、それぞれヒストグラムとして表したものである。本明細書において、図6の右上のヒストグラムは、信頼度付与ヒストグラム(H)と称することとする。また図6の右下のヒストグラムは、補正信頼度付与ヒストグラム(H)と称することとする。
 図6の右側に示される2つのグラフは、「どのアノテータによっても、付与した信頼度の順にサンプルを並べたときのサンプルの順番は変わらない」という仮定をすれば、異なる分布間においても同一サンプルの対応付けができることを表している。図6の右側は、図6の右上のヒストグラムにあるサンプルを、信頼度の順番に、図6の右下のヒストグラムに並べていく、という処理内容をも示している。
 「どのアノテータによっても、付与した信頼度の順にサンプルを並べたときの順番は変わらない」という仮定に基づけば、任意の分布間の写像(f)も求めることができる。
 アノテータによって付与した信頼度の順にサンプルを並べたときの順番が変わる場合であっても、形式的にアノテータのバイアスを補正することは可能である。図6の右下の補正信頼度付与ヒストグラム(H)は、初期状態として、サンプルの情報を空にしておき、アノテータが付与した信頼度の順番でサンプルの情報を対応づけることができる。対応付けについての詳細は、図7に沿った以下の説明により明らかとなる。
 図7は、実施の形態1に係る二項分類装置の処理ステップを示したフローチャートである。図7は、具体的に言えば、図6の右上に示されたアノテータの信頼度付与ヒストグラム(H)から、基準信頼度付与分布(p)に基づいて、図6の右下に示された補正信頼度付与ヒストグラム(H)を生成するバイアス補正部23の処理ステップを示したものである。
 第1ステップST01においてバイアス補正部23は、補正対象のアノテータの信頼度付与ヒストグラム(H)について、ビン数(B)とサンプル総数(N)とを確認する。図6の右上に例示されたヒストグラムでは、ビン数のBは10であり、サンプル総数のNは35である。
 第2ステップST02においてバイアス補正部23は、基準信頼度付与分布(p)に基づいて、補正対象のアノテータの信頼度付与ヒストグラム(H)と同じビン数(B、図6の例では10)かつ同じサンプル総数(N、図6の例では35)であって基準信頼度付与分布(p)と同じ特性のヒストグラム(以降、「補正信頼度付与ヒストグラム(H)」と称する)を用意する。第2ステップST02の段階において、補正信頼度付与ヒストグラム(H)は、サンプルの対応付けはまだされていない。別の言い方をすれば、第2ステップST02の段階における補正信頼度付与ヒストグラム(H)は、サンプルの情報が空(カラ)である。本明細書において、サンプルの情報が空(カラ)のヒストグラムは、図7に記載のように、「空ヒストグラム」と称することとする。また、ヒストグラムにおいて、サンプルの情報が空(カラ)のビンを、「空ビン」と称することとする。
 第3ステップST03においてバイアス補正部23は、For文のループを開始する。For文のループ回数は、第1ステップST01で確認したビン数(B)と同じである。図6の右上に例示されたヒストグラムの場合、For文のループ回数は10である。For文のカウンタ変数は、iであるとする。
 第4ステップST04においてバイアス補正部23は、補正信頼度付与ヒストグラム(H)のi番目のビンのサンプル数(NG,i)をカウントする。
 第5ステップST05においてバイアス補正部23は、信頼度付与ヒストグラム(H)のi番目のビンのサンプル数(N)をカウントする。
 なお第4ステップST04と第5ステップST05とは、順番を入れ替えてもよい。
 第6ステップST06及び第8ステップST08は、補正信頼度付与ヒストグラム(H)のi番目のビンのサンプル数(NG,i)と信頼度付与ヒストグラム(H)のi番目のビンのサンプル数(N)との大小関係に基づいて、フローを条件分岐するための処理ステップである。第6ステップST06及び第8ステップST08は、If文であってもSwitch文であってもよい。
 NG,iとNとが等しい場合、処理フローは第7ステップST07へ進む。
 NG,iがNよりも大きい場合、処理フローは第9ステップST09、第10ステップST10、及び第11ステップST11へ進む。
 NG,iがNよりも小さい場合、処理フローは第12ステップST12、第13ステップST13、及び第14ステップST14へ進む。
 NG,iとNとが等しい場合、第7ステップST07においてバイアス補正部23は、信頼度付与ヒストグラム(H)のi番目のビンのサンプルを、補正信頼度付与ヒストグラム(H)のi番目のビン(空ビンの状態)へ対応づける。本明細書において、空ヒストグラム又は空ビンへサンプルの情報を対応付ける処理は、「コピー」と称することとする。
 NG,iがNよりも大きい場合、第9ステップST09においてバイアス補正部23は、信頼度付与ヒストグラム(H)のi番目のビンのサンプルを、補正信頼度付与ヒストグラム(H)のi番目のビン(空ビンの状態)へコピーする。
 第10ステップST10においてバイアス補正部23は、信頼度付与ヒストグラム(H)のi+1番目のビンから、NG,iからNを差し引いた個数だけ、サンプルを選択する。サンプルを選択する基準は、アノテータが付与した信頼度の順にサンプルを並べたときの順番に従えばよい。アノテータがサンプルについての順位付けができない場合、サンプルを選択する基準は、例えば、特徴量空間における全サンプルの重心からの距離の順番、というように、特徴量空間におけるサンプルのプロット位置に基づいたルールを決めればよい。
 第11ステップST11においてバイアス補正部23は、第10ステップST10で選択したサンプルを、補正信頼度付与ヒストグラム(H)のi番目のビンの、空として残っている部分へコピーする。
 NG,iがNよりも小さい場合、第12ステップST12においてバイアス補正部23は、信頼度付与ヒストグラム(H)のi番目のビンから、NからNG,iを差し引いた個数だけ、サンプルを選択する。サンプルを選択する基準は、第10ステップST10と同じでよい。
 第13ステップST13においてバイアス補正部23は、第12ステップST12で選択したサンプルを、一時的に、信頼度付与ヒストグラム(H)のi+1番目のビンと対応づける。本明細書において、1つのヒストグラム内において、或るビンのサンプルを別のビンと対応づける処理は、「移動」と称することとする。
 第14ステップST14においてバイアス補正部23は、信頼度付与ヒストグラム(H)のi番目のビンのサンプルを、補正信頼度付与ヒストグラム(H)のi番目のビン(空ビンの状態)へコピーする。
 第7ステップST07、第11ステップST11、又は第14ステップST14、が完了した後、処理ステップは、第15ステップST15へと進む。
 第15ステップST15においてバイアス補正部23は、For文のカウンタ変数(i)をインクリメントし、For文の終了条件を満たすまで、すなわちiがBと同じになるまで、For文の処理を繰り返す。For文の終了条件が満たされると、処理ステップは、第16ステップST16へと進む。
 第16ステップST16においてバイアス補正部23は、サンプルの情報の対応付けが完了した補正信頼度付与ヒストグラム(H)を出力する。
《実施の形態1に係る二項分類装置のハードウエア構成について》
 図8は、実施の形態1に係る二項分類装置のハードウエア構成を示したブロック図である。図8に示されるとおり二項分類装置のハードウエアは、プロセッサ40と、メモリ41と、データ入力インタフェース42と、データ処理プロセッサ43と、表示器インタフェース44と、を含む。
 なお、図8に示されるハードウエア構成においては、全体の処理を司るプロセッサ40とデータ処理に特化したデータ処理プロセッサ43と、2つのプロセッサから成る構成を示したが、例示であり、本開示技術はこれに限定されない。本開示技術に係る二項分類装置は、1つのプロセッサにより各機能が実現されてよい。
 二項分類装置におけるデータ取得部20、信頼度付与分布生成部22、バイアス補正部23、補正済み信頼度出力部24、基準信頼度付与分布出力部30、及び基準信頼度付与分布入力部31の各機能は、処理回路により実現される。すなわち二項分類装置は、図7等に示された処理ステップを実施するための処理回路を備える。処理回路は、メモリ41に格納されるプログラムを実行するプロセッサ40(CPU、中央処理ユニット、処理装置、演算装置、マイクロプロセッサ、マイクロコンピュータ、DSPとも称される)である。
 データ取得部20、信頼度付与分布生成部22、バイアス補正部23、補正済み信頼度出力部24、基準信頼度付与分布出力部30、及び基準信頼度付与分布入力部31の各機能は、ソフトウエア、ファームウエア、又はソフトウエアとファームウエアとの組合せにより実現される。ソフトウエア及びファームウエアはプログラムとして記述され、メモリ41に格納される。処理回路は、メモリ41に記憶されたプログラムを読み出して実行することにより、各部の機能を実現する。すなわち二項分類装置は、処理回路により実行されるときに、図7等に示された処理ステップが結果的に実行されることになるプログラムを格納するためのメモリ41を備える。また、これらのプログラムは、データ取得部20、信頼度付与分布生成部22、バイアス補正部23、補正済み信頼度出力部24、基準信頼度付与分布出力部30、及び基準信頼度付与分布入力部31の手順又は方法をコンピュータに実行させるものであるとも言える。ここでメモリ41は、例えば、RAM、ROM、フラッシュメモリ、EPROM、EEPROM、等の不揮発性又は揮発性の半導体メモリであってよい。またメモリ41は、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、DVD等のディスクを有するものであってもよい。さらにメモリ41は、HDD又はSSDの態様であってもよい。
 二項分類装置におけるデータ処理プロセッサ43は、人工ニューラルネットワーク等の数理モデルからなる人工知能を備える。人工知能は、補正済み信頼度出力部24から出力された補正済み信頼度に基づいてラベリングされた学習データセットにより学習を行う。
 以上のとおり実施の形態1に係る二項分類装置は上記構成を備えるため、アノテータのバイアスが補正された学習データセットに基づいて、学習を行うことができる。
実施の形態2.
 実施の形態2に係る二項分類装置は、本開示技術に係る二項分類装置の変形例である。特に明記する場合を除き、実施の形態2では、実施の形態1で用いられた符号と同じものが用いられる。実施の形態2では、実施の形態1と重複する説明が、適宜、省略される。
 前述のとおり、本開示技術に係る二項分類装置は、客観的な採点が難しい事象であり、複数の採点者によって採点が行われる事象を、人工知能に学習させて採点させる場面で利用できる。特に本開示技術は、人工知能の学習に必要な学習データセットを生成する際に利用できる。
 実施の形態1に記載した用語のうち、アノテータは「採点者」と、信頼度は「点数」と、それぞれ読み替えても差し支えない。
 本開示技術は、複数の採点者によって採点が行われる事象、例えば、論文式試験の答案を、人工知能により採点させる場面に応用できる。また本開示技術は、客観的な採点が難しい事象、例えば、文学、音楽、絵画、等の芸術作品を、人工知能により採点させる場面にも応用できる。
 実施の形態2に係るバイアス補正部23は、補正信頼度付与ヒストグラム(H)と併せて、以下の指標(T)を算出して出力する。

Figure JPOXMLDOC01-appb-I000001

ただし、μは採点者Aが行った採点の平均値を、σは採点者Aが行った採点の標準偏差を、それぞれ表す。またxは、採点の対象であるi番目のサンプルについて、採点者Aが付与した点数である。さらに、αは点数の重みに関するパラメータであり、βは満点の半分であることを表す数値である。αを10としβを50とすれば、指標(T)は偏差値と等しくなる。
 μ及びσは、以下の数式で表すことができる。

Figure JPOXMLDOC01-appb-I000002

Figure JPOXMLDOC01-appb-I000003

 指標(T)は、標準偏差により調整された点数である、と言える。すなわち実施の形態2に係るバイアス補正部23は、補正信頼度付与ヒストグラム(H)と併せて、標準偏差により調整された点数(T)を出力する。
 バイアス補正部23が出力する指標(T)は、補正済み信頼度出力部24が出力する補正済み信頼度と比較することによって、基準信頼度付与分布(p)特性を確認することが可能となる。
 以上のとおり実施の形態2に係る二項分類装置は上記処理を実施するため、基準信頼度付与分布(p)特性を確認しながら、採点者のバイアスが補正された学習データセットに基づいて、学習を行うことができる。
 本開示技術は、例えば、レーダのPPIスコープにおいて誤航跡の箇所をドロップして削除する作業の自動化に応用でき、産業上の利用可能性を有する。
 20 データ取得部、21 信頼度アノテーション部、22 信頼度付与分布生成部、23 バイアス補正部、24 補正済み信頼度出力部、30 基準信頼度付与分布出力部、31 基準信頼度付与分布入力部、40 プロセッサ、41 メモリ、42 データ入力インタフェース、43 データ処理プロセッサ、44 表示器インタフェース。

Claims (6)

  1.  アノテータごとに、アノテータがサンプルに対して付与した信頼度についての信頼度付与ヒストグラムを算出する信頼度付与分布生成部と、
     基準信頼度付与分布に基づいて、前記信頼度付与ヒストグラムを、前記基準信頼度付与分布と同じ特性を有する補正信頼度付与ヒストグラムに補正するバイアス補正部と、
     前記補正信頼度付与ヒストグラムに基づいて、前記アノテータが付与した前記信頼度を補正する補正済み信頼度出力部と、を備える、
     二項分類装置。
  2.  前記基準信頼度付与分布は、前記アノテータのうち熟練度に基づいて選択された者が付与した前記信頼度の付与分布である、
     請求項1に記載の二項分類装置。
  3.  前記バイアス補正部は、前記補正信頼度付与ヒストグラムと併せて、標準偏差により調整された点数を出力する、
     請求項1に記載の二項分類装置。
  4.  処理回路が、
     アノテータごとに、アノテータが付与した信頼度についての信頼度付与ヒストグラムを算出し、
     基準信頼度付与分布に基づいて、前記信頼度付与ヒストグラムを、前記基準信頼度付与分布と同じ特性を有する補正信頼度付与ヒストグラムに補正し、
     前記補正信頼度付与ヒストグラムに基づいて、前記アノテータが付与した前記信頼度を補正する、
    二項分類装置のアノテーション補正方法。
  5.  前記基準信頼度付与分布は、前記アノテータのうち熟練度に基づいて選択された者が付与した前記信頼度の付与分布である、
    請求項4に記載の二項分類装置のアノテーション補正方法。
  6.  前記処理回路が、前記補正信頼度付与ヒストグラムと併せて、標準偏差により調整された点数を出力する、
     請求項4に記載の二項分類装置のアノテーション補正方法。
PCT/JP2022/013784 2022-03-24 2022-03-24 二項分類装置及び二項分類装置のアノテーション補正方法 WO2023181228A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2023577545A JP7466808B2 (ja) 2022-03-24 2022-03-24 二項分類装置及び二項分類装置のアノテーション補正方法
PCT/JP2022/013784 WO2023181228A1 (ja) 2022-03-24 2022-03-24 二項分類装置及び二項分類装置のアノテーション補正方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/013784 WO2023181228A1 (ja) 2022-03-24 2022-03-24 二項分類装置及び二項分類装置のアノテーション補正方法

Publications (1)

Publication Number Publication Date
WO2023181228A1 true WO2023181228A1 (ja) 2023-09-28

Family

ID=88100598

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/013784 WO2023181228A1 (ja) 2022-03-24 2022-03-24 二項分類装置及び二項分類装置のアノテーション補正方法

Country Status (2)

Country Link
JP (1) JP7466808B2 (ja)
WO (1) WO2023181228A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015166975A (ja) * 2014-03-04 2015-09-24 富士ゼロックス株式会社 注釈情報付与プログラム及び情報処理装置
JP2015191348A (ja) * 2014-03-27 2015-11-02 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation アノテーションの相関を計算する装置及び方法
US20190114556A1 (en) * 2017-10-16 2019-04-18 The Penn State Research Foundation Probabilistic multigraph modeling for improving the quality of crowdsourced affective data

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112329798B (zh) 2020-11-27 2023-07-25 重庆理工大学 一种基于优化视觉词袋模型的图像场景分类方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015166975A (ja) * 2014-03-04 2015-09-24 富士ゼロックス株式会社 注釈情報付与プログラム及び情報処理装置
JP2015191348A (ja) * 2014-03-27 2015-11-02 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation アノテーションの相関を計算する装置及び方法
US20190114556A1 (en) * 2017-10-16 2019-04-18 The Penn State Research Foundation Probabilistic multigraph modeling for improving the quality of crowdsourced affective data

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
OKANO, MASASHI ET AL.: "Description and essay-type automatic scoring method considering annotator bias", PROCEEDINGS OF 27TH ANNUAL MEETING OF ASSOCIATION FOR NATURAL LANGUAGE PROCESSING, vol. 27, 8 March 2021 (2021-03-08), pages 900 - 904, XP009549495 *

Also Published As

Publication number Publication date
JP7466808B2 (ja) 2024-04-12
JPWO2023181228A1 (ja) 2023-09-28

Similar Documents

Publication Publication Date Title
US10916008B2 (en) Method for automatic tooth type recognition from 3D scans
Shoenfield Recursion Theory: Lecture Notes in Logic 1
US10489722B2 (en) Semiautomatic machine learning model improvement and benchmarking
Lakkaraju et al. A machine learning framework to identify students at risk of adverse academic outcomes
CN108897829B (zh) 数据标签的修正方法、装置和存储介质
CN109344831A (zh) 一种数据表识别方法、装置及终端设备
CN109101579B (zh) 客服机器人知识库歧义检测方法
Lee et al. Evaluation of fairness trade-offs in predicting student success
Oeda et al. Log-data clustering analysis for dropout prediction in beginner programming classes
CN110442709A (zh) 一种基于朴素贝叶斯模型的文本分类方法
MacNeil Metadata strategies and archival description: Comparing apples to oranges
US10891559B2 (en) Classifying test data based on a maximum margin classifier
WO2023181228A1 (ja) 二項分類装置及び二項分類装置のアノテーション補正方法
US20220157071A1 (en) Systems and methods for form recognition using visual signatures
US11488036B2 (en) Multi-class classification evaluation metric determination
US10339826B1 (en) Systems and methods for determining the effectiveness of source material usage
US20210358317A1 (en) System and method to generate sets of similar assessment papers
Tashu et al. Smartscore-short answer scoring made easy using sem-LSH
CN112102127A (zh) 可解释智能学习报告生产方法
US10452354B2 (en) Aggregated multi-objective optimization
Rubinstein et al. In-depth feedback on programming assignments using pattern recognition and real-time hints
JP2020057264A (ja) 計算機システム及びデータ分類の分析方法
KR20200113397A (ko) 데이터 불균형 해결을 위한 언더샘플링 기반 앙상블 방법
JP2018206115A (ja) プログラム、情報記憶媒体及び認識装置
US20230177389A1 (en) Learning device, learning method, and storage medium for learning device

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22933369

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2023577545

Country of ref document: JP