WO2023181228A1

WO2023181228A1 - 二項分類装置及び二項分類装置のアノテーション補正方法

Info

Publication number: WO2023181228A1
Application number: PCT/JP2022/013784
Authority: WO
Inventors: 竜馬谷▲高▼
Original assignee: 三菱電機株式会社
Priority date: 2022-03-24
Filing date: 2022-03-24
Publication date: 2023-09-28
Also published as: JP7466808B2; JPWO2023181228A1

Abstract

本開示技術に係る二項分類装置は、アノテータごとに、アノテータが付与した信頼度についての信頼度付与ヒストグラム（Ｈｇ）を算出する信頼度付与分布生成部（２２）と、基準信頼度付与分布（ｐｒ）に基づいて、信頼度付与ヒストグラム（Ｈｇ）を、基準信頼度付与分布（ｐｒ）と同じ特性を有する補正信頼度付与ヒストグラム（ＨＧ）に補正するバイアス補正部（２３）と、補正信頼度付与ヒストグラム（ＨＧ）に基づいて、アノテータが付与した信頼度を補正する補正済み信頼度出力部（２４）と、を備える。

Description

二項分類装置及び二項分類装置のアノテーション補正方法

　本開示技術は二項分類装置及び二項分類装置のアノテーション補正方法に関する。

　本開示技術が取り扱う問題は、学習における分類の問題であり、特に、二項分類（Ｂｉｎａｒｙ　Ｃｌａｓｓｉｆｉｃａｔｉｏｎ）又は２クラス分類と呼ばれる問題である。

　例えば非特許文献１には、２つのクラスのうち一方のクラスに属するサンプルしか与えられていない場合において、どのようにして識別境界を求められるかという課題が提起され、その解法が開示されている。

Ｔａｋａｓｈｉ　Ｉｓｈｉｄａら著、Ｂｉｎａｒｙ　Ｃｌａｓｓｉｆｉｃａｔｉｏｎ　ｆｒｏｍ　Ｐｏｓｉｔｉｖｅ－Ｃｏｎｆｉｄｅｎｃｅ　Ｄａｔａ、ＮｅｕｒＩＰＳ２０１８（Ｔｈｉｒｔｙ－ｓｅｃｏｎｄ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｎｅｕｒａｌ　Ｉｎｆｏｒｍａｔｉｏｎ　Ｐｒｏｃｅｓｓｉｎｇ　Ｓｙｓｔｅｍｓ）．

　複数人のアノテータが分担してアノテーションを行う場合、それぞれのアノテータのバイアス（傾向、偏向、先入観）により、アノテーションにより得られた学習データセットが、全体としての統一性に欠けてしまう、という課題が生じる。

　本開示技術は、上記課題を解決し、全体としての統一性のある学習データセットに基づいて、学習を行うことができる二項分類装置を提供することを目的とする。

　本開示技術に係る二項分類装置は、アノテータごとに、アノテータが付与した信頼度についての信頼度付与ヒストグラムを算出する信頼度付与分布生成部と、基準信頼度付与分布に基づいて、信頼度付与ヒストグラムを、基準信頼度付与分布と同じ特性を有する補正信頼度付与ヒストグラムに補正するバイアス補正部と、補正信頼度付与ヒストグラムに基づいて、アノテータが付与した信頼度を補正する補正済み信頼度出力部と、を備える。

　上記構成により本開示技術に係る二項分類装置は、アノテータのバイアスが補正された学習データセットに基づいて、学習を行うことができる。

図１は、本開示技術に係る二項分類装置が行う二項分類の概念を示した図その１である。図２は、本開示技術に係る二項分類装置が行う二項分類の概念を示した図その２である。図３は、本開示技術に係る二項分類装置が行う二項分類の概念を示した図その３である。図４は、アノテータが付す信頼度の統計分布によってアノテータのバイアスをモデル化した例を示したものである。図５は、実施の形態１に係る二項分類装置の機能構成を示したブロック図である。図６は、基準信頼度付与分布に基づいて、アノテータのバイアスを補正する様子を説明した図である。図７は、実施の形態１に係る二項分類装置の処理ステップを示したフローチャートである。図８は、実施の形態１に係る二項分類装置のハードウエア構成を示したブロック図である。

　本開示技術に係る二項分類装置は、客観的な採点が難しい事象を、人工知能に学習させて採点させる場面で利用できる。より詳細には、本開示技術は、人工知能の学習に必要な学習データセットを生成する際に利用できる。本開示技術は、特に、学習データセットを大勢のアノテータにより分担してアノテーションする場面において有効である。
　本開示技術が想定する場面は、例えば、レーダのＰＰＩスコープ（Ｐｌａｎ　Ｐｏｓｉｔｉｏｎ　Ｉｎｄｉｃａｔｏｒ　Ｓｃｏｐｅ）において、オペレータが誤航跡であると判断した箇所を、オペレータがドロップして削除する作業である。

　図１は、本開示技術に係る二項分類装置が行う二項分類の概念を示した図その１である。図１に示されるように本開示技術が取り扱う問題は、学習における分類の問題であり、特に２つの排他的なクラスを扱ったものである。ここで言う「排他的」との用語は、同時に２つのクラスに属するサンプルを許さない、という意味である。図１に示された例においては、「誤航跡データ（正例）」と表示されたグループ、及び「目標データ（負例）」と表示されたグループが、２つのクラスである。図１において、「誤航跡データ」に「正例」と表示されているのは、オペレータが誤航跡に該当する箇所をドロップする場面を想定しているためである。
　図１は、全体として、特徴量空間を示している。図１において円で示された複数のプロットは、特徴量空間におけるサンプルである。
　図１において「識別境界」との表示とともに記された線分が、学習における分類の問題の解である。分類問題の解を求める方法として、例えば、サポートベクターマシンが知られている。

　図２は、本開示技術に係る二項分類装置が行う二項分類の概念を示した図その２である。図１で示された例と違って図２での例では、特徴量空間に、２つのクラスの一方である「誤航跡データ（正例）」と表示されたグループのサンプルのみが記されている。
　図２に示されるように、２つのクラスのうち、一方のクラスに属するサンプルしか与えられていない場合でも、識別境界を求めなければならない状況があり得る。このような状況の場合、それぞれのサンプルについての「信頼度」に基づいて、識別境界を求める考え方がある。図２は、識別境界が、信頼度の高いサンプルからは遠い側に存在するはずだ、という予測原理を示している。
　厳密に言えば、与えられているサンプルは、一方のクラスに属すると考えられるものであって、中には他方のクラスに属するものが紛れ込んでいることも考えられる。図２において識別境界の左側にほとんどのサンプルが存在するが、信頼度の低い１つのサンプルが識別境界の右側に存在しているのも、このことを表している。

　機械学習等の学習において、データに対して正解のラベルを付けていく作業は、アノテーションと称されている。アノテーションを行う人（ヒト）又は装置は、アノテータと称される。アノテーションにより、データが教師データとなる。
　図２に示されるサンプルについての「信頼度」は、ヒトであるアノテータが主観的に決めることが考えられる。ここで、複数人のアノテータによってアノテーションを行うと、アノテータの個性により、付与される信頼度にバイアスが生じてしまうという課題が発生する。ここで言う「バイアス」の用語は、傾向、偏向、先入観、データ等の偏り、等の辞書に掲載されている意味で用いられるものであり、直流バイアス、バイアス電圧、等の電気的な意味ではない。また「バイアス」の用語は、直流バイアス等から派生した、ｙ切片を意味するものでもない。
　２つのクラスのうち一方のクラスに属すると考えられるサンプルしか与えられていない状況において、ラベルには、そのサンプルが属すると考えられるクラスのほか、アノテータが付与する信頼度が含まれていてもよい。

　図３は、本開示技術に係る二項分類装置が行う二項分類の概念を示した図その３である。具体的に図３は、８個のサンプルデータから成る１つのデータセットを、２人のアノテータによってアノテーションした状況を表している。
　図３の左上は、２人のアノテータのうちの１人、アノテータＡによるアノテーション結果を示したものである。信頼度を３段階の高、中、及び低で分け、識別境界を信頼度が中と低との間に設けるというルールを適用すると、アノテータＡによるアノテーションでは、識別境界が左上と右下とを結ぶように築かれている。
　図３の右上は、２人のアノテータのうちのもう一人、アノテータＢによるアノテーション結果を示したものである。同じく、識別境界を信頼度が中と低との間に設けるというルールを適用すると、アノテータＢによるアノテーションでは、識別境界が全体の左側にあり、図に対してほぼ上下の方向に築かれている。
　図３の中央下は、アノテータＡとアノテータＢとが分担してアノテーションを行った結果を示したものである。アノテータＡが分担したサンプルは、図３の左上において、円で囲われた４つのサンプルである。アノテータＢが分担したサンプルは、図３の右上において、円で囲われた４つのサンプルである。同じく、識別境界を信頼度が中と低との間に設けるというルールを適用すると、分担によるアノテーションでは、識別境界は、もはや線形の線分では築くことができず、非線形の曲線でしか築けない。このような非線形の分類面は、例えば、非線形のサポートベクターマシンによる解決手段に頼り作成するしかない。

　なお、世の中の事象には、サンプルが属するクラスについての正解ラベルがわかっており、特徴量空間において分類を行おうとした結果、非線形の分類面でしか分類を実現できないこともある。このような場合は、例えば、特徴量の次元数を増やす検討が行われる。特徴量の次元数を現状以上に増やせない場合は、例えば、非線形のサポートベクターマシンによる解決手段に基づいて、非線形の分類面を求めればよい。

　本開示技術は、アノテータのそれぞれが持つ個性、又はバイアス（以降、「バイアス等」と称する）をモデル化し、モデル化したバイアス等を補正することにより、図２及び図３で示された課題の解決を試みるものである。
　図４は、アノテータが付す信頼度の統計分布によってアノテータのバイアス等をモデル化した例を示したものである。図４に示される４つのグラフは、４人のアノテータ（アノテータＡ、アノテータＢ、アノテータＣ、及びアノテータＤ）のバイアスをグラフで示したものである。具体的に図４で示される４つのグラフは、横軸を付与した信頼度の大きさとし、縦軸を付与した頻度とした、ヒストグラムである。なお、ヒストグラムにおいて、横軸は階級（区間、カテゴリ、又はビンとも称する）と、縦軸は度数と、それぞれ称される。

　図４の左上のグラフは、アノテータＡのバイアスを示したヒストグラムである。このヒストグラムに示されるとおりアノテータＡは、信頼度の付け方において、低と高とに度数のピークがあり、二極化する傾向がある、というバイアスが読み取れる。
　白黒をはっきりつけたい性質を有する人のバイアスは、グラフで表したときに、図４の左上のグラフと特徴が類似することが予想できる。

　図４の右上のグラフは、アノテータＢのバイアスを示したヒストグラムである。このヒストグラムに示されるとおりアノテータＢは、信頼度の付け方において、中央のやや高めの位置にゆるやかな山があり、正規分布に近い、というバイアスが読み取れる。

　図４の左下のグラフは、アノテータＣのバイアスを示したヒストグラムである。このヒストグラムに示されるとおりアノテータＣは、信頼度の付け方において、全体として高い側にウエートがあり、信頼度の最も高い階級において、度数である付与回数が最も多い、と読み取れる。

　図４の右下のグラフは、アノテータＤのバイアスを示したヒストグラムである。アノテータＤのバイアスは、他のアノテータ（Ａ，Ｂ，及びＣ）とも異なるものである。このようにアノテータのバイアスは、様々なものが考えられる。

実施の形態１．
　図５は、実施の形態１に係る二項分類装置の機能構成を示したブロック図である。図５に示されるとおり実施の形態１に係る二項分類装置は、データ取得部２０と、信頼度アノテーション部２１と、信頼度付与分布生成部２２と、バイアス補正部２３と、補正済み信頼度出力部２４と、基準信頼度付与分布出力部３０と、基準信頼度付与分布入力部３１と、を備える。

《データ取得部２０》
　データ取得部２０は、観測対象のデータを取得するための構成要素である。

《信頼度アノテーション部２１》
　信頼度アノテーション部２１は、アノテータが各サンプルについて、どの程度そのサンプルが対象クラスに属することが確からしいかと主観的に考える信頼度を、二項分類装置に入力することを支援するための構成要素である。
　信頼度アノテーション部２１は、例えば、画像データ等のサンプルをディスプレイの或る場所に表示し、アノテータが考える信頼度を入力するためのウィンドウをディスプレイの別の場所に表示する、という処理を行うものでよい。
　アノテータが入力する信頼度は、「高」、「中」、「低」等の文字情報でもよいが、最終的には点数化される必要がある。本明細書においては、信頼度は、０以上かつ１以下の実数で点数化されるものとする。信頼度アノテーション部２１は、アノテータが信頼度として０以上かつ１以下の実数を直接入力できるように支援してもよい。

《信頼度付与分布生成部２２》
　信頼度付与分布生成部２２は、アノテータごとに、アノテータが付与してきた信頼度の分布（以降、「信頼度付与分布（ｐ_ｇ）」と称する）を算出するための構成要素である。信頼度付与分布（ｐ_ｇ）をヒストグラムとして表示したものが、信頼度付与ヒストグラム（Ｈ_ｇ）である。信頼度付与分布生成部２２は、アノテータが付与してきた信頼度の信頼度付与ヒストグラム（Ｈ_ｇ）を算出する。
　信頼度付与ヒストグラム（Ｈ_ｇ）のビン幅は、二項分類装置の使用目的に応じて、適宜、決められてよい。

《バイアス補正部２３》
　バイアス補正部２３は、後述する基準信頼度付与分布（ｐ_ｒ）に基づいて、アノテータのバイアスを補正するための構成要素である。より具体的にバイアス補正部２３は、基準信頼度付与分布（ｐ_ｒ）に基づいて、信頼度付与ヒストグラム（Ｈ_ｇ）を、基準信頼度付与分布（ｐ_ｒ）と同じ特性を有する補正信頼度付与ヒストグラム（Ｈ_Ｇ）に補正する。
　ここで基準信頼度付与分布（ｐ_ｒ）は、熟練度の高いアノテータが付与した結果の分布（以降、「付与分布」と称する）により生成した信頼度付与分布を用いることが望ましい。別の言い方をすれば、基準信頼度付与分布（ｐ_ｒ）は、前記アノテータのうち熟練度に基づいて選択された者が付与した前記信頼度の付与分布であることが望ましい。
基準信頼度付与分布（ｐ_ｒ）は、べータ分布等の連続確率分布であってもよい。なお、基準信頼度付与分布（ｐ_ｒ）を表すＰ_ｒにおける下添え字のｒは、基準を意味する英語ｒｅｆｅｒｅｎｃｅの頭文字に由来する。

　本開示技術は、アノテータすなわち採点者のバイアスを排除するために、統計的な指標を用いるという点で、例えば、国家資格試験の論文式試験で採用されている標準偏差により採点格差を調整する考え方と類似する。ただし、熟練度の高いアノテータの付与結果により生成された信頼度付与分布を基準信頼度付与分布（ｐ_ｒ）として採用することは、本開示技術に特有の手法である。

《補正済み信頼度出力部２４》
　補正済み信頼度出力部２４は、バイアス補正部２３の補正結果に基づいて、アノテータが入力した信頼度を補正し、補正された信頼度を出力するための構成要素である。信頼度の補正は、後述する補正信頼度付与ヒストグラム（Ｈ_Ｇ）を参照することにより行われる。

《基準信頼度付与分布出力部３０》
　基準信頼度付与分布出力部３０は、基準信頼度付与分布（ｐ_ｒ）を外部の記憶装置へ出力するための構成要素である。

《基準信頼度付与分布入力部３１》
　基準信頼度付与分布入力部３１は、外部の記憶装置に格納されている基準信頼度付与分布（ｐ_ｒ）を、外部の記憶装置から取得するための構成要素である。
　なお基準信頼度付与分布出力部３０及び基準信頼度付与分布入力部３１は、基準信頼度付与分布出力部３０及び基準信頼度付与分布入力部３１自体が基準信頼度付与分布（ｐ_ｒ）を格納するための１つの記憶装置として機能してもよい。

《実施の形態１に係る二項分類装置の動作について》
　図６は、基準信頼度付与分布（ｐ_ｒ）に基づいて、アノテータのバイアスを補正する様子を説明した図である。
　図６の左上のグラフは、補正の対象であるアノテータの信頼度付与分布（ｐ_ｇ）を表したものである。信頼度付与分布（ｐ_ｇ）は、アノテータのバイアスを表している。図６の左下のグラフは、基準信頼度付与分布（ｐ_ｒ）を表したものである。本開示技術に課されていることは、左上のグラフから左下のグラフへの写像（ｆ）を求めることである。

　図６の右側に示される２つのグラフは、図６の左側に示される２つの分布のグラフを、それぞれヒストグラムとして表したものである。本明細書において、図６の右上のヒストグラムは、信頼度付与ヒストグラム（Ｈ_ｇ）と称することとする。また図６の右下のヒストグラムは、補正信頼度付与ヒストグラム（Ｈ_Ｇ）と称することとする。
　図６の右側に示される２つのグラフは、「どのアノテータによっても、付与した信頼度の順にサンプルを並べたときのサンプルの順番は変わらない」という仮定をすれば、異なる分布間においても同一サンプルの対応付けができることを表している。図６の右側は、図６の右上のヒストグラムにあるサンプルを、信頼度の順番に、図６の右下のヒストグラムに並べていく、という処理内容をも示している。
　「どのアノテータによっても、付与した信頼度の順にサンプルを並べたときの順番は変わらない」という仮定に基づけば、任意の分布間の写像（ｆ）も求めることができる。

　アノテータによって付与した信頼度の順にサンプルを並べたときの順番が変わる場合であっても、形式的にアノテータのバイアスを補正することは可能である。図６の右下の補正信頼度付与ヒストグラム（Ｈ_Ｇ）は、初期状態として、サンプルの情報を空にしておき、アノテータが付与した信頼度の順番でサンプルの情報を対応づけることができる。対応付けについての詳細は、図７に沿った以下の説明により明らかとなる。

　図７は、実施の形態１に係る二項分類装置の処理ステップを示したフローチャートである。図７は、具体的に言えば、図６の右上に示されたアノテータの信頼度付与ヒストグラム（Ｈ_ｇ）から、基準信頼度付与分布（ｐ_ｒ）に基づいて、図６の右下に示された補正信頼度付与ヒストグラム（Ｈ_Ｇ）を生成するバイアス補正部２３の処理ステップを示したものである。

　第１ステップＳＴ０１においてバイアス補正部２３は、補正対象のアノテータの信頼度付与ヒストグラム（Ｈ_ｇ）について、ビン数（Ｂ）とサンプル総数（Ｎ）とを確認する。図６の右上に例示されたヒストグラムでは、ビン数のＢは１０であり、サンプル総数のＮは３５である。

　第２ステップＳＴ０２においてバイアス補正部２３は、基準信頼度付与分布（ｐ_ｒ）に基づいて、補正対象のアノテータの信頼度付与ヒストグラム（Ｈ_ｇ）と同じビン数（Ｂ、図６の例では１０）かつ同じサンプル総数（Ｎ、図６の例では３５）であって基準信頼度付与分布（ｐ_ｒ）と同じ特性のヒストグラム（以降、「補正信頼度付与ヒストグラム（Ｈ_Ｇ）」と称する）を用意する。第２ステップＳＴ０２の段階において、補正信頼度付与ヒストグラム（Ｈ_Ｇ）は、サンプルの対応付けはまだされていない。別の言い方をすれば、第２ステップＳＴ０２の段階における補正信頼度付与ヒストグラム（Ｈ_Ｇ）は、サンプルの情報が空（カラ）である。本明細書において、サンプルの情報が空（カラ）のヒストグラムは、図７に記載のように、「空ヒストグラム」と称することとする。また、ヒストグラムにおいて、サンプルの情報が空（カラ）のビンを、「空ビン」と称することとする。

　第３ステップＳＴ０３においてバイアス補正部２３は、Ｆｏｒ文のループを開始する。Ｆｏｒ文のループ回数は、第１ステップＳＴ０１で確認したビン数（Ｂ）と同じである。図６の右上に例示されたヒストグラムの場合、Ｆｏｒ文のループ回数は１０である。Ｆｏｒ文のカウンタ変数は、ｉであるとする。

　第４ステップＳＴ０４においてバイアス補正部２３は、補正信頼度付与ヒストグラム（Ｈ_Ｇ）のｉ番目のビンのサンプル数（Ｎ_Ｇ，ｉ）をカウントする。

　第５ステップＳＴ０５においてバイアス補正部２３は、信頼度付与ヒストグラム（Ｈ_ｇ）のｉ番目のビンのサンプル数（Ｎ_ｉ）をカウントする。
　なお第４ステップＳＴ０４と第５ステップＳＴ０５とは、順番を入れ替えてもよい。

　第６ステップＳＴ０６及び第８ステップＳＴ０８は、補正信頼度付与ヒストグラム（Ｈ_Ｇ）のｉ番目のビンのサンプル数（Ｎ_Ｇ，ｉ）と信頼度付与ヒストグラム（Ｈ_ｇ）のｉ番目のビンのサンプル数（Ｎ_ｉ）との大小関係に基づいて、フローを条件分岐するための処理ステップである。第６ステップＳＴ０６及び第８ステップＳＴ０８は、Ｉｆ文であってもＳｗｉｔｃｈ文であってもよい。
　Ｎ_Ｇ，ｉとＮ_ｉとが等しい場合、処理フローは第７ステップＳＴ０７へ進む。
　Ｎ_Ｇ，ｉがＮ_ｉよりも大きい場合、処理フローは第９ステップＳＴ０９、第１０ステップＳＴ１０、及び第１１ステップＳＴ１１へ進む。
　Ｎ_Ｇ，ｉがＮ_ｉよりも小さい場合、処理フローは第１２ステップＳＴ１２、第１３ステップＳＴ１３、及び第１４ステップＳＴ１４へ進む。

　Ｎ_Ｇ，ｉとＮ_ｉとが等しい場合、第７ステップＳＴ０７においてバイアス補正部２３は、信頼度付与ヒストグラム（Ｈ_ｇ）のｉ番目のビンのサンプルを、補正信頼度付与ヒストグラム（Ｈ_Ｇ）のｉ番目のビン（空ビンの状態）へ対応づける。本明細書において、空ヒストグラム又は空ビンへサンプルの情報を対応付ける処理は、「コピー」と称することとする。

　Ｎ_Ｇ，ｉがＮ_ｉよりも大きい場合、第９ステップＳＴ０９においてバイアス補正部２３は、信頼度付与ヒストグラム（Ｈ_ｇ）のｉ番目のビンのサンプルを、補正信頼度付与ヒストグラム（Ｈ_Ｇ）のｉ番目のビン（空ビンの状態）へコピーする。
　第１０ステップＳＴ１０においてバイアス補正部２３は、信頼度付与ヒストグラム（Ｈ_ｇ）のｉ＋１番目のビンから、Ｎ_Ｇ，ｉからＮ_ｉを差し引いた個数だけ、サンプルを選択する。サンプルを選択する基準は、アノテータが付与した信頼度の順にサンプルを並べたときの順番に従えばよい。アノテータがサンプルについての順位付けができない場合、サンプルを選択する基準は、例えば、特徴量空間における全サンプルの重心からの距離の順番、というように、特徴量空間におけるサンプルのプロット位置に基づいたルールを決めればよい。
　第１１ステップＳＴ１１においてバイアス補正部２３は、第１０ステップＳＴ１０で選択したサンプルを、補正信頼度付与ヒストグラム（Ｈ_Ｇ）のｉ番目のビンの、空として残っている部分へコピーする。

　Ｎ_Ｇ，ｉがＮ_ｉよりも小さい場合、第１２ステップＳＴ１２においてバイアス補正部２３は、信頼度付与ヒストグラム（Ｈ_ｇ）のｉ番目のビンから、Ｎ_ｉからＮ_Ｇ，ｉを差し引いた個数だけ、サンプルを選択する。サンプルを選択する基準は、第１０ステップＳＴ１０と同じでよい。
　第１３ステップＳＴ１３においてバイアス補正部２３は、第１２ステップＳＴ１２で選択したサンプルを、一時的に、信頼度付与ヒストグラム（Ｈ_ｇ）のｉ＋１番目のビンと対応づける。本明細書において、１つのヒストグラム内において、或るビンのサンプルを別のビンと対応づける処理は、「移動」と称することとする。
　第１４ステップＳＴ１４においてバイアス補正部２３は、信頼度付与ヒストグラム（Ｈ_ｇ）のｉ番目のビンのサンプルを、補正信頼度付与ヒストグラム（Ｈ_Ｇ）のｉ番目のビン（空ビンの状態）へコピーする。

　第７ステップＳＴ０７、第１１ステップＳＴ１１、又は第１４ステップＳＴ１４、が完了した後、処理ステップは、第１５ステップＳＴ１５へと進む。
　第１５ステップＳＴ１５においてバイアス補正部２３は、Ｆｏｒ文のカウンタ変数（ｉ）をインクリメントし、Ｆｏｒ文の終了条件を満たすまで、すなわちｉがＢと同じになるまで、Ｆｏｒ文の処理を繰り返す。Ｆｏｒ文の終了条件が満たされると、処理ステップは、第１６ステップＳＴ１６へと進む。

　第１６ステップＳＴ１６においてバイアス補正部２３は、サンプルの情報の対応付けが完了した補正信頼度付与ヒストグラム（Ｈ_Ｇ）を出力する。

《実施の形態１に係る二項分類装置のハードウエア構成について》
　図８は、実施の形態１に係る二項分類装置のハードウエア構成を示したブロック図である。図８に示されるとおり二項分類装置のハードウエアは、プロセッサ４０と、メモリ４１と、データ入力インタフェース４２と、データ処理プロセッサ４３と、表示器インタフェース４４と、を含む。
　なお、図８に示されるハードウエア構成においては、全体の処理を司るプロセッサ４０とデータ処理に特化したデータ処理プロセッサ４３と、２つのプロセッサから成る構成を示したが、例示であり、本開示技術はこれに限定されない。本開示技術に係る二項分類装置は、１つのプロセッサにより各機能が実現されてよい。

　二項分類装置におけるデータ取得部２０、信頼度付与分布生成部２２、バイアス補正部２３、補正済み信頼度出力部２４、基準信頼度付与分布出力部３０、及び基準信頼度付与分布入力部３１の各機能は、処理回路により実現される。すなわち二項分類装置は、図７等に示された処理ステップを実施するための処理回路を備える。処理回路は、メモリ４１に格納されるプログラムを実行するプロセッサ４０（ＣＰＵ、中央処理ユニット、処理装置、演算装置、マイクロプロセッサ、マイクロコンピュータ、ＤＳＰとも称される）である。

　データ取得部２０、信頼度付与分布生成部２２、バイアス補正部２３、補正済み信頼度出力部２４、基準信頼度付与分布出力部３０、及び基準信頼度付与分布入力部３１の各機能は、ソフトウエア、ファームウエア、又はソフトウエアとファームウエアとの組合せにより実現される。ソフトウエア及びファームウエアはプログラムとして記述され、メモリ４１に格納される。処理回路は、メモリ４１に記憶されたプログラムを読み出して実行することにより、各部の機能を実現する。すなわち二項分類装置は、処理回路により実行されるときに、図７等に示された処理ステップが結果的に実行されることになるプログラムを格納するためのメモリ４１を備える。また、これらのプログラムは、データ取得部２０、信頼度付与分布生成部２２、バイアス補正部２３、補正済み信頼度出力部２４、基準信頼度付与分布出力部３０、及び基準信頼度付与分布入力部３１の手順又は方法をコンピュータに実行させるものであるとも言える。ここでメモリ４１は、例えば、ＲＡＭ、ＲＯＭ、フラッシュメモリ、ＥＰＲＯＭ、ＥＥＰＲＯＭ、等の不揮発性又は揮発性の半導体メモリであってよい。またメモリ４１は、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、ＤＶＤ等のディスクを有するものであってもよい。さらにメモリ４１は、ＨＤＤ又はＳＳＤの態様であってもよい。

　二項分類装置におけるデータ処理プロセッサ４３は、人工ニューラルネットワーク等の数理モデルからなる人工知能を備える。人工知能は、補正済み信頼度出力部２４から出力された補正済み信頼度に基づいてラベリングされた学習データセットにより学習を行う。

　以上のとおり実施の形態１に係る二項分類装置は上記構成を備えるため、アノテータのバイアスが補正された学習データセットに基づいて、学習を行うことができる。

実施の形態２．
　実施の形態２に係る二項分類装置は、本開示技術に係る二項分類装置の変形例である。特に明記する場合を除き、実施の形態２では、実施の形態１で用いられた符号と同じものが用いられる。実施の形態２では、実施の形態１と重複する説明が、適宜、省略される。

　前述のとおり、本開示技術に係る二項分類装置は、客観的な採点が難しい事象であり、複数の採点者によって採点が行われる事象を、人工知能に学習させて採点させる場面で利用できる。特に本開示技術は、人工知能の学習に必要な学習データセットを生成する際に利用できる。
　実施の形態１に記載した用語のうち、アノテータは「採点者」と、信頼度は「点数」と、それぞれ読み替えても差し支えない。
　本開示技術は、複数の採点者によって採点が行われる事象、例えば、論文式試験の答案を、人工知能により採点させる場面に応用できる。また本開示技術は、客観的な採点が難しい事象、例えば、文学、音楽、絵画、等の芸術作品を、人工知能により採点させる場面にも応用できる。

　実施の形態２に係るバイアス補正部２３は、補正信頼度付与ヒストグラム（Ｈ_Ｇ）と併せて、以下の指標（Ｔ_ｉ）を算出して出力する。

ただし、μ_ｘは採点者Ａが行った採点の平均値を、σ_ｘは採点者Ａが行った採点の標準偏差を、それぞれ表す。またｘ_ｉは、採点の対象であるｉ番目のサンプルについて、採点者Ａが付与した点数である。さらに、αは点数の重みに関するパラメータであり、βは満点の半分であることを表す数値である。αを１０としβを５０とすれば、指標（Ｔ_ｉ）は偏差値と等しくなる。
　μ_ｘ及びσ_ｘは、以下の数式で表すことができる。

　指標（Ｔ_ｉ）は、標準偏差により調整された点数である、と言える。すなわち実施の形態２に係るバイアス補正部２３は、補正信頼度付与ヒストグラム（Ｈ_Ｇ）と併せて、標準偏差により調整された点数（Ｔ_ｉ）を出力する。

　バイアス補正部２３が出力する指標（Ｔ_ｉ）は、補正済み信頼度出力部２４が出力する補正済み信頼度と比較することによって、基準信頼度付与分布（ｐ_ｒ）特性を確認することが可能となる。

　以上のとおり実施の形態２に係る二項分類装置は上記処理を実施するため、基準信頼度付与分布（ｐ_ｒ）特性を確認しながら、採点者のバイアスが補正された学習データセットに基づいて、学習を行うことができる。

　本開示技術は、例えば、レーダのＰＰＩスコープにおいて誤航跡の箇所をドロップして削除する作業の自動化に応用でき、産業上の利用可能性を有する。

　２０　データ取得部、２１　信頼度アノテーション部、２２　信頼度付与分布生成部、２３　バイアス補正部、２４　補正済み信頼度出力部、３０　基準信頼度付与分布出力部、３１　基準信頼度付与分布入力部、４０　プロセッサ、４１　メモリ、４２　データ入力インタフェース、４３　データ処理プロセッサ、４４　表示器インタフェース。

Claims

　アノテータごとに、アノテータがサンプルに対して付与した信頼度についての信頼度付与ヒストグラムを算出する信頼度付与分布生成部と、
　基準信頼度付与分布に基づいて、前記信頼度付与ヒストグラムを、前記基準信頼度付与分布と同じ特性を有する補正信頼度付与ヒストグラムに補正するバイアス補正部と、
　前記補正信頼度付与ヒストグラムに基づいて、前記アノテータが付与した前記信頼度を補正する補正済み信頼度出力部と、を備える、
　二項分類装置。
　前記基準信頼度付与分布は、前記アノテータのうち熟練度に基づいて選択された者が付与した前記信頼度の付与分布である、
　請求項１に記載の二項分類装置。
　前記バイアス補正部は、前記補正信頼度付与ヒストグラムと併せて、標準偏差により調整された点数を出力する、
　請求項１に記載の二項分類装置。
　処理回路が、
　アノテータごとに、アノテータが付与した信頼度についての信頼度付与ヒストグラムを算出し、
　基準信頼度付与分布に基づいて、前記信頼度付与ヒストグラムを、前記基準信頼度付与分布と同じ特性を有する補正信頼度付与ヒストグラムに補正し、
　前記補正信頼度付与ヒストグラムに基づいて、前記アノテータが付与した前記信頼度を補正する、
二項分類装置のアノテーション補正方法。
　前記基準信頼度付与分布は、前記アノテータのうち熟練度に基づいて選択された者が付与した前記信頼度の付与分布である、
請求項４に記載の二項分類装置のアノテーション補正方法。
　前記処理回路が、前記補正信頼度付与ヒストグラムと併せて、標準偏差により調整された点数を出力する、
　請求項４に記載の二項分類装置のアノテーション補正方法。