WO2021245924A1

WO2021245924A1 - 処理装置、処理方法および処理プログラム

Info

Publication number: WO2021245924A1
Application number: PCT/JP2020/022366
Authority: WO
Inventors: 修税所; 毅大黒; 晶玉孫; 浩士今村; 亨竹内; 大子郎横関
Original assignee: 日本電信電話株式会社
Priority date: 2020-06-05
Filing date: 2020-06-05
Publication date: 2021-12-09
Also published as: JP7389389B2; JPWO2021245924A1; US20230206085A1

Abstract

処理装置１は、入力データセットにラベル付けを行う、あるいはラベル付けができない場合は棄権するラベリング関数を含む関数データ６を参照して、入力データセットを、ラベリング関数でラベル付けした結果から、各入力データセットに各ラベルに該当する確率を対応づける第１の出力データ１４を出力する第１の処理部１０と、各入力データセットのうち、第１の出力データ１４において各ラベルに該当する確率のばらつきが所定条件を満たす入力データセットを特定する特定部３１を備える。特定部３１によって、第１の出力データ１４から特定された入力データセットに対して新たに作成されたラベリング関数が、関数データ６に挿入される。

Description

処理装置、処理方法および処理プログラム

　本発明は、処理装置、処理方法および処理プログラムに関する。

　機械学習、特にいわゆる教師あり学習が、幅広い分野で普及している。教師あり学習は、入力データセットに正解を付した訓練データセットを事前に用意し、訓練データセットをもとに識別器が学習する。正解を付した訓練データセットの作成に要するコストが、機械学習における問題となる。

　コンピュータ処理により訓練データセットを追加する能動学習と弱教師あり学習が、提案される。

　能動学習では、既存の訓練データセットと識別器を用いて、正解なし入力データセット群のうち、正解がわかると識別子の性能が上がるデータセットを提示する。提示されたデータセットに正解が付されて、訓練データセットに追加する。

　弱教師あり学習は、正解を付す主体が持つ知見をルールに対応した関数をシステムに実装し、システムが関数に従って入力データセットに正解を付す。正解が付されたデータセットが訓練データセットに追加される。

　弱教師あり学習において、能動学習に類似する方法でルールを追加する技術もある（非特許文献１）。非特許文献１は、実装済みのルールを入力データセット群に適用した際、出力の多数決が割れる、または無投票な入力データセットを抽出する。抽出された入力データセットからランダムに選択された入力データセットについて、正解に導くためのルールを追加する。

Benjamin Cohen-Wang、外3名、" Interactive Programmatic Labeling for Weak Supervision"、2019年8月4日-8日、Workshop at KDD

　しかしながら非特許文献１に記載の方法は、ルール間の重複および矛盾への対応を考慮した弱教師あり学習の手法を生かしていない。出力の多数決が割れる、または無投票な入力データセットのうちランダムに抽出された入力データセットに対してルールが追加されるので、適切にルールが追加されるのに時間を要するなど、効率的な学習の実現が困難な場合がある。

　本発明は、上記事情に鑑みてなされたものであり、本発明の目的は、弱教師あり学習において正解を付すべき入力データセットを適切に提示可能な技術を提供することである。

　本発明の一態様の処理装置は、入力データセットにラベル付けを行う、あるいはラベル付けができない場合は棄権するラベリング関数を含む関数データを参照して、入力データセットを、ラベリング関数でラベル付けした結果から、各入力データセットに各ラベルに該当する確率を対応づける第１の出力データを出力する第１の処理部と、各入力データセットのうち、第１の出力データにおいて各ラベルに該当する確率のばらつきが所定条件を満たす入力データセットを特定する特定部を備え、特定部によって、第１の出力データから特定された入力データセットに対して新たに作成されたラベリング関数が、関数データに挿入される。

　本発明の一態様の処理方法は、コンピュータが、入力データセットにラベル付けを行う、あるいはラベル付けができない場合は棄権するラベリング関数を含む関数データを参照して、入力データセットを、ラベリング関数でラベル付けした結果から、各入力データセットに各ラベルに該当する確率を対応づける第１の出力データを出力するステップと、コンピュータが、各入力データセットのうち、第１の出力データにおいて各ラベルに該当する確率のばらつきが所定条件を満たす入力データセットを特定するステップを備え、特定するステップにおいて、第１の出力データから特定された入力データセットに対して新たに作成されたラベリング関数が、関数データに挿入される。

　本発明の一態様は、上記処理装置として、コンピュータを機能させる処理プログラムである。

　本発明によれば、弱教師あり学習において正解を付すべき入力データセットを適切に提示可能な技術を提供することができる。

図１は、第１の実施の形態に係る処理装置の機能ブロックを説明する図である。図２は、入力データのデータ構造の一例を説明する図である。図３は、関数データのデータ構造の一例を説明する図である。図４は、第１の実施の形態に係る処理装置による処理の概要を説明するフローチャートである。図５は、ラベルあり入力データのデータ構造の一例を説明する図である。図６は、第１の出力データのデータ構造の一例を説明する図である。図７は、第１の実施の形態に係る第１の処理部による処理の概要を説明するフローチャートである。図８は、第２の実施の形態に係る処理装置の機能ブロックを説明する図である。図９は、第２の実施の形態に係る処理装置による処理の概要を説明するフローチャートである。図１０は、訓練データのデータ構造の一例を説明する図である。図１１は、第２の実施の形態に係る第２の処理部による処理の概要を説明するフローチャートである。図１２は、第３の実施の形態に係る処理装置の機能ブロックを説明する図である。図１３は、第３の実施の形態に係る処理装置による処理の概要を説明するフローチャートである。図１４は、処理装置による処理結果を説明する図である。図１５は、処理装置に用いられるコンピュータのハードウエア構成を説明する図である。

　以下、図面を参照して、本発明の実施形態を説明する。図面の記載において同一部分には同一符号を付し説明を省略する。

　（第１の実施の形態）
　第１の実施の形態に係る処理装置１は、弱教師あり学習において、既存のラベリング関数による出力結果に基づいて、ラベリング関数を与える対象となる入力データセットを特定する。処理装置１は、特定された入力データセットに対してラベルを付すためのラベリング関数を既存のラベリング関数に追加することで、効率的にラベリング関数を生成することができる。

　図１に示す処理装置１は、入力データ５、関数データ６、第１の処理部１０、特定部３１、参照データセット３２、新規ラベリング関数３３、更新部３４および出力部４０を備える。これらの各要素のうち、処理部は、CPU９０１に実装され、データは、メモリ９０２またはストレージ９０３に記憶される。

　入力データ５は、ラベリング関数によってラベル付けされる対象となるデータである。入力データ５は、図２に示すように、複数の入力データセットの集合である。本発明の実施の形態において入力データ５が含む入力データセットの数は、｜Ｄ｜である。

　関数データ６は、入力データ５の各入力データセットをラベル付けするラベリング関数のデータである。ラベリング関数は、入力データセットにラベル付けを行う、あるいはラベル付けができない場合は棄権する関数である。関数データ６は、図３に示すように、複数のラベリング関数の集合である。本発明の実施の形態において関数データ６が含むラベリング関数の数は、｜Ｆ｜である。

　第１の処理部１０は、入力データセットを、ラベリング関数でラベル付けした結果から、各入力データセットに各ラベルに該当する確率を対応づける第１の出力データ１４を出力する。ここで、ラベルに該当する確率に、信頼度の高いラベリング関数が前記ラベルに該当すると判断した場合、高い値が付与され、信頼度の低いラベリング関数がラベルに該当すると判断した場合、低い値が付与される。第１の処理部１０が、第１の出力データ１４を出力する処理は、後に詳述する。

　特定部３１は、各入力データセットのうち、第１の出力データ１４において各ラベルに該当する確率のばらつきが所定条件を満たす入力データセットを、参照データセット３２として特定する。各ラベルに該当する確率のばらつきが、所定の指標で表現される場合、特定部３１は、ばらつきが、所定の閾値よりも大きい入力データセットを特定する。各ラベルに該当する確率のばらつきが大きい入力データセットは、参照データセット３２として特定される優先度が高く、各ラベルに該当する確率のばらつきが小さい入力データセットは、参照データセット３２として特定される優先度が低い。参照データセット３２にラベルを付すための新規ラベリング関数３３が生成される。参照データセット３２の入力データセットの数および新規ラベリング関数３３の関数の数は、任意である。

　新規ラベリング関数３３、任意の主体Ｅによって生成される。例えば、特定部３１が提示した参照データセット３２に対して、ドメインエキスパートが、手動でラベリング関数を生成しても良い。既存の機械学習などコンピュータが、所定のプログラムによりラベリング関数を生成しても良い。既存のオントロジーなどの外部知識が、ラベリング関数を生成しても良い。

　更新部３４は、特定部３１によって、第１の出力データ１４から特定された入力データセットに対して新たに作成されたラベリング関数が、関数データ６に挿入される。具体的には更新部３４は、新規ラベリング関数３３を関数データ６に挿入する。これにより、関数データ６が含むラベリング関数の数は、｜Ｆ｜よりも、新規ラベリング関数３３の関数の数だけ増える。

　新規ラベリング関数３３が追加された関数データ６を参照して、再度、第１の処理部１０は、入力データ５の各入力データセットをラベル付けし、各入力データセットに各ラベルに該当する確率を対応づける第１の出力データ１４を出力する。

　第１の処理部１０および特定部３１等による関数データ６の更新処理が、所定条件を満たすまで繰り返される。所定条件は、関数データ６に適切なラベリング関数が収容されたことを示す条件が設定される。所定条件は、例えば、参照データセット３２のデータセット数がゼロになるまで、繰り返し回数、処理時間等で定められる。

　出力部４０は、所定条件を満たした後に得られた第１の出力データ１４に基づいて、学習結果を出力する。出力部４０は、新たに作成されたラベリング関数が、関数データ６に挿入された後に、第１の処理部１０を実行して得られた第１の出力データ１４において、各入力データセットに最も高い確率に対応するラベルを対応づけて出力する。

　図４を参照して、第１の実施の形態に係る処理装置１の処理の概要を説明する。図４に示す処理は一例であって、これに限るものではない。

　まずステップＳ１において処理装置１は、第１の処理部１０による処理で、第１の出力データ１４を生成する。第１の出力データ１４は、各入力データセットに各ラベルに該当する確率を対応づけるデータである。

　ステップＳ２において処理装置１は、関数データ６に適切な関数が収容され、学習結果を出力するタイミングであるか否かを判断する。例えばステップＳ１の処理が１回目である、または参照データセット３２のデータセット数がゼロでないなど、ラベリング関数の追加の検討が必要で、学習結果を出力するタイミングでない場合、ステップＳ３に進む。一方ステップＳ１の処理を複数回繰り返した、または前回処理時の参照データセット３２のデータセット数がゼロなど、ラベリング関数の追加が必要なく、学習結果を出力するタイミングの場合、ステップＳ６に進む。

　ステップＳ３において処理装置１は、第１の出力データ１４において、各ラベルに該当する確率のばらつきが所定条件を満たす入力データセットを、参照データセット３２として特定する。ステップＳ４において処理装置１は、ステップＳ３において特定された参照データセット３２に対して生成された新規ラベリング関数３３を取得する。ステップＳ５において処理装置１は、ステップＳ４で取得した新規ラベリング関数３３を、既存のラベリング関数を収容する関数データ６に追加する。その後、ステップＳ１に戻って処理装置１は、新規ラベリング関数３３を追加した関数データ６を参照して、第１の出力データ１４を生成する。

　ステップＳ６において処理装置１は、学習結果として、各入力データセットに、第１の出力データ１４において最も確率の高いラベルを対応づけて、出力する。

　（第１の処理部）
　次に、第１の処理部１０を説明する。第１の処理部１０は、ラベル付け部１１、ラベルあり入力データ１２、モデル処理部１３および第１の出力データ１４を備える。

　ラベル付け部１１は、入力データ５の各入力データセットを、関数データ６の各ラベリング関数で、ラベル付けして、その結果を、ラベルあり入力データ１２として記憶する。ラベルあり入力データ１２は、図５に示すように、入力データセットを特定する識別子と、ラベリング関数を特定する識別子に対応して、値が設定される。図５に示す例において、アルファベットｖの後の１つ目の文字が、入力データセットを特定する識別子で、２つめの文字が、その入力データセットを処理したラベリング関数の識別子である。

　対応するラベリング関数で対応する入力データセットのラベルを判別できた場合、値に、その判別されたラベルの識別子が設定される。一方、対応するラベリング関数で対応する入力データセットのラベルを判別できない場合、値に、判別できなかったことを示す値が設定される。判別できなかったことを示す値は、例えば、０などで、ラベルの識別子で設定されない値が設定される。

　ラベルあり入力データ１２が生成されると、モデル処理部１３は、第１の出力データ１４を生成する。第１の出力データ１４は、各入力データセットに各ラベルに該当する確率を対応づける。第１の出力データ１４は、図６に示すように、入力データセットを特定する識別子と、ラベルを特定する識別子に対応して、値が設定される。図６に示す例において、アルファベットｖの後の１つ目の文字が、入力データセットを特定する識別子で、２つめの文字が、その入力データセットに対応するラベルの識別子である。なお図６に示す例は、入力データセットを、｜Ｌ｜個のラベルのいずれかを割り当てる場合を説明する。

　モデル処理部１３は、ラベリングモデルにより、各ラベリング関数がどの程度信用できる投票しているか、ラベリング関数間で生じる重複および矛盾を元に、各入力データセットについて、各ラベルに該当する確率を算出する。モデル処理部１３は、各ラベリング関数の信頼度を考慮して、信頼度の高い関数が付したラベルに対してより確率が高く、信頼度の低い関数が付したラベルに対してより確率が低くなるように、各入力データセットについて、各ラベルに該当する確率を返す。ラベリングモデルは、例えばSnorkelである。

　ここで、３ラベル｛１，２，３｝の識別問題において、３つのラベリング関数について、モデル処理部１３の処理の一例を説明する。３つのラベリング関数は、それぞれ第１のラベルを判別する第１のラベリング関数、第２のラベルを判別する第２のラベリング関数および第３のラベルを判別する第３のラベリング関数である。各ラベリング関数の信頼度は、第１のラベリング関数が最も高く、第３のラベリング関数が最も低いとする。また各ラベリング関数は、ラベルを判別できた場合、判別したラベルの識別子を返し、ラベルを判別できず棄権する場合、０を返すとする。モデル処理部１３は、１つの入力データセットについて、第１ないし第３のラベルに該当するそれぞれの確率を出力する。

　例えば、ある入力データセットについて、３つのラベリング関数がそれぞれ判別した結果が、｛１，０，０｝である場合、各ラベリング関数の信頼度を考慮して、モデル処理部１３は、各ラベルに該当する確率として、｛０．７，０．１５，０．１５｝の確率を出力する。別の入力データセットについて、３つのラベリング関数がそれぞれ判別した結果が、｛０，０，１｝である場合、モデル処理部１３は、各ラベルに該当する確率として、｛０．２５，０．２５，０．５｝の確率を出力する。信頼度が高いラベリング関数が判別した結果に対して、高い確率が設定され、信頼度が低いラベリング関数が判別した結果に対して、低い確率が設定される。

　判別した結果が｛１，０，３｝となるなど、１つの入力データセットについて、第１のラベリング関数が第１のラベルと判別し、第３のラベリング関数が第３のラベルと判別するような矛盾が起きる場合を説明する。モデル処理部１３は、例えば｛０．５５，０．１，０．３５｝の確率を出力する。矛盾が生じた場合でも、信頼度が高いラベリング関数が判別した結果に対して、高い確率が設定され、信頼度が低いラベリング関数が判別した結果に対して、低い確率が設定される。

　判別した結果が｛０，０，０｝の場合、具体的には、各ラベリング関数が判別できないと判断した場合を説明する。モデル処理部１３は、各ラベルに該当する確率を判断する材料がないので、例えば｛０．３３，０．３３，０．３３｝の確率を出力する。

　このように、モデル処理部１３は、各ラベリング関数の信頼度を考慮して、ラベリング関数の出力について、各データセットが各ラベルに該当する確率を算出する第１の出力データ１４を生成する。

　図７を参照して、第１の処理部１０による第１の処理を説明する。図７に示す処理は一例であって、これに限るものではない。

　第１の処理部１０は、入力データ５の各入力データセットについて、ステップＳ５１からＳ５４の処理を繰り返す。

　第１の処理部１０は、対象入力データセットおよび関数データ６の各ラベリング関数についてステップＳ５１ないしステップＳ５３の処理を繰り返す。ステップＳ５１において第１の処理部１０は、対象入力データセットを、対象ラベリング関数で判別できるかを判定する。判別できる場合、ステップＳ５２において第１の処理部１０は、対象入力データセットおよび対象ラベリング関数に、判別されたラベルの識別子を対応づける。判別できない場合、ステップＳ５３において第１の処理部１０は、対象入力データセットおよび対象ラベリング関数に、判別されないことを示す値を対応づける。

　対象入力データセットおよび各ラベリング関数について、ステップＳ５１ないしステップＳ５３の処理が終了すると、ステップＳ５４に進む。ステップＳ５４において第１の処理部１０は、対象入力データセットについて、ラベリングモデルを用いて、各ラベルに該当する確率を対応づける。対象入力データセットについて、ステップＳ５１ないしステップＳ５４の処理が終了すると、新たな対象入力データセットについて、ステップＳ５１ないしステップＳ５４を処理する。

　入力データ５の各入力データセットについて、ステップＳ５１ないしステップＳ５４の処理が終了すると、ステップＳ５５において第１の処理部１０は、第１の出力データ１４を出力する。第１の出力データ１４は、ステップＳ５４で生成した、入力データセットと各ラベルに該当する確率の対応付けの集合である。

　第１の処理部１０によって第１の出力データ１４が生成されると、特定部３１は、各入力データセットのうち、第１の出力データ１４において各ラベルに該当する確率のばらつきが所定条件を満たす入力データセットを特定する。各ラベルに該当する確率のばらつきが、所定の指標で表現される場合、特定部３１は、ばらつきが、所定の閾値よりも大きい入力データセットを特定する。

　ここで、各ラベルに該当する確率が｛１，０，０｝である場合、確率のばらつきが最も低い。３つのラベリング関数の信頼がいずれも高く、１つのデータセットに対して、第１のラベリング関数のみがラベルを判別し、そのほかのラベリング関数が判別できないことを示すので、このデータセットが、第１のラベルに該当する確率は大変高く、確率のばらつきは低い。一方、各ラベルに該当する確率が｛０．３３，０．３３，０．３３｝である場合、確率のばらつきが最も高い。いずれのラベリング関数も判別できないことを示すので、このデータセットについて、いずれかのラベルに該当する確率は大変低く、確率のばらつきは大きい。

　そこで特定部３１は、各ラベルに該当する確率のばらつきが所定条件を満たすデータセットを、参照データセット３２として特定する。所定条件は、例えば、ある入力データセットに対して、各ラベリング関数が棄権し、各ラベルに該当する確率が同率の場合、信頼性の低いラベリング関数が用いられ、各ラベルに該当する確率の差が少ない場合など、確率のばらつきが大きいことを示す。特定部３１は、このような条件に予め合う入力データセットを、参照データセット３２として特定する。

　所定条件は、各ラベルに該当する確率のばらつきの指標で設定されても良い。例えば所定条件は、エントロピーにより設定される。ある入力データセットについて各クラスに該当する確率が、｛ｐ１，ｐ２，ｐ３｝の場合、特定部３１は、エントロピーとして、-{p1log(p1)+p2log(p2)+p3log(p3)}を算出する。ある入力データセットについて算出されたエントロピーが所定の閾値よりも高い場合、その入力データセットを参照データセット３２として特定する。特定部３１は、各入力データセットのうち、各ラベルに該当する確率から算出されたエントロピーが所定の閾値よりも高い入力データセットを、参照データセット３２として特定する。

　このように第１の実施の形態に係る処理装置１において、第１の処理部１０が入力データセットをラベリング関数でラベル付けし、ラベリングモデルを用いて、各ラベリング関数の信頼度を考慮して、入力データセットが、各ラベルに該当する確率を算出して、第１の出力データ１４を出力する。特定部３１が、第１の出力データ１４を参照して、各ラベルに該当する確率のばらつきが大きい入力データセットを特定する。特定された入力データセットにラベルを付すための新たなラベリング関数が生成される。

　処理装置１は、弱教師あり学習において作成するラベリング関数について、学習精度の向上につながるものを主体Ｅが作成できるように、主体Ｅに、ラベリング関数を作成すべき参照データセット３２を提示する。主体Ｅは、その提示された参照データセット３２をもとにラベリング関数を作成し、関数データ６に追加することにより、少ないコストで、効果的なラベリング関数を作成することができる。

　第１の実施の形態に係る処理装置１は、ラベリング関数の信頼性を考慮して算出された各ラベルに該当する確率から、新たにラベリング関数を生成する対象となる入力データセットを適切に特定することができる。新たにラベリング関数を生成する主体Ｅは、特定された入力データセットにラベルを付すためのラベリング関数を生成すればよいことから、処理装置１は、効果的なラベリング関数を増やすことができる。

　また第１の実施の形態に係る処理装置１は、入力データセットに対して、複数のラベリング関数により複数のラベルが付されるなど、ラベリング関数間で矛盾が生じる場合において、ラベリングモデルにより信頼性の高いラベリング関数により高い確率を付す。処理装置１は、ラベリング関数の信頼性も考慮して、ラベリング関数の出力結果連続値で評価するので、新たにラベリング関数を生成する際に参照される入力データセットを、より適切に、特定することができる。

　このように第１の実施の形態に係る処理装置１は、弱教師あり学習において正解を付すべき入力データセットを適切に提示することができるので、ラベリング関数の生成のコストを軽減と、ラベリング関数の品質の向上を実現することができる。

　（第２の実施の形態）
　図８を参照して、第２の実施の形態に係る処理装置１ａを説明する。処理装置１ａは、図１に示す第１の実施の形態にかかる処理装置１と比べて、第２の処理部２０を備える点、特定部３１ａおよび出力部４０ａが、第１の出力データ１４でなく第２の出力データ２４を参照する点が異なる。

　第２の処理部２０は、各入力データセットに、第１の出力データ１４において最も高い確率に対応するラベルを対応づけた複数の訓練データセットを識別器２３に入力して、各入力データセットに各ラベルに該当する確率を対応づける第２の出力データ２４を出力する。ここで、ラベルに該当する確率に、信頼度の高いラベリング関数が前記ラベルに該当すると判断した場合、高い値が付与され、信頼度の低いラベリング関数がラベルに該当すると判断した場合、低い値が付与される。第２の出力データ２４は、第１の出力データ１４と同様のデータ形式を有し、第１の出力データ１４とは異なる方法で生成される。

　第２の実施の形態に係る特定部３１ａは、各入力データセットのうち、第２の出力データ２４において各ラベルに該当する確率のばらつきが所定条件を満たす入力データセットを特定する。各ラベルに該当する確率のばらつきが、所定の指標で表現される場合、特定部３１ａは、ばらつきが、所定の閾値よりも大きい入力データセットを特定する。各ラベルに該当する確率のばらつきが大きい入力データセットは、参照データセット３２として特定される優先度が高く、各ラベルに該当する確率のばらつきが小さい入力データセットは、参照データセット３２として特定される優先度が低い。特定部３１ａによって、第２の出力データ２４から特定された入力データセットに対して新たに作成された新規ラベリング関数３３が、関数データ６に挿入される。

　新規ラベリング関数３３が追加された関数データ６を参照して、再度、第１の処理部１０は、入力データ５の各入力データセットをラベル付けし、各入力データセットに各ラベルに該当する確率を対応づける第１の出力データ１４を出力し、第２の処理部２０は、第１の出力データ１４から第２の出力データ２４を生成して出力する。

　第１の処理部１０、第２の処理部２０および特定部３１ａ等による関数データ６の更新処理が、所定条件を満たすまで繰り返される。所定条件は、関数データ６に適切なラベリング関数が収容されたことを示す条件が設定される。所定条件は、例えば、参照データセット３２のデータセット数がゼロになるまで、繰り返し回数、処理時間等で定められる。

　出力部４０ａは、所定条件を満たして得られた第２の出力データ２４に基づいて、学習結果を出力する。出力部４０ａは、新たに作成されたラベリング関数が、関数データ６に挿入された後に、第２の処理部２０を実行して得られた第２の出力データ２４において、各入力データセットに最も高い確率に対応するラベルを対応づけて出力する。

　図９を参照して、第２の実施の形態に係る処理装置１ａの処理の概要を説明する。図９に示す処理は一例であって、これに限るものではない。

　まずステップＳ１０１において処理装置１ａは、第１の処理部１０による処理で、第１の出力データ１４を生成する。ステップＳ１０２において処理装置１ａは、第２の処理部２０による処理で、第２の出力データ２４を生成する。第１の出力データ１４および第２の出力データ２４は、各入力データセットに各ラベルに該当する確率を対応づけるデータである。

　ステップＳ１０３において処理装置１ａは、関数データ６に適切な関数が収容され、学習結果を出力するタイミングであるか否かを判断する。学習結果を出力するタイミングでない場合、ステップＳ１０４に進む。学習結果を出力するタイミングの場合、ステップＳ１０７に進む。

　ステップＳ１０４において処理装置１ａは、第２の出力データ２４において、各ラベルに該当する確率のばらつきが所定条件を満たす入力データセットを、参照データセット３２として特定する。ステップＳ１０５において処理装置１ａは、ステップＳ１０４において特定された参照データセット３２に対して生成された新規ラベリング関数３３を取得する。ステップＳ１０６において処理装置１ａは、ステップＳ１０５で取得した新規ラベリング関数３３を、既存のラベリング関数を収容する関数データ６に追加する。その後、ステップＳ１０１に戻って処理装置１ａは、新規ラベリング関数３３を追加した関数データ６を参照して、第１の出力データ１４および第２の出力データ２４を生成する。

　ステップＳ１０７において処理装置１ａは、学習結果として、各入力データセットに、第２の出力データ２４において最も確率の高いラベルを対応づけて、出力する。

　（第２の処理部）
　次に、第２の処理部２０を説明する。第２の処理部２０は、生成部２１、訓練データ２２、識別器２３および第２の出力データを備える。

　生成部２１は、第１の出力データ１４から訓練データ２２を生成する。訓練データ２２は、例えば図１０に示すように、各入力データセットに、ラベルを対応づけたデータである。生成部２１は、第１の出力データ１４において、各入力データセットについて、最も確率の高いラベルを対応づけて、訓練データ２２を生成する。

　識別器２３は、学習済みの機械学習モデルである。識別器２３は、訓練データ２２を参照して、各入力データセットに各ラベルに該当する確率を対応づける第２の出力データ２４を出力する。識別器２３は、訓練データ２２を参照して、各入力データセットについて、各ラベルに該当する確率を算出する。

　図１１を参照して、第２の処理部２０による第２の処理を説明する。図１１に示す処理は一例であって、これに限るものではない。

　第２の処理部２０は、入力データ５の各入力データセットについて、ステップＳ１５１からＳ１５２の処理を繰り返す。

　ステップＳ１５１において第２の処理部２０は、対象入力データセットについて、第１の出力データにおいて最も高い確率を付けたラベルの識別子を対応づける。ステップＳ１５２において第２の処理部２０は、対象入力データセットについて、識別器２３で各ラベルに該当する確率を対応づける。対象入力データセットについて、ステップＳ１５１ないしステップＳ１５２の処理が終了すると、新たな対象入力データセットについて、ステップＳ１５１ないしステップＳ１５２を処理する。

　入力データ５の各入力データセットについて、ステップＳ１５１ないしステップＳ１５２の処理が終了すると、ステップＳ１５３おいて第２の処理部２０は、第２の出力データ２４を出力する。第２の出力データ２４は、ステップＳ１５２で生成した、入力データセットと各ラベルに該当する確率の対応付けの集合である。

　第２の処理部２０によって第２の出力データ２４が生成されると、第２の実施の形態に係る特定部３１ａは、第１の実施の形態にかかる特定部３１と同様に、各入力データセットのうち、第２の出力データ２４において各ラベルに該当する確率のばらつきが所定条件を満たす入力データセットを特定する。所定条件は、例えば、ある入力データセットに対して、各ラベリング関数が棄権し、各ラベルに該当する確率が同率の場合、信頼性の低いラベリング関数が用いられ、各ラベルに該当する確率の差が少ない場合など、確率のばらつきが大きいことを示す。特定部３１ａは、このような条件に予め合う入力データセットを、参照データセット３２として特定する。

　所定条件は、各ラベルに該当する確率のばらつきの指標で設定されても良い。例えば所定条件は、エントロピーにより設定される。特定部３１ａは、各入力データセットのうち、各ラベルに該当する確率から算出されたエントロピーが所定の閾値よりも高い入力データセットを、参照データセット３２として特定する。

　第２の実施の形態において処理装置１ａは、第１の出力データ１４から、第１の処理部１０とは異なる処理を行う第２の処理部２０によって、第２の出力データを生成し、第２の出力データ２４において各ラベルに該当する確率のばらつきが所定条件を満たす入力データセットについて生成された新規ラベリング関数３３を関数データ６に追加する。処理装置１ａは、第２の処理部２０における識別器２３による結果を考慮して、新規ラベリング関数３３を生成するために、識別器２３の学習結果の向上に有効な入力データセットを特定することができる。

　（第３の実施の形態）
　図１２を参照して、第３の実施の形態に係る処理装置１ｂを説明する。処理装置１ｂは、図８に示す第２の実施の形態にかかる処理装置１ａと比べて、特定部３１ｂが、第１の出力データ１４と第２の出力データ２４の両方を参照する点が異なる。

　第１の実施の形態において、第１の出力データ１４における各ラベルに該当する確率のばらつきから、参照データセット３２が特定される。第２の実施の形態において、第２の出力データ２４における各ラベルに該当する確率のばらつきから、参照データセット３２が特定される。第３の実施の形態において、第１の出力データ１４と第２の出力データ２４との確率のばらつきに差のある入力データセットが、参照データセット３２として特定される。

　特定部３１ｂは、各入力データセットのうち、第１の出力データ１４における各ラベルに該当する確率のベクトルと、第２の出力データ２４における各ラベルに該当する確率のベクトルとの距離が閾値以上の入力データセットを、参照データセット３２として特定する。特定部３１ｂによって、第１の出力データ１４における各ラベルに該当する確率のベクトルと第２の出力データ２４における各ラベルに該当する確率のベクトルとの距離から特定された入力データセットに対して新たに作成された新規ラベリング関数３３が、関数データ６に挿入される。

　特定部３１ｂは、ある入力データセットについて、第１の処理部１０によって得られた結果と第２の処理部２０によって得られた結果に違いが見られる場合、関数データ６に適切なラベリング関数が収容されていないと考えられる。そこで、第１の処理部１０によって得られた結果と第２の処理部２０によって得られた結果に違いがある入力データセットを、参照データセット３２として特定し、参照データセット３２についての新規ラベリング関数を、関数データ６に収容する。

　図１３を参照して、第３の実施の形態に係る処理装置１ｂの処理の概要を説明する。図１３に示す処理は一例であって、これに限るものではない。

　まずステップＳ２０１において処理装置１ｂは、第１の処理部１０による処理で、第１の出力データ１４を生成する。ステップＳ２０２において処理装置１ｂは、第２の処理部２０による処理で、第２の出力データ２４を生成する。第１の出力データ１４および第２の出力データ２４は、各入力データセットに各ラベルに該当する確率を対応づけるデータである。

　ステップＳ２０３において処理装置１ｂは、関数データ６に適切な関数が収容され、学習結果を出力するタイミングであるか否かを判断する。学習結果を出力するタイミングでない場合、ステップＳ２０４に進む。学習結果を出力するタイミングの場合、ステップＳ２０７に進む。

　ステップＳ２０４において処理装置１ｂは、各入力データセットのうち、第１の出力データ１４において、各ラベルに該当する確率のベクトルと、第１の出力データ１４において、各ラベルに該当する確率のベクトルとの距離が、閾値以上の入力データセットを、参照データセット３２として特定する。ステップＳ２０５において処理装置１ｂは、ステップＳ２０４において特定された参照データセット３２に対して生成された新規ラベリング関数３３を取得する。ステップＳ２０６において処理装置１ｂは、ステップＳ２０５で取得した新規ラベリング関数３３を、既存のラベリング関数を収容する関数データ６に追加する。その後、ステップＳ２０１に戻って処理装置１ｂは、新規ラベリング関数３３を追加した関数データ６を参照して、第１の出力データ１４および第２の出力データ２４を生成する。

　ステップＳ２０７において処理装置１ｂは、学習結果として、各入力データセットに、第２の出力データ２４において最も確率の高いラベルを対応づけて、出力する。

　第３の実施の形態において処理装置１ｂは、第１の出力データ１４と第２の出力データ２４の出力結果の差に着目して、新規ラベリング関数３３を特定するための参照データセット３２を特定する。処理装置１ｂは、第１の実施の形態および第２の実施の形態と異なる視点で、参照データセット３２を特定することができる。

　（第４の実施の形態）
　参照データセット３２とする入力データセットを特定する方法として、３つの方法を説明した。第１の実施の形態において、第１の出力データ１４における各ラベルに該当する確率のばらつきから特定する方法を説明した。第２の実施の形態において、第２の出力データ２４における各ラベルに該当する確率のばらつきから特定する方法を説明した。第３の実施の形態において、第１の出力データ１４における各ラベルに該当する確率と第２の出力データ２４における各ラベルに該当する確率の距離から特定する方法を説明した。

　第４の実施の形態において、これら３つの特定方法のうち、２つ以上の特定方法を統合して、入力データセットを特定しても良い。

　例えば、特定部３１は、２つまたは３つの特定方法でのそれぞれの指標を統合した指標を算出して、統合した指標に従って、参照データセット３２とする入力データセットを特定しても良い。統合した指標は、３つの特定方法で算出されるそれぞれの指標と正の相関を持つ。特定部３１は、統合した指標の高い順に特定される各入力データセットを、参照データセット３２として出力する。

　第４の実施の形態により、複数の観点で選択された入力データセットに対して新たなラベリング関数を生成することにより、関数データ６の多様性を効率的に実現することができる。

　（検証）
　ここで、本発明の実施の形態に係る処理装置１の検証を説明する。ここでは、第４の実施の形態に示すように、第１の実施の形態ないし第３の実施の形態でそれぞれ説明した指標と正の相関を持つ指標を用いる。

　検証として、疑問文分類を例に説明する。疑問文分類は、疑問文に対して何を問われているかを分類する問題である。ＴＲＥＣ６（ＴＲＥＣ：Text REtrieval Conference）データセットは、ＡＢＢＲ（略語）、ＤＥＳＣ（記述）、ＥＮＴＹ（もの）、ＬＯＣ（場所）、ＨＵＭ（人または組織）、ＮＵＭ（数）の６つのラベルに分類する。入力データ５の入力データセットは、疑問文で始まる文章である。

　ラベリング関数の例を以下に示す。表１に示すラベリング関数は、疑問文が“Ｗｈｅｒｅ”で始まれば“ＬＯＣ”という正解付けを行い、それ以外の場合は棄権することを示す。
        def lf_where:
              if sentence.startswith(‘Where’):
                            return ‘LOC’
              return ‘ABSTAIN’

　モデル処理部１３が参照するラベリングモデルに、オープンソースソフトウェアのＳｎｏｒｋｅｌを用いる。識別器２３に、Ｂｉｄｉｒｅｃｔｉｏｎａｌ　ＬＳＴＭ（Long Short Term Memory）を用いる。

　特定部３１が、入力データ５の入力データセットから参照データセット３２を特定する際の優先度の算出方法を説明する。ＴＲＥＣ６データセットは、６つに分類されるため、ラベリングモデルの出力は、６ラベルのそれぞれの確率となる。特定部３１は、第１の出力データ１４における各ラベルに該当する確率のばらつきとして、第１の出力データ１４を参照して、各入力データセットについて、その確率のエントロピーを算出する。

　各データに対する識別器２３の出力も６クラスそれぞれの確率となる。特定部３１は、第２の出力データ２４における各ラベルに該当する確率のばらつきとして、第２の出力データ２４を参照して、各入力データセットについて、その確率のエントロピーを算出する。

　第１の出力データ１４における各ラベルに該当する確率と第２の出力データ２４における各ラベルに該当する確率の距離として、特定部３１は、各入力データセットについて、両確率をベクトルとしたコサイン類似度cosθから、1-cosθを算出する。

　検証において優先度は、第１の出力データ１４から算出されたエントロピー、第２の出力データ２４から算出されたエントロピー、および第１の出力データ１４および第２の出力データ２４の確率の類似度cosθから算出された1-cosθの各指標の、積または対数和が用いられる。

　特定部３１が、参照データセット３２として、入力データ５から、優先度が上位１０個の疑問文を特定し、特定された疑問文を主体Ｅに提示する。主体Ｅは、提示された疑問文の中で、各疑問文に付された優先度を考慮しつつ、多くの疑問文に適用できる新規ラベリング関数３３を生成する。新規ラベリング関数３３は、関数データ６に挿入される。

　例えば、参照データセット３２として、表２に示す１０文が提示されたとする。表２は、優先度の高い順に、文章を並べる。表２に示す１０文から、“How many”および“How far”等の“How + 数量を表す形容詞”で始まる文を、ラベル“NUM”と判別するラベリング関数が生成されれば良いことがわかる。

How many yards are in 1 mile?
How many questions are on this thing?
Tell me what city the Kentucky Horse Park is near?
How many cullions does a male have?
How many horses are there on a polo team?
How far is the longest hole in 1 on any golf course and where did it happen?
Which city has the oldest relationship as a sister city with Los Angeles?
How many events make up the decathlon?
How many neurons are in the human brain?
How many types of cheese are there in France?

　ここで、検証のため、事前に追加しうるラベリング関数を予め用意した上で、関数データ６に６つのラベリング関数を設定し、その後、ラベリング関数を１つずつ追加する場合を説明する。主体Ｅの作業を模するため、コンピュータが、特定部３１が提示した参照データセット３２で示された１０の文章に対して、ラベリング関数を追加することで正解を出せる文章の優先度を算出し、最大の優先度となるラベリング関数を、関数データ６に追加した。ラベリング関数の候補が、参照データセット３２として提示された各疑問文に対してそれぞれ棄権した場合、参照データセット３２の次に優先度が高い疑問文に対して、同様の処理を行う。

　ここで検証として、実施の形態に係る提案手法を用いた場合のほか、非特許文献１に記載の方法を用いた場合、ランダムに文章を追加する場合、およびランダムにラベリング関数を追加した場合を用いる。どの手法においても、関数データ６に最初に設定される６つラベリング関数は、同じである。

　非特許文献１に記載の方法において、多クラス識別に拡張し、全てのラベリング関数に棄権された疑問文を優先度１位、投票されているが同点トップが複数あれば優先度２位とする。優先度１位の数が１０より多い場合、優先度１位のなかからランダムで１０文を選択し、不足する場合、優先度２位の疑問文を合わせて、ランダムに１０文が選択される。それら１０文に対して全ラベリング関数候補について適用できる文数が多いものが、新規ラベリング関数として追加される。適用可能文数が同数であれば、その中からランダムに選択される。

　ランダムに文章を追加する方法において、主体Ｅに提示する１０文がランダムに選択され、選択された１０文に対して、全ラベリング関数候補を適用できる文数が多い文章が、新規ラベリング関数として追加される。適用可能文数が同数であれば、その中からランダムに選択される。

　このように４つの方法でラベリング関数を追加した結果を、図１４に示す。縦軸は、検証の指標であるマクロF値であって、横軸は、ラベリング関数の数である。

　実施の形態に係る提案手法を用いた場合、ラベリング関数の追加が少ない状態において、他の方法よりもF値が高い。従って、本発明の実施の形態に係る処理装置１は、高精度かつ効率的にラベリング関数を追加できる。

　上記説明した本実施形態の処理装置１は、例えば、CPU（Central Processing Unit、プロセッサ）９０１と、メモリ９０２と、ストレージ９０３（HDD：Hard Disk Drive、SSD：Solid State Drive）と、通信装置９０４と、入力装置９０５と、出力装置９０６とを備える汎用的なコンピュータシステムが用いられる。このコンピュータシステムにおいて、CPU９０１がメモリ９０２上にロードされた処理プログラムを実行することにより、処理装置１の各機能が実現される。

　なお、処理装置１は、１つのコンピュータで実装されてもよく、あるいは複数のコンピュータで実装されても良い。また処理装置１は、コンピュータに実装される仮想マシンであっても良い。

　処理装置１プログラムは、HDD、SSD、USB（Universal Serial Bus）メモリ、CD (Compact Disc)、DVD (Digital Versatile Disc)などのコンピュータ読取り可能な記録媒体に記憶することも、ネットワークを介して配信することもできる。

　なお、本発明は上記実施形態に限定されるものではなく、その要旨の範囲内で数々の変形が可能である。

　１　処理装置
　５　入力データ
　６　関数データ
　１０　第１の処理部
　１１　ラベル付け部
　１２　ラベルあり入力データ
　１３　モデル処理部
　１４　第１の出力データ
　２０　第２の処理部
　２１　生成部
　２２　訓練データ
　２３　識別器
　２４　第２の出力データ
　３１　特定部
　３２　参照データセット
　３３　新規ラベリング関数
　３４　更新部
　９０１　CPU
　９０２　メモリ
　９０３　ストレージ
　９０４　通信装置
　９０５　入力装置
　９０６　出力装置
　Ｅ　主体

Claims

　入力データセットにラベル付けを行う、あるいはラベル付けができない場合は棄権するラベリング関数を含む関数データを参照して、
　入力データセットを、前記ラベリング関数でラベル付けした結果から、各入力データセットに各ラベルに該当する確率を対応づける第１の出力データを出力する第１の処理部と、
　各入力データセットのうち、前記第１の出力データにおいて各ラベルに該当する確率のばらつきが所定条件を満たす入力データセットを特定する特定部を備え、
　前記特定部によって、前記第１の出力データから特定された入力データセットに対して新たに作成されたラベリング関数が、前記関数データに挿入される
　処理装置。
　新たに作成されたラベリング関数が、前記関数データに挿入された後に、前記第１の処理部を実行して得られた第１の出力データにおいて、各入力データセットに最も高い確率に対応するラベルを対応づけて出力する出力部
　をさらに備える請求項１に記載の処理装置。
　各入力データセットに、前記第１の出力データにおいて最も高い確率に対応するラベルを対応づけた複数の訓練データセットを識別器に入力して、各入力データセットに各ラベルに該当する確率を対応づける第２の出力データを出力する第２の処理部をさらに備え、
　前記特定部は、各入力データセットのうち、前記第２の出力データにおいて各ラベルに該当する確率のばらつきが所定条件を満たす入力データセットを特定し、
　前記特定部によって、前記第２の出力データから特定された入力データセットに対して新たに作成されたラベリング関数が、前記関数データに挿入される
　請求項１に記載の処理装置。
　前記特定部は、各入力データセットのうち、前記第１の出力データにおける各ラベルに該当する確率のベクトルと、前記第２の出力データにおける各ラベルに該当する確率のベクトルとの距離が閾値以上の入力データセットを特定し、
　前記特定部によって、前記第１の出力データにおける各ラベルに該当する確率のベクトルと前記第２の出力データにおける各ラベルに該当する確率のベクトルとの距離から特定された入力データセットに対して新たに作成されたラベリング関数が、前記関数データに挿入される
　請求項３に記載の処理装置。
　新たに作成されたラベリング関数が、前記関数データに挿入された後に、前記第１の処理部および前記第２の処理部を実行して得られた第２の出力データにおいて、各入力データセットに最も高い確率に対応するラベルを対応づけて出力する出力部
　をさらに備える請求項３または４に記載の処理装置。
　前記ラベルに該当する確率に、信頼度の高いラベリング関数が前記ラベルに該当すると判断した場合、高い値が付与され、信頼度の低いラベリング関数が前記ラベルに該当すると判断した場合、低い値が付与される
　請求項１ないし５のいずれか１項に記載の処理装置。
　コンピュータが、入力データセットにラベル付けを行う、あるいはラベル付けができない場合は棄権するラベリング関数を含む関数データを参照して、
　入力データセットを、前記ラベリング関数でラベル付けした結果から、各入力データセットに各ラベルに該当する確率を対応づける第１の出力データを出力するステップと、
　前記コンピュータが、各入力データセットのうち、前記第１の出力データにおいて各ラベルに該当する確率のばらつきが所定条件を満たす入力データセットを特定するステップを備え、
　前記特定するステップにおいて、前記第１の出力データから特定された入力データセットに対して新たに作成されたラベリング関数が、前記関数データに挿入される
　を備える処理方法。
　コンピュータを、請求項１ないし請求項６のいずれか１項に記載の処理装置として機能させるための処理プログラム。