WO2020179525A1

WO2020179525A1 - モデル学習装置、ラベル推定装置、それらの方法、およびプログラム

Info

Publication number: WO2020179525A1
Application number: PCT/JP2020/007287
Authority: WO
Inventors: 歩相名神山; 厚志安藤; 哲小橋川
Original assignee: 日本電信電話株式会社
Priority date: 2019-03-06
Filing date: 2020-02-25
Publication date: 2020-09-10
Also published as: JP2020144569A; JP7222274B2; US20220180188A1

Abstract

１データあたりの評価者が少ない学習データを用いた場合であっても、高い精度でラベル推定を行うことが可能なモデルを学習する。学習用特徴データと、評価者が学習用特徴データに付与したラベルを表すラベルデータと、を含む学習データを入力とし、特徴データに付与されるラベルの確率分布を推定するラベル推定モデルを特徴データである学習用特徴データに適用して得られる推定ラベル確率値と、評価者が特徴データに対して正しいラベルを付与する確率および誤ったラベルを付与する確率を表す能力データとから得られる、能力データによる推定ラベル確率値の重み付け和である推定観測ラベル確率値、のラベルデータが表すラベルに対する誤差を表す誤差値が小さくなるように、能力データを更新した更新能力データおよびラベル推定モデルを更新した更新ラベル推定モデルを得る。

Description

モデル学習装置、ラベル推定装置、それらの方法、およびプログラム

　本発明は、モデル学習およびラベル推定に関する。

　電話音声の好感度（非特許文献１）や外国語の発音の良さ・流暢さ（非特許文献２）等の印象を評価して会話の技能を図るテストでは、音声に対して定量的な印象値（例えば、「良い」から「悪い」の５段階評価、好感度が「高い」から「低い」の５段階評価、自然さが「高い」から「低い」の５段階評価等）が付与される。

　現在は、各技能の専門家が音声の印象を評価して印象値を付与し、合格・不合格の判定を行っている。しかし、音声の印象を自動推定して印象値が得られるようになると、それをテストの足切り判定等に活用したり、評価に不慣れな専門家（例えば評価者になりたての人物）への参考値として用いたりできる。

　機械学習を用いてデータ（例えば、音声データ）に対するラベル（例えば、印象値）の自動推定を実現するためには、データとそのデータに付与されたラベルとの組みを学習データとした学習処理を行い、入力データに対するラベルを推定するモデルを生成すればよい。

　しかし、評価者には個人差があり、またラベルを付与することに慣れていない評価者がデータにラベルを付与する場合もある。そのため、同じデータに対して異なる評価者が異なるラベルを付与することもある。

　複数の評価者によるラベルの値を平均したようなラベルを推定するモデルを学習するためには、同一のデータに対して複数人の評価者がラベルを付与し、それらの値を平均したラベルと当該データとの組を学習データとすればよい。平均的なラベルを安定して推定できるようになるには、できるだけ多人数の評価者が同一のデータにラベルを付与するとよい。例えば、非特許文献３では同一のデータに対して１０名の評価者がラベルを付与している。

F. Burkhardt, B. Schuller, B. Weiss and F. Weninger, "Would You Buy a Car From Me?" On the Likability of Telephone Voices," In Proc. Interspeech, pp. 1557 - 1560, 2011. Kei Ohta and Seiichi Nakagawa, "A statistical method of evaluating pronunciation proficiency for Japanese words," INTERSPEECH2005, pp. 2233 - 2236. 籠宮隆之，山住賢司，槙洋一，"印象評定データの概要", [online]， [平成３１年２月２５日検索]，インターネット＜http://pj.ninjal.ac.jp/corpus_center/csj/manu-f/impression.pdf＞

　評価者の中には、評価能力の高い人物とそうではない人物が存在する。１データあたりの評価者が多い場合、評価能力の低い評価者が混在していても、評価能力の高い評価者が付与したラベルによって学習データのラベルはある程度正確なものに補正される。しかし、１データあたりの評価者が少ない場合、評価者の評価能力不足によって学習データのラベル誤りが大きくなり、精度の高いラベルを推定するモデルを学習できなくなる場合が生じる。

　本発明はこのような点に鑑みてなされたものであり、１データあたりの評価者が少ない学習データを用いた場合であっても、高い精度でラベル推定を行うことが可能なモデルを学習できる技術を提供することである。

　学習用特徴データと、評価者が学習用特徴データに付与したラベルを表すラベルデータと、を含む学習データを入力とし、特徴データに付与されるラベルの確率分布を推定するラベル推定モデルを特徴データである学習用特徴データに適用して得られる推定ラベル確率値と、評価者が特徴データに対して正しいラベルを付与する確率および誤ったラベルを付与する確率を表す能力データとから得られる、能力データによる推定ラベル確率値の重み付け和である推定観測ラベル確率値、のラベルデータが表すラベルに対する誤差を表す誤差値が小さくなるように、能力データを更新した更新能力データおよびラベル推定モデルを更新した更新ラベル推定モデルを得る。

　本発明では、評価者の能力を確率で表した能力データによる推定ラベル確率値の重み付け和を評価し、能力データおよびラベル推定モデルを更新するため、１データあたりの評価者が少ない学習データを用いた場合であっても、高い精度でラベル推定を行うことが可能なモデルを学習できる。

図１は、第１実施形態のモデル学習装置の機能構成を例示したブロック図である。図２は、学習用ラベルデータの構成例示した図である。図３は、評価者能力データの構成を例示した図である。図４は、学習用特徴データの構成を例示した図である。図５は、第１実施形態のモデル学習方法を説明するためのフロー図である。図６は、第１，２実施形態のラベル推定装置の機能構成を例示したブロック図である。図７は、第２実施形態のモデル学習装置の機能構成を例示したブロック図である。図８は、第２実施形態のニューラルネットワークを例示した図である。図９は、第２実施形態のモデル学習方法を説明するためのフロー図である。

　以下、図面を参照して本発明の実施形態を説明する。
　［第１実施形態］
　まず本発明の第１実施形態を説明する。
　＜構成＞
　図１に例示するように、本実施形態のモデル学習装置１は、学習用ラベルデータ記憶部１１１、学習用特徴データ記憶部１１２、能力データ記憶部１１３、評価ラベル推定部１１４、観測ラベル推定部１１５、誤差評価部１１６、能力学習部１１７、推定モデル学習部１１８、および制御部１１９を有する。ここで、能力データ記憶部１１３、評価ラベル推定部１１４、観測ラベル推定部１１５、誤差評価部１１６、能力学習部１１７、推定モデル学習部１１８、および制御部１１９が更新部に相当する。図６に例示するように、本実施形態のラベル推定装置１２は、モデル記憶部１３１、および推定部１２２を有する。

　＜前処理＞
　モデル学習装置１１によるモデル学習処理の前処理として、学習用ラベルデータが学習用ラベルデータ記憶部１１１に格納され、学習用特徴データが学習用特徴データ記憶部１１２に格納され、能力データが能力データ記憶部１１３に格納される。学習用ラベルデータは、複数の評価者それぞれが複数の学習用特徴データそれぞれに付与したラベルの値を表すラベルデータ（評価者が学習用特徴データに付与したラベルを表すラベルデータ）を含む。ラベルは、学習用特徴データに対応する「ヒトが知覚可能な情報（例えば、音声、楽曲、テキスト、画像、動画など）」を知覚した評価者が自らの判断でその学習用特徴データに対して付与した正解ラベルである。ラベルの値は、数値であってもよいし、アルファベットその他の記号であってもよい。例えば、ラベルは、学習用特徴データに対応する「ヒトが知覚可能な情報」を知覚した評価者がその情報を評価して付与した評価結果を表す数値（例えば、印象を表す数値）である。学習用特徴データは学習用の特徴データである。特徴データはヒトが知覚可能な情報を表すデータ（例えば、音声データ、楽曲データ、テキストデータ、画像データ、動画データなど）であってもよいし、このようなヒトが知覚可能な情報の特徴を表すデータ（例えば、特徴量のデータ）であってもよい。能力データは、複数の評価者それぞれが特徴データに対して正しいラベルを付与する確率および誤ったラベルを付与する確率を表すデータである。例えば、能力データは、数値やアルファベットその他の記号の集合であってもよいし、確率密度関数等の関数であってもよい。

　≪学習用ラベルデータ・学習用特徴データ・能力データの例示≫
　図２に学習用ラベルデータの例を、図３に学習用特徴データの例を、図４に能力データの例をそれぞれ示す。ただし、これらは一例であって本発明を限定するものではない。

　学習用ラベルデータの例：
　図２に例示する学習用ラベルデータは、ラベルデータ番号ｉ、評価者番号ｋ（ｉ）、およびラベルデータｙ（ｉ）を含む。評価者番号ｋ（ｉ）およびラベルデータｙ（ｉ）はラベルデータ番号ｉに対応付けられている。ここで、ラベルデータ番号ｉ∈｛１，…，Ｉ｝は、各学習用特徴データとそれにラベルを付与した評価者との組（すなわち、各学習用特徴データとそれを評価した評価者との組）を識別する番号である。一つの学習用特徴データに対して単数の評価者がラベルを付与する場合もあるし、同じ学習用特徴データに対して複数の評価者がラベルを付与する場合もある。学習用特徴データが同一であっても評価者が異なれば、それらの組に対応するラベルデータ番号ｉは異なる。Ｉは２以上の整数である。評価者番号ｋ（ｉ）∈｛１，…，Ｋ｝は複数の評価者のそれぞれを識別する番号であり、各評価者番号ｋ（ｉ）は各評価者と一対一で対応する。Ｋは２以上の整数である。ラベルデータｙ（ｉ）∈｛１，…，Ｃ｝は、ラベルデータ番号ｉに対応する評価者がラベルデータ番号ｉに対応する学習用特徴データｘ（ｉ）に付与したラベルを表す。Ｃは２以上の整数である。

　学習用特徴データの例：
　図３に例示するラベルデータ番号ｉ∈｛１，…，Ｉ｝に対応する学習用特徴データｘ（ｉ）は、それぞれに対応するラベルデータ番号ｉ∈｛１，…，Ｉ｝に対応付けられている。図３に例示する学習用特徴データｘ（ｉ）は、例えば、音声信号や音声信号から抽出された特徴を要素とするベクトル等の特徴量である。前述のように、同じ学習用特徴データに対して２名以上の評価者がラベルを付する場合があり、そのような場合には全く同じ学習用特徴データが互いに異なるラベルデータ番号ｉで識別される。例えば、図３のｘ（１）およびｘ（２）は内容としては全く同一の学習用特徴データであるが、互いに異なる評価者番号ｋ（１），ｋ（２）に対応する２名の評価者がラベルを付しているため、互いに異なるラベルデータ番号ｉ＝１，２で識別される。

　能力データの例：
　図４に例示する能力データａ（ｋ，ｃ，ｃ’）は、評価者番号ｋ∈｛１，…，Ｋ｝の評価者がラベルデータｃ∈｛１，…，Ｃ｝によって表されるラベルの特徴データにラベルデータｃ’∈｛１，…，Ｃ｝によって表されるラベルを付与する確率を表す。言い換えると、能力データａ（ｋ，ｃ，ｃ’）は、評価者番号ｋに対応する評価者がラベルデータｃによって表されるラベルの特徴データを評価した際に、ラベルデータｃ’∈｛１，…，Ｃ｝によって表されるラベルを付与する確率を表す。すなわち、ラベルデータｃは特徴データの正しいラベルを表し、ラベルデータｃ’は評価者が当該特徴データに付与するラベルを表し、ｃ＝ｃ’に対する能力データａ（ｋ，ｃ，ｃ’）は評価者番号ｋ（ｉ）の評価者がラベルデータｃによって表される正しいラベルを付与する確率を表し、ｃ≠ｃ’に対する能力データａ（ｋ，ｃ，ｃ’）は評価者番号ｋ（ｉ）の評価者がラベルデータｃ’によって表される誤ったラベルを付与する確率を表す。図４の例では、各評価者番号ｋ∈｛１，…，Ｋ｝に対してラベルデータｃ∈｛１，…，Ｃ｝とラベルデータｃ’∈｛１，…，Ｃ｝の組に対する各能力データａ（ｋ，ｃ，ｃ’）が対応付けられている。図４の例の能力データａ（ｋ，ｃ，ｃ’）は、ａ（ｋ，ｃ，１）＋・・・＋ａ（ｋ，ｃ，Ｃ）が１になるように、０以上１以下の範囲に正規化されている。

　能力データａ（ｋ，ｃ，ｃ’）の初期値はランダムに設定されてもよいし、各評価者が特徴データに正しいラベルを付与できるのか否かを試す試験を行い、その結果をもとに設定されてもよい。例えば、この試験において、複数の評価者が同じ特徴データを評価して当該特徴データに対してラベルを付与することとし、同じ特徴データを評価した他の評価者によって付与されたラベルを正しいラベルとみなして能力データａ（ｋ，ｃ，ｃ’）の初期値が設定されてもよい。例えば、ラベルデータｃに対応するラベルが付与されている特徴データの中で、評価者番号ｋ’∈｛１，…，Ｋ｝以外の評価者番号ｋ（ｉ）≠ｋ’の評価者がラベルを付与したラベルデータ番号ｉの集合を

と表記する。また

と同じ特徴データのうち、当該特徴データを評価した評価者番号ｋ（ｉ）＝ｋ’の評価者がラベルデータｃ’に対応するラベルを付与したものラベルデータ番号ｉの集合を

と表記する。このとき、能力データａ（ｋ，ｃ，ｃ’）の初期値が以下のように設定されてもよい。

ここで｜・｜は集合・の要素数を表し、

はｋ’以外のものを示すシンボルである。

　＜モデル学習処理＞
　次に、本実施形態のモデル学習処理を説明する。
　本実施形態のモデル学習処理では、更新部が、学習用特徴データｘ（ｉ）と、評価者が学習用特徴データに付与したラベルを表すラベルデータｙ（ｉ）と、を含む学習データを入力とし、特徴データに付与されるラベルの確率分布を推定するラベル推定モデルλを特徴データである学習用特徴データｘ（ｉ）に適用して得られる推定ラベル確率値ｈ（ｉ，ｃ）と、評価者が特徴データに対して正しいラベルを付与する確率および誤ったラベルを付与する確率を表す能力データａ（ｋ，ｃ，ｃ’）とから得られる、能力データａ（ｋ，ｃ，ｃ’）による推定ラベル確率値ｈ（ｉ，ｃ）の重み付け和である推定観測ラベル確率値ｙ＾（ｉ，ｃ’）、のラベルデータｙ（ｉ）が表すラベルに対する誤差を表す誤差値Ｌ（ｉ）が小さくなるように、能力データａ（ｋ，ｃ，ｃ’）を更新した更新能力データおよびラベル推定モデルλを更新した更新ラベル推定モデルλを得る。以下、図５を参照しながら詳細に説明する。

　≪評価ラベル推定部１１４の処理（ステップＳ１１４）≫
　評価ラベル推定部１１４には、推定モデル学習部１１８から出力されたラベル推定モデルλと、学習用特徴データ記憶部１１２から抽出された学習用特徴データｘ（ｉ）とが入力される。なお、ラベル推定モデルλの例は、ニューラルネットワーク、隠れマルコフモデル、サポートベクターマシンなどである。ラベル推定モデルλの初期値はどのようなものであってもよい。評価ラベル推定部１１４は、ラベル推定モデルλを学習用特徴データｘ（ｉ）に適用して推定ラベル確率値ｈ（ｉ，ｃ）（ただしｉ∈｛１，…，Ｉ｝，ｃ∈｛１，…，Ｃ｝）を得て出力する。ここで推定ラベル確率値ｈ（ｉ，ｃ）は、ラベルデータ番号ｉに対応する学習用特徴データｘ（ｉ）の正しいラベルのラベルデータがｃである確率を表す。すなわち、本実施形態で例示する推定ラベル確率値ｈ（ｉ，ｃ）は、ラベル推定モデルλを学習用特徴データｘ（ｉ）に適用して得られる確率分布ｐ（ｃ｜ｘ（ｉ），λ）である。ただし、

を満たす。ｐ（ｃ｜ｘ（ｉ），λ）は、ラベル推定モデルλにおいて、学習用特徴データｘ（ｉ）に対応する正しいラベルのラベルデータがｃ∈｛１，…，Ｃ｝である確率分布である。

　≪観測ラベル推定部１１５の処理（ステップＳ１１５）≫
　観測ラベル推定部１１５には、ステップＳ１１４で得られた推定ラベル確率値ｈ（ｉ，ｃ）、学習用ラベルデータ記憶部１１１から抽出された評価者番号ｋ（ｉ）、および能力データ記憶部１１３から抽出された能力データａ（ｋ，ｃ，ｃ’）が入力される。観測ラベル推定部１１５は、入力された推定ラベル確率値ｈ（ｉ，ｃ）と評価者番号ｋ（ｉ）と能力データａ（ｋ，ｃ，ｃ’）とから推定観測ラベル確率値ｙ＾（ｉ，ｃ’）を得て出力する。前述のように、推定観測ラベル確率値ｙ＾（ｉ，ｃ’）は、能力データａ（ｋ（ｉ），ｃ，ｃ’）による推定ラベル確率値ｈ（ｉ，ｃ）の重み付け和である。これにより、評価者の能力によって評価値が真の値からぶれることを再現する。前述のように能力データａ（ｋ（ｉ），ｃ，ｃ’）は、評価者番号ｋ（ｉ）に対応する評価者がラベルデータｃによって表されるラベルの特徴データを評価した際に、ラベルデータｃ’∈｛１，…，Ｃ｝によって表されるラベルを付与する確率を表す。推定観測ラベル確率値ｙ＾（ｉ，ｃ’）は、評価者番号ｋ（ｉ）に対応する評価者が正しくラベルを付与する確率（ｃ＝ｃ’の確率）と、誤ったラベルを付与する確率（ｃ≠ｃ’の確率）との両面から、学習用特徴データｘ（ｉ）にラベルデータｃ’に対応するラベルが付与される確率を再現したものである。例えば、観測ラベル推定部１１５は、以下のように推定観測ラベル確率値ｙ＾（ｉ，ｃ’）を求めて出力する。

なお、この式に示すように、「ｙ＾（ｉ，ｃ’）」の右上添え字の「＾」は本来「ｙ」の真上に記載すべきであるが、記載表記の制約上「ｙ」の右上に記載する場合がある。

　≪誤差評価部１１６の処理（ステップＳ１１６）≫
　誤差評価部１１６には、観測ラベル推定部１１５で得られた推定観測ラベル確率値ｙ＾（ｉ，ｃ’）、および学習用ラベルデータ記憶部１１１から抽出したラベルデータｙ（ｉ）が入力される。誤差評価部１１６は、ラベルデータｙ（ｉ）が表すラベルに対する推定観測ラベル確率値ｙ＾（ｉ，ｃ’）の誤差を表す誤差値Ｌ（ｉ）を得て出力する。誤差値Ｌ（ｉ）は、ラベルデータｙ（ｉ）が表すラベルに対する推定観測ラベル確率値ｙ＾（ｉ，ｃ’）の乖離を表す。例えば、誤差評価部１１６は、クラス識別において頻繁に使用される誤差値であるCategorical Cross-Entropyに基づいてラベルデータｙ（ｉ）と推定観測ラベル確率値ｙ＾（ｉ，ｃ’）との間の誤差を評価して誤差値Ｌ（ｉ）を得て出力する。例えば、誤差評価部１１６は、以下に従って誤差値Ｌ（ｉ）を求める。

ただし、以下を満たす。

　≪能力学習部１１７の処理（ステップＳ１１７）≫
　能力学習部１１７には、ステップＳ１１４で得られた推定ラベル確率値ｈ（ｉ，ｃ）、ステップＳ１１５で得られた推定観測ラベル確率値ｙ＾（ｉ，ｃ’）、ステップＳ１１６で得られた誤差値Ｌ（ｉ）、学習用ラベルデータ記憶部１１１から抽出された評価者番号ｋ（ｉ）、および能力データ記憶部１１３から抽出された能力データａ（ｋ，ｃ，ｃ’）が入力される。能力学習部１１７は、これらを用いて能力データａ（ｋ，ｃ，ｃ’）を更新して更新能力データａ’（ｋ，ｃ，ｃ’）を得る。例えば、能力学習部１１７は、誤差値Ｌ（ｉ）が小さくなるように能力データａ（ｋ，ｃ，ｃ’）を更新して更新能力データａ（ｋ，ｃ，ｃ’）を得る。例えば、能力学習部１１７は、まず、すべてのｃ∈｛１，…，Ｃ｝について以下のようにａ（ｋ，ｃ，ｃ’）を更新する。

ただし、以下を満たす。

またηは予め設定された学習率のパラメータである。ηは正の実数であり、ニューラルネットワークでこの処理を行う場合には、例えば、０．０１以下の値がηとされる。すべてのｃ∈｛１，…，Ｃ｝について上記のようにａ（ｋ，ｃ，ｃ’）を更新した後、能力学習部１１７は、例えば、すべてのｃ，ｃ”∈｛１，…，Ｃ｝について、以下のようにａ（ｋ，ｃ，ｃ”）が確率値となるように正規化して更新能力データａ（ｋ，ｃ，ｃ”）を得る。

得られた更新能力データａ（ｋ，ｃ，ｃ”）は新たな能力データａ（ｋ，ｃ，ｃ”）として能力データ記憶部１１３に格納される。

　≪推定モデル学習部１１８の処理（ステップＳ１１８ａ）≫
　推定モデル学習部１１８には、ステップＳ１１５で得られた推定観測ラベル確率値ｙ＾（ｉ，ｃ’）、ステップＳ１１６で得られた誤差値Ｌ（ｉ）、学習用ラベルデータ記憶部１１１から抽出された評価者番号ｋ（ｉ）、および能力データ記憶部１１３から抽出されたステップＳ１１７での更新後の能力データａ（ｋ，ｃ，ｃ’）が入力される。推定モデル学習部１１８は、これらを用い、ラベル推定モデルλを更新した更新ラベル推定モデルλを得て出力する。例えば、推定モデル学習部１１８は、誤差値Ｌ（ｉ）が小さくなるように、ラベル推定モデルλを更新して更新ラベル推定モデルλを得る。例えば、推定モデル学習部１１８は、下記の勾配に基づき、誤差値Ｌ（ｉ）が小さくなるように、更新ラベル推定モデルλのパラメータを更新する。

ラベル推定モデルλがニューラルネットワークの場合、推定モデル学習部１１８は、上記の勾配に基づき、例えば勾配降下法によってラベル推定モデルλのパラメータを更新する。ラベル推定モデルλがニューラルネットワークの場合、推定モデル学習部１１８が、上記の勾配に基づきパラメータ更新の勾配も求めてパラメータを更新してもよい。上述のように得られた更新ラベル推定モデルλは、新たなラベル推定モデルλとして評価ラベル推定部１１４に送られる。

　≪制御部１１９の処理（ステップＳ１１９）≫
　制御部１１９は、終了条件を充足したか否かを判断する。終了条件に限定はないが、例えば、ステップＳ１１８ａの前後でのラベル推定モデルλのパラメータの変化量が所定値以下となったこと（ラベル推定モデルλのパラメータが十分に収束したこと）、ラベル推定モデルλのパラメータの更新が所定回数実行されたことなどを終了条件とできる。終了条件を満たしていないと判断された場合にはステップＳ１１４に戻る。すなわち、ステップＳ１１７で更新された更新能力データを新たな能力データａ（ｋ，ｃ，ｃ’）とし、ステップＳ１１８ａで更新された更新ラベル推定モデルを新たなラベル推定モデルλとし、ステップＳ１１４以降の処理が再び繰り返される。

　≪推定モデル学習部１１８の処理（ステップＳ１１８ｂ）≫
　一方、ステップＳ１１９で終了条件を満たしたと判断された場合には、推定モデル学習部１１８が最後にステップＳ１１８ａで得たラベル推定モデルλを特定するためのパラメータ（更新ラベル推定モデルλを特定するための情報）を出力する。あるいは、推定モデル学習部１１８が、最後にステップＳ１１８ａで更新される前のラベル推定モデルλを特定するためのパラメータ（ラベル推定モデルλを特定するための情報）が出力してもよい。

　＜推定処理＞
　次に、本実施形態の推定処理を説明する。
　上述のようにモデル学習装置１１から出力されたラベル推定モデルλを特定するパラメータは、ラベル推定装置１２（図６）のモデル記憶部１２１に格納される。推定部１２２には、上述した学習用特徴データｘ（ｉ）と同じ種別の入力特徴データｘが入力される。推定部１２２はモデル記憶部１２１からラベル推定モデルλを特定する情報を読み込み、ラベル推定モデルλに対して入力特徴データｘを適用し、入力特徴データｘに対するラベルｙを推定して出力する。例えば、推定部１２２は入力特徴データｘに対するラベルｙを出力してもよいし、複数のラベルｙとそれらの確率とを出力してもよいし、確率の高い順に複数のラベルｙを出力してもよい。

　［第２実施形態］
　次に本発明の第２実施形態を説明する。第２実施形態は、第１実施形態の能力データ記憶部１１３、評価ラベル推定部１１４、観測ラベル推定部１１５、誤差評価部１１６、能力学習部１１７、推定モデル学習部１１８、および制御部１１９を含む更新部の機能を一つのニューラルネットワークで実装するものである。以下では、第１実施形態との相違点を中心に説明し、これまでに説明した事項については同じ参照番号を用いて説明を簡略化する。

　＜構成＞
　図７に例示するように、本実施形態のモデル学習装置２１は、学習用ラベルデータ記憶部１１１、学習用特徴データ記憶部１１２、損失関数計算部２１１、パラメータ更新部２１８、および制御部２１９を有する。ここで、損失関数計算部２１１、パラメータ更新部２１８、および制御部２１９が更新部に相当する。第２実施形態でも第１実施形態と同じラベル推定装置１２を用いる。

　＜前処理＞
　モデル学習装置２１によるモデル学習処理の前処理として、学習用ラベルデータが学習用ラベルデータ記憶部１１１に格納され、学習用特徴データが学習用特徴データ記憶部１１２に格納される。第１実施形態との相違点は、第１実施形態の前処理では、能力データが能力データ記憶部１１３に格納されたが本実施形態の前処理ではこの処理は行われない。その他は第１実施形態の前処理と同じである。

　＜モデル学習処理＞
　次に、図８および図９を用いて本実施形態のモデル学習処理を説明する。
本実施形態のモデル学習処理では、学習用特徴データｘ（ｉ）＝（ｘ（ｉ，１），…，ｘ（ｉ，ｎ））を入力として推定ラベル確率値ｈ（ｉ，ｃ）を得るラベル推定モデルλとして機能する通常のニューラルネットワークである第１ノードＮ（１）（単数または複数のノード）と、評価者番号ｋ（ｉ）を入力として埋め込み層（Embedding層）等による変換を行って能力データａ（ｋ（ｉ），ｃ，ｃ’）を出力する第２ノードＮ（２）（単数または複数のノード）と、推定ラベル確率値ｈ（ｉ，ｃ）および能力データａ（ｋ（ｉ），ｃ，ｃ’）を入力として確率計算に基づく変換

を行って得られた推定観測ラベル確率値ｙ＾（ｉ，ｃ’）を出力する第３ノードＮ（３）（単数または複数のノード）と、を含むニューラルネットワークに対し、誤差値を損失関数とした学習処理を所定の終了条件を満たすまで行って得たラベル推定モデルλまたは更新ラベル推定モデルλを出力する。ただし、ｎは１以上の整数であり、ｋ（ｉ）∈｛１，…，Ｋ｝，ｉ∈｛１，…，Ｉ｝，ｙ（ｉ）∈｛１，…，Ｃ｝，ｃ∈｛１，…，Ｃ｝，ｃ’∈｛１，…，Ｃ｝である。

　≪損失関数計算部２１１の処理（ステップＳ２１１）≫
　損失関数計算部２１１は、学習用特徴データ記憶部１１２から抽出した学習用特徴データｘ（ｉ）を第１ノードＮ（１）に入力し、学習用ラベルデータ記憶部１１１から抽出した評価者番号ｋ（ｉ）を第２ノードＮ（２）に入力することによって第３ノードＮ（３）から出力される推定観測ラベル確率値ｙ＾（ｉ，ｃ’）、および学習用ラベルデータ記憶部１１１から抽出したラベルデータｙ（ｉ）を用い、第１実施形態のステップＳ１１６で説明したように誤差値Ｌ（ｉ）を求め、それを損失関数Ｌ（ｉ）として出力する。

　≪パラメータ更新部２１８の処理（ステップＳ２１８ａ）≫
　パラメータ更新部２１８は、ステップＳ２１１で得られた損失関数Ｌ（ｉ）を入力とし、損失関数Ｌ（ｉ）を用いた学習処理により、上述のニューラルネットワークの第１ノードＮ（１）および第２ノードＮ（２）のパラメータ（例えば、重みおよび活性化関数の少なくとも一方）を更新する。例えば、パラメータ更新部２１８は、損失関数Ｌ（ｉ）が小さくなるように第１ノードＮ（１）および第２ノードＮ（２）のパラメータを更新する。このパラメータの更新には、誤差逆伝播法や勾配降下法などを用いることができる。

　≪制御部２１９の処理（ステップＳ２１９）≫
　制御部２１９は、終了条件を充足したか否かを判断する。終了条件に限定はないが、例えば、前回のステップＳ２１１で得られた推定観測ラベル確率値ｙ＾（ｉ，ｃ’）に対する今回のステップＳ２１１で得られた推定観測ラベル確率値ｙ＾（ｉ，ｃ’）の変化量が所定値以下となったこと（推定観測ラベル確率値ｙ＾（ｉ，ｃ’）が十分に収束したこと）、前回のステップＳ２１１で得られた損失関数Ｌ（ｉ）に対する今回のステップＳ２１１で得られた損失関数Ｌ（ｉ）の変化量が所定値以下となったこと（損失関数Ｌ（ｉ）が十分に収束したこと）、前回のステップＳ２１８ａで更新されたパラメータに対する今回のステップＳ２１８ａで更新されたパラメータの変化量が所定値以下となったこと（ラベル推定モデルλのパラメータが十分に収束したこと）、ステップＳ２１８ａによるパラメータの更新が所定回数実行されたことなどを終了条件とできる。終了条件を満たしていないと判断された場合にはステップＳ２１１に戻し、ステップＳ２１１，Ｓ２１８ａ，Ｓ２１９の処理が再び実行される。一方、終了条件を満たしたと判断された場合には、パラメータ更新部２１８が第１ノードＮ（１）のパラメータをラベル推定モデルλのパラメータとして出力する。

　≪パラメータ更新部２１８の処理（ステップＳ２１８ｂ）≫
　一方、ステップＳ２１９で終了条件を満たしたと判断された場合には、パラメータ更新部２１８が、最後にステップＳ２１８ａで更新した第１ノードＮ（１）のパラメータを、ラベル推定モデルλを特定するためのパラメータ（更新ラベル推定モデルλを特定するための情報）として出力する。あるいは、パラメータ更新部２１８が、最後にステップＳ２１８ａで更新する前の第１ノードＮ（１）のパラメータを、ラベル推定モデルλを特定するためのパラメータ（ラベル推定モデルλを特定するための情報）として出力してもよい。

　＜推定処理＞
　次に、本実施形態の推定処理を説明する。第１実施形態では、モデル学習装置１１から出力されたラベル推定モデルλを特定するパラメータがラベル推定装置１２（図６）のモデル記憶部１２１に格納されたが、第２実施形態では、モデル学習装置２１から出力されたラベル推定モデルλを特定するパラメータがラベル推定装置１２のモデル記憶部１２１に格納される。その他は第１実施形態の推定処理と同一である。

　［その他の変形例等］
　なお、本発明は上述の実施形態に限定されるものではない。例えば、第１実施形態で説明した評価ラベル推定部１１４、観測ラベル推定部１１５、誤差評価部１１６、能力学習部１１７、推定モデル学習部１１８、および制御部１１９の処理を１つの処理部で実行してもよい。あるいは、評価ラベル推定部１１４、観測ラベル推定部１１５、誤差評価部１１６、能力学習部１１７、推定モデル学習部１１８、および制御部１１９に含まれる複数の処理部の処理を１つの処理部が行ってもよい。この場合の実装方法はニューラルネットワークに限られない。例えば、第２実施形態では、能力データ記憶部１１３、評価ラベル推定部１１４、観測ラベル推定部１１５、誤差評価部１１６、能力学習部１１７、推定モデル学習部１１８、および制御部１１９を含む更新部の機能を一つのニューラルネットワークで実装したが、他の方法でこれらをまとめて実装してもよい。

　上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。

　上記の各装置は、例えば、ＣＰＵ（central processing unit）等のプロセッサ（ハードウェア・プロセッサ）およびＲＡＭ（random-access memory）・ＲＯＭ（read-only memory）等のメモリ等を備える汎用または専用のコンピュータが所定のプログラムを実行することで構成される。このコンピュータは１個のプロセッサやメモリを備えていてもよいし、複数個のプロセッサやメモリを備えていてもよい。このプログラムはコンピュータにインストールされてもよいし、予めＲＯＭ等に記録されていてもよい。また、ＣＰＵのようにプログラムが読み込まれることで機能構成を実現する電子回路（circuitry）ではなく、プログラムを用いることなく処理機能を実現する電子回路を用いて一部またはすべての処理部が構成されてもよい。１個の装置を構成する電子回路が複数のＣＰＵを含んでいてもよい。

　上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体の例は、非一時的な（non-transitory）記録媒体である。このような記録媒体の例は、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等である。

　このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ－ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

　このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。

　コンピュータ上で所定のプログラムを実行させて本装置の処理機能が実現されるのではなく、これらの処理機能の少なくとも一部がハードウェアで実現されてもよい。

１１，２１　モデル学習装置
１２　ラベル推定装置

Claims

　学習用特徴データと、評価者が前記学習用特徴データに付与したラベルを表すラベルデータと、を含む学習データを入力とし、特徴データに付与されるラベルの確率分布を推定するラベル推定モデルを前記特徴データである学習用特徴データに適用して得られる推定ラベル確率値と、評価者が前記特徴データに対して正しいラベルを付与する確率および誤ったラベルを付与する確率を表す能力データとから得られる、前記能力データによる前記推定ラベル確率値の重み付け和である推定観測ラベル確率値、の前記ラベルデータが表すラベルに対する誤差を表す誤差値が小さくなるように、前記能力データを更新した更新能力データおよび前記ラベル推定モデルを更新した更新ラベル推定モデルを得る更新部を有するモデル学習装置。
　請求項１のモデル学習装置であって、
　前記更新能力データを新たな前記能力データとし、前記更新ラベル推定モデルを新たな前記ラベル推定モデルとし、所定の終了条件を満たすまで前記更新部の処理を繰り返して得た前記ラベル推定モデルまたは前記更新ラベル推定モデルを特定する情報を出力する、モデル学習装置。
　請求項１または２のモデル学習装置であって、
　ｉ∈｛１，…，Ｉ｝がラベルデータ番号であり、ｋ（ｉ）∈｛１，…，Ｋ｝が評価者番号であり、ｙ（ｉ）∈｛１，…，Ｃ｝、ｃ∈｛１，…，Ｃ｝、およびｃ’∈｛１，…，Ｃ｝が前記ラベルデータであり、Ｉ，Ｋ，Ｃが２以上の整数であり、
　前記学習データは、ラベルデータ番号ｉ∈｛１，…，Ｉ｝に対応する前記学習用特徴データｘ（ｉ）と、評価者番号ｋ（ｉ）∈｛１，…，Ｋ｝の前記評価者が前記学習用特徴データｘ（ｉ）に付与したラベルを表すラベルデータｙ（ｉ）と、を含み、
　前記推定ラベル確率値ｈ（ｉ，ｃ）は、前記ラベル推定モデルλを前記学習用特徴データｘ（ｉ）に適用して得られる確率分布ｐ（ｃ｜ｘ（ｉ），λ）であり、
　前記能力データａ（ｋ，ｃ，ｃ’）は、前記評価者番号ｋ（ｉ）の前記評価者が前記ラベルデータｃによって表されるラベルの前記特徴データに前記ラベルデータｃ’によって表されるラベルを付与する確率を表し、
　前記推定観測ラベル確率値ｙ＾（ｉ，ｃ’）が

である、モデル学習装置。
　請求項１のモデル学習装置であって、
　ｉ∈｛１，…，Ｉ｝がラベルデータ番号であり、ｋ（ｉ）∈｛１，…，Ｋ｝が評価者番号であり、ｙ（ｉ）∈｛１，…，Ｃ｝、ｃ∈｛１，…，Ｃ｝、およびｃ’∈｛１，…，Ｃ｝が前記ラベルデータであり、Ｉ，Ｋ，Ｃが２以上の整数であり、
　前記学習データは、ラベルデータ番号ｉ∈｛１，…，Ｉ｝に対応する前記学習用特徴データｘ（ｉ）と、評価者番号ｋ（ｉ）∈｛１，…，Ｋ｝の前記評価者が前記学習用特徴データｘ（ｉ）に付与したラベルを表すラベルデータｙ（ｉ）と、を含み、
　前記推定ラベル確率値ｈ（ｉ，ｃ）は、前記ラベル推定モデルλを前記学習用特徴データｘ（ｉ）に適用して得られる確率分布ｐ（ｃ｜ｘ（ｉ），λ）であり、
　前記能力データａ（ｋ，ｃ，ｃ’）は、前記評価者番号ｋ（ｉ）の前記評価者が前記ラベルデータｃによって表されるラベルの前記特徴データに前記ラベルデータｃ’によって表されるラベルを付与する確率を表し、
　前記更新部は、前記学習用特徴データｘ（ｉ）を入力として前記推定ラベル確率値ｈ（ｉ，ｃ）を得る前記ラベル推定モデルλとして機能する第１ノードと、前記評価者番号ｋ（ｉ）を入力として前記能力データａ（ｋ（ｉ），ｃ，ｃ’）を出力する第２ノードと、前記推定ラベル確率値ｈ（ｉ，ｃ）および前記能力データａ（ｋ（ｉ），ｃ，ｃ’）を入力として確率計算に基づく変換

を行って前記推定観測ラベル確率値ｙ＾（ｉ，ｃ’）を出力する第３ノードと、を含むニューラルネットワークに対し、前記第３ノードから出力される前記推定観測ラベル確率値ｙ＾（ｉ，ｃ’）および前記ラベルデータｙ（ｉ）を用いて得られた前記誤差値を損失関数とした学習処理を所定の終了条件を満たすまで行って得た前記ラベル推定モデルλまたは前記更新ラベル推定モデルλを特定する情報を出力する、モデル学習装置。
　請求項１から４の何れかの前記モデル学習装置の前記更新部から出力された前記ラベル推定モデルまたは前記更新ラベル推定モデルに入力特徴データを適用し、前記入力特徴データに付与されるラベルを推定するラベル推定部を有する、ラベル推定装置。
　学習用特徴データと、評価者が前記学習用特徴データに付与したラベルを表すラベルデータと、を含む学習データを入力とし、特徴データに付与されるラベルの確率分布を推定するラベル推定モデルを前記特徴データである学習用特徴データに適用して得られる推定ラベル確率値と、評価者が前記特徴データに対して正しいラベルを付与する確率および誤ったラベルを付与する確率を表す能力データとから得られる、前記能力データによる前記推定ラベル確率値の重み付け和である推定観測ラベル確率値、の前記ラベルデータが表すラベルに対する誤差を表す誤差値が小さくなるように、前記能力データを更新した更新能力データおよび前記ラベル推定モデルを更新した更新ラベル推定モデルを得る更新ステップ
を有するモデル学習方法。
　請求項１から４の何れかの前記モデル学習装置の前記更新部から出力された前記ラベル推定モデルに入力特徴データを適用し、前記入力特徴データに付与されるラベルを推定するラベル推定ステップを有する、ラベル推定方法。
　請求項１から４の何れかのモデル学習装置としてコンピュータを機能させるためのプログラム。
　請求項５のラベル推定装置としてコンピュータを機能させるためのプログラム。