WO2016084336A1

WO2016084336A1 - 追学習装置、追学習方法、および、記憶媒体

Info

Publication number: WO2016084336A1
Application number: PCT/JP2015/005717
Authority: WO
Inventors: 岡崎　巧
Original assignee: 日本電気株式会社
Priority date: 2014-11-27
Filing date: 2015-11-17
Publication date: 2016-06-02
Also published as: JP6337973B2; JPWO2016084336A1

Abstract

　本発明は、機械学習における追学習の際に、ラベル情報を付与するユーザ作業をより軽減しながら、より多くのデータに対するユーザ確認を支援する技術を提供する。　追学習装置１は、追加データ取得部１１、データ解析部１２、解析結果出力確認部１３、追学習部１４および追学習制御部１５を含む。追加データ取得部１１は、機械学習モデルに対する追学習用の追加データを取得する。データ解析部１２は、機械学習モデルを用いて追加データの解析を行う。解析結果出力確認部１３は、解析結果のうちの少なくとも１つに対するラベル情報を取得する。追学習部１４は、取得されたラベル情報を用いて機械学習モデルを追学習する。追学習制御部１５は、追学習により更新された機械学習モデルを用いた追加データの再解析、再解析結果のうちの少なくとも１つに対するラベル情報の取得、および、該ラベル情報を用いた機械学習モデルの追学習を繰り返すよう各部を制御する。

Description

追学習装置、追学習方法、および、記憶媒体

　本発明は、機械学習モデルを追学習する技術に関する。

　教師データを用いて機械学習モデルを生成する機械学習システムが知られている。教師データは、正解を表すラベル情報があらかじめ付与されたデータである。実用的な機械学習モデルを生成するためには、多量の教師データを用いて演算処理を行う必要がある。昨今では、機械学習技術の伸長、ハードウェアスペックの向上、インフラの整備等が進むに伴い、機械学習モデルの生成処理の高速化が可能となっている。これにより、機械学習システムの実用的な活用価値が高まっている。このような機械学習システムでは、機械学習モデルの精度向上が重要となる。

　例えば、特許文献１には、追学習により更新する機械学習モデルの精度向上を支援する技術が記載されている。ここで、追学習とは、追加の教師データを用いて機械学習モデルを更新する学習をいうものとする。この関連技術は、現行モデルによる分類結果と、追学習で生成した新モデルによる分類結果との比較結果をユーザに提示する。

　また、特許文献２には、能動学習を行う技術が記載されている。この関連技術は、ラベル情報が付与されていない未知データについて機械学習モデルを用いて予測を行う。そして、この関連技術は、予測結果の中から、重みづけを用いて次に学習すべきデータを抽出する。そして、この関連技術は、抽出したデータに対して、ユーザにより入力されたラベル情報を付与し、ラベル情報が付与されたデータを用いて追学習を行うことで、機械学習モデルの精度向上を図る。

特開２０１４－９２８７８号公報国際公開第２００５／４８１８４号

　しかしながら、特許文献１および特許文献２に記載された関連技術は、データをユーザに確認させる作業が効率的でないという課題がある。

　例えば、特許文献１に記載の関連技術では、現行モデルの分類結果と、新モデルの分類結果とが異なるデータが大量となる可能性がある。そのため、それらを確認するユーザの作業に工数がかかり、効率的でない。また、特許文献２に記載の関連技術は、次に学習すべきデータを重みづけに基づいて抽出することにより、ユーザによる確認が必要となるデータをある程度減らすことはできる。しかしながら、この関連技術は、追学習のために抽出されたデータの数だけラベル情報を付与するユーザ作業を必要としており、依然として効率性が十分でない。

　本発明は、上述の課題を解決するためになされたものである。すなわち、本発明は、機械学習における追学習の際に、ラベル情報を付与するユーザ作業をより軽減しながら、より多くのデータに対するユーザ確認を支援する技術を提供することを目的とする。

　上記目的を達成するために、本発明の追学習装置は、機械学習モデルに対する追学習用の追加データを取得する追加データ取得手段と、前記機械学習モデルを用いて前記追加データの解析を行うデータ解析手段と、前記データ解析手段による解析結果を出力し、出力した解析結果のうちの少なくとも１つに対するラベル情報を取得する解析結果出力確認手段と、前記解析結果出力確認手段によって取得されたラベル情報を用いて前記機械学習モデルを追学習する追学習手段と、前記追学習により更新された機械学習モデルを用いた前記追加データの再解析、前記再解析により変更された解析結果のうちの少なくとも１つに対するラベル情報の取得、および、該ラベル情報を用いた前記機械学習モデルの追学習を繰り返すよう、前記データ解析手段、前記解析結果出力確認手段、および、前記追学習手段を制御する追学習制御手段と、を備える。

　また、本発明の追学習方法は、機械学習モデルに対する追学習用の追加データを取得し、前記機械学習モデルを用いて前記追加データの解析を行い、前記追加データの解析結果を出力し、出力した解析結果のうちの少なくとも１つに対するラベル情報を取得し、取得したラベル情報を用いて前記機械学習モデルを追学習し、前記追学習により更新された機械学習モデルを用いた前記追加データの再解析、前記再解析により変更された解析結果のうちの少なくとも１つに対するラベル情報の取得、および、該ラベル情報を用いた前記機械学習モデルの追学習を繰り返す。

　また、本発明の記憶媒体は、機械学習モデルに対する追学習用の追加データを取得する追加データ取得ステップと、前記機械学習モデルを用いて前記追加データの解析を行うデータ解析ステップと、前記データ解析ステップにおける解析結果を出力し、出力した解析結果のうちの少なくとも１つに対するラベル情報を取得する解析結果出力確認ステップと、前記解析結果出力確認ステップで取得されたラベル情報を用いて前記機械学習モデルを追学習する追学習ステップと、前記追学習により更新された機械学習モデルを用いた前記追加データの再解析、前記再解析により変更された解析結果のうちの少なくとも１つに対するラベル情報の取得、および、該ラベル情報を用いた前記機械学習モデルの追学習を繰り返す繰り返しステップと、をコンピュータ装置に実行させるプログラムを記憶している。

　本発明は、機械学習における追学習の際に、ラベル情報を付与するユーザ作業をより軽減しながら、より多くのデータに対するユーザ確認を支援する技術を提供することができる。

本発明の第１の実施の形態としての追学習装置の機能ブロック図である。本発明の第１の実施の形態としての追学習装置のハードウェア構成の一例を示す図である。本発明の第１の実施の形態としての追学習装置の動作を説明するフローチャートである。本発明の第２の実施の形態としての追学習装置の機能ブロック図である。本発明の第２の実施の形態における追加データの構成の一例を示す図である。本発明の第２の実施の形態における解析結果の構成の一例を示す図である。本発明の第２の実施の形態における追加の教師データの構成の一例を示す図である。本発明の第２の実施の形態としての追学習装置の動作を説明するフローチャートである。本発明の第２の実施の形態における学習済みの機械学習モデルを模式的に説明する図である。本発明の第２の実施の形態における追加データの一例を示す図である。本発明の第２の実施の形態における解析結果の一例を示す図である。本発明の第２の実施の形態における解析結果の表示例を示す図である。本発明の第２の実施の形態における追加の教師データの一例を示す図である。本発明の第２の実施の形態における変更空間の一例を模式的に説明する図である。本発明の第２の実施の形態における再解析結果の表示例を示す図である。本発明の第２の実施の形態における再解析結果の他の表示例を示す図である。本発明の第２の実施の形態における解析結果の他の表示例を示す図である。本発明の第２の実施の形態における追加の教師データの構成の他の一例を示す図である。

　以下、本発明の実施の形態について、図面を参照して詳細に説明する。

　（第１の実施の形態）
　本発明の第１の実施の形態としての追学習装置１の機能ブロック構成を図１に示す。図１において、追学習装置１は、追加データ取得部１１と、データ解析部１２と、解析結果出力確認部１３と、追学習部１４と、追学習制御部１５とを備える。また、追学習装置１は、上述の各機能ブロックにより利用される情報の格納領域として、教師データ記憶部１０３と、機械学習モデル記憶部１０４とを含む。なお、教師データ記憶部１０３および機械学習モデル記憶部１０４は、追学習装置１に必ずしも含まれていなくてもよく、外部の装置に含まれていてもよい。その場合、追学習装置１の各機能ブロックは、必要に応じて外部の装置の教師データ記憶部１０３または機械学習モデル記憶部１０４にアクセスすればよい。

　ここで、追学習装置１のハードウェア構成の一例を図２に示す。図２では、追学習装置１は、ＣＰＵ（Central Processing Unit）１００１と、ＲＡＭ（Random Access Memory）１００２と、ＲＯＭ（Read Only Memory）１００３と、記憶装置１００４と、入力装置１００５と、出力装置１００６とを含む。記憶装置１００４は、ハードディスク等の補助記憶装置であってもよい。この場合、追加データ取得部１１は、入力装置１００５と、ＲＯＭ１００３および記憶装置１００４に記憶されたコンピュータ・プログラムおよび各種データをＲＡＭ１００２に読み込んで実行するＣＰＵ１００１とによって構成される。また、データ解析部１２、追学習部１４および追学習制御部１５は、ＲＯＭ１００３および記憶装置１００４に記憶されたコンピュータ・プログラムおよび各種データをＲＡＭ１００２に読み込んで実行するＣＰＵ１００１によって構成される。また、解析結果出力確認部１３は、入力装置１００５と、出力装置１００６と、ＲＯＭ１００３および記憶装置１００４に記憶されたコンピュータ・プログラムおよび各種データをＲＡＭ１００２に読み込んで実行するＣＰＵ１００１とによって構成される。なお、追学習装置１およびその各機能ブロックのハードウェア構成は、上述の構成に限定されない。

　機械学習モデル記憶部１０４は、学習済みの機械学習モデルを記憶している。例えば、機械学習モデルは、教師データに基づいて機械学習により生成されたモデルであってもよい。なお、教師データとは、正解を表すラベル情報があらかじめ付与されたデータをいう。

　追加データ取得部１１は、１つ以上の追加データを取得する。ここで、追加データは、ラベル情報が付与されていない追学習用のデータである。例えば、追加データ取得部１１は、入力装置１００５を介して追加データを取得してもよい。また、例えば、追加データ取得部１１は、記憶装置１００４に記憶された追加データを取得してもよい。また、例えば、追加データ取得部１１は、ネットワークインタフェース（図示せず）を介して受信される追加データを取得してもよい。また、例えば、追加データ取得部１１は、記憶装置１００４またはネットワーク上の追加データの所在を示す情報を入力装置１００５から取得することにより、その情報の示す所在にある追加データを取得してもよい。

　データ解析部１２は、機械学習モデル記憶部１０４に記憶された機械学習モデルを用いて、追加データの解析を行う。例えば、機械学習モデルが、データの分類を予測するモデルである場合について説明する。この場合、データ解析部１２は、分類が未知の追加データ（解析対象の追加データとも呼ぶ）を、機械学習モデルを用いて解析することにより、その分類を予測する。

　以降、データ解析部１２によって機械学習モデルを用いて追加データについて求められた情報を、データ解析部１２による解析結果と呼ぶ。例えば、機械学習モデルが、データの分類を予測するモデルである場合、データ解析部１２により予測されたデータの分類を、解析結果と呼ぶものとする。

　解析結果出力確認部１３は、データ解析部１２による解析結果を出力する。出力先は、例えば、出力装置１００６であってもよい。このとき、例えば、解析結果出力確認部１３は、追加データおよびその解析結果を組にして、出力装置１００６等に出力してもよい。

　また、解析結果出力確認部１３は、データ解析部１２による解析結果のうちの少なくとも１つに対するラベル情報を取得する。また、解析結果出力確認部１３は、取得したラベル情報を解析対象の追加データに付与し、ラベル情報を付与した追加データを、追加の教師データとして、教師データ記憶部１０３に記憶する。例えば、ラベル情報の取得の際、解析結果出力確認部１３は、追加データの解析結果に関連する正しいラベル情報の入力を求めるための操作ボタンや選択リスト等のユーザインタフェース部品を、解析結果とともに表示可能となるよう、出力装置１００６に出力してもよい。この場合、次に、解析結果出力確認部１３は、出力したユーザインタフェース部品に対して入力装置１００５を介して取得される操作内容に応じて、解析結果のうちの少なくとも１つの追加データに対するラベル情報を取得すればよい。このようなラベル情報は、典型的には、解析結果における誤りに対する指摘として取得される。誤りに対する指摘とは、ある追加データについて誤って解析された情報に対して、その追加データについての正解を示すことをいう。

　また、解析結果出力確認部１３は、データ解析部１２により再解析が行われた場合は、再解析により変更された解析結果のうちの少なくとも１つに対するラベル情報を取得する。例えば、解析結果出力確認部１３は、再解析により変更された解析結果について、前述のユーザインタフェース部品を出力してもよい。

　追学習部１４は、機械学習モデルを追学習する。具体的には、追学習部１４は、教師データ記憶部１０３から、ラベル情報が与えられた追加データを取得する。そして、追学習部１４は、取得した情報を追加の教師データとして使用し、機械学習モデルを追学習すればよい。追学習部１４は、追学習により、機械学習モデル記憶部１０４の機械学習モデルを更新する。なお、追加の教師データを用いて既存の機械学習モデルを追学習する処理については、各種公知の手法を採用可能である。

　追学習制御部１５は、追学習により更新された機械学習モデルを用いて、データ解析部１２、解析結果出力確認部１３、および、追学習部１４による一連の処理を繰り返すよう、各部を制御する。すなわち、追学習制御部１５の制御の下、データ解析部１２は、更新された機械学習モデルを用いて追加データを再解析する。そして、解析結果出力確認部１３は、再解析結果を出力し、再解析により変更された解析結果のうちの少なくとも１つに対するラベル情報を取得する。そして、追学習部１４は、取得されたラベル情報が付与された追加データを追加の教師データとして、機械学習モデルを追学習する。

　なお、追学習制御部１５は、任意の終了タイミングで、一連の処理を中止すればよい。例えば、追学習制御部１５は、データ解析部１２による再解析結果が所定条件を満たした場合に、一連の処理を中止してもよい。また、例えば、追学習制御部１５は、ユーザからの終了指示を表す情報が入力されると、一連の処理を中止してもよい。また、例えば、追学習制御部１５は、処理の開始からの経過時間が、あらかじめ定められた長さを過ぎると、一連の処理を中止してもよい。

　以上のように構成された追学習装置１の動作について、図３を参照して説明する。

　まず、追加データ取得部１１は、追加データを取得する（ステップＳ１）。

　次に、データ解析部１２は、ステップＳ１で取得された追加データを、機械学習モデルを用いて解析する（ステップＳ２）。

　次に、解析結果出力確認部１３は、ステップＳ２の解析結果を出力する（ステップＳ３）。

　次に、解析結果出力確認部１３は、出力した解析結果のうちの少なくとも１つに対するラベル情報を取得する（ステップＳ４）。

　次に、追学習部１４は、ステップＳ４で得られたラベル情報を用いて、機械学習モデルを追学習する（ステップＳ５）。

　次に、追学習制御部１５は、終了タイミングであるか否かを判断する（ステップＳ６）。

　ここで、終了タイミングでなければ、追学習制御部１５は、ステップＳ２～Ｓ５の処理を繰り返すよう各部を制御する。なお、２回目以降に実行されるステップＳ２では、データ解析部１２は、追学習された機械学習モデルを用いることになる。また、２回目以降に実行されるステップＳ４では、解析結果出力確認部１３は、再解析により変更された解析結果のうちの少なくとも１つに対するラベル情報を取得することになる。一方、ステップＳ６で終了タイミングであると判断された場合、追学習装置１は、処理を終了する。

　以上で、追学習装置１の動作の説明を終了する。

　次に、本発明の第１の実施の形態の効果について述べる。

　本発明の第１の実施の形態としての追学習装置は、機械学習における追学習の際に、ラベル情報を付与するユーザ作業をより軽減しながら、より多くのデータに対するユーザ確認を支援することができる。

　その理由について説明する。本実施の形態では、まず、追加データ取得部が、追学習用の追加データを取得する。そして、データ解析部は、追加データの解析を行う。そして、解析結果出力確認部は、解析結果を出力し、出力した解析結果のうちの少なくとも１つに対するラベル情報を取得する。このとき、典型的には、出力した解析結果における誤りに対する指摘として正しいラベル情報が取得される。そして、追学習部は、取得されたラベル情報を用いて、機械学習モデルを追学習する。そして、追学習制御部が、次のように各部を制御する。すなわち、データ解析部は、追学習により更新された機械学習モデルを用いて追加データを再解析する。そして、解析結果出力確認部は、再解析により変更された解析結果の少なくとも１つについてラベル情報を取得する。このとき、典型的には、変更された解析結果における誤りに対する指摘として正しいラベル情報が取得される。そして、追学習部は、取得されたラベル情報を用いて、機械学習モデルを追学習する。

　これらの処理が繰り返されることにより、ユーザは、追加データの解析結果の一部について正しいラベル情報を入力するだけで、その入力により追学習された機械学習モデルによる追加データの再解析結果を、解析結果出力確認部にて確認できる。そして、ユーザは、そのような再解析結果を確認した上で、再解析により変更された解析結果の一部について正しいラベル情報を入力するだけで、さらに追学習された機械学習モデルによる再解析結果を、解析結果出力確認部にて確認できる。このように、本実施の形態は、変更された解析結果の一部に対する誤りの指摘を用いて追学習を行い、再解析結果を出力していく。これにより、本実施の形態は、ラベル情報の入力対象となるデータの個数を抑えながら、ラベル情報を入力したデータの個数より多い追加データの再解析結果を、ユーザに確認させることができる。

　（第２の実施の形態）
　次に、本発明の第２の実施の形態について図面を参照して詳細に説明する。なお、本実施の形態の説明において参照する各図面において、本発明の第１の実施の形態と同一の構成および同様に動作するステップには同一の符号を付して本実施の形態における詳細な説明を省略する。

　まず、本発明の第２の実施の形態としての追学習装置２の構成を図４に示す。図４において、追学習装置２は、本発明の第１の実施の形態としての追学習装置１に対して、次の点で構成が異なる。すなわち、追学習装置２は、データ解析部１２に替えてデータ解析部２２と、解析結果出力確認部１３に替えて解析結果出力確認部２３と、追学習制御部１５に替えて追学習制御部２５とを備える。なお、追学習装置２およびその各機能ブロックは、図２を参照して説明した本発明の第１の実施の形態のハードウェア要素と同一のハードウェア要素によって構成可能である。ただし、追学習装置２およびその各機能ブロックのハードウェア構成は、上述の構成に限定されない。

　データ解析部２２は、本発明の第１の実施の形態におけるデータ解析部１２と同様に、機械学習モデル記憶部１０４に記憶された機械学習モデルを用いて、追加データを解析する。加えて、データ解析部２２は、各追加データの解析結果について信頼度を算出する。データ解析部２２により解析される追加データの構成の一例を図５に示す。このように、追加データは、データＩＤと、そのデータの内容またはその所在情報とを含んでいてもよい。なお、所在情報は、そのデータの実体にアクセスするための情報である。例えば、所在情報は、記憶装置１００４における格納位置およびデータ識別名を含む情報であってもよい。あるいは、所在情報は、外部の装置に格納されるデータの実体にネットワークを介してアクセスするための情報であってもよい。また、データ解析部２２による解析結果の構成の一例を図６に示す。このように、解析結果は、データＩＤと、解析により予測された情報（予測結果）と、信頼度とを含んでいてもよい。

　解析結果出力確認部２３は、本発明の第１の実施の形態における解析結果確認部１３と同様に、データ解析部２２による解析結果を、出力装置１００６に出力する。本実施の形態では、出力装置１００６は、表示装置であるものとする。

　また、解析結果出力確認部２３は、データ解析部２２により再解析が行われた場合、前回から変更された解析結果のうちチェック対象の解析結果を、チェック対象であることを認識可能な形式で表示する。なお、チェック対象については後述する。例えば、解析結果出力確認部２３は、チェック対象の解析結果と、チェック対象以外の解析結果とを、表示画面内で異なるエリアに出力してもよい。また、例えば、解析結果出力確認部２３は、チェック対象の解析結果を、強調表示してもよい。その他、解析結果出力確認部２３は、解析結果を、そのうちのチェック対象を認識可能な形式で表示すればよい。

　また、解析結果出力確認部２３は、データ解析部２２による解析結果を、信頼度に基づく順序で出力してもよい。例えば、解析結果出力確認部２３は、信頼度のより低いものを、ユーザにとってより確認しやすい順序で表示することが望ましい。例えば、解析結果出力確認部２３は、解析結果を、表示画面の上からまたは左から、信頼度の低い順に表示してもよい。また、解析結果出力確認部２３は、解析結果を、信頼度と共に表示してもよい。また、解析結果出力確認部２３は、チェック対象およびチェック対象以外の解析結果を異なるエリアに出力する場合、それぞれのエリアにおいて、信頼度に基づく順に解析結果を表示してもよい。

　また、解析結果出力確認部２３は、チェック対象の少なくとも１つについてのラベル情報を、入力装置１００５を介して取得する。例えば、解析結果出力確認部２３は、チェック対象についてラベル情報を入力するための操作ボタンやドロップダウンリスト等のユーザインタフェース部品を、チェック対象と共に表示してもよい。この場合、解析結果出力確認部２３は、入力装置１００５を介して取得されるユーザインタフェース部品に対する操作内容を、該当するチェック対象のラベル情報として取得する。ここで、解析結果出力確認部２３は、取得したラベル情報を、該当するチェック対象の追加データに付与し、追加の教師データとして教師データ記憶部１０３に格納する。この場合、教師データ記憶部１０３に格納される追加の教師データの構成の一例を、図７に示す。図７において、追加の教師データは、データＩＤと、ラベル情報とを含んでいる。

　また、解析結果出力確認部２３は、出力した解析結果に対する確認情報を取得する。確認情報とは、現在の解析結果に誤りがないと確認したことを示す情報であってもよい。例えば、解析結果出力確認部２３は、そのような確認情報を入力するためのユーザインタフェース部品を、解析結果と共に表示してもよい。そして、解析結果出力確認部２３は、入力装置１００５を介して取得されるユーザインタフェース部品に対する操作内容を、確認情報として取得する。

　追学習制御部２５は、データ解析部２２による再解析により変更された解析結果から、チェック対象を抽出する。チェック対象とは、変更された解析結果のうち、ユーザによる確認（ラベル情報の入力）対象となる解析結果をいう。そして、追学習制御部２５は、チェック対象を解析結果出力確認部２３に通知する。

　例えば、追学習制御部２５は、再解析により解析結果が変更された変更空間を代表する代表点に基づいて、チェック対象を抽出してもよい。例えば、代表点とは、変更空間の重心であってもよい。

　また、例えば、追学習制御部２５は、再解析により変更された解析結果の信頼度に基づいて、チェック対象を抽出してもよい。この場合、例えば、追学習制御部２５は、信頼度の低いものから順に所定数をチェック対象として抽出してもよい。

　また、追学習制御部２５は、本発明の第１の実施の形態における追学習制御部１５と同様に、データ解析部２２、解析結果出力確認部２３、および、追学習部１４による繰り返し処理を制御する。そして、追学習制御部２５は、解析結果に対する前述の確認情報が所定の内容を表すとき、データ解析部２２、解析結果出力確認部２３、および、追学習部１４による繰り返し処理を終了する。所定の内容とは、例えば、解析結果に誤りがないと確認したことを表す内容であってもよい。

　以上のように構成された追学習装置２の動作について、図８を参照して詳細に説明する。

　まず、追学習装置２は、ステップＳ１～Ｓ５まで、本発明の第１の実施の形態と同様に動作して、１回目の追学習を行う。

　次に、追学習制御部２５は、ステップＳ２１～Ｓ２６の処理を繰り返すよう、各部を制御する。

　ここでは、まず、データ解析部２２は、追学習された機械学習モデルを用いて追加データを再解析する（ステップＳ２１）。

　次に、追学習制御部２５は、再解析により変更された解析結果から、チェック対象を抽出する（ステップＳ２２）。

　次に、解析結果出力確認部２３は、再解析結果を表示する。このとき、解析結果出力確認部２３は、チェック対象の解析結果を認識可能に、再解析結果を表示する。また、解析結果出力確認部２３は、チェック対象に対するラベル情報の入力と、再解析結果に対する確認情報の入力とが可能な形態で表示を行う（ステップＳ２３）。

　次に、追学習制御部２５は、解析結果出力確認部２３に、所定の内容を示す確認情報が入力されたか否かを判断する（ステップＳ２４）。

　ここで、所定の内容を示す確認情報が入力されていなければ、解析結果出力確認部２３は、チェック対象のうち少なくとも１つに対するラベル情報を取得する（ステップＳ２５）。

　次に、追学習部１４は、ステップＳ２５で得られたラベル情報を用いて、機械学習モデルを追学習する（ステップＳ２６）。

　そして、追学習装置２は、ステップＳ２１からの処理を繰り返す。

　一方、ステップＳ２４において、所定の内容を示す確認情報が入力されたと判断されれば、追学習装置２は、処理を終了する。

　以上で、追学習装置２の動作の説明を終了する。

　次に、追学習装置２の動作を具体例で示す。ここでは、対象画像が車を表すか否かを解析する機械学習モデルを例とする。また、機械学習モデルとして、サポートベクタマシンを想定する。サポートベクタマシンとしての機械学習モデルは、画像の特徴を多次元の特徴空間にマッピングし、車を表すか否かを特徴空間上の判断境界線により判断する。機械学習モデルの特徴空間および判断境界線ａを、模式的に図９に示す。図９において、黒丸は、機械学習モデルの学習に用いられた教師データを示している。また、判断境界線ａより上部に位置する教師データは、車を表すラベル情報が付与されたデータである。また、判断境界線ａより下部に位置する教師データは、車でないことを表すラベル情報が付与されたデータである。この具体例では、このような機械学習モデルが、機械学習モデル記憶部１０４に記憶されているものとする。

　まず、追加データ取得部１１は、図１０に一例を示す追加データを取得する（ステップＳ１）。

　次に、データ解析部２２は、図１０の追加データに、図９の機械学習モデルを適用し、図１１に示す解析結果を出力する（ステップＳ２）。図１１に示すように、解析結果は、データＩＤと、予測結果と、信頼度とを含む。

　次に、解析結果出力確認部２３は、追加データの解析結果を、図１２に示すように表示する（ステップＳ３）。ここでは、一番左の画像は車であると正しく判断され、中心の画像は車でないと正しく判断されている。しかし、一番右の画像は、車を表しているにも関わらず、車でないと判断されている。なお、図１２の例において、追加データの解析結果全体を一度に表示できない場合は、解析結果出力確認部２３は、スクロールバーまたはページ送りボタン等の各種ユーザインタフェース部品を用いて、解析結果全体をユーザが確認可能となるよう表示を行う。

　次に、解析結果出力確認部２３は、解析結果の少なくとも１つについてラベル情報を取得する（ステップＳ４）。例えば、解析結果出力確認部２３は、図１２に示した解析結果のうち、画面タッチやマウスクリック等を検出した領域に表示している追加データについて、ラベル情報を入力するユーザインタフェース部品を表示してもよい。そして、この場合、解析結果出力確認部２３は、ユーザインタフェース部品に対する入力情報を、検出領域の追加データに対するラベル情報として取得すればよい。ここでは、図１２に示した解析結果のうち、誤りである一番右の画像に対して、正しいラベル情報「車である」が入力として取得されたものとする。そこで、解析結果出力確認部２３は、取得されたラベル情報「車である」を、データＩＤが３の画像に付与し、追加の教師データとして教師データ記憶部１０３に保存する。教師データ記憶部１０３に保存される追加の教師データは、図１３に示す通りとなる。

　次に、追学習部１４は、教師データ記憶部１０３から、図１３に示した追加の教師データを読み出す。そして、追学習部１４は、読み出した追加の教師データを用いて、機械学習モデルを追学習する（ステップＳ５）。これにより、機械学習モデル記憶部１０４の機械学習モデルは更新される。

　次に、データ解析部２２は、図１０の追加データに、更新後の機械学習モデルを適用して、再解析を行う（ステップＳ２１）。

　次に、追学習制御部２５は、再解析により解析結果が変更された変更空間から、チェック対象を抽出する（ステップＳ２２）。

　ここで、図１４を用いて、解析結果の変更空間およびチェック対象の抽出処理の一例について説明する。図１４の左図は、追学習前の機械学習モデルを示し、右図は、追学習後の機械学習モデルを示す。また、各図において、黒丸は、学習済みの教師データを示し、白丸は、追加データを示す。左図では、判断境界線ａの下にある白丸の追加データは、車でないと判断されている。このうちの１つについて、前述のステップＳ４において、「車である」とのラベル情報が入力されたとする。すると、前述のステップＳ５の追学習により、右図のように、判断境界線ａが移動して判断境界線ｂとなる。この場合、追学習で判定結果が変わる変更空間は、右図における領域Ａおよび領域Ｂである。このような変更空間は、ステップＳ４で指摘された誤りに関連した学習が不足している部分であるとみなすことができる。そこで、追学習制御部２５は、この変更空間から、チェック対象の追加データを抽出する。例えば、追学習制御部２５は、領域Ａおよび領域Ｂから、それぞれの領域の重心に一番距離が近い追加データを、チェック対象として１つずつ抽出する。このように、追学習制御部２５は、解析結果の変更空間のうち、連続した空間領域についてそれぞれ代表点に基づくチェック対象を抽出してもよい。なお、各領域について抽出されるチェック対象は、１つずつに限らず、複数であってもよい。また、各領域について抽出されるチェック対象の数は、他の少なくとも１つの領域から抽出されるチェック対象の数と異なっていてもよい。

　次に、解析結果出力確認部２３は、変更空間に含まれる解析結果を、チェック対象を認識可能な形式で表示する（ステップＳ２３）。例えば、解析結果出力確認部２３は、図１５に示すように、チェック対象エリアと、それ以外のエリアとに、解析結果を表示してもよい。また、解析結果出力確認部２３は、図１５に示すように、各エリアにおいて、解析結果を、予測結果である分類ごとに表示してもよい。この例では、各エリアにおいて左半分が「車」であると予測された画像の表示領域、右半分が「車でない」と予測された画像の表示領域となっている。また、解析結果出力確認部２３は、図１５において、所定領域（例えば画像以外の領域）の画面タッチやマウスクリック等の検出に応じて、解析結果全体に対する確認情報を入力可能なユーザインタフェース部品を表示してもよい。

　あるいは、解析結果出力確認部２３は、チェック対象を認識可能な形式として、図１６に示すように、チェック対象を強調表示して解析結果を表示してもよい。図１６では、チェック対象は、太枠で囲まれている。

　このように、解析結果出力確認部２３は、チェック対象以外の変更空間の解析結果もあわせて表示するため、ユーザは、チェック対象以外にも、その時点での学習結果が良いか否かを直感的に判断可能となる。

　ここでは、この時点での解析結果に誤りがないと確認したことを表す確認情報は、入力されていないとする（ステップＳ２４でＮ）。

　次に、確認結果出力確認部２３は、チェック対象のうち少なくとも１つに対して、ラベル情報の入力を取得し、追加の教師データとして教師データ記憶部１０３に保存する（ステップＳ２５）。ラベル情報の入力手法の具体例については、ステップＳ４で説明したため、ここでの説明を省略する。

　次に、追学習部１４は、教師データ記憶部１０３に保存された追加の教師データを用いて、追学習を行う（ステップＳ２６）。

　そして、データ解析部２２は、再度ステップＳ２１を実行する（ステップＳ２１）。

　次に、追学習制御部２５は、再解析により解析結果が変更された変更空間から、チェック対象を抽出する（ステップＳ２２）。変更空間からのチェック対象の抽出については、図１４を用いて前述したとおりである。ただし、今回は、前回移動した判断境界線ｂが、さらに移動していることになる。今回の移動後の判断境界線をｃとすると、追学習制御部２５は、判断境界線ｃの判断境界線ｂに対する変更空間に基づいて、チェック対象を抽出すればよい。

　次に、解析結果出力確認部２３は、今回の変更空間に含まれる解析結果を、チェック対象を認識可能な形式で表示する（ステップＳ２３）。

　ここで、この時点での解析結果に誤りがないと確認したことを表す確認情報が入力されない場合（ステップＳ２４でＮ）、追学習制御部２５は、ステップＳ２５～Ｓ２６、Ｓ２１～Ｓ２３の処理を繰り返す。これらの一連の処理の繰り返しにより、追学習装置２は、最初のステップＳ３で指摘された誤りに関連する追加データに対するラベル情報のユーザ入力作業を、集中して支援できたことになる。

　そして、解析結果に誤りがないと確認したことを表す確認情報が入力された場合（ステップＳ２４でＹ）、追学習装置２は、処理を終了する。

　以上で、具体例の説明を終了する。

　次に、本発明の第２の実施の形態の効果について述べる。

　本発明の第２の実施の形態としての追学習装置は、機械学習における追学習の際に、ラベル情報を付与するユーザ作業をより軽減しながら、より多くのデータに対するユーザ確認を支援することができる。

　その理由について説明する。本実施の形態では、本発明の第１の実施の形態と同様の構成に加えて、追学習制御部が、変更された解析結果からチェック対象を抽出するからである。例えば、追学習制御部は、解析結果の変更空間の代表点または解析結果の信頼度に基づいて、チェック対象を抽出する。このようにして、追学習制御部は、解析結果の変更空間のうち、変更前の解析結果の誤りに関連の深い解析結果のうち、ユーザ確認の対象としてより効果の高い解析結果を抽出することになる。そして、解析結果出力確認部は、変更空間の解析結果を表示する際に、その中でのチェック対象を認識可能な形態で表示するからである。そして、解析結果出力確認部は、チェック対象の少なくとも１つに対するラベル情報を取得し、追学習部は、得られたラベル情報が付与された追加データを追加の教師データとして、追学習を行う。そして、本実施の形態は、追加データの再解析と、再解析結果からのチェック対象の抽出と、再解析結果およびチェック対象の出力と、チェック対象の少なくとも１つに対するラベル情報の取得と、得られたラベル情報を用いた追学習とを繰り返す。

　これにより、本実施の形態を用いると、ユーザは、チェック対象として抽出された解析結果における誤りの一部を指摘していくだけで、指摘を行う度にその指摘により追学習された機械学習モデルによる再解析結果の全体を確認可能となる。その結果、ユーザは、実際にラベル情報を入力する作業が必要となるチェック対象と共に、チェック対象以外の変更された再解析結果を一覧することができる。すなわち、本実施の形態は、ラベル情報の入力作業が必要なデータの数をチェック対象の数に抑えながら、その数より多くの解析結果の一覧性を高め、ユーザ確認を容易にすることができる。したがって、本実施の形態は、追学習による解析結果の莫大なデータ確認作業の負担を軽減し、より容易に機械学習モデルの追学習を可能とする。

　また、本実施の形態は、追学習制御部が、解析結果の変更空間の代表点や信頼度に基づいてチェック対象を抽出する。これにより、ユーザは、一部の解析結果の誤りに対する指摘を行うと、それに伴う再解析の繰り返しにおいて、前回の誤りの指摘に関連の深いデータをチェック対象として確認していくことができる。このように、本実施の形態は、ユーザにより指摘された誤りに関連する解析結果に対するユーザ確認を集中して支援することで、機械学習モデルの精度をより向上させることができる。

　また、本実施の形態は、解析結果出力確認部が、チェック対象（能動学習の対象）以外の解析結果もあわせて表示するため、ユーザは、追学習による機械学習モデルの精度向上を、直感的に把握することができる。

　なお、本発明の第２の実施の形態において、解析結果出力確認部は、チェック対象を認識可能に解析結果を表示する形態として、図１５および図１６の例を示した。すなわち、１つは、図１５のように、チェック対象と、チェック対象以外とを異なるエリアに表示する形態である。また、もう１つは、図１６のように、解析結果のうち、チェック対象を強調表示する形態である。このような表示形態の例に限らず、本実施の形態は、チェック対象を認識可能に解析結果を表示する形態であれば、その他の表示形態を採用してもよい。

　また、本発明の第２の実施の形態において、解析結果出力確認部は、画面タッチやマウスクリックなどの検出に応じてユーザインタフェース部品を表示することにより、追加データに対するラベル情報や確認情報を取得する例を中心に説明した。これに限らず、本実施の形態は、解析結果の表示画面に、あらかじめそれらのユーザインタフェース部品を配置しておいてもよい。その他、本実施の形態は、ラベル情報や確認情報を取得可能であれば、他のユーザインタフェースを採用してもよい。

　また、本発明の第２の実施の形態において、具体例として、機械学習モデルがサポートベクタマシンである例を中心に説明したが、その他の学習モデルであってもよい。また、本発明の第２の実施の形態において、具体例として、機械学習モデルが解析対象を２分類する例について示したが、本実施の形態は、対象を３つ以上に分類する機械学習モデルにも適用可能である。また、本実施の形態は、統計分類に限らず、回帰分析をはじめとするその他の機械学習モデルにも適用可能である。

　また、本発明の第２の実施の形態において、解析対象が画像データである例を中心に説明したが、これに限らず、解析対象としてその他の種類のデータを適用してもよい。

　また、本発明の第２の実施の形態において、解析結果出力確認部は、解析結果とともに、信頼度の情報を表示してもよい。例えば、本実施の形態の具体例において、解析結果出力確認部は、ステップＳ３において、図１７のように解析結果を表示してもよい。同様に、解析結果出力確認部は、ステップＳ２３における再解析結果の表示例（図１５または図１６）においても、信頼度を併せて表示してもよい。

　また、本発明の第２の実施の形態において、解析結果出力確認部は、解析結果の少なくとも１つに対するラベル情報を、自信度のパラメータと共に取得してもよい。これは、ユーザが、正しいラベル情報に自信がない場合を考慮している。そして、解析結果出力確認部は、ラベル情報を自信度と共に追加データに付与し、追加の教師データとして教師データ記憶部に保存してもよい。この場合、教師データ記憶部に記憶される情報は、図１８に示す構成であってもよい。そして、追学習部は、追加の教師データの自信度を考慮して、追学習を行う公知の技術を採用すればよい。

　また、本発明の各実施の形態では、解析結果出力確認部に対して、解析結果またはチェック対象の１つに対するラベル情報が入力される度に、追学習、再解析（および次のチェック対象の抽出）が繰り返される例を中心に説明した。これに限らず、各実施の形態において、ラベル情報の入力は１つずつでなくてもよい。例えば、各実施の形態は、あらかじめ定められた数の解析結果またはチェック対象についてラベル情報を取得すると、追学習、再解析（および次のチェック対象の抽出）を繰り返すようにしてもよい。あるいは、各実施の形態は、１つ以上の解析結果またはチェック対象についてラベル情報を取得後、追学習を指示する情報が入力されると、追学習、再解析（および次のチェック対象の抽出）を繰り返すようにしてもよい。

　また、本発明の各実施の形態において、追学習装置の各機能ブロックが、記憶装置またはＲＯＭに記憶されたコンピュータ・プログラムを実行するＣＰＵによって実現される例を中心に説明した。これに限らず、各機能ブロックの一部、全部、または、それらの組み合わせが専用のハードウェアにより実現されていてもよい。

　また、上述した本発明の各実施の形態において、追学習装置の機能ブロックは、複数の装置に分散されて実現されてもよい。

　また、上述した本発明の各実施の形態において、各フローチャートを参照して説明した追学習装置の動作を、本発明のコンピュータ・プログラムとしてコンピュータ装置の記憶装置（記憶媒体）に格納しておいてもよい。そして、係るコンピュータ・プログラムを当該ＣＰＵが読み出して実行するようにしてもよい。そして、このような場合において、本発明は、係るコンピュータ・プログラムのコードあるいは記憶媒体によって構成される。

　また、上述した各実施の形態は、適宜組み合わせて実施されることが可能である。

　以上、上述した実施形態を模範的な例として本発明を説明した。しかしながら、本発明は、上述した実施形態には限定されない。即ち、本発明は、本発明のスコープ内において、当業者が理解し得る様々な態様を適用することができる。

　この出願は、２０１４年１１月２７日に出願された日本出願特願２０１４－２３９７６０を基礎とする優先権を主張し、その開示の全てをここに取り込む。

　１、２　　追学習装置
　１１　　追加データ取得部
　１２、２２　　データ解析部
　１３、２３　　解析結果出力確認部
　１４　　追学習部
　１５、２５　　追学習制御部
　１０３　　教師データ記憶部
　１０４　　機械学習モデル記憶部
　１００１　　ＣＰＵ
　１００２　　ＲＡＭ
　１００３　　ＲＯＭ
　１００４　　記憶装置
　１００５　　入力装置
　１００６　　出力装置

Claims

　機械学習モデルに対する追学習用の追加データを取得する追加データ取得手段と、
　前記機械学習モデルを用いて前記追加データの解析を行うデータ解析手段と、
　前記データ解析手段による解析結果を出力し、出力した解析結果のうちの少なくとも１つに対するラベル情報を取得する解析結果出力確認手段と、
　前記解析結果出力確認手段によって取得されたラベル情報を用いて前記機械学習モデルを追学習する追学習手段と、
　前記追学習により更新された機械学習モデルを用いた前記追加データの再解析、前記再解析により変更された解析結果のうちの少なくとも１つに対するラベル情報の取得、および、該ラベル情報を用いた前記機械学習モデルの追学習を繰り返すよう、前記データ解析手段、前記解析結果出力確認手段、および、前記追学習手段を制御する追学習制御手段と、
　を備えた追学習装置。
　前記追学習制御手段は、前記再解析により変更された解析結果からチェック対象を抽出し、前記チェック対象に対するラベル情報を取得するよう前記解析結果出力確認手段を制御することを特徴とする請求項１に記載の追学習装置。
　前記追学習制御手段は、前記再解析により解析結果が変更された変更空間を代表する代表点に基づいて、前記チェック対象を抽出することを特徴とする請求項２に記載の追学習装置。
　前記追学習制御手段は、前記再解析により変更された解析結果の信頼度に基づいて、前記チェック対象を抽出することを特徴とする請求項２または請求項３に記載の追学習装置。
　前記解析結果出力確認手段は、前記解析結果に対する確認情報をさらに取得し、
　前記追学習制御手段は、前記確認情報が所定の内容を表すとき、前記繰り返し処理を終了することを特徴とする請求項１から請求項４のいずれか１項に記載の追学習装置。
　コンピュータ装置が、
　機械学習モデルに対する追学習用の追加データを取得し、
　前記機械学習モデルを用いて前記追加データの解析を行い、
　前記追加データの解析結果を出力し、出力した解析結果のうちの少なくとも１つに対するラベル情報を取得し、
　取得したラベル情報を用いて前記機械学習モデルを追学習し、
　前記追学習により更新された機械学習モデルを用いた前記追加データの再解析、前記再解析により変更された解析結果のうちの少なくとも１つに対するラベル情報の取得、および、該ラベル情報を用いた前記機械学習モデルの追学習を繰り返す追学習方法。
　機械学習モデルに対する追学習用の追加データを取得する追加データ取得ステップと、
　前記機械学習モデルを用いて前記追加データの解析を行うデータ解析ステップと、
　前記データ解析ステップにおける解析結果を出力し、出力した解析結果のうちの少なくとも１つに対するラベル情報を取得する解析結果出力確認ステップと、
　前記解析結果出力確認ステップで取得されたラベル情報を用いて前記機械学習モデルを追学習する追学習ステップと、
　前記追学習により更新された機械学習モデルを用いた前記追加データの再解析、前記再解析により変更された解析結果のうちの少なくとも１つに対するラベル情報の取得、および、該ラベル情報を用いた前記機械学習モデルの追学習を繰り返す繰り返しステップと、
　をコンピュータ装置に実行させる追学習プログラムを記憶した記憶媒体。