WO2021131210A1

WO2021131210A1 - 情報処理装置、方法及びプログラム

Info

Publication number: WO2021131210A1
Application number: PCT/JP2020/037104
Authority: WO
Inventors: 純一出澤; 志門菅原
Original assignee: 株式会社エイシング
Priority date: 2019-12-24
Filing date: 2020-09-30
Publication date: 2021-07-01
Also published as: JP2021108172A; JP6919955B2; JP2021170376A

Abstract

【課題】一定の出力精度を担保しつつモデルの特性変化にも適応可能な機械学習技術を提供すること。【解決手段】参照入力データ取得部と、訓練用入力データと訓練用正解データに基づいて生成された第１の近似関数へと参照入力データを入力して第１の出力データを生成する第１出力データ生成部と、訓練用入力データと訓練用入力データを第１の近似関数へと入力して生成された出力データと訓練用正解データの差分データとに基づいて機械学習を行うことにより生成された第２の学習済モデルへと参照入力データを入力して第２の出力データを生成する第２出力データ生成部と、第１の出力データと第２の出力データに基づいて最終出力データを生成する最終出力データ生成部と、参照正解データ取得部と、第１の出力データと参照正解データとの差分データと参照入力データに基づいて機械学習を行い第２の学習済モデルを更新する更新部を備えた情報処理装置が提供される。

Description

情報処理装置、方法及びプログラム

　この発明は、機械学習技術、特に学習モデルを備えた装置等に関する。

　近年、工場内の装置等、様々な装置の制御に機械学習技術が利用されている。

　この種の装置に対して機械学習技術を適用するための最も一般的な設計手法は、予め対象となる装置の特性を取得し、当該特性に基づいて予め機械学習（オフライン学習）を行って学習済モデルを生成した後、当該学習済モデルを装置へと搭載する手法である。このような手法によれば、事前に用意した豊富なデータに基づく学習を行うことができるので、一定の出力精度を担保することができる。

　しかしながら、上述の所謂オフライン学習を伴う構成では、装置が経年劣化等により特性変化した場合には、事前学習時の装置特性との間でずれが生じ、出力精度が低下するおそれがある。

　これに対して、学習モデルを装置へと搭載し、当該装置を動作させつつ得られたデータに基づいて逐次的に機械学習を行って学習モデルを更新する設計（オンライン学習）も考え得る。このような手法によれば、装置が経年劣化等により特性変化した場合であっても学習により適応的に対応することができる。

　しかしながら、上述の所謂オンライン学習は、オフライン学習に比べて出力精度が悪い場合が多く、また、学習初期等においては出力精度を担保できないおそれもある。また、外れ値のような不適切なデータを学習してしまった場合には暴走のおそれもある。

　オフライン学習を行った学習済モデルを装置へと搭載し、その後に当該学習済モデルをオンライン学習によりさらに更新することも考えられる。

　しかしながら、このオンライン学習とオフライン学習とを単に使用する手法では、オンラインによる追加学習がオフライン学習により獲得されたモデルへと影響を及ぼし推定精度の低下を招く可能性がある。例えば、使用する学習モデルによっては、それまでに獲得したモデルが急激に失われてしまう、所謂、破壊的忘却（例えば、非特許文献１）等のおそれがある。以上より、信頼性の観点から、実用上、やはり本手法も採用し難い。

Ｒｏｂｅｒｔ　Ｍ．　Ｆｒｅｎｃｈ著、"Ｃａｔａｓｔｒｏｐｈｉｃ　Ｆｏｒｇｅｔｔｉｎｇ　ｉｎ　Ｃｏｎｎｅｃｔｉｏｎｉｓｔ　Ｎｅｔｗｏｒｋｓ：　Ｃａｕｓｅｓ，　Ｃｏｎｓｅｑｕｅｎｃｅｓ，　Ｓｏｌｕｔｉｏｎｓ"、［ｏｎｌｉｎｅ］、平成１１年５月、Ｑｕａｎｔｉｔａｔｉｖｅ　Ｐｓｙｃｏｌｏｇｙ　ａｎｄ　Ｃｏｇｎｉｔｉｖｅ　Ｓｃｉｅｎｃｅ，　Ｄｅｐａｒｔｍｅｎｔ　ｏｆ　Ｐｓｙｃｏｌｏｇｙ，　Ｕｎｉｖｅｒｓｉｔｙ　ｏｆ　Ｌｉeｇｅ，４０００　Ｌｉeｇｅ，Ｂｅｌｇｉｕｍ，［令和１年１２月１２日］、インターネット＜ＵＲＬ：ｈｔｔｐｓ：／／ｗｗｗ．ｒｅｓｅａｒｃｈｇａｔｅ．ｎｅｔ／ｐｕｂｌｉｃａｔｉｏｎ／１２９７７１３５＿Ｃａｔａｓｔｒｏｐｈｉｃ＿ｆｏｒｇｅｔｔｉｎｇ＿ｉｎ＿ｃｏｎｎｅｃｔｉｏｎｉｓｔ＿ｎｅｔｗｏｒｋｓ＞

　すなわち、一定の出力精度を担保しつつもモデルの特性変化にも適応可能な機械学習技術はこれまでに提唱されていなかった。

　本発明は、上述の技術的背景の下になされたものであり、その目的とするところは、一定の出力精度を担保しつつもモデルの特性変化にも適応可能な機械学習技術を提供することにある。

　本発明のさらに他の目的並びに作用効果については、明細書の以下の記述を参照することにより、当業者であれば容易に理解されるであろう。

　上述の技術的課題は、以下の構成を有する装置、システム、方法、プログラム等により解決することができる。

　すなわち、本発明に係る機械学習装置は、参照入力データを取得する、参照入力データ取得部と、訓練用入力データと前記訓練用入力データに対応する訓練用正解データに基づいて生成された第１の近似関数へと、前記参照入力データを入力して第１の出力データを生成する、第１出力データ生成部と、前記訓練用入力データと、前記訓練用入力データを前記第１の近似関数へと入力して生成された出力データと前記訓練用正解データの差分データと、に基づいて機械学習を行うことにより生成された第２の学習済モデルへと、前記参照入力データを入力して第２の出力データを生成する、第２出力データ生成部と、前記第１の出力データと前記第２の出力データとに基づいて最終出力データを生成する、最終出力データ生成部と、参照正解データを取得する、参照正解データ取得部と、前記第１の出力データと前記参照正解データとの差分データと、前記参照入力データに基づいて機械学習を行い前記第２の学習済モデルを更新する、更新部と、を備えている。

　このような構成によれば、第１の出力データを生成する第１の近似関数については事前に獲得された近似関数を用いると共に、第１の出力データと正解データとの差分に相当する第２の出力データを生成する第２の学習済モデルについては適宜機械学習により更新を行うので、事前に獲得された近似関数により一定の出力精度を担保しつつ、対象モデルの特性変化についてオンライン学習により適応的に機械学習を行うことができる。すなわち、出力精度について一定の担保をしつつも対象モデルの特性変化等に対して適応可能な機械学習技術を提供することができる。

　前記第１の近似関数は、前記訓練用入力データと前記訓練用正解データに基づいて機械学習を行うことにより生成された第１の学習済モデルであってもよい。

　前記第１の近似関数は、前記訓練用入力データと前記訓練用正解データとの関係を定式化した関数であってもよい。

　前記情報処理装置は、さらに、前記第２の出力データを所定の値域へと制限する出力制限部を備えてもよい。

　前記情報処理装置は、さらに、前記第２の出力データに基づいて所定の条件判定を行い、所定の条件を満たす場合には、ユーザへと提示される所定の情報を生成する、ユーザ提供情報生成部を備える、ものであってもよい。

　前記情報は、前記参照入力データ及び前記参照正解データが取得された装置のメンテナンス時期に関する情報であってもよい。

　本発明は、システムとしても観念することができる。すなわち、本発明に係る情報処理システムは、参照入力データを取得する、参照入力データ取得部と、訓練用入力データと前記訓練用入力データに対応する訓練用正解データに基づいて生成された第１の近似関数へと、前記参照入力データを入力して第１の出力データを生成する、第１出力データ生成部と、前記訓練用入力データと、前記訓練用入力データを前記第１の近似関数へと入力して生成された出力データと前記訓練用正解データの差分データと、に基づいて機械学習を行うことにより生成された第２の学習済モデルへと、前記参照入力データを入力して第２の出力データを生成する、第２出力データ生成部と、前記第１の出力データと前記第２の出力データとに基づいて最終出力データを生成する、最終出力データ生成部と、参照正解データを取得する、参照正解データ取得部と、前記第１の出力データと前記参照正解データとの差分データと、前記参照入力データに基づいて機械学習を行い前記第２の学習済モデルを更新する、更新部と、を備えている。

　本発明は、方法としても観念することができる。すなわち、本発明に係る情報処理方法は、参照入力データを取得する、参照入力データ取得ステップと、訓練用入力データと前記訓練用入力データに対応する訓練用正解データに基づいて生成された第１の近似関数へと、前記参照入力データを入力して第１の出力データを生成する、第１出力データ生成ステップと、前記訓練用入力データと、前記訓練用入力データを前記第１の近似関数へと入力して生成された出力データと前記訓練用正解データの差分データと、に基づいて機械学習を行うことにより生成された第２の学習済モデルへと、前記参照入力データを入力して第２の出力データを生成する、第２出力データ生成ステップと、前記第１の出力データと前記第２の出力データとに基づいて最終出力データを生成する、最終出力データ生成ステップと、参照正解データを取得する、参照正解データ取得ステップと、前記第１の出力データと前記参照正解データとの差分データと、前記参照入力データに基づいて機械学習を行い前記第２の学習済モデルを更新する、更新ステップと、を備えている。

　本発明は、コンピュータプログラムとしても観念することができる。すなわち、本発明に係るプログラムは、コンピュータを、参照入力データを取得する、参照入力データ取得部と、訓練用入力データと前記訓練用入力データに対応する訓練用正解データに基づいて生成された第１の近似関数へと、前記参照入力データを入力して第１の出力データを生成する、第１出力データ生成部と、前記訓練用入力データと、前記訓練用入力データを前記第１の近似関数へと入力して生成された出力データと前記訓練用正解データの差分データと、に基づいて機械学習を行うことにより生成された第２の学習済モデルへと、前記参照入力データを入力して第２の出力データを生成する、第２出力データ生成部と、前記第１の出力データと前記第２の出力データとに基づいて最終出力データを生成する、最終出力データ生成部と、参照正解データを取得する、参照正解データ取得部と、前記第１の出力データと前記参照正解データとの差分データと、前記参照入力データに基づいて機械学習を行い前記第２の学習済モデルを更新する、更新部と、を備えた情報処理装置として機能させるためのプログラムである。

　また、本発明は、別の側面から装置として観念することができる。すなわち、本発明に係る情報処理装置は、訓練用入力データと訓練用正解データに基づいて機械学習を行うことにより第１の学習済モデルを生成する、第１の学習処理部と、前記訓練用入力データと、前記訓練用入力データを前記第１の学習済モデルへと入力して生成された出力データと前記訓練用正解データの差分データと、に基づいて機械学習を行うことにより第２の学習済モデルを生成する、第２の学習処理部と、を備えている。

　本発明は、別の側面から方法として観念することができる。すなわち、本発明に係る情報処理方法は、訓練用入力データと訓練用正解データに基づいて機械学習を行うことにより第１の学習済モデルを生成する、第１の学習処理ステップと、前記訓練用入力データと、前記訓練用入力データを前記第１の学習済モデルへと入力して生成された出力データと前記訓練用正解データの差分データと、に基づいて機械学習を行うことにより第２の学習済モデルを生成する、第２の学習処理ステップと、を備えている。

　本発明は、別の側面からプログラムとして観念することができる。すなわち、本発明に係る情報処理プログラムは、コンピュータを、訓練用入力データと訓練用正解データに基づいて機械学習を行うことにより第１の学習済モデルを生成する、第１の学習処理部と、前記訓練用入力データと、前記訓練用入力データを前記第１の学習済モデルへと入力して生成された出力データと前記訓練用正解データの差分データと、に基づいて機械学習を行うことにより第２の学習済モデルを生成する、第２の学習処理部と、を備える情報処理装置として機能させるためのプログラムである。

　本発明は、別の側面から方法として観念することができる。すなわち、本発明に係る方法は、訓練用入力データと訓練用正解データに基づいて機械学習を行うことにより第１の学習済モデルを生成する、第１の学習処理ステップと、前記訓練用入力データと、前記訓練用入力データを前記第１の学習済モデルへと入力して生成された出力データと前記訓練用正解データの差分データと、に基づいて機械学習を行うことにより第２の学習済モデルを生成する、第２の学習処理ステップと、前記第１の学習済モデル及び前記第２の学習済モデルを、所定の装置に対して、前記第２の学習済モデルについては前記装置から取得されるデータに基づいて更新可能な態様で搭載する、学習済モデル搭載ステップと、を備えている。

　本発明によれば、一定の出力精度を担保しつつもモデルの特性変化にも適応可能な機械学習技術を提供することができる。

図１は、情報処理装置のハードウェア構成図である。図２は、制動距離推定装置のハードウェア構成図である。図３は、第１の実施形態に係るゼネラルフローチャートである。図４は、事前学習処理の詳細フローチャートである。図５は、事前学習処理の概念図である。図６は、実稼働処理の詳細フローチャートである。図７は、推定出力の統合処理に関する概念図である。図８は、オンライン学習の概念図である。図９は、真値と推定出力との関係性ついて示す説明図である。

　以下、本発明の実施の一形態を、添付の図面を参照しつつ、詳細に説明する。

　（１．第１の実施形態）
（１．１　ハードウェア構成）
図１及び図２を参照しつつ、本実施形態に係るハードウェアについて説明する。

　図１は、機械学習処理を行って学習済モデルを生成することが可能な情報処理装置１０のハードウェア構成図である。同図から明らかな通り、制御部１１、記憶部１２、表示部１３、操作信号入力部１４、通信部１５及びＩ／Ｏ部１６を備え、それらはバスを介して接続されている。

　制御部１１は、ＣＰＵ及びＧＰＵ等の制御装置であり、後述する様々な動作を実現するプログラムの実行処理を行う。例えば、情報処理装置１０の全体制御や学習処理又は推定処理等を行う。記憶部１２は、ＲＯＭ、ＲＡＭ等の揮発性又は不揮発性の記憶装置であり、訓練用入力データや正解データ等を含む学習対象となる訓練データ、機械学習プログラム、推定処理プログラム等を格納している。表示部１３は、ディスプレイ等と接続されて表示制御を行い、ディスプレイ等を介してユーザにＧＵＩを提供する。操作信号入力部１４は、キーボード、タッチパネル、ボタン等の入力部を介して入力された信号を処理するものである。通信部１５は、インターネットやＬＡＮ等を通じて外部機器と通信を行う通信チップ等である。Ｉ／Ｏ部１６は、外部装置との情報の入出力処理を行う装置である。

　また、図２は、オフラインで学習された学習済モデルが搭載される装置、本実施形態では、例として車両等に搭載され車両の制動距離の推定を行う制動距離推定装置２０のハードウェア構成図である。なお、本実施形態においては、制動距離推定装置２０を採用したが、搭載対象装置はこのような装置に限定されない。従って、例えば、工作機械やロボット等のあらゆる装置に適用可能である。

　同図から明らかな通り、制御部２１、記憶部２２、表示部２３、操作信号入力部２４、通信部２５及びＩ／Ｏ部２６を備え、それらはバスを介して接続されている。

　制御部２１は、ＣＰＵ及びＧＰＵ等の制御装置であり、後述する様々な動作を実現するプログラムの実行処理を行う。例えば、情報処理装置２０の全体制御や学習処理又は推定処理等を行う。記憶部２２は、ＲＯＭ、ＲＡＭ等の揮発性又は不揮発性の記憶装置であり、学習済モデル、訓練用入力データや正解データ等を含む学習対象となる訓練データ、機械学習プログラム、推定処理プログラム等を格納している。表示部２３は、ディスプレイ等と接続されて表示制御を行い、ディスプレイ等を介してユーザにＧＵＩを提供する。Ｉ／Ｏ部２４は、外部装置との情報の入出力処理を行う装置である。操作信号入力部２５は、キーボード、タッチパネル、ボタン等の入力部を介して入力された信号を処理するものである。通信部２６は、車両の他の構成と通信を行う通信ユニット等である。センサ情報取得部２８は、車両の各種センサ情報、例えば、タイヤの回転数等のセンサ情報を取得する。

　なお、ハードウェア構成は本実施形態に係る構成に限定されるものではなく、構成や機能を分散又は統合してもよい。また、例えば、複数台の情報処理装置１により分散的に処理を行っても良いし、大容量記憶装置をさらに外部に設けて情報処理装置１と接続する等してもよい。さらに、ＩＣ、特に、ＡＳＩＣやＦＰＧＡ等を用いて回路的に実装してもよい。

　（１．２　動作）
次に、図３～図９を参照しつつ、情報処理装置１０及び制動距離推定装置２０の動作について説明する。

　図３は、本実施形態に係る処理の流れについて示すゼネラルフローチャートである。同図から明らかな通り、処理が開始すると、情報処理装置１０上において制動距離推定装置２０へと搭載する学習モデルに関して予め機械学習を行う処理、すなわち事前学習処理が行われる（Ｓ１）。

　この事前学習処理の後、事前学習処理において得られたオフライン学習用の学習済モデルとオンライン学習用の学習済モデルを対象装置、すなわち、本実施形態においては制動距離推定装置２０へと実装する処理が行われる（Ｓ３）。

　この実装の後、制動距離推定装置２０を動作させつつ、同装置から得られる現実のデータに基づいてオンライン学習を行う実稼働処理が行われる（Ｓ５）。その後、所定の終了条件を満たした場合、処理は終了する。なお、本実施形態において、オンライン学習とは、装置へと搭載した学習モデルのパラメータ等を装置において得られたデータに基づいて機械学習を行って装置上で更新することを意味する。なお、このとき、更新周期は、様々な構成とすることができ、例えば、装置の制御周期と対応した逐次的な学習であってもよいし、所定量学習対象データが蓄積してから行うバッチ学習又はミニバッチ学習等であってもよい。

　（１．２．１　事前学習処理の詳細）
図４及び図５を参照しつつ、事前の機械学習処理の詳細について説明する。図４は、事前学習処理の詳細フローチャートであり、図５は、事前学習処理の概念図である。

　図４から明らかな通り、事前学習処理が開始すると、学習モデルやそのパラメータ、訓練用入力データと訓練用正解データとから成る訓練データ群等の各種データを読み出す処理が行われる（Ｓ１１）。なお、訓練データは、例えば、搭載が予定される装置から予め実際に得られたデータ等である。本実施形態においては、訓練用入力データはブレーキのかけ初めのタイヤの回転数であり、訓練用正解データは制動距離、すなわち、タイヤが実際に停止するまでのタイヤの回転回数である。

　その後、読み出した訓練用データ群に基づいてオフライン学習用モデルについて教師あり学習が行われる（Ｓ１３）。本実施形態においては、オフライン学習用モデルとして、ニューラルネットワークが採用される。

　この学習処理を概念的に表したものが図５最上段である。すなわち、訓練用入力データ３１と訓練用正解データ３２とから成る訓練用データのデータ群が、オフライン学習用モデルへと入力されて学習処理が行われる。これにより、訓練用データ群に基づくオフライン学習による学習済モデルが生成される。この学習済モデルは、ブレーキのかけ始めのタイヤの回転数を入力として推定制動距離（タイヤ停止までの回転回数）を出力する。

　なお、オフライン学習用モデルについては、本実施形態の学習モデルに限定されない。従って、アルゴリズムとして、例えば、ランダムフォレストや学習木（例として、特開２０１６－１７３６８６を参照）等又はそれらの組み合わせのアルゴリズムを採用してもよい。

　この学習済モデルを生成した後、差分データの生成処理が行われる（Ｓ１４）。より詳細には、生成された学習済モデルに対して訓練用データを入力したその出力（推定結果）と、訓練用正解データとの差分を算出する処理が行われる。

　この差分データの生成処理を概念的に表したものが図５中段である。すなわち、訓練用入力データ３１をオフライン学習により生成された学習済モデルへと入力した出力データ３３と、訓練用正解データ３２との差分を演算し、差分データ３４を生成する処理が行われる。

　この差分データの生成処理の後、オンライン学習用モデルについて学習処理が行われる（Ｓ１５）。すなわち、オンライン学習用モデルを、訓練用入力データと差分データを用いて学習する処理がなされる。

　このオンライン学習用モデルの学習処理を概念的に表したものが図５下段である。すなわち、訓練用入力データ３１と差分データ３４とを用いてオンライン学習用モデルについて機械学習を行い、オンライン学習用の学習済モデルを生成する。この学習済モデルは、ブレーキをかけ始めた際のタイヤの回転数を入力として推定差分データを出力する。

　なお、オンライン学習用モデルは、本実施形態においては、学習木（例として、特開２０１６－１７３６８６を参照）が利用される。学習木を用いた学習処理においては、入力されるデータが、分岐条件に応じて階層的に分割された各状態空間に対応付けられ蓄積されていく。推定出力は、学習後に各状態空間に内包される各データに対応する出力値又は出力ベクトルの相加平均をとることにより算出される。このような構成により、学習木は、オンライン学習に好適である。

　また、オンライン学習用モデルについては、本実施形態の学習モデルに限定されない。従って、例えば、ＰＡ（Ｐａｓｓｉｖｅ　Ａｇｇｒｅｓｓｉｖｅ）アルゴリズムやニューラルネットワーク等の他のアルゴリズムを採用してもよい。

　オンライン学習用モデルについての学習処理が終了した後、オフライン学習を行った学習済モデル、オンライン学習を行った学習済モデルのいずれも含む各種データを記憶部１２へと記憶する処理を行い（Ｓ１７）、事前学習処理は終了する。

　（１．２．２　実稼働処理の詳細）
次に、図６～図８を参照しつつ、車両の制動距離推定装置２０の実稼働処理（Ｓ５）の詳細について説明する。

　図６は、実稼働処理の詳細フローチャートである。同図から明らかな通り、処理が開始すると、事前学習によって獲得された学習済モデル等の読み出し処理が行われる（Ｓ５１）。

　その後、制動距離推定装置２０は、制動距離の推定指令があるまで待機状態となる（Ｓ５２ＮＯ）。この状態において、制動距離の推定指令を受信すると（Ｓ５２ＹＥＳ）、センサ情報取得部２８からセンサ情報を読み出して各学習済モデルへの入力データとする処理が行われる（Ｓ５３）。

　推定指令は、例えば、車両に対してブレーキをかけ始めたことを表す他の系統から発せられた信号である。また、本実施形態においては、センサは車両のタイヤの回転数を検出する回転数検出センサである。なお、本実施形態においてはセンサ入力として回転数を採用しているものの他のデータであってもよい。従って、例えば、路面環境に相当するデータ等を採用してもよい。

　次に、センサを介して取得されたタイヤの回転数を入力として、オフライン学習用の学習済モデルに基づいて出力データ、すなわち、推定制動距離（停止までの回転回数）を出力する処理が行われる（Ｓ５４）。同様に、センサを介して取得されたタイヤの回転数を入力として、オンライン学習用の学習済モデルに基づいて、推定制動距離と正解値との推定差分データを生成する処理が行われる（Ｓ５５）。

　推定制動距離と推定差分データを生成した後、これらの推定出力を統合する処理を行って、最終的な推定制動距離を算出する（Ｓ５６）。

　図７は、上述の推定出力の統合処理に関する概念図である。同図から明らかな通り、オフライン学習用の学習済モデルとオンライン学習用の学習済モデルにはそれぞれ同一の入力データ４１、すなわち、所定時点のタイヤの回転数が提供される。この入力データを受けて、各学習済モデルはそれぞれ、推定制動距離データ４２と推定差分データ４３を出力する。その後、推定制動距離データ４２と推定差分データ４３とは足しあわされて統合されて、最終的な推定制動距離が算出される。

　このような構成により、ブレーキや車体の特性の変化等も考慮しつつ、ブレーキをかけた瞬間に車両の停止までの制動距離を推定することが出来る。これにより、例えば、推定制動距離を用いた車体制御等が可能となる。

　図６に戻り、統合推定データを生成した後、制動距離推定装置２０は、実際の制動距離を読み出し（Ｓ５７）、当該実制動距離データに基づいて差分データを生成する処理を行う（Ｓ５８）。すなわち、オフライン学習用の学習済モデルから生成された推定制動距離と実制動距離データとの差分データを生成する処理を行う。

　この差分データと入力データに基づいて、オンライン学習用の学習済モデルについて機械学習を行いオンライン学習用の学習済モデルを更新する（Ｓ５９）。その後、再び推定指令の待機状態となり一連の処理（Ｓ５２～Ｓ５９）が繰り返される。

　図８は、上述のオンライン学習に関する概念図である。同図から明らかな通り、センサから取得された入力データ４１は、オフライン学習用の学習済モデルへと入力され、学習済モデルから推定制動距離に相当する所定の出力データ４２が生成される。この出力データ４２と、センサから取得された実制動距離データ５１との差分から、差分データ５２が生成される。この差分データ５２と入力データ４１とに基づいて、機械学習により、オンライン学習用の学習済モデルを更新する処理が行われる。

　このような構成によれば、事前に獲得された近似関数により一定の出力精度を担保しつつ、対象の特性変化についてオンライン学習により適応的に機械学習を行うことができる。すなわち、出力精度について一定の担保をしつつも対象の特性変化等に対して適応可能な機械学習技術を提供することができる。

　（１．２．３　その他）
図９は、真値と推定出力との関係性の一例について示す説明図である。横軸は時間、縦軸は出力値（推定値）を示す。同図から明らかな通り、実線で示される真値（正解値）に最も近似している曲線は、オフライン学習用の学習済モデルの出力とオンライン学習用の学習済モデルの出力とを足し合わせて統合した出力を表す破線である。

　また、統合出力（破線）は、オフライン学習用の学習済モデルの出力（二点鎖線）とオンライン学習用の学習済モデルの出力（一点鎖線）から構成されるものの、同図から明らかな通り、オフライン学習用の学習済モデルの出力が支配的であって、オンライン学習用の学習済モデルの出力の割合は小さいことが分かる。

　すなわち、オフライン学習用の学習済モデルを用いて大まかな推定を行いつつも、オンライン学習用の学習済モデルを用いて差分部分について調整を行っている。これにより、一般にオフライン学習程の精度は期待できないことが多いオンライン学習用の学習済モデルの影響を抑えつつも適応的な学習を行うことができる。すなわち、出力精度について一定の担保をしつつも対象の特性変化等に対して適応可能な機械学習技術を提供することができることが把握される。

　（２．変形例）
上述の実施形態においては、オフライン学習用の学習済モデルの出力とオンライン学習用の学習済モデルの出力とを足し合わせる構成としたが、本発明はこのような構成に限定されない。従って、例えば、オンライン学習用の学習済モデルの出力に一定の制限を設けてもよい。例えば、オンライン学習用の学習済モデルの出力に上限と下限を設けてもよい。

　上述の実施形態においては、学習済モデルを搭載する装置として、制動距離推定装置を採用したが、本発明はこのような構成に限定されない。従って、例えば、工場内の工作機械やロボットなどあらゆる種類の装置へと搭載することができる。また、学習対象とするデータもあらゆるデータを採用することができる。

　上述の実施形態においては、オフライン学習用モデルとオンライン学習用モデルの両方について予め事前学習を行う構成を採用した。しかしながら、本発明はこのような構成に限定されない。従って、例えば、オンライン学習用モデルについては事前学習を行わずに装置搭載後に学習を進める構成としてもよい。

　上述の実施形態においては、オフライン学習により近似関数（学習済モデル）を生成しているものの、本発明はそのような構成に限定されない。従って、例えば、機械学習を行わずに、定式化された近似関数を利用してもよい。

　上述の実施形態においては、オフライン学習用モデル又はオンライン学習用モデルのそれぞれについて、ニューラルネットワーク等の単一のモデルを用いて生成するものとして記載したが、本発明はこのような構成に限定されない。従って、例えば、同一の又は異なる複数の学習モデルを組み合わせて利用してそれぞれのモデルとして構成してもよい。すなわち、例えば、ニューラルネットワークとランダムフォレストの両方を組み合わせて利用してオフライン学習用モデルとして構成してもよい。

　上述の実施形態においては、オンライン学習用の学習済モデルとオフライン学習用の学習済モデルに基づいて出力推定を行う例について説明したが、これらの学習済モデルの利用はそのような例に留まらない。従って、例えば、オンライン学習用の学習済モデルの出力に基づいて所定の条件判定を行い、ユーザに対して、装置に生じた変化に関する通知やそれに伴う情報提供等を行っても良い。例えば、条件を満たした場合に、装置の制御を停止したり、ユーザに対して注意喚起を行う情報を提供する等してもよい。例えば、所定のエラーメッセージを通知したり、装置のメンテナンス時期を通知してもよい。

　条件判定は、例えば、オンライン学習用の学習済モデルの出力が所定の閾値を超えるか否かとすることができる。また、所定の閾値を超える割合や頻度を条件とすることもできる。

　本発明は、機械学習技術を利用する種々の産業等にて利用可能である。

１０　　情報処理装置
１１　　制御部
１２　　記憶部
１３　　表示部
１４　　操作信号入力部
１５　　通信部
１６　　Ｉ／Ｏ部
２０　　制動距離推定装置
２１　　制御部
２２　　記憶部
２３　　表示部
２４　　Ｉ／Ｏ部
２５　　操作信号入力部
２６　　通信部
２８　　センサ情報取得部

Claims

　参照入力データを取得する、参照入力データ取得部と、
　訓練用入力データと前記訓練用入力データに対応する訓練用正解データに基づいて生成された第１の近似関数へと、前記参照入力データを入力して第１の出力データを生成する、第１出力データ生成部と、
　前記訓練用入力データと、前記訓練用入力データを前記第１の近似関数へと入力して生成された出力データと前記訓練用正解データの差分データと、に基づいて機械学習を行うことにより生成された第２の学習済モデルへと、前記参照入力データを入力して第２の出力データを生成する、第２出力データ生成部と、
　前記第１の出力データと前記第２の出力データとに基づいて最終出力データを生成する、最終出力データ生成部と、
　参照正解データを取得する、参照正解データ取得部と、
　前記第１の出力データと前記参照正解データとの差分データと、前記参照入力データに基づいて機械学習を行い前記第２の学習済モデルを更新する、更新部と、を備えた情報処理装置。
　前記第１の近似関数は、前記訓練用入力データと前記訓練用正解データに基づいて機械学習を行うことにより生成された第１の学習済モデルである、請求項１に記載の情報処理装置。
　前記第１の近似関数は、前記訓練用入力データと前記訓練用正解データとの関係を定式化した関数である、請求項１に記載の情報処理装置。
　前記情報処理装置は、さらに、
　前記第２の出力データを所定の値域へと制限する出力制限部を備える、請求項１に記載の情報処理装置。
　前記情報処理装置は、さらに、
　前記第２の出力データに基づいて所定の条件判定を行い、所定の条件を満たす場合には、ユーザへと提示される所定の情報を生成する、ユーザ提供情報生成部を備える、請求項１に記載の情報処理装置。
　前記情報は、前記参照入力データ及び前記参照正解データが取得された装置のメンテナンス時期に関する情報である、請求項５に記載の情報処理装置。
　参照入力データを取得する、参照入力データ取得部と、
　訓練用入力データと前記訓練用入力データに対応する訓練用正解データに基づいて生成された第１の近似関数へと、前記参照入力データを入力して第１の出力データを生成する、第１出力データ生成部と、
　前記訓練用入力データと、前記訓練用入力データを前記第１の近似関数へと入力して生成された出力データと前記訓練用正解データの差分データと、に基づいて機械学習を行うことにより生成された第２の学習済モデルへと、前記参照入力データを入力して第２の出力データを生成する、第２出力データ生成部と、
　前記第１の出力データと前記第２の出力データとに基づいて最終出力データを生成する、最終出力データ生成部と、
　参照正解データを取得する、参照正解データ取得部と、
　前記第１の出力データと前記参照正解データとの差分データと、前記参照入力データに基づいて機械学習を行い前記第２の学習済モデルを更新する、更新部と、を備えた情報処理システム。
　参照入力データを取得する、参照入力データ取得ステップと、
　訓練用入力データと前記訓練用入力データに対応する訓練用正解データに基づいて生成された第１の近似関数へと、前記参照入力データを入力して第１の出力データを生成する、第１出力データ生成ステップと、
　前記訓練用入力データと、前記訓練用入力データを前記第１の近似関数へと入力して生成された出力データと前記訓練用正解データの差分データと、に基づいて機械学習を行うことにより生成された第２の学習済モデルへと、前記参照入力データを入力して第２の出力データを生成する、第２出力データ生成ステップと、
　前記第１の出力データと前記第２の出力データとに基づいて最終出力データを生成する、最終出力データ生成ステップと、
　参照正解データを取得する、参照正解データ取得ステップと、
　前記第１の出力データと前記参照正解データとの差分データと、前記参照入力データに基づいて機械学習を行い前記第２の学習済モデルを更新する、更新ステップと、を備えた情報処理方法。
　コンピュータを、
　参照入力データを取得する、参照入力データ取得部と、
　訓練用入力データと前記訓練用入力データに対応する訓練用正解データに基づいて生成された第１の近似関数へと、前記参照入力データを入力して第１の出力データを生成する、第１出力データ生成部と、
　前記訓練用入力データと、前記訓練用入力データを前記第１の近似関数へと入力して生成された出力データと前記訓練用正解データの差分データと、に基づいて機械学習を行うことにより生成された第２の学習済モデルへと、前記参照入力データを入力して第２の出力データを生成する、第２出力データ生成部と、
　前記第１の出力データと前記第２の出力データとに基づいて最終出力データを生成する、最終出力データ生成部と、
　参照正解データを取得する、参照正解データ取得部と、
　前記第１の出力データと前記参照正解データとの差分データと、前記参照入力データに基づいて機械学習を行い前記第２の学習済モデルを更新する、更新部と、を備えた情報処理装置として機能させるためのプログラム。
　訓練用入力データと訓練用正解データに基づいて機械学習を行うことにより第１の学習済モデルを生成する、第１の学習処理部と、
　前記訓練用入力データと、前記訓練用入力データを前記第１の学習済モデルへと入力して生成された出力データと前記訓練用正解データの差分データと、に基づいて機械学習を行うことにより第２の学習済モデルを生成する、第２の学習処理部と、を備える情報処理装置。
　訓練用入力データと訓練用正解データに基づいて機械学習を行うことにより第１の学習済モデルを生成する、第１の学習処理ステップと、
　前記訓練用入力データと、前記訓練用入力データを前記第１の学習済モデルへと入力して生成された出力データと前記訓練用正解データの差分データと、に基づいて機械学習を行うことにより第２の学習済モデルを生成する、第２の学習処理ステップと、を備える情報処理方法。
　コンピュータを、
　訓練用入力データと訓練用正解データに基づいて機械学習を行うことにより第１の学習済モデルを生成する、第１の学習処理部と、
　前記訓練用入力データと、前記訓練用入力データを前記第１の学習済モデルへと入力して生成された出力データと前記訓練用正解データの差分データと、に基づいて機械学習を行うことにより第２の学習済モデルを生成する、第２の学習処理部と、を備える情報処理装置として機能させるためのプログラム。
　訓練用入力データと訓練用正解データに基づいて機械学習を行うことにより第１の学習済モデルを生成する、第１の学習処理ステップと、
　前記訓練用入力データと、前記訓練用入力データを前記第１の学習済モデルへと入力して生成された出力データと前記訓練用正解データの差分データと、に基づいて機械学習を行うことにより第２の学習済モデルを生成する、第２の学習処理ステップと、
　前記第１の学習済モデル及び前記第２の学習済モデルを、所定の装置に対して、前記第２の学習済モデルについては前記装置から取得されるデータに基づいて更新可能な態様で搭載する、学習済モデル搭載ステップと、を備える学習済モデルの適用方法。