WO2020100894A1

WO2020100894A1 - 学習装置、方法、及びプログラム

Info

Publication number: WO2020100894A1
Application number: PCT/JP2019/044332
Authority: WO
Inventors: 雄貴蔵内; 阿部　直人; 瀬下　仁志
Original assignee: 日本電信電話株式会社
Priority date: 2018-11-16
Filing date: 2019-11-12
Publication date: 2020-05-22
Also published as: US20210406781A1; JP7024692B2; JP2020086605A

Abstract

精度よくデータの状況を示すラベルを推定するためのモデルを学習できる。　機械学習で用いる学習データの単位であるバッチサイズを所定のサイズとして、学習データ集合のうちバッチサイズの学習データを用いて、ラベル毎にラベルの尤度を求めるための第１モデルを学習し、学習データの各々について、ラベル毎の各時間の尤度である時系列尤度データを出力する。正解ラベルを付与した、学習データの各々についての時系列尤度データを入力として、バッチサイズを第１学習部２４の所定のサイズより大きいサイズとして、機械学習によって、ラベル毎の尤度の変化からいずれかのラベルを出力するための第２モデルを学習する。

Description

学習装置、方法、及びプログラム

　本発明は、学習装置、方法、及びプログラムに係り、特に、対象の状態を推定するための学習装置、方法、及びプログラムに関する。

　歩道あるいは車道などの路面上を移動する自動車、歩行者、車椅子などの移動体に搭載されたセンサを用いて、移動体が移動する路面の状況（段差、勾配など）を推定する技術が検討されている（例えば、非特許文献１、２参照）。

宮田章裕、荒木伊織、王統順、鈴木天詩、「健常歩行者センサデータを用いたバリア検出の基礎検討」、ＩＰＳＪ論文誌(2018) 「高速バスに載せたスマホの加速度センサーで路面の凹凸を検知、検証試験を実施」、［online］、［２０１８年１１月６日検索］、インターネット＜ＵＲＬ：https://sgforum.impress.co.jp/news/3595＞

　上述したような路面の状況の推定は、学習データを用いた機械学習により構築されたモデルを用いて行われることが多い。しかしながら、路面の状況によっては、所望の推定結果が得られず、推定精度が十分でないという問題がある。

　本発明は、上記事情を鑑みて成されたものであり、精度よくデータの状況を示すラベルを推定するためのモデルを学習できる学習装置、方法、及びプログラムを提供することを目的とする。

　上記目的を達成するために、第１の発明に係る学習装置は、時系列データである学習データであって、時間毎に複数種類のいずれかのラベルが正解ラベルとして付与された学習データからなる学習データ集合を入力として、機械学習で用いる学習データの単位であるバッチサイズを所定のサイズとして、前記学習データ集合のうち前記バッチサイズの学習データを用いて、予め定めた機械学習によって、ラベルを推定するための第１モデルを学習し、学習データの各々について、各時間の前記ラベルの推定結果を出力する第１学習部と、正解ラベルを付与した、前記学習データの各々についての各時間の前記ラベルの推定結果を入力として、前記バッチサイズを前記所定のサイズより大きいサイズとして、予め定めた機械学習によって、各時間の前記ラベルの推定結果からいずれかのラベルを出力するための第２モデルを学習する第２学習部と、を含んで構成されている。

　第２の発明に係る学習方法は、第１学習部が、時系列データである学習データであって、時間毎に複数種類のいずれかのラベルが正解ラベルとして付与された学習データからなる学習データ集合を入力として、機械学習で用いる学習データの単位であるバッチサイズを所定のサイズとして、前記学習データ集合のうち前記バッチサイズの学習データを用いて、予め定めた機械学習によって、ラベルを推定するための第１モデルを学習し、学習データの各々について、各時間の前記ラベルの推定結果を出力するステップと、第２学習部が、正解ラベルを付与した、前記学習データの各々についての各時間の前記ラベルの推定結果を入力として、前記バッチサイズを前記所定のサイズより大きいサイズとして、予め定めた機械学習によって、各時間の前記ラベルの推定結果からいずれかのラベルを出力するための第２モデルを学習するステップと、を含んで実行することを特徴とする。

　第３の発明に係るプログラムは、コンピュータを、第１の発明に記載の学習装置の各部として機能させるためのプログラムである。

　本発明の学習装置、方法、及びプログラムによれば、精度よくデータの状況を示すラベルを推定するためのモデルを学習できる、という効果が得られる。

従来の機械学習による移動体が移動する路面の状況の推定結果の一例を示す図である。本発明の実施の形態に係る学習装置及び推定装置を含む推定システムの構成を示すブロック図である。本発明の実施の形態に係る学習装置における処理ルーチンを示すフローチャートである。本発明の実施の形態に係る推定装置における処理ルーチンを示すフローチャートである。

　以下、図面を参照して本発明の実施の形態を詳細に説明する。

＜本発明の実施の形態に係る概要＞

　まず、本発明の実施の形態における概要を説明する。本発明の実施の形態では、機械学習におけるバッチサイズを段階的にして学習を行い、推定精度を向上させる。

　図１に従来の機械学習による移動体が移動する路面の状況の推定結果の一例を示す。図１は、正解ラベルと、推定クラスの各々の尤度の推定結果とを表すものであり、縦軸に尤度、横軸に時系列の時間をとったグラフである。時系列の時間は１００ｍｓ単位としている。ここでは、１００ｍｓ単位は学習時にバッチをずらす単位時間としており、図１のグラフでは１ごとに１００ｍｓの時間推移があることを表している。以下、本発明の実施の形態において示す「時間」は１００ｍｓの単位時間を表すものである。移動体が移動する路面の状況の推定クラスは、平坦路を示す「平坦」、移動体が静止状態であることを示す「静止」、上り階段を示す「階段↑」、下り階段を示す「階段↓」である。時系列の各時間には正解ラベルが割り当てられるが、推定結果の尤度では、必ずしも所望のラベルの尤度が最も高くならない場合がある。例えば、時系列の時間１～７１の正解ラベルは「階段↑」であるが、（Ａ）に示したラベル「階段↑」の尤度よりも、（Ｂ）に示したラベル「平坦」の尤度の方が高く、正しい結果が得られない問題がある。このような推定結果となる一因としては、学習データの正解ラベルの数に偏りがあることが挙げられる。例えば、ラベルを細分化して、上りの２ｃｍの段差を示す「２ｃｍの段差↑」というラベルを用いるとすれば、このようなラベルは学習データにおいて出現頻度が少なくなることが想定される。

　また、機械学習では学習データはバッチサイズ毎にバッチに分割して学習が行われる。一般的には、バッチサイズとして定めたバッチに全てのラベルが含まれないと推定精度が下がってしまうが、バッチサイズが大きすぎると学習精度が下がってしまうという問題がある。そこで、本発明の実施の形態では、バッチサイズが小さい場合の高精度な学習を活かしつつ、バッチサイズを大きくした学習も行う二段階による学習によって、出現数の少ないラベルの推定精度を補正するように学習を行う。例えば、１００ｍｓ単位をバッチ１回分として１０００回に１回出現するラベルがあるとすれば、バッチサイズを１０００以上の１０２４、余裕を見て２０４８や４０９６等にする。これにより、学習データに偏りがあったとしても、所望のラベルを推定できるようになる。

　以上の前提を元に本発明の実施の形態について説明する。

＜本発明の実施の形態に係る構成＞

　次に、本発明の実施の形態に係る構成について説明する。図２に示すように、本発明の実施の形態に係る推定システム１は、学習装置２０と、推定装置４０とを含んで構成されている。学習装置２０、及び推定装置４０はそれぞれ、ＣＰＵと、ＲＡＭと、後述する作用の処理を実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することが出来る。

　まず、学習装置２０について説明する。学習装置２０には、時系列データである学習データからなる学習データ集合が入力される。学習データには、推定対象である移動体の状態を検出する複数種類のセンサにより時系列に検出された路面データを用いる。また、学習データには、時間毎に複数種類のいずれかのラベルを正解ラベルとして付与している。ラベルは、「平坦」、「静止」、「階段↑」、「階段↓」等の移動体が移動する路面の状況の種類とする。路面の状況を細分化して、「２ｃｍの段差↑」等のラベルを用いてもよい。本実施の形態では、幅１５００ｍｓとする窓を１００ｍｓずつずらして路面データから得られる入力データから、ラベル毎の尤度を求めるためのモデルの学習を行う想定である。正解クラスは窓の中心である７５０ｍｓの時点に対応する路面の状況とする。リアルタイムで学習、及び推定を行う場合には、窓幅を１５００ｍｓよりも短くしてもよい。センサとしては、加速度センサ、ジャイロセンサ、地磁気センサ、重力センサ、気圧センサ、及び傾きセンサなど種々のセンサを、推定の対象に合わせて適宜、利用することができる。

　学習装置２０は、第１学習部２４と、第２学習部３２とを備える。第１学習部２４は、学習用第１モデル２２を用いて学習済み第１モデル２６を構築する。学習用第１モデル２２は、ラベル毎に当該ラベルの尤度を求めるためのモデルである。第２学習部３２は、学習用第２モデル３０を用いて学習済み第２モデル３４を構築する。学習用第１モデル２２、学習用第２モデル３０としては、ＣＮＮ（Convolutional Neural Network）、ＲＮＮ（Recurrent Neural Network）、ＬＳＴＭ（Long short-term memory）、ＳＶＭ（Support Vector Machine）など種々の機械学習のモデルを用いることができる。

　第１学習部２４は、学習データ集合を入力として、機械学習で用いる学習データの単位であるバッチサイズを所定のサイズとして、学習データ集合のうち所定のバッチサイズの学習データを用いて、機械学習によって、学習用第１モデル２２のパラメータを学習し、学習済み第１モデル２６を構築する。具体的には、第１学習部２４の機械学習では、例えば、バッチサイズを６４～５１２、学習回数を５００、エポック数（学習回数を１とした学習単位を繰り返す回数）を５０等と定めて学習を行えばよい。また、幅１５００ｍｓとする窓を１００ｍｓずつずらして学習データから得られる入力データと正解ラベルとから、正解ラベルの尤度が最も高くなるように、学習用第１モデル２２のパラメータを学習する。また、第１学習部２４は、学習過程で得られた、学習データの各々についてのラベル毎の各時間の尤度に、正解ラベルを付与して、時系列尤度データ２８として記憶する。正解ラベルの付与は、例えば、「平坦」、「静止、「階段↑」、「階段↓」のラベルの尤度のそれぞれに対して、時間に対応する正解ラベルを付与することにより行う。例えば図１に示した時間１～７１の各ラベルの尤度であれば、「階段↑」を正解ラベルとして付与する。

　第２学習部３２は、時系列尤度データ２８を入力として、バッチサイズを第１学習部２４の所定のサイズより大きいサイズとして、機械学習によって、各時間のラベルの推定結果からいずれかのラベルを出力するための学習用第２モデル３０のパラメータを学習し、学習済み第２モデル３４を構築する。具体的には、バッチサイズは、第１学習部２４で用いたバッチサイズ６４～５１２よりも大きいサイズの１０２４、２０４８、又は４０９６等を用いる。なお、学習回数やエポック数は第１学習部２４の機械学習と同様でもよいし、変更してもよい。

　次に、推定装置４０について説明する。推定装置４０には、路面上を移動する移動体に搭載されたセンサにより時系列に検出された路面データが入力される。路面データにより、時系列に各時間の移動体の状態が検出されているものとする。推定装置４０は、複数種類のラベル毎にラベルの尤度を求めるための学習済み第１モデル２６、及び各時間のラベルの推定結果からいずれかのラベルを出力するための学習済み第２モデル３４、を用いてラベルの推定を行う。推定されるラベルは、上記学習装置２０の学習データの正解ラベルとして用いた「平坦」、「静止」、「階段↑」、「階段↓」等である。

　第１推定部４２は、時系列データである路面データを、学習済み第１モデル２６に入力し、各時刻についてラベル毎のラベルの尤度を推定し、第２推定部４４に出力する。具体的には、幅１５００ｍｓとする窓を１００ｍｓずつずらして路面データから得られる入力データの各々に対して、学習済み第１モデル２６を用いて、ラベル毎の尤度を推定し、ラベル毎の各時間におけるラベルの尤度を求める。

　第２推定部４４は、第１推定部４２で推定されたラベル毎の各時間におけるラベルの尤度を、学習済み第２モデル３４に入力し、ラベル毎の各時間における尤度に対応する、いずれかのラベルを推定する。

＜本発明の実施の形態に係る作用＞

　次に、本発明の実施の形態に係る推定システム１の作用について説明する。

　まず、図３のフローチャートを参照して学習装置２０の作用を説明する。

　ステップＳ１００で、学習装置２０は、時系列データである学習データからなる学習データ集合の入力を受け付ける。学習データはセンサにより時系列に検出された路面データである。

　ステップＳ１０２で、第１学習部２４は、学習データ集合を入力として、機械学習で用いる学習データの単位であるバッチサイズを所定のサイズとして、学習データ集合のうち所定のバッチサイズの学習データを用いて、機械学習によって、学習用第１モデル２２のパラメータを学習し、学習済み第１モデル２６を構築する。

　ステップＳ１０４で、第１学習部２４は、学習過程で得られた、学習データの各々についてのラベル毎の各時間の尤度に、正解ラベルを付与して、時系列尤度データ２８として記憶する。

　ステップＳ１０６で、第２学習部３２は、時系列尤度データ２８を入力として、バッチサイズを第１学習部２４の所定のサイズより大きいサイズとして、機械学習によって、各時間のラベルの推定結果からいずれかのラベルを出力するための学習用第２モデル３０のパラメータを学習し、学習済み第２モデル３４を構築する。

　次に、図４のフローチャートを参照して推定装置４０の作用を説明する。

　ステップＳ２００で、推定装置４０は、センサにより時系列に検出された路面データの入力を受け付ける。

　ステップＳ２０２で、第１推定部４２は、時系列データである路面データを、学習済み第１モデル２６に入力し、各時間についてラベル毎のラベルの尤度を推定し、第２推定部４４に出力する。

　ステップＳ２０４で、第２推定部４４は、第１推定部４２で推定されたラベル毎の各時間におけるラベルの尤度を、学習済み第２モデル３４に入力し、ラベル毎の各時間における尤度に対応する、いずれかのラベルを推定する。

　ステップＳ２０６で、推定装置４０は、ステップＳ２０４で得られたラベルの推定結果を出力する。

　以上、説明したように、本発明の実施の形態の推定システム１では、学習装置２０によって、機械学習で用いる学習データの単位であるバッチサイズを所定のサイズとして、ラベル毎にラベルの尤度を求めるための第１モデルを学習し、学習データの各々について、ラベル毎の各時間の尤度である時系列尤度データを出力する。また、正解ラベルを付与した、学習データの各々についての時系列尤度データを入力として、機械学習によって、ラベル毎の尤度の変化からいずれかのラベルを出力するための第２モデルを学習する。これにより、精度よくデータの状況を示すラベルを推定するためのモデルを学習できる。

　また、推定装置４０によって、時系列データを、複数種類のラベル毎にラベルの尤度を求めるための学習済み第１モデルに入力し、ラベル毎の各時間におけるラベルの尤度を推定する。また、推定されたラベル毎の各時間におけるラベルの尤度を、各時間のラベルの推定結果からいずれかのラベルを出力するための学習済み第２モデルに入力し、バッチサイズを所定のサイズより大きいサイズとして、ラベル毎の各時間における尤度に対応する、いずれかのラベルを推定する。これにより、精度よくデータの状況を示すラベルを推定することができる。

　また、学習装置２０及び推定装置４０は、コンピュータを用いて実現することも可能である。そのようなコンピュータは、学習装置２０及び推定装置４０の各機能を実現する処理内容を記述したプログラムを、該コンピュータの記憶部に格納しておき、該コンピュータのＣＰＵによってこのプログラムを読み出して実行させることで実現することができる。

　なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

　例えば、入力として路面データを用いる場合を例に説明したが、これに限定されるものではなく、時系列の時間毎に検出されたデータであれば本発明の実施の形態を適用できる。

１推定システム
２０学習装置
２２学習用第１モデル
２４第１学習部
２６学習済み第１モデル
２８時系列尤度データ
３０学習用第２モデル
３２第２学習部
３４学習済み第２モデル
４０推定装置
４２第１推定部
４４第２推定部

Claims

　時系列データである学習データであって、時間毎に複数種類のいずれかのラベルが正解ラベルとして付与された学習データからなる学習データ集合を入力として、機械学習で用いる学習データの単位であるバッチサイズを所定のサイズとして、前記学習データ集合のうち前記バッチサイズの学習データを用いて、予め定めた機械学習によって、ラベルを推定するための第１モデルを学習し、学習データの各々について、各時間の前記ラベルの推定結果を出力する第１学習部と、
　正解ラベルを付与した、前記学習データの各々についての各時間の前記ラベルの推定結果を入力として、前記バッチサイズを前記所定のサイズより大きいサイズとして、予め定めた機械学習によって、各時間の前記ラベルの推定結果からいずれかのラベルを出力するための第２モデルを学習する第２学習部と、
　を含む学習装置。
　前記学習データは、対象の状態を検出するセンサによって時系列に検出された検出データとし、前記ラベルを対象が移動する路面の状況の種類とする請求項１に記載の学習装置。
　第１学習部が、時系列データである学習データであって、時間毎に複数種類のいずれかのラベルが正解ラベルとして付与された学習データからなる学習データ集合を入力として、機械学習で用いる学習データの単位であるバッチサイズを所定のサイズとして、前記学習データ集合のうち前記バッチサイズの学習データを用いて、予め定めた機械学習によって、ラベルを推定するための第１モデルを学習し、学習データの各々について、各時間の前記ラベルの推定結果を出力するステップと、
　第２学習部が、正解ラベルを付与した、前記学習データの各々についての各時間の前記ラベルの推定結果を入力として、前記バッチサイズを前記所定のサイズより大きいサイズとして、予め定めた機械学習によって、各時間の前記ラベルの推定結果からいずれかのラベルを出力するための第２モデルを学習するステップと、
　を含む学習方法。
　コンピュータを、請求項１又は請求項２に記載の学習装置の各部として機能させるためのプログラム。