WO2023243036A1

WO2023243036A1 - 情報処理装置、プログラム及び情報処理方法

Info

Publication number: WO2023243036A1
Application number: PCT/JP2022/024125
Authority: WO
Inventors: 佳曲; 祥太郎三輪
Original assignee: 三菱電機株式会社
Priority date: 2022-06-16
Filing date: 2022-06-16
Publication date: 2023-12-21
Also published as: JPWO2023243036A1

Abstract

情報処理装置（１００）は、注意機構の学習モデルである注意機構学習モデルを用いて、時系列である複数の変数に重み付けをして加算することでコンテクスト変数を算出する注意機構部（１１３）と、そのコンテクスト変数及びその複数の変数に含まれる最新の一つの変数から算出される、複数の判断の信頼度に基づいて、その複数の判断に含まれる一つの判断を推定する判断部（１１４）と、コンテクスト変数及び一つの判断を対応付けた結果情報を記憶する記憶部（１０１）と、その結果情報から、少なくとも注意機構学習モデルの学習状態の評価を行う評価部（１１５）とを備える。

Description

情報処理装置、プログラム及び情報処理方法

　本開示は、情報処理装置、プログラム及び情報処理方法に関する。

　学習モデルによる推定精度を高める技術として、注意機構がある。例えば、非特許文献１は、ニューラルネットワークによる自然言語の翻訳に、注意機構を用いることで、その翻訳精度を向上できることが記載されている。

Ｍｉｎｈ－Ｔｈａｎｇ　Ｌｕｏｎｇ　ｅｔ　ａｌ．，　"Ｅｆｆｅｃｔｉｖｅ　Ａｐｐｒｏａｃｈｅｓ　ｔｏ　Ａｔｔｅｎｔｉｏｎ－ｂａｓｅｄ　Ｎｅｕｒａｌ　Ｍａｃｈｉｎｅ　Ｔｒａｎｓｌａｔｉｏｎ"、　ａｒＸｉｖ　ｐｒｅｐｒｅｎｔ　ａｒＸｉｖ：１５０８．０４０２５，　１８　Ａｕｇ　２０１５

　しかしながら、深層強化学習を用いた学習モデルは、内部処理がブラックボックスで見えない。このため、学習モデルの学習が有効に行われたか否かをユーザが容易に判断することができない。

　そこで、本開示の一又は複数の態様は、注意機構を用いた学習モデルの学習状態を容易に把握できるようにすることを目的とする。

　本開示の一態様に係る情報処理装置は、注意機構の学習モデルである注意機構学習モデルを用いて、時系列である複数の変数に重み付けをして加算することでコンテクスト変数を算出する注意機構部と、前記コンテクスト変数及び前記複数の変数に含まれる最新の一つの変数から算出される、複数の判断の信頼度に基づいて、前記複数の判断に含まれる一つの判断を推定する判断部と、前記コンテクスト変数及び前記一つの判断を対応付けた結果情報を記憶する記憶部と、前記結果情報から、少なくとも前記注意機構学習モデルの学習状態の評価を行う評価部と、を備えることを特徴とする。

　本開示の一態様に係るプログラムは、コンピュータを、注意機構の学習モデルである注意機構学習モデルを用いて、時系列である複数の変数に重み付けをして加算することでコンテクスト変数を算出する注意機構部、前記コンテクスト変数及び前記複数の変数に含まれる最新の一つの変数から算出される、複数の判断の信頼度に基づいて、前記複数の判断に含まれる一つの判断を推定する判断部、前記コンテクスト変数及び前記一つの判断を対応付けた結果情報を記憶する記憶部、及び、前記結果情報から、少なくとも前記注意機構学習モデルの学習状態の評価を行う評価部、として機能させることを特徴とする。

　本開示の一態様に係る情報処理方法は、注意機構の学習モデルである注意機構学習モデルを用いて、時系列である複数の変数に重み付けをして加算することでコンテクスト変数を算出し、前記コンテクスト変数及び前記複数の変数に含まれる最新の一つの変数から算出される、複数の判断の信頼度に基づいて、前記複数の判断に含まれる一つの判断を推定し、前記コンテクスト変数及び前記一つの判断を対応付けた結果情報を記憶し、前記結果情報から、少なくとも前記注意機構学習モデルの学習状態の評価を行うことを特徴とする。

　本開示の一又は複数の態様によれば、注意機構を用いた学習モデルの学習状態を容易に把握することができる。

実施の形態１に係る情報処理装置の構成を概略的に示すブロック図である。（Ａ）及び（Ｂ）は、ハードウェア構成例を示すブロック図である。実施の形態１に係る情報処理装置での処理を説明するための概略図である。実施の形態２に係る情報処理装置の構成を概略的に示すブロック図である。実施の形態２に係る情報処理装置での処理を説明するための概略図である。実施の形態３に係る情報処理装置の構成を概略的に示すブロック図である。実施の形態３に係る情報処理装置での処理を説明するための概略図である。実施の形態４に係る情報処理装置の構成を概略的に示すブロック図である。実施の形態４に係る情報処理装置での処理を説明するための概略図である。

実施の形態１．
　図１は、実施の形態１に係る情報処理装置１００の構成を概略的に示すブロック図である。
　情報処理装置１００は、記憶部１０１と、通信部１０２と、入力部１０３と、表示部１０４と、制御部１１０とを備える。

　記憶部１０１は、情報処理装置１００での処理に必要なプログラム及びデータを記憶する。
　例えば、記憶部１０１は、制御部１１０で実行する注意機構で用いる学習モデルである注意機構学習モデルを少なくとも記憶する。なお、実施の形態１では、記憶部１０１は、後述するように、抽出学習モデル及び判断学習モデルも記憶する。
　また、記憶部１０１は、注意機構による推定結果を用いて制御部１１０で判断された判断結果と、その推定結果とを対応付けた結果情報を記憶する。

　通信部１０２は、他の装置との通信を行う。例えば、通信部１０２は、インターネット等のネットワークを介して、他の装置と通信を行う。

　入力部１０３は、情報処理装置１００のユーザからの入力を受け付ける。
　表示部１０４は、情報処理装置１００のユーザに情報を表示する。例えば、表示部１０４は、各種画面画像を表示する。

　制御部１１０は、情報処理装置１００での処理を制御する。例えば、制御部１１０は、判断を行うために必要な変数である状態変数を、注意機構により重み加算を行うことで、コンテクスト状態変数を算出し、そのコンテクスト状態変数からある判断を推定する。そして、制御部１１０は、そのコンテクスト状態変数及びそのコンテクスト状態変数から推定された判断を対応付けて、結果情報として記憶部１０１に記憶させる。
　なお、以下では、状態変数を、単に変数ともいい、コンテクスト状態変数を、単にコンテクスト変数ともいう。

　さらに、制御部１１０は、記憶部１０１に記憶されている結果情報を用いて、少なくとも注意機構で用いられる学習モデルの学習状態の評価を行う。なお、実施の形態１では、制御部１１０は、後述するように、抽出学習モデル、注意機構学習モデル及び判断学習モデルの学習状態の評価を行う。

　制御部１１０は、データ取得部１１１と、変数抽出部１１２と、注意機構部１１３と、判断部１１４と、評価部１１５とを備える。
　データ取得部１１１は、入力データを取得する。データ取得部１１１は、例えば、通信部１０２を介して入力データを取得してもよい。また、入力データが記憶部１０１に記憶されている場合、データ取得部１１１は、記憶部１０１から入力データを取得してもよい。

　変数抽出部１１２は、データ取得部１１１で取得された入力データから、判断を行うことのできる変数である状態変数を抽出する。
　ここでは、変数抽出部１１２は、入力データから状態変数を抽出するための学習モデルである抽出学習モデルを用いて、状態変数を抽出する。

　注意機構部１１３は、変数抽出部１１２で抽出された状態変数に対して、公知の注意機構による重み付け和を行うことで、コンテクスト状態変数を算出する。例えば、注意機構部１１３は、変数抽出部１１２で抽出された状態変数に対して、記憶部１０１に記憶されている学習モデルを用いて重み付けを行い、重み付けされた状態変数を加算することで、推定結果としてのコンテクスト状態変数を算出する。

　判断部１１４は、注意機構部１１３で推定されたコンテクスト状態変数及び複数の状態変数に含まれる最新の一つの状態変数から算出される、複数の判断の信頼度に基づいて、その複数の判断に含まれる一つの判断から、複数の判断に含まれる一つの判断を推定する。そして、判断部１１４は、その一つの判断と、コンテクスト状態変数とを対応付けて結果情報として記憶部１０１に記憶させる。
　ここでは、判断部１１４は、コンテクスト変数から一つの判断を推定するための学習モデルである判断学習モデルを用いて推定を行う。

　評価部１１５は、記憶部１０１に記憶されている結果情報から、少なくとも注意機構部１１３が使用する学習モデルである注意機構学習モデルの学習状態を評価する。
　なお、実施の形態１では、評価部１１５は、抽出学習モデル、注意機構学習モデル及び判断学習モデルの学習状態を評価する。但し、入力データから状態変数の抽出が行われない場合には、評価部１１５は、注意機構学習モデル及び判断学習モデルの学習状態を評価する。

　例えば、評価部１１５は、複数の判断の各々でクラスタリングを行うことで、複数のクラスタを特定し、複数のクラスタ間の距離又は類似度により評価を行う。この場合、距離が短いほど、又は、類似度が高いほど、評価が低いことになる。

　以上に記載された制御部１１０の一部又は全部は、例えば、図２（Ａ）に示されているように、メモリ１０と、メモリ１０に格納されているプログラムを実行するＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）等のプロセッサ１１とにより構成することができる。言い換えると、情報処理装置１００は、いわゆるコンピュータにより実現することができる。このようなプログラムは、ネットワークを通じて提供されてもよく、また、記録媒体に記録されて提供されてもよい。即ち、このようなプログラムは、例えば、プログラムプロダクトとして提供されてもよい。

　また、制御部１１０の一部又は全部は、例えば、図２（Ｂ）に示されているように、単一回路、複合回路、プログラムで動作するプロセッサ、プログラムで動作する並列プロセッサ、ＡＳＩＣ（Ａｐｐｌｉｃａｔｉｏｎ　Ｓｐｅｃｉｆｉｃ　Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔ）又はＦＰＧＡ（Ｆｉｅｌｄ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）等の処理回路１２で構成することもできる。
　以上のように、制御部１１０は、処理回路網により実現することができる。

　なお、記憶部１０１は、ＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）又はＳＳＤ（Ｓｏｌｉｄ　ｓｔａｔｅ　Ｄｒｉｖｅ）等の記憶装置により実現することができる。
　通信部１０２は、ＮＩＣ（Ｎｅｔｗｏｒｋ　Ｉｎｔｅｒｆａｃｅ　Ｃａｒｄ）等の通信インタフェースにより実現することができる。
　入力部１０３は、キーボード又はマウス等の入力インタフェースにより実現することができる。
　表示部１０４は、ディスプレイにより実現することができる。

　図３は、実施の形態１に係る情報処理装置１００での処理を説明するための概略図である。
　まず、データ取得部１１１は、入力データＸ_ｔ－ｎ、Ｘ_{ｔ－ｎ＋１}、Ｘ_ｔ－１、Ｘ_ｔを取得する（Ｓ１０）。ここでは、入力データＸ_ｔ－ｎ、Ｘ_{ｔ－ｎ＋１}、Ｘ_ｔ－１、Ｘ_ｔは、観測値としてのセンサ値であり、時系列ｔ－ｎ、ｔ－ｎ＋１、ｔ－１、ｔ（ｔ及びｎは、正の整数）のデータであるものとする。例えば、入力データとしては、画像データを使用することができる。
　データ取得部１１１は、取得された入力データＸ_ｔ－ｎ、Ｘ_{ｔ－ｎ＋１}、Ｘ_ｔ－１、Ｘ_ｔを変数抽出部１１２に与える。

　変数抽出部１１２は、入力データＸ_ｔ－ｎ、Ｘ_{ｔ－ｎ＋１}、Ｘ_ｔ－１、Ｘ_ｔから、判断部１１４が判断を行うのに有利な変数である状態変数Ｓ_ｔ－ｎ、Ｓ_{ｔ－ｎ＋１}、Ｓ_ｔ－１、Ｓ_ｔを抽出する（Ｓ１１）。
　ここでは、変数抽出部１１２は、記憶部１０１に記憶されているニューラルネットワークモデルである抽出学習モデルを用いて、入力データＸ_ｔ－ｎ、Ｘ_{ｔ－ｎ＋１}、Ｘ_ｔ－１、Ｘ_ｔから状態変数Ｓ_ｔ－ｎ、Ｓ_{ｔ－ｎ＋１}、Ｓ_ｔ－１、Ｓ_ｔを抽出する。
　変数抽出部１１２は、抽出された状態変数Ｓ_ｔ－ｎ、Ｓ_{ｔ－ｎ＋１}、Ｓ_ｔ－１、Ｓ_ｔを注意機構部１１３に与える。
　なお、ここでは、変数抽出部１１２は、抽出学習モデルを用いているが、実施の形態１はこのような例に限定されず、何らかの関数を用いて状態変数Ｓ_ｔ－ｎ、Ｓ_{ｔ－ｎ＋１}、Ｓ_ｔ－１、Ｓ_ｔが抽出されればよい。

　注意機構部１１３は、状態変数Ｓ_ｔ－ｎ、Ｓ_{ｔ－ｎ＋１}、Ｓ_ｔ－１、Ｓ_ｔに対して、学習モデルを用いて重み値を推定して、重み付け和を算出することで、コンテクスト状態変数を算出する（Ｓ１２）。
　注意機構部１１３は、算出されたコンテクスト状態変数を判断部１１４に与える。

　判断部１１４は、コンテクスト状態変数及び最新の状態変数Ｓｔから判断を行う（Ｓ１３）。
　ここでは、判断部１１４は、記憶部１０１に記憶されているニューラルネットワークモデルである判断学習モデルを用いて、コンテクスト状態変数及び最新の状態変数から判断を推定する。

　そして、判断部１１４は、その判断と、コンテクスト状態変数とを対応付けて結果情報として記憶部１０１に記憶させることで、結果情報を蓄積する（Ｓ１４）。

　評価部１１５は、記憶部１０１に記憶されている結果情報を用いて、少なくとも注意機構部１１３が使用する学習モデルの学習状態を評価する。
　例えば、評価部１１５は、評価を行いやすくするため、結果情報を判断毎にクラスタリングしたＮ次元データをより低次元のデータに変換する（Ｓ１５）。具体的には、評価部１１５は、そのＮ次元データを、Ｔ－ｓｎｅ（Ｔ-Ｅｉｓｔｒｉｂｕｔｅｄ　Ｓｔｏｃｈａｓｔｉｃ　Ｎｅｉｇｈｂｏｒ　Ｅｎｂｅｄｄｉｎｇ）を用いて、二次元データに変換することで、判断毎のクラスタを可視化する。

　そして、評価部１１５は、例えば、クラスタ間の距離又は類似度を評価値として算出することで、学習状態を評価する（Ｓ１６）。
　例えば、評価部１１５は、クラスタ間の評価値を閾値と比較することで、評価を行う。具体的には、評価部１１５は、クラスタ間の距離が予め定められた閾値未満である場合、又は、クラスタ間の類似度が予め定められた閾値よりも高い場合に、学習が不十分であると判断する。
　なお、評価部１１５の判断結果は、例えば、表示部１０４に表示されてもよい。

　以上のように、実施の形態１によれば、注意機構を用いた学習モデルの学習状態を容易に把握することができる。

実施の形態２．
　図４は、実施の形態２に係る情報処理装置２００の構成を概略的に示すブロック図である。
　情報処理装置２００は、記憶部１０１と、通信部１０２と、入力部１０３と、表示部１０４と、制御部２１０とを備える。
　実施の形態２に係る情報処理装置２００の記憶部１０１、通信部１０２、入力部１０３及び表示部１０４は、実施の形態１に係る情報処理装置１００の記憶部１０１、通信部１０２、入力部１０３及び表示部１０４と同様である。

　制御部２１０は、情報処理装置２００での処理を制御する。
　実施の形態２における制御部２１０は、実施の形態１の制御部１１０と同様の処理を行う他、以下の処理を行う。
　制御部２１０は、学習状態の評価結果に応じて、追加の学習データである追加学習データを用いて、学習モデルの学習を行う。

　制御部２１０は、データ取得部１１１と、変数抽出部１１２と、注意機構部１１３と、判断部１１４と、評価部２１５と、追加学習部２１６とを備える。
　実施の形態２における制御部２１０のデータ取得部１１１、変数抽出部１１２、注意機構部１１３及び判断部１１４は、実施の形態１における制御部１１０のデータ取得部１１１、変数抽出部１１２、注意機構部１１３及び判断部１１４と同様である。

　評価部２１５は、記憶部１０１に記憶されている結果情報を用いて、少なくとも注意機構部１１３が使用する学習モデルの学習状態を評価する。
　そして、評価部２１５は、その評価結果を追加学習部２１６に与える。例えば、評価部２１５は、二つのクラスタの組み合わせ毎に、評価値を閾値と比較することで、学習が十分であるか否かを示す評価情報を生成し、その評価情報を追加学習部２１６に与える。

　追加学習部２１６は、評価部２１５からの評価情報を参照して、追加学習データを変数抽出部１１２に与えることで、追加の学習を行う。
　ここでは、追加学習部２１６は、評価部２１５による評価が予め定められた閾値よりも低い場合に、追加の学習データである追加学習データを用いて、少なくとも注意機構学習モデルを学習する。実施の形態２では、追加学習部２１６は、抽出学習モデル、判断学習モデル及び注意機構学習モデルを学習する。

　例えば、追加学習部２１６は、複数の判断の内、評価が予め定められた閾値よりも低い判断を正解とする学習データを追加学習データとして用いて、学習を行う。言い換えると、追加学習部２１６は、学習が不十分と判断された二つのクラスタに分類される学習データを追加学習データとして変数抽出部１１２に与えればよい。ここで、追加学習データは、例えば、通信部１０２を介して、他の装置から取得されてもよく、記憶部１０１に記憶されていてもよい。どこから追加学習データを取得するかは、例えば、入力部１０３を介して、ユーザが指示してもよい。

　図５は、実施の形態２に係る情報処理装置２００での処理を説明するための概略図である。
　図５のＳ１０～Ｓ１５までの処理については、図３に示されているＳ１０～Ｓ１５までの処理と同様である。

　実施の形態２では、評価部２１５は、例えば、クラスタ間の距離又は類似度を評価値として算出することで、学習状態を評価して、その評価結果を示す評価情報を生成する（Ｓ２６）。評価情報は、二つのクラスタの組み合わせ毎に、学習が十分であるか否かを示す情報である。生成された評価情報は、追加学習部２１６に与えられる。

　追加学習部２１６は、評価情報を参照して、学習が不十分であると判断されたクラスタに分類される学習データを追加学習データとして生成し（Ｓ２７）、その追加学習データを変数抽出部１１２に与えることで、追加の学習を行う。

　以上のように、実施の形態２によれば、注意機構を用いた学習モデルにおいて、学習が不十分であるクラスタを追加で学習することができる。

　ここで、評価部２１５は、一つの閾値を用いて、学習が十分であるか否かを判断してもよいが、例えば、複数の閾値を用いることで、判断のリスク管理を行うことができる。具体的には、判断として、車両を「止める」と「加速する」といったように、間違ってはいけないクラスタ間については、距離が長く、又は、類似度が低くなければならないため、閾値を調整することで、判断のリスク管理を行うことができる。

実施の形態３．
　図６は、実施の形態３に係る情報処理装置３００の構成を概略的に示すブロック図である。
　情報処理装置３００は、記憶部１０１と、通信部１０２と、入力部１０３と、表示部１０４と、制御部３１０とを備える。
　実施の形態３に係る情報処理装置３００の記憶部１０１、通信部１０２、入力部１０３及び表示部１０４は、実施の形態１に係る情報処理装置１００の記憶部１０１、通信部１０２、入力部１０３及び表示部１０４と同様である。

　制御部３１０は、情報処理装置３００での処理を制御する。
　実施の形態３における制御部３１０は、実施の形態１の制御部１１０と同様の処理を行う他、以下の処理を行う。
　制御部３１０は、学習状態の評価結果に応じて学習データを選択して、選択された学習データを用いて、学習モデルの学習を行う。

　制御部３１０は、データ取得部１１１と、変数抽出部１１２と、注意機構部１１３と、判断部１１４と、評価部３１５と、学習データ選択部３１７と、学習部３１８とを備える。
　実施の形態３における制御部３１０のデータ取得部１１１、変数抽出部１１２、注意機構部１１３及び判断部１１４は、実施の形態１における制御部１１０のデータ取得部１１１、変数抽出部１１２、注意機構部１１３及び判断部１１４と同様である。

　評価部３１５は、実施の形態１と同様に、記憶部１０１に記憶されている結果情報を用いて、少なくとも注意機構部１１３が使用する学習モデルの学習状態を評価する。
　実施の形態３では、評価部３１５は、二つのクラスタの組み合わせ毎に評価値を示す評価値情報を学習データ選択部３１７に与える。

　学習データ選択部３１７は、評価部３１５からの評価値情報を参照して、少なくとも注意機構学習モデルを学習するための学習データを選択する。
　ここでは、学習データ選択部３１７は、一つの判断に対応する評価が低いほど、その一つの判断を正解とする学習データの数が多くなるように、選択を行う。言い換えると、学習データ選択部３１７は、評価値情報で示される評価値による評価が低いほど、言い換えると、距離が短いほど、又は、類似度が高いほど、そのクラスタに分類される学習データの数が多くなるように、学習データを選択する。なお、学習データについては、記憶部１０１に記憶されていても、他の装置に記憶されていてもよい。他の装置に学習データが記憶されている場合には、学習データ選択部３１７は、通信部１０２を介して、その他の装置にアクセスして、学習データを選択すればよい。

　学習部３１８は、学習データ選択部３１７により選択された学習データを用いて、少なくとも注意機構学習モデルを学習する。
　例えば、学習部３１８は、学習データ選択部３１７が選択した学習データを変数抽出部１１２に与えることで学習を行う。

　図７は、実施の形態３に係る情報処理装置３００での処理を説明するための概略図である。
　図７は、情報処理装置３００において学習データを用いて学習する場合の処理を示している。
　なお、前提として、学習データ選択部３１７は、評価値情報を参照しないで選択した学習データを初期学習データとして、学習部３１８に与える。学習部３１８は、その初期学習データを、変数抽出部１１２に与えることで、初期学習を行い、その初期学習における評価結果に応じて、学習データが選択される。

　図７のＳ１１～Ｓ１５までの処理については、図３に示されているＳ１１～Ｓ１５までの処理と同様である。

　実施の形態３では、評価部３１５は、例えば、クラスタ間の距離又は類似度を評価値として算出することで、学習状態を評価するとともに、二つのクラスタの組み合わせ毎に、その評価値を示す評価値情報を生成する（Ｓ３６）。生成された評価値情報は、学習データ選択部３１７に与えられる。

　学習データ選択部３１７は、評価値情報を参照して、評価値情報で示される評価値による評価が低いほど、そのクラスタに分類される学習データの数が多くなるように、学習データを選択する（Ｓ３７）。そして、学習データ選択部３１７は、選択された学習データを学習部３１８に与える。

　学習部３１８は、学習データ選択部３１７が選択した学習データを変数抽出部１１２に与えることで、学習を行う（Ｓ３８）。

　以上のように、実施の形態３によれば、注意機構を用いた学習モデルを学習する際に、重点的に学習すべき学習データを選択することで、効率的に学習を行うことができる。

　なお、学習データ選択部３１７は、評価値情報で示される評価値による評価が低いほど、そのクラスタに分類される学習データの数が多くなるように、学習データを選択しているが、実施の形態３は、このような例に限定されるものではない。例えば、判断として、車両を「止める」と「加速する」といったように、間違ってはいけないクラスタ間については、予め重点的に学習すべきクラスタとして、学習データ選択部３１７に設定しておくことで、学習データ選択部３１７は、このようなクラスタの学習データが多くなるように、選択を行うことができる。具体的には、学習データ選択部３１７は、重点的に学習すべきクラスタについては、評価値が低くなるような重み値を加算又は乗算することで、選択される学習データが多くなるようにすることができる。このような設定は、例えば、ユーザが入力部１０３を介して行ってもよい。

実施の形態４．
　図８は、実施の形態４に係る情報処理装置４００の構成を概略的に示すブロック図である。
　情報処理装置４００は、記憶部１０１と、通信部１０２と、入力部１０３と、表示部１０４と、制御部４１０とを備える。
　実施の形態４に係る情報処理装置４００の記憶部１０１、通信部１０２、入力部１０３及び表示部１０４は、実施の形態１に係る情報処理装置１００の記憶部１０１、通信部１０２、入力部１０３及び表示部１０４と同様である。

　制御部４１０は、情報処理装置４００での処理を制御する。
　実施の形態４における制御部４１０は、実施の形態１の制御部１１０と同様の処理を行う他、以下の処理を行う。
　制御部４１０は、学習状態の評価結果に応じて学習を継続するか否かを判断し、学習を継続すると判断した場合に、学習を継続し、学習を継続しないと判断した場合に、学習を終了する。

　制御部４１０は、データ取得部１１１と、変数抽出部１１２と、注意機構部１１３と、判断部１１４と、評価部２１５と、学習部４１８と、学習継続判断部４１９とを備える。
　実施の形態４における制御部４１０のデータ取得部１１１、変数抽出部１１２、注意機構部１１３及び判断部１１４は、実施の形態１における制御部１１０のデータ取得部１１１、変数抽出部１１２、注意機構部１１３及び判断部１１４と同様である。
　また、実施の形態４における評価部２１５は、実施の形態２における評価部２１５と同様である。但し、実施の形態４においては、評価部２１５は、評価情報を学習継続判断部４１９に与える。

　学習継続判断部４１９は、評価部２１５からの評価情報を参照して、少なくとも注意機構学習モデルの学習を継続するか否かを判断する。
　例えば、学習継続判断部４１９は、評価情報で示される評価値による全ての評価又は一部の評価が予め定められた閾値よりも低い場合に、言い換えると、距離が予め定められた閾値よりも短い、又は、類似度が予め定められた閾値よりも高い場合に、学習を継続すると判断する。

　なお、一部の評価は、予め定められた数の評価でもよく、予め定められたクラスタの評価でもよい。例えば、間違えることの許されないような重要なクラスタの全ての評価が閾値以上となった場合に、学習継続判断部４１９は、学習を継続しないと判断してもよい。

　学習部４１８は、学習継続判断部４１９が学習を継続すると判断した場合には、学習データを変数抽出部１１２に与えることで、学習を行う。一方、学習部４１８は、学習継続判断部４１９が学習を継続しないと判断した場合には、学習データを変数抽出部１１２に与えずに、学習を終了する。
　なお、学習データについては、記憶部１０１に記憶されていても、他の装置に記憶されていてもよい。他の装置に学習データが記憶されている場合には、学習部４１８は、通信部１０２を介して、その他の装置にアクセスして、学習データを取得すればよい。

　図９は、実施の形態４に係る情報処理装置４００での処理を説明するための概略図である。
　図９は、情報処理装置４００において学習データを用いて学習する場合の処理を示す。
　なお、前提として、学習部４１８は、学習データを初期学習データとして、変数抽出部１１２に与えることで、初期学習を行い、その初期学習の評価結果に応じて、学習を継続するか否かが判断される。

　図９のＳ１１～Ｓ１５までの処理については、図３に示されているＳ１１～Ｓ１５までの処理と同様である。

　実施の形態４では、評価部２１５は、例えば、クラスタ間の距離又は類似度を評価値として算出することで、学習状態を評価して、その評価結果を示す評価情報を生成する（Ｓ４６）。評価情報は、二つのクラスタの組み合わせ毎に、学習が十分であるか否かを示す情報である。生成された評価情報は、学習継続判断部４１９に与えられる。

　学習継続判断部４１９は、評価部２１５からの評価情報を参照して、学習を継続するか否かを判断する（Ｓ４７）。

　そして、学習部４１８は、学習継続判断部４１９が学習を継続すると判断した場合には、学習データを変数抽出部１１２に与えることで、学習を行う（Ｓ４８）。

　以上のように、実施の形態４によれば、注意機構を用いた学習モデルを学習する際に、学習が十分に行われた場合には、学習を終了することができる。このため、効率的に学習を行うことができる。

　なお、実施の形態２と同様に、評価部２１５は、一つの閾値を用いて、学習が十分であるか否かを判断してもよいが、例えば、複数の閾値を用いることで、判断のリスク管理を行うことができる。具体的には、判断として、車両を「止める」と「加速する」といったように、間違ってはいけないクラスタ間については、距離が長く、又は、類似度が小さくなければならないため、閾値を調節することで、判断のリスク管理を行うことができる。

　１００，２００，３００，４００　情報処理装置、　１０１　記憶部、　１０２　通信部、　１０３　入力部、　１０４　表示部、　１１０，２１０，３１０，４１０　制御部、　１１１　データ取得部、　１１２　変数抽出部、　１１３　注意機構部、　１１４　判断部、　１１５，２１５，３１５　評価部、　２１６　追加学習部、　３１７　学習データ選択部、　３１８，４１８　学習部、　４１９　学習継続判断部。

Claims

　注意機構の学習モデルである注意機構学習モデルを用いて、時系列である複数の変数に重み付けをして加算することでコンテクスト変数を算出する注意機構部と、
　前記コンテクスト変数及び前記複数の変数に含まれる最新の一つの変数から算出される、複数の判断の信頼度に基づいて、前記複数の判断に含まれる一つの判断を推定する判断部と、
　前記コンテクスト変数及び前記一つの判断を対応付けた結果情報を記憶する記憶部と、
　前記結果情報から、少なくとも前記注意機構学習モデルの学習状態の評価を行う評価部と、を備えること
　を特徴とする情報処理装置。
　前記判断部は、前記コンテクスト変数から前記一つの判断を推定するための学習モデルである判断学習モデルを用いて前記一つの判断を推定し、
　前記評価部は、前記判断学習モデル及び前記注意機構学習モデルの前記評価を行うこと
　を特徴とする請求項１に記載の情報処理装置。
　入力データから前記変数を抽出する変数抽出部をさらに備えること
　を特徴とする請求項２に記載の情報処理装置。
　前記変数抽出部は、前記入力データから前記変数を抽出するための学習モデルである抽出学習モデルを用いて前記変数を抽出し、
　前記評価部は、前記抽出学習モデル、前記判断学習モデル及び前記注意機構学習モデルの前記評価を行うこと
　を特徴とする請求項３に記載の情報処理装置。
　入力データから前記変数を抽出する変数抽出部をさらに備えること
　を特徴とする請求項１に記載の情報処理装置。
　前記変数抽出部は、前記入力データから前記変数を抽出するための学習モデルである抽出学習モデルを用いて前記変数を抽出し、
　前記評価部は、前記抽出学習モデル及び前記注意機構学習モデルの前記評価を行うこと
　を特徴とする請求項５に記載の情報処理装置。
　前記評価部は、前記複数の判断の各々でクラスタリングを行うことで、複数のクラスタを特定し、前記複数のクラスタ間の距離又は類似度により前記評価を行うこと
　を特徴とする請求項１から６の何れか一項に記載の情報処理装置。
　前記評価が予め定められた閾値よりも低い場合に、追加の学習データである追加学習データを用いて、少なくとも前記注意機構学習モデルを学習する追加学習部をさらに備えること
　を特徴とする請求項１から７の何れか一項に記載の情報処理装置。
　前記追加学習部は、前記複数の判断の内、前記評価が前記予め定められた閾値よりも低い判断を正解とする学習データを前記追加学習データとして用いること
　を特徴とする請求項８に記載の情報処理装置。
　前記評価に従って、少なくとも前記注意機構学習モデルを学習するための学習データの選択を行う学習データ選択部と、
　前記選択された学習データを用いて、少なくとも前記注意機構学習モデルを学習する学習部と、をさらに備えること
　を特徴とする請求項１から７の何れか一項に記載の情報処理装置。
　前記学習データ選択部は、前記一つの判断における前記評価が低いほど、前記一つの判断を正解とする前記学習データの数が多くなるように、前記選択を行うこと
　を特徴とする請求項１０に記載の情報処理装置。
　前記評価に従って、少なくとも前記注意機構学習モデルの学習を継続するか否かを判断する学習継続判断部と、
　前記学習を継続すると判断された場合に、少なくとも前記注意機構学習モデルを学習するための学習データを用いて前記学習を継続し、前記学習を継続しないと判断された場合に、前記学習を終了する学習部と、をさらに備えること
　を特徴とする請求項１から７の何れか一項に記載の情報処理装置。
　前記学習継続判断部は、前記複数の判断の全部又は一部の前記評価が予め定められた閾値よりも低い場合に、前記学習を継続すると判断すること
　を特徴とする請求項１２に記載の情報処理装置。
　コンピュータを、
　注意機構の学習モデルである注意機構学習モデルを用いて、時系列である複数の変数に重み付けをして加算することでコンテクスト変数を算出する注意機構部、
　前記コンテクスト変数及び前記複数の変数に含まれる最新の一つの変数から算出される、複数の判断の信頼度に基づいて、前記複数の判断に含まれる一つの判断を推定する判断部、
　前記コンテクスト変数及び前記一つの判断を対応付けた結果情報を記憶する記憶部、及び、
　前記結果情報から、少なくとも前記注意機構学習モデルの学習状態の評価を行う評価部、として機能させること
　を特徴とするプログラム。
　注意機構の学習モデルである注意機構学習モデルを用いて、時系列である複数の変数に重み付けをして加算することでコンテクスト変数を算出し、
　前記コンテクスト変数及び前記複数の変数に含まれる最新の一つの変数から算出される、複数の判断の信頼度に基づいて、前記複数の判断に含まれる一つの判断を推定し、
　前記コンテクスト変数及び前記一つの判断を対応付けた結果情報を記憶し、
　前記結果情報から、少なくとも前記注意機構学習モデルの学習状態の評価を行うこと
　を特徴とする情報処理方法。