WO2021176592A1

WO2021176592A1 - 情報処理装置、生成方法、及び生成プログラム

Info

Publication number: WO2021176592A1
Application number: PCT/JP2020/009138
Authority: WO
Inventors: 雅樹濱田; 泰範椿; 建瑠鈴木
Original assignee: 三菱電機株式会社
Priority date: 2020-03-04
Filing date: 2020-03-04
Publication date: 2021-09-10
Also published as: JPWO2021176592A1

Abstract

情報処理装置（１００）は、案内の提供に関する情報である案内提供情報と、案内を提供する情報提供装置の周囲の状況を示す情報である第１の周囲状況情報とを取得する取得部（１２０）と、案内提供情報と第１の周囲状況情報とに基づいて、状況に応じた、提供対象の案内を示す情報である案内情報、案内情報を提供するタイミング、及び案内情報を提供する方法のうちの少なくとも１つを推論する学習済モデルを生成する生成部（１３０）と、を有する。

Description

情報処理装置、生成方法、及び生成プログラム

　本開示は、情報処理装置、生成方法、及び生成プログラムに関する。

　施設では、案内が利用客に提供されている。例えば、案内は、デジタルサイネージに表示される。利用客は、デジタルサイネージを見ることで、案内を知ることができる。ここで、案内の表示に関する技術が提案されている（特許文献１を参照）。例えば、特許文献１の表示制御システムは、行動履歴情報から学習した行動パターンに基づいて対象人物の行動を予測し、予測結果に応じて案内画像を生成し、案内画像を表示部に表示させる。

特開２０１４－１２３２７７号公報

　上記の技術では、対象人物の行動パターンが学習される。そのため、上記の技術では、予測された対象人物の行動に応じた案内が表示される。
　ところで、複数の人が存在するような状況に応じた案内などを推論したい場合がある。上記の技術は、１人の対象人物の行動パターンを学習する技術である。そのため、上記の技術によって生成させた学習済モデルは、当該状況に応じた案内を推論できない。

　本開示の目的は、状況に応じた案内などを推論する学習済モデルを生成することである。

　本開示の一態様に係る情報処理装置が提供される。情報処理装置は、案内の提供に関する情報である案内提供情報と、前記案内を提供する情報提供装置の周囲の状況を示す情報である第１の周囲状況情報とを取得する取得部と、前記案内提供情報と前記第１の周囲状況情報とに基づいて、状況に応じた、提供対象の案内を示す情報である案内情報、前記案内情報を提供するタイミング、及び前記案内情報を提供する方法のうちの少なくとも１つを推論する学習済モデルを生成する生成部と、を有する。

　本開示によれば、状況に応じた案内などを推論する学習済モデルを生成できる。

実施の形態１の情報処理装置が有するハードウェアの構成を示す図である。実施の形態１の学習フェーズにおける情報処理装置が有する機能ブロックを示す図である。実施の形態１の強化学習に基づく処理の例を示すフローチャートである。実施の形態１の活用フェーズにおける情報処理装置が有する機能ブロックを示す図である。実施の形態１の活用フェーズにおける情報処理装置が実行する処理の例を示すフローチャートである。実施の形態１の駅の施設内の例を示す図である。（Ａ），（Ｂ）は、実施の形態１の案内情報の具体例を示す図である。実施の形態２の活用フェーズにおける情報処理装置が有する機能ブロックを示す図である。実施の形態２の活用フェーズにおける情報処理装置が実行する処理の例を示すフローチャートである。実施の形態２の複数の情報提供装置が同調する場合の具体例を示す図である。

　以下、図面を参照しながら実施の形態を説明する。以下の実施の形態は、例にすぎず、本開示の範囲内で種々の変更が可能である。

実施の形態１．
＜学習フェーズ＞
　図１は、実施の形態１の情報処理装置が有するハードウェアの構成を示す図である。情報処理装置１００は、生成方法を実行する装置である。情報処理装置１００は、学習装置と呼んでもよい。情報処理装置１００は、プロセッサ１０１、揮発性記憶装置１０２、及び不揮発性記憶装置１０３を有する。

　プロセッサ１０１は、情報処理装置１００全体を制御する。例えば、プロセッサ１０１は、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、ＦＰＧＡ（Ｆｉｅｌｄ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）などである。プロセッサ１０１は、マルチプロセッサでもよい。情報処理装置１００は、処理回路によって実現されてもよく、又は、ソフトウェア、ファームウェア若しくはそれらの組み合わせによって実現されてもよい。なお、処理回路は、単一回路又は複合回路でもよい。

　揮発性記憶装置１０２は、情報処理装置１００の主記憶装置である。例えば、揮発性記憶装置１０２は、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）である。不揮発性記憶装置１０３は、情報処理装置１００の補助記憶装置である。例えば、不揮発性記憶装置１０３は、ＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）又はＳＳＤ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ）である。

　次に、情報処理装置１００が有する機能を説明する。
　図２は、実施の形態１の学習フェーズにおける情報処理装置が有する機能ブロックを示す図である。情報処理装置１００は、記憶部１１０、取得部１２０、及び生成部１３０を有する。

　記憶部１１０は、揮発性記憶装置１０２又は不揮発性記憶装置１０３に確保した記憶領域として実現してもよい。
　取得部１２０及び生成部１３０の一部又は全部は、プロセッサ１０１によって実現してもよい。取得部１２０及び生成部１３０の一部又は全部は、プロセッサ１０１が実行するプログラムのモジュールとして実現してもよい。例えば、プロセッサ１０１が実行するプログラムは、生成プログラムとも言う。例えば、生成プログラムは、記録媒体に記録されている。

　取得部１２０は、学習用データ１０を取得する。詳細には、取得部１２０は、案内の提供に関する情報である案内提供情報と、案内を提供する情報提供装置の周囲の状況を示す情報である周囲状況情報とを取得する。言い換えれば、取得部１２０は、情報を提供する情報提供装置の周囲の状況を示す情報である周囲状況情報と、情報提供装置が当該状況で行う案内の提供に関する情報である案内提供情報とを取得する。ここで、当該周囲状況情報は、第１の周囲状況情報とも言う。当該周囲状況情報は、情報提供装置が存在する位置から予め設定された範囲の状況を示す情報と表現してもよい。

　まず、情報提供装置を説明する。例えば、情報提供装置は、駅などの施設内に設置されているデジタルサイネージ、プロジェクタ、スマートフォンなどである。また、情報提供装置は、情報提示装置又は情報出力装置と呼んでもよい。

　次に、案内提供情報を説明する。案内提供情報には、案内を示す情報である案内情報（例えば、コンテンツ）、案内情報を提供するタイミング、及び案内情報を提供する方法のうちの少なくとも１つが含まれる。
　例えば、案内情報が示す案内とは、乗換案内、道案内、交通弱者の移動支援、トラブル発生の案内、注意喚起、マナー啓発などである。

　また、例えば、案内情報を提供する方法とは、情報提供装置のディスプレイに案内情報を表示する方法、情報提供装置のスピーカから案内情報を音声で提供する方法、案内情報を受信したことを情報提供装置の触覚提示デバイスによる振動で伝える方法である。

　次に、周囲状況情報を説明する。例えば、周囲状況情報とは、混雑度、危険度、天候、時間帯などである。
　例えば、混雑度は、監視カメラから得られた画像、自動改札機を通過する集団の情報、センサから得られた情報などに基づいて得られる。

　例えば、危険度には、事故の発生確率に基づく値が設定される。例えば、事故の発生確率は、列車が到着する時のホームの周辺、階段、エスカレータ、見通しが悪い場所、過去に事故が発生した場所などの情報に基づいて、計算される。なお、生成部１３０は、学習用データの周囲状況情報を用いて、混雑度、危険度などを計算してもよい。

　天候は、情報提供装置が存在する場所の天候である。時間帯は、通勤ラッシュの時間帯、平日の時間帯、休日の時間帯、長期休暇時期の時間帯などである。
　周囲状況情報には、施設を利用する利用客の属性が含まれてもよい。例えば、利用客の属性とは、年齢、性別、車椅子、ベビーカー、白杖などである。例えば、利用客の属性は、監視カメラから得られた画像を解析することで得られる。

　ここで、案内提供情報と周囲状況情報とは、ユーザの操作により装置が作成した学習用データでもよい。すなわち、案内提供情報と周囲状況情報とは、ユーザによって作成された架空のデータでもよい。また、案内提供情報は、実際に案内の提供が行われたときの情報でもよい。周囲状況情報は、過去の情報提供装置の周囲の状況の情報でもよい。すなわち、案内提供情報と周囲状況情報とは、現実の情報でもよい。

　生成部１３０は、学習データに基づいて、学習済モデルを生成する。詳細には、生成部１３０は、情報提供装置の周囲の状況に応じた案内方法などが適切になるように、学習処理を行う。
　また、学習処理（すなわち、学習アルゴリズム）は、教師あり学習、教師なし学習、強化学習、半教師あり学習などである。一例として、強化学習が用いられる場合を説明する。

　強化学習では、ある環境内におけるエージェント（すなわち、行動主体）が、現在の状態（すなわち、環境のパラメータ）を観測し、エージェントが取るべき行動が決定される。エージェントの行動により環境が、動的に変化する。そして、エージェントには、環境の変化に応じて報酬が与えられる。エージェントは、上記の処理を繰り返し、一連の行動を通じて報酬が最も多く得られる行動方針が、学習される。代表的な強化学習として、Ｑ学習（Ｑ－ｌｅａｒｎｉｎｇ）、及びＴＤ学習（ＴＤ－ｌｅａｒｎｉｎｇ）が知られている。例えば、Ｑ学習の場合、行動価値関数Ｑ（ｓ，ａ）の一般的な更新式は、次の式（１）で表される。

　なお、ｓ_ｔは、時刻ｔにおける環境の状態を表す。ａ_ｔは、時刻ｔにおける行動を表す。行動ａ_ｔにより、状態は、ｓ_ｔ＋１に変わる。ｒ_ｔ＋１は、状態の変化によって得られる報酬を表す。γは、割引率を表す。αは、学習係数を表す。また、γの範囲は、“０＜γ≦１”とする。αの範囲は、“０＜α≦１”とする。
　強化学習が用いられる場合、案内提供情報が行動ａ_ｔに対応し、周囲状況情報が状態ｓ_ｔに対応する。そして、時刻ｔの状態ｓ_ｔにおける最良の行動ａ_ｔが学習される。

　式（１）では、時刻ｔ＋１における最もＱ値の高い行動ａの行動価値が、時刻ｔにおける行動ａの行動価値よりも大きい場合、行動価値が大きくなる。式（１）では、時刻ｔ＋１における最もＱ値の高い行動ａの行動価値が、時刻ｔにおける行動ａの行動価値よりも小さい場合、行動価値が小さくなる。このように、行動価値関数Ｑ（ｓ，ａ）は、時刻ｔにおける行動ａの行動価値を、時刻ｔ＋１における最良の行動価値に近づくように、更新される。そして、ある環境における最良の行動価値が、以前の環境における行動価値に順次伝播していく。

　上記のように、生成部１３０が強化学習を用いる場合、生成部１３０は、報酬計算部１３１と関数更新部１３２を有する。
　報酬計算部１３１は、周囲の状況が良くなる場合、報酬ｒを増大する。例えば、報酬計算部１３１は、混雑度が低くなる場合又は危険度が低くなる場合、“１”の報酬を与える。一方、報酬計算部１３１は、周囲の状況が悪くなる場合、報酬ｒを低減する。例えば、報酬計算部１３１は、混雑度が高くなる場合又は危険度が高くなる場合、“－１”の報酬を与える。

　関数更新部１３２は、報酬ｒに従って、案内方法などを推論するための関数を更新する。なお、例えば、Ｑ学習の場合、式（１）で表される行動価値関数Ｑ（ｓ_ｔ，ａ_ｔ）が、案内方法などを推論するための関数として、用いられる。
　生成部１３０は、上記の学習を繰り返すことで、行動価値関数Ｑ（ｓ_ｔ，ａ_ｔ）を学習済モデルとして、生成する。
　生成部１３０は、学習済モデルを記憶部１１０に格納する。

　次に、強化学習を用いる情報処理装置１００の処理を、フローチャートを用いて説明する。
　図３は、実施の形態１の強化学習に基づく処理の例を示すフローチャートである。
　（ステップＳ１１）取得部１２０は、学習用データ１０を取得する。すなわち、取得部１２０は、案内提供情報と周囲状況情報を取得する。なお、以下の説明では、案内提供情報には、案内情報、案内情報を提供するタイミング、及び案内情報を提供する方法が含まれるものとする。

　（ステップＳ１２）報酬計算部１３１は、案内提供情報が示す案内方法などによって、周囲状況情報が示す周囲の状況がよくなるか否かを判定する。詳細には、報酬計算部１３１は、予め設定された基準に基づいて、周囲の状況がよくなるか否かを判定する。例えば、報酬計算部１３１は、案内提供情報が示す案内方法などによって、混雑度が予め設定された基準より低くなった場合、周囲の状況がよくなると判定する。
　周囲の状況がよくなる場合、処理は、ステップＳ１３に進む。周囲の状況が悪くなる場合、処理は、ステップＳ１４に進む。

　（ステップＳ１３）報酬計算部１３１は、報酬ｒを増大する。そして、処理は、ステップＳ１５に進む。
　（ステップＳ１４）報酬計算部１３１は、報酬ｒを低減する。
　（ステップＳ１５）関数更新部１３２は、報酬ｒに従って、行動価値関数Ｑ（ｓ_ｔ，ａ_ｔ）を更新する。

　生成部１３０は、ステップＳ１１～１５を繰り返す。すなわち、生成部１３０は、学習用データ１０を取得する度にステップＳ１２以降の処理を実行する。ステップＳ１１～１５が繰り返されることで生成された行動価値関数Ｑ（ｓ_ｔ，ａ_ｔ）が、学習済モデルとして、記憶部１１０に格納される。また、生成部１３０は、情報処理装置１００に接続可能な外部装置に学習済モデルを格納してもよい。

　このように、生成部１３０は、案内提供情報と周囲状況情報とに基づいて、学習済モデルを生成する。活用フェーズで説明するが、情報処理装置は、学習済モデルを用いて、状況に応じた、提供対象の案内を示す情報である案内情報、当該案内情報を提供するタイミング、及び当該案内情報を提供する方法のうちの少なくとも１つを推論することができる。すなわち、情報処理装置は、学習済モデルを用いて、状況に応じて、どのタイミングで、どんな案内情報をどんな方法で提供するかを推論することができる。

＜活用フェーズ＞
　図４は、実施の形態１の活用フェーズにおける情報処理装置が有する機能ブロックを示す図である。図２に示される構成と同じ図４の構成は、図２に示される符号と同じ符号を付している。情報処理装置１００ａは、推論装置と呼んでもよい。情報処理装置１００ａは、情報提供装置２０＿１～２０＿３と接続する。例えば、情報提供装置２０＿１は、デジタルサイネージである。
　情報処理装置１００ａは、記憶部１１０、取得部１２０ａ、推論部１４０、及び提供制御部１５０を有する。

　ここで、情報処理装置１００と情報処理装置１００ａは、同じ装置でもよいし、異なる装置でもよい。例えば、情報処理装置１００と情報処理装置１００ａが同じ装置である場合、情報処理装置１００ａは、生成部１３０を有する。

　取得部１２０ａ、推論部１４０、及び提供制御部１５０の一部又は全部は、情報処理装置１００ａが有するプロセッサによって実現してもよい。取得部１２０ａ、推論部１４０、及び提供制御部１５０の一部又は全部は、情報処理装置１００ａが有するプロセッサが実行するプログラムのモジュールとして実現してもよい。例えば、当該プログラムは、記録媒体に記録されている。

　取得部１２０ａは、周囲状況情報１１を取得する。例えば、周囲状況情報１１は、情報提供装置２０＿１の周囲の状況を示す情報である。例えば、取得部１２０ａは、情報提供装置２０＿１の上方に設置されている監視カメラから周囲状況情報１１を取得する。また、周囲状況情報１１は、第２の周囲状況情報とも言う。ここで、推論部１４０は、周囲状況情報１１を用いて、混雑度、危険度などを計算してもよい。

　また、取得部１２０ａは、学習済モデルを取得する。例えば、取得部１２０ａは、学習済モデルを記憶部１１０から取得する。また、例えば、学習済モデルが外部装置に格納されている場合、取得部１２０ａは、学習済モデルを外部装置から取得する。

　推論部１４０は、周囲状況情報１１と学習済モデルとを用いて、周囲状況情報１１が示す状況に応じた案内方法などを推論する。すなわち、推論部１４０は、周囲状況情報１１と学習済モデルとに基づいて、周囲状況情報１１が示す状況に応じた、提供対象の案内情報、当該案内情報を提供するタイミング、及び当該案内情報を提供する方法を推論する。ここで、当該案内情報は、第１の案内情報とも言う。
　提供制御部１５０は、推論の結果に基づいて、案内の提供に関する制御を情報提供装置に対して行う。

　図５は、実施の形態１の活用フェーズにおける情報処理装置が実行する処理の例を示すフローチャートである。
　（ステップＳ２１）取得部１２０ａは、周囲状況情報１１を取得する。また、取得部１２０ａは、学習済モデルを取得する。
　（ステップＳ２２）推論部１４０は、周囲状況情報１１と学習済モデルとに基づいて、周囲状況情報１１が示す周囲の状況に応じた案内方法などを推論する。

　（ステップＳ２３）提供制御部１５０は、推論の結果に基づく制御を実行する。詳細には、提供制御部１５０は、推論の結果に基づく、提供対象の案内情報の提供指示、当該案内情報を提供するタイミングを示す情報、及び当該案内情報を提供する方法を示す情報を、情報提供装置に送信する。例えば、周囲状況情報１１が情報提供装置２０＿１の周囲の状況を示す場合、提供制御部１５０は、推論の結果に基づく、提供対象の案内情報の提供指示、当該案内情報を提供するタイミングを示す情報、及び当該案内情報を提供する方法を示す情報を、情報提供装置２０＿１に送信する。

　ここで、以下の説明では、提供制御部１５０は、当該情報を情報提供装置２０＿１に送信するものとする。情報提供装置２０＿１が提供対象の案内情報を記憶していない場合、提供制御部１５０は、提供対象の案内情報を送信してもよい。

　これにより、情報提供装置２０＿１は、当該タイミングに、提供対象の案内情報を当該方法で提供する。例えば、情報提供装置２０＿１は、情報提供装置２０＿１が有するディスプレイに、乗換案内、道案内、交通弱者の移動支援、トラブル発生時の案内、注意喚起、マナー啓発などを表示する。このように、例えば、情報提供装置２０＿１が案内情報を表示することで、混雑が緩和される。混雑が緩和されることで、施設内の利用客の移動時間が短縮される。また、例えば、情報提供装置２０＿１が案内情報を表示することで、転落事故が防止される。

　次に、具体例を用いて、情報提供装置の提供処理を説明する。
　図６は、実施の形態１の駅の施設内の例を示す図である。図６は、ホーム２００とコンコース２０１を示している。また、図６は、デジタルサイネージ２０２＿１～２０２＿５、及びスピーカ２０３＿１，２０３＿２を示している。デジタルサイネージ２０２＿１～２０２＿５、及びスピーカ２０３＿１，２０３＿２が、情報提供装置である。

　例えば、情報処理装置１００ａは、デジタルサイネージ２０２＿１又はスピーカ２０３＿１の近くに存在するエスカレータの周辺が混雑していることを示す周囲状況情報１１を取得する。情報処理装置１００ａは、周囲状況情報１１と学習済モデルと用いて、案内方法などを推論する。情報処理装置１００ａは、推論の結果に基づいて、階段の利用を利用客に促す情報を、デジタルサイネージ２０２＿１又はスピーカ２０３＿１に送信する。これにより、デジタルサイネージ２０２＿１は、階段の利用を促す情報を表示する。または、スピーカ２０３＿１は、階段の利用を促す情報を音声で提供する。

　また、例えば、情報処理装置１００ａは、デジタルサイネージ２０２＿１又はスピーカ２０３＿１の周囲に車椅子の利用客が存在することを示す周囲状況情報１１を取得する。情報処理装置１００ａは、周囲状況情報１１と学習済モデルと用いて、案内方法などを推論する。情報処理装置１００ａは、推論の結果に基づいて、車椅子の利用客以外の利用客にエレベータを使用しないことを促す情報を、デジタルサイネージ２０２＿１又はスピーカ２０３＿１に送信する。デジタルサイネージ２０２＿１は、車椅子の利用客以外の利用客にエレベータを使用しないことを促す情報を表示する。または、スピーカ２０３＿１は、車椅子の利用客以外の利用客にエレベータを使用しないことを促す情報を音声で提供する。これにより、車椅子の利用客は、エレベータを使用することができる。

　また、例えば、情報処理装置１００ａは、スマートフォンを使用しながら歩いている利用客又はキャリーバックのマナー違反を行っている利用客がデジタルサイネージ２０２＿１又はスピーカ２０３＿１の周囲に存在することを示す周囲状況情報１１を取得する。情報処理装置１００ａは、周囲状況情報１１と学習済モデルと用いて、案内方法などを推論する。情報処理装置１００ａは、推論の結果に基づいて、デジタルサイネージ２０２＿１又はスピーカ２０３＿１に注意喚起の情報を送信する。デジタルサイネージ２０２＿１は、注意喚起の情報を表示する。または、スピーカ２０３＿１は、注意喚起の情報を音声で提供する。

　また、例えば、情報処理装置１００ａは、スピーカ２０３＿１の周囲が混雑していることを示す周囲状況情報１１を取得する。言い換えれば、情報処理装置１００ａは、デジタルサイネージ２０２＿２の周囲が混雑していることを示す周囲状況情報１１を取得する。情報処理装置１００ａは、周囲状況情報１１と学習済モデルと用いて、案内方法などを推論する。情報処理装置１００ａは、推論の結果に基づいて、案内情報をスピーカ２０３＿１に送信する。スピーカ２０３＿１は、案内情報を音声で提供する。これにより、デジタルサイネージ２０２＿２の周囲が混雑しているため、利用客がデジタルサイネージ２０２＿２を見ることができない場合でも、利用客は、音声によって案内を聞くことができる。

　また、例えば、情報処理装置１００ａは、ホーム２００から転落する可能性のある利用客がデジタルサイネージ２０２＿１又はスピーカ２０３＿１の周囲に存在することを示す周囲状況情報１１を取得する。情報処理装置１００ａは、周囲状況情報１１と学習済モデルと用いて、案内方法などを推論する。情報処理装置１００ａは、推論の結果に基づいて、デジタルサイネージ２０２＿１又はスピーカ２０３＿１に注意を促す情報を送信する。デジタルサイネージ２０２＿１は、注意を促す情報を表示する。または、スピーカ２０３＿１は、注意を促す情報を音声で提供する。

　また、例えば、情報処理装置１００ａは、通勤ラッシュ時に利用客を誘導するための情報をデジタルサイネージに表示させ、通勤ラッシュ時以外の時間帯に案内（例えば、施設内で行われるイベントの案内）をデジタルサイネージに表示させてもよい。

　次に、デジタルサイネージが表示する案内情報の例を示す。
　図７（Ａ），（Ｂ）は、実施の形態１の案内情報の具体例を示す図である。図７（Ａ），（Ｂ）は、デジタルサイネージが表示する案内情報の例である。

　実施の形態１によれば、情報処理装置１００は、状況に応じた案内などを推論する学習済モデルを生成できる。また、情報処理装置１００ａは、学習済モデルを用いることで、状況に応じた適切な案内などを、情報提供装置を介して、提供できる。

　また、情報処理装置１００と情報処理装置１００ａは、クラウドサーバと考えてもよい。さらに、情報処理装置１００と情報処理装置１００ａとのうちの少なくとも１つは、情報提供装置に含まれてもよい。

　上記でも説明したように、情報処理装置１００は、現実の情報を学習用データとして、学習してもよい。例えば、案内提供情報は、情報提供装置の周囲の状況が第１の状況のときに当該情報提供装置が行った案内の提供に関する情報である。周囲状況情報は、当該第１の状況を示す情報である。情報処理装置１００は、現実の情報を学習用データとして用いることで、現実の状況に応じた案内方法などを推論する学習済モデルを生成することができる。

　また、情報処理装置１００は、同一のエリアに存在する複数の情報提供装置から取得された情報を学習用データとして用いてもよいし、異なるエリアに存在する複数の情報提供装置から取得された情報を学習用データとして用いてもよい。また、学習用データが収集される対象の情報提示装置が、途中で追加されてもよい。学習用データが収集される対象の情報提示装置が、途中で除かれてもよい。また、情報処理装置１００は、情報提供装置に含まれてもよい。情報処理装置１００が情報提供装置に含まれている場合、情報処理装置１００は、当該情報提供装置から取得された学習用データを用いて学習処理を実行し、当該情報提供装置と異なる情報提供装置に移動され、当該異なる情報提供装置から取得された学習用データを用いて学習処理を実行してもよい。

実施の形態２．
＜活用フェーズ＞
　次に、実施の形態２を説明する。実施の形態２では、実施の形態１と相違する事項を主に説明する。そして、実施の形態２では、実施の形態１と共通する事項の説明を省略する。実施の形態２の説明では、図１～７を参照する。

　図８は、実施の形態２の活用フェーズにおける情報処理装置が有する機能ブロックを示す図である。図４に示される構成と同じ図８の構成は、図４に示される符号と同じ符号を付している。

　情報処理装置１００ａは、特定部１６０をさらに有する。また、情報処理装置１００ａは、提供制御部１５０ａを有する。
　記憶部１１０は、さらに、集団の移動履歴を記憶する。言い換えれば、集団の移動履歴は、複数のユーザの移動履歴である。また、記憶部１１０は、経路情報を記憶する。

　取得部１２０ａは、情報提供装置の周囲に存在する集団の移動履歴を記憶部１１０から取得する。例えば、周囲状況情報１１が、情報提供装置２０＿１の周囲の状況を示す場合、取得部１２０ａは、情報提供装置２０＿１の周囲に存在する集団の移動履歴を記憶部１１０から取得する。ここで、集団の移動履歴は、外部装置に格納されていてもよい。集団の移動履歴が外部装置に格納されている場合、取得部１２０ａは、集団の移動履歴を外部装置から取得する。

　集団の移動履歴は、過去に集団がどこに移動したかを示す情報である。特定部１６０は、集団の移動履歴に基づいて、集団の移動先である目的地を特定する。例えば、特定部１６０は、集団の移動履歴に基づいて、情報提供装置２０＿１の周囲に存在する集団の移動先である目的地を特定する。

　取得部１２０ａは、目的地までの経路を示す経路情報を記憶部１１０から取得する。ここで、当該経路情報は、外部装置に格納されていてもよい。当該経路情報が外部装置に格納されている場合、取得部１２０ａは、当該経路情報を外部装置から取得する。なお、当該経路情報は、目的地までの距離が最短である経路を示す情報であることが望ましい。

　提供制御部１５０ａは、取得部１２０ａを介して、経路情報を取得する。提供制御部１５０ａは、経路情報に基づいて、経路情報が示す経路上に存在する複数の情報提供装置を特定する。なお、周囲状況情報１１が、情報提供装置２０＿１の周囲の状況を示す場合、複数の情報提供装置には、情報提供装置２０＿１が含まれる。提供制御部１５０ａは、推論の結果に基づく案内情報を、集団を目的地に誘導する案内に変更する。提供制御部１５０ａは、変更された案内情報に基づいた制御を複数の情報提供装置に対して行う。なお、周囲状況情報１１が、情報提供装置２０＿１の周囲の状況を示す場合、提供制御部１５０ａは、推論の結果に基づくタイミング及び提供方法で案内情報を提供するように、情報提供装置２０＿１を制御する。

　図９は、実施の形態２の活用フェーズにおける情報処理装置が実行する処理の例を示すフローチャートである。
　（ステップＳ３１）取得部１２０ａは、周囲状況情報１１を取得する。また、取得部１２０ａは、学習済モデルを取得する。
　（ステップＳ３２）推論部１４０は、周囲状況情報１１と学習済モデルとに基づいて、周囲状況情報１１が示す周囲の状況に応じた案内方法などを推論する。

　（ステップＳ３３）取得部１２０ａは、情報提供装置の周囲の状況を示す周囲状況情報１１の当該情報提供装置の周囲に存在する集団の移動履歴を記憶部１１０から取得する。言い換えれば、取得部１２０ａは、情報提供装置の周囲の状況を示す周囲状況情報１１の当該情報提供装置が存在する位置から予め設定された範囲に存在する集団の移動履歴を記憶部１１０から取得する。
　（ステップＳ３４）特定部１６０は、移動履歴に基づいて、集団の移動先である目的地を特定する。

　（ステップＳ３５）取得部１２０ａは、目的地までの経路を示す経路情報を記憶部１１０から取得する。
　（ステップＳ３６）提供制御部１５０ａは、経路情報に基づいて、経路情報が示す経路上に存在する複数の情報提供装置を特定する。
　ここで、ステップＳ３３～３６は、ステップ３１，３２と並行に実行されてもよい。

　（ステップＳ３７）提供制御部１５０ａは、推論の結果に基づく案内情報を、集団を目的地に誘導する案内に変更する。
　（ステップＳ３８）提供制御部１５０ａは、変更された案内情報に基づいた制御を複数の情報提供装置に対して行う。詳細には、提供制御部１５０ａは、集団を目的地に誘導するための案内の提供が同調するように、複数の情報提供装置に指示を送信する。言い換えれば、提供制御部１５０ａは、集団を目的地に誘導するための案内の提供が連動するように、複数の情報提供装置に指示を送信する。
　これにより、複数の情報提供装置は、案内を同調して提供することができる。言い換えれば、複数の情報提供装置は、集団を目的地に誘導するための案内を連動して提供する。複数の情報提供装置の案内により、集団は、目的地に誘導される。

　情報処理装置１００ａは、利用客が経路上の分岐点で誤った経路を進まないように、色の付いた注意喚起を、分岐点に存在する情報提供装置に表示させてもよい。また、情報処理装置１００ａは、利用客が経路上の分岐点で誤った経路を進まないように、注意喚起を繰り返し表示するように、複数の情報提供装置に指示を送信してもよい。情報処理装置１００ａは、利用客が経路上の分岐点で誤った経路を進まないように、注意喚起を長期間表示するように、複数の情報提供装置に指示を送信してもよい。

　情報処理装置１００ａは、経路情報が示す経路上に存在する全ての複数の情報提供装置を特定しなくてもよい。例えば、情報処理装置１００ａは、経路情報が示す経路上に存在する全て情報提供装置の中から１つ置きに選択した複数の情報提供装置を特定してもよい。

　次に、複数の情報提供装置が同調する場合を説明する。
　図１０は、実施の形態２の複数の情報提供装置が同調する場合の具体例を示す図である。図１０は、ホーム３００を示している。枠３０１は、階段の周辺を示している。枠３０２は、エレベータの周辺を示している。枠３０３は、エスカレータの周辺を示している。
　図１０は、デジタルサイネージを示している。例えば、図１０は、デジタルサイネージ３０４ａ，３０４ｂを示している。

　図１０は、列車３０５が駅に到着したことを示している。情報処理装置１００ａは、デジタルサイネージ３０４ａの周囲の状況を示す周囲状況情報１１を取得する。情報処理装置１００ａは、周囲状況情報１１と学習済モデルとに基づいて、周囲状況情報１１が示す周囲の状況に応じた案内方法などを推論する。

　情報処理装置１００ａは、デジタルサイネージ３０４ａの周囲に存在する集団の移動履歴を記憶部１１０から取得する。情報処理装置１００ａは、移動履歴に基づいて、当該集団の移動先である目的地を特定する。情報処理装置１００ａは、目的地までの経路を示す経路情報を記憶部１１０から取得する。

　情報処理装置１００ａは、経路情報が示す経路上に存在するデジタルサイネージ３０４ａ，３０４ｂを特定する。情報処理装置１００ａは、推論の結果に基づく案内情報を、当該集団を目的地に誘導する案内に変更する。

　情報処理装置１００ａは、当該集団を目的地に誘導するための案内の提供が同調するように、デジタルサイネージ３０４ａ，３０４ｂに指示を送信する。すなわち、情報処理装置１００ａは、当該集団を目的地に誘導するための案内の提供が同調するように、デジタルサイネージ３０４ａ，３０４ｂにコマンドを送信する。また、情報処理装置１００ａは、推論の結果に基づくタイミング及び提供方法で、変更された案内情報を提供するように、デジタルサイネージ３０４ａを制御する。

　デジタルサイネージ３０４ａは、推論の結果に基づくタイミング及び提供方法で、デジタルサイネージ３０４ｂの方向に当該集団を誘導するための情報を表示する。そして、デジタルサイネージ３０４ｂは、エスカレータの方向に当該集団を誘導するための情報を表示する。
　これにより、情報処理装置１００ａは、当該集団をスムーズに目的地へ移動させることができる。また、当該集団がスムーズに移動することで、混雑度は、緩和される。

　上記では、集団を誘導する場合を説明した。次に、１人の利用客を誘導する場合を説明する。なお、推論処理は、同じなので説明を省略する。
　取得部１２０ａは、携帯装置の位置情報と当該携帯装置の識別情報とを取得する。例えば、取得部１２０ａは、携帯装置の位置情報と当該携帯装置の識別情報とを当該携帯装置から取得する。

　取得部１２０ａは、当該位置情報が示す位置が情報提供装置の周囲内に存在しているか否かを判定する。言い換えれば、取得部１２０ａは、情報提供装置が存在する位置から予め設定された範囲内に、当該位置情報が示す位置が存在しているか否かを判定する。例えば、周囲状況情報１１が、情報提供装置２０＿１の周囲の状況を示す場合、取得部１２０ａは、当該位置情報が示す位置が情報提供装置２０＿１の周囲内に存在しているか否かを判定する。当該位置情報が示す位置が情報提供装置の周囲内に存在している場合、取得部１２０ａは、識別情報によって特定される携帯装置を利用する利用客の移動履歴を取得する。言い換えれば、取得部１２０ａは、移動履歴の中から、識別情報よって特定される携帯装置の移動を利用客の移動として、利用客の移動履歴を取得する。ここで、利用客は、ユーザとも言う。

　特定部１６０は、移動履歴に基づいて、利用客の移動先である目的地を特定する。取得部１２０ａは、目的地までの経路を示す経路情報を取得する。
　提供制御部１５０ａは、経路情報に基づいて、経路情報が示す経路上に存在する複数の情報提供装置を特定する。なお、周囲状況情報１１が、情報提供装置２０＿１の周囲の状況を示す場合、複数の情報提供装置には、情報提供装置２０＿１が含まれる。

　提供制御部１５０ａは、利用客を目的地に誘導する案内に案内情報を変更する。提供制御部１５０ａは、変更された案内情報に基づいた制御を複数の情報提供装置に対して行う。詳細には、提供制御部１５０ａは、利用客を目的地に誘導するための案内の提供が同調するように、複数の情報提供装置に指示を送信する。言い換えれば、提供制御部１５０ａは、利用客を目的地に誘導するための案内の提供が連動するように、複数の情報提供装置に指示を送信する。
　これにより、複数の情報提供装置は、案内を同調して提供することができる。よって、情報処理装置１００ａは、利用客をスムーズに目的地へ移動させることができる。

　ここで、施設の係員は、即時に案内を行いたい場合がある。情報処理装置１００ａは、施設の係員の操作により、入力された情報（例えば、文字列、画像など）を情報提供装置に提供させてもよい。これにより、施設の係員が行いたい案内が、情報提供装置から提供される。

　以上に説明した各実施の形態における特徴は、互いに適宜組み合わせることができる。

　１０　学習用データ、　１１　周囲状況情報、　２０＿１～２０＿３　情報提供装置、　１００、１００ａ　情報処理装置、　１０１　プロセッサ、　１０２　揮発性記憶装置、　１０３　不揮発性記憶装置、　１１０　記憶部、　１２０、１２０ａ　取得部、　１３０　生成部、　１３１　報酬計算部、　１３２　関数更新部、　１４０　推論部、　１５０，１５０ａ　提供制御部、　１６０　特定部、　２００　ホーム、　２０１　コンコース、　２０２＿１～２０２＿５　デジタルサイネージ、　２０３＿１，２０３＿２　スピーカ、　３００　ホーム、　３０１，３０２，３０３　枠、　３０４ａ，３０４ｂ　デジタルサイネージ、　３０５　列車。

Claims

　案内の提供に関する情報である案内提供情報と、前記案内を提供する情報提供装置の周囲の状況を示す情報である第１の周囲状況情報とを取得する取得部と、
　前記案内提供情報と前記第１の周囲状況情報とに基づいて、状況に応じた、提供対象の案内を示す情報である案内情報、前記案内情報を提供するタイミング、及び前記案内情報を提供する方法のうちの少なくとも１つを推論する学習済モデルを生成する生成部と、
　を有する情報処理装置。
　前記生成部は、強化学習を用いて、前記学習済モデルを生成する、
　請求項１に記載の情報処理装置。
　前記案内提供情報は、前記情報提供装置の周囲の状況が第１の状況のときに前記情報提供装置が行った案内の提供に関する情報であり、
　前記第１の周囲状況情報は、前記第１の状況を示す情報である、
　請求項１又は２に記載の情報処理装置。
　推論部と、
　提供制御部と、
　をさらに有し、
　前記取得部は、前記情報提供装置の周囲の状況を示す情報である第２の周囲状況情報を取得し、
　前記推論部は、前記第２の周囲状況情報と前記学習済モデルとを用いて、前記第２の周囲状況情報が示す状況に応じた、提供対象の案内を示す情報である第１の案内情報、前記第１の案内情報を提供するタイミング、及び前記第１の案内情報を提供する方法のうちの少なくとも１つを推論し、
　前記提供制御部は、推論の結果に基づいて、案内の提供に関する制御を前記情報提供装置に対して行う、
　請求項１から３のいずれか１項に記載の情報処理装置。
　前記生成部は、前記案内提供情報と前記第１の周囲状況情報とに基づいて、状況に応じた、前記案内情報、前記案内情報を提供するタイミング、及び前記案内情報を提供する方法を推論する前記学習済モデルを生成する、
　請求項１から３のいずれか１項に記載の情報処理装置。
　推論部と、
　提供制御部と、
　をさらに有し、
　前記取得部は、前記情報提供装置の周囲の状況を示す情報である第２の周囲状況情報を取得し、
　前記推論部は、前記第２の周囲状況情報と前記学習済モデルとを用いて、前記第２の周囲状況情報が示す状況に応じた、提供対象の案内を示す情報である第１の案内情報、前記第１の案内情報を提供するタイミング、及び前記第１の案内情報を提供する方法を推論し、
　前記提供制御部は、推論の結果に基づいて、案内の提供に関する制御を前記情報提供装置に対して行う、
　請求項５に記載の情報処理装置。
　特定部をさらに有し、
　前記取得部は、前記情報提供装置の周囲に存在する集団の移動履歴を取得し、
　前記特定部は、前記移動履歴に基づいて、前記集団の移動先である目的地を特定し、
　前記取得部は、前記目的地までの経路を示す経路情報を取得し、
　前記提供制御部は、前記経路情報に基づいて、前記経路情報が示す経路上に存在する、前記情報提供装置を含む複数の情報提供装置を特定し、前記集団を前記目的地に誘導する案内に前記第１の案内情報を変更し、変更された前記第１の案内情報に基づいた制御を前記複数の情報提供装置に対して行う、
　請求項６に記載の情報処理装置。
　特定部をさらに有し、
　前記取得部は、携帯装置の位置情報と前記携帯装置の識別情報とを取得し、前記位置情報が示す位置が前記情報提供装置の周囲内に存在している場合、前記識別情報によって特定される前記携帯装置を利用するユーザの移動履歴を取得し、
　前記特定部は、前記移動履歴に基づいて、前記ユーザの移動先である目的地を特定し、
　前記取得部は、前記目的地までの経路を示す経路情報を取得し、
　前記提供制御部は、前記経路情報に基づいて、前記経路情報が示す経路上に存在する、前記情報提供装置を含む複数の情報提供装置を特定し、前記ユーザを前記目的地に誘導する案内に前記第１の案内情報を変更し、変更された前記第１の案内情報に基づいた制御を前記複数の情報提供装置に対して行う、
　請求項６に記載の情報処理装置。
　情報処理装置が、
　案内の提供に関する情報である案内提供情報と、前記案内を提供する情報提供装置の周囲の状況を示す情報である第１の周囲状況情報とを取得し、
　前記案内提供情報と前記第１の周囲状況情報とに基づいて、状況に応じた、提供対象の案内を示す情報である案内情報、前記案内情報を提供するタイミング、及び前記案内情報を提供する方法のうちの少なくとも１つを推論する学習済モデルを生成する、
　生成方法。
　情報処理装置に、
　案内の提供に関する情報である案内提供情報と、前記案内を提供する情報提供装置の周囲の状況を示す情報である第１の周囲状況情報とを取得し、
　前記案内提供情報と前記第１の周囲状況情報とに基づいて、状況に応じた、提供対象の案内を示す情報である案内情報、前記案内情報を提供するタイミング、及び前記案内情報を提供する方法のうちの少なくとも１つを推論する学習済モデルを生成する、
　処理を実行させる生成プログラム。