WO2023037423A1

WO2023037423A1 - 支援装置、支援方法及び支援プログラム

Info

Publication number: WO2023037423A1
Application number: PCT/JP2021/032919
Authority: WO
Inventors: 美沙深井; 将志田所; 晴夫大石
Original assignee: 日本電信電話株式会社
Priority date: 2021-09-07
Filing date: 2021-09-07
Publication date: 2023-03-16
Also published as: JPWO2023037423A1

Abstract

実施形態の支援装置（１０）は、業務における環境に関する情報である環境情報と、業務における行動に関する情報である行動情報と、を取得する。支援装置（１０）は、環境情報と行動情報とを対応付けて抽出する。支援装置（１０）は、対応付けられた環境情報と行動情報との組み合わせに基づき、業務を実行するモデルの強化学習における環境及び報酬を設計する。また、支援装置（１０）は、設計した環境及び報酬により強化学習を行ったモデルを用いて、業務を支援する。

Description

支援装置、支援方法及び支援プログラム

　本発明は、支援装置、支援方法及び支援プログラムに関する。

　現実世界の環境を使ってモデルの強化学習を行う場合、環境に取り返しのつかない悪影響を与えないように注意する必要がある。

　例えば、強化学習は自動車の自動運転及びロボットの制御に利用される。一方で、現実世界の環境を使った強化学習の過程で、ロボットのハードウェアが損壊すること、及び自動車が衝突事故を起こすことが考えられる。

　これに対し、非特許文献１には、Lyapunovの手法を基にした強化学習であって、安全な行動に報酬を与える強化学習の技術が開示されている。

　また、非特許文献２には、転移ダイナミクス及び壊滅的な状態に関する不確実性をサンドボックスにおいて訓練しておき、現実の環境においては、エージェントが壊滅的な状態を避けるように学習を行うＣＡＲＬ（Cautious　Adaptation　For　Reinforcement　Learning）と呼ばれる技術が開示されている。

Yinlam　Chow,　Ofir　Nachum,　Edgar　Duenez-Guzman,　Mohammad　Ghavamzadeh,　"A　Lyapunov-based　Approach　to　Safe　Reinforcement　Learning",　arXiv:1805.07708v1　[cs.LG]　20　May　2018 Jesse　Zhang,　Brian　Cheung,　　Chelsea　Finn,　　Sergey　Levine,　　Dinesh　Jayaraman,　"Cautious　Adaptation　For　Reinforcement　Learning　in　Safety-Critical　Settings",　arXiv:2008.06622v1　[cs.LG]　15　Aug　2020

　しかしながら、従来の技術には、業務を支援するための強化学習を低コストかつ容易に行うことが困難な場合があるという問題がある。

　業務を支援するための強化学習においては、業務環境に対して様々な行動をエージェントに試行錯誤させ、最適な行動を学習させる。その際、エージェントが行動を行うための環境の準備が必要となる。

　例えば、業務においては、何をもって安全な行動と設定するべきかが不明瞭な場合が多い。このため、非特許文献１の技術を業務に適用し、適切な報酬を設計することは難しい。

　また、例えば、非特許文献２に記載のサンドボックスのようなシミュレーション環境を用意するためには多大なコストがかかり、また、業務の学習に最適なシミュレーション環境を用意することは困難である。

　上述した課題を解決し、目的を達成するために、支援装置は、業務における環境に関する情報である環境情報と、前記業務における行動に関する情報である行動情報と、を取得する取得部と、前記環境情報と前記行動情報とを対応付けて抽出する抽出部と、前記抽出部によって対応付けられた前記環境情報と前記行動情報との組み合わせに基づき、前記業務を実行するモデルの強化学習における環境及び報酬を設計する設計部と、を有することを特徴とする。

　本発明によれば、業務を支援するための強化学習を低コストかつ容易に行うことができる。

図１は、第１の実施形態の支援装置の構成例を示す図である。図２は、環境情報と行動情報の例を示す図である。図３は、環境情報と行動情報の例を示す図である。図４は、環境情報と行動情報の例を示す図である。図５は、環境情報と行動情報の例を示す図である。図６は、環境設計と行動設計の例を示す図である。図７は、取得処理の流れを示すフローチャートである。図８は、抽出処理の流れを示すフローチャートである。図９は、学習処理の流れを示すフローチャートである。図１０は、実行処理の流れを示すフローチャートである。図１１は、支援プログラムを実行するコンピュータの一例を示す図である。

　以下に、本願に係る支援装置、支援方法及び支援プログラムの実施形態を図面に基づいて詳細に説明する。なお、本発明は、以下に説明する実施形態により限定されるものではない。

　従来、業務を支援するモデルの強化学習は、実際に業務が行われている環境を用いて行われる。そのような場合、業務へ悪影響が生じることが考えられる。一方で、実施形態によれば、業務への悪影響を抑止しつつ、業務を支援するためのモデルの強化学習を行うことができる。

　なお、実施形態における業務は、人間が実施するあらゆる業務を含むものとする。例えば、業務には、ＰＣ（Personal　Computer）等の端末装置への入力作業、音声及びテキスト等による顧客からの問い合わせ対応、設備の点検等が含まれる。

　例えば、端末装置への入力作業を自動化するモデルは、端末装置によって表示される画面のキャプチャ画像に基づき、人間の入力作業を模した操作を端末装置に対して自動的に行う。また、モデルは、例えばニューラルネットワークを用いたものであってもよい。

［第１の実施形態の構成］
　まず、図１を用いて、第１の実施形態に係る支援装置の構成について説明する。図１は、第１の実施形態に係る支援装置の構成の一例を示す図である。

　図１に示すように、支援システム１は、支援装置１０及び端末装置２０を有する。支援装置１０は、端末装置２０と接続されている。端末装置２０は、作業者が業務に関する作業を行うためのＰＣ等の装置である。また、支援装置１０は、作業者が持つカメラ、マイク、又はウェアラブル装置等と接続されていてもよい。

　ここで、支援装置１０の各部について説明する。図１に示すように、支援装置１０は、入出力部１１、記憶部１２及び制御部１３を有する。

　入出力部１１は、データの入力及び出力のためのインタフェースである。例えば、入出力部１１はＮＩＣ（Network　Interface　Card）である。入出力部１１は他の装置との間でデータの送受信を行うことができる。

　また、入出力部１１は、マウスやキーボード等の入力装置と接続されていてもよい。また、入出力部１１は、ディスプレイ及びスピーカ等の出力装置と接続されていてもよい。

　記憶部１２は、ＨＤＤ（Hard　Disk　Drive）、ＳＳＤ（Solid　State　Drive）、光ディスク等の記憶装置である。なお、記憶部１２は、ＲＡＭ（Random　Access　Memory）、フラッシュメモリ、ＮＶＳＲＡＭ（Non　Volatile　Static　Random　Access　Memory）等のデータを書き換え可能な半導体メモリであってもよい。

　記憶部１２は、支援装置１０で実行されるＯＳ（Operating　System）や各種プログラムを記憶する。記憶部１２は、学習情報１２１及びモデル情報１２２を記憶する。

　学習情報１２１は、強化学習を行うための情報である。学習情報１２１は、強化学習における報酬及び環境を含む。

　モデル情報１２２は、業務を支援するモデルを構築するためのパラメータ等の情報である。モデルがニューラルネットワークである場合、モデル情報１２２にはノードごとの重み及びバイアス等が含まれる。

　なお、モデルは、作業の環境を示す情報の入力を受け付け、行動に関する情報を出力する。支援装置１０は、出力した情報に基づき作業の支援を行う。

　制御部１３は、支援装置１０全体を制御する。制御部１３は、例えば、ＣＰＵ（Central　Processing　Unit）、ＭＰＵ（Micro　Processing　Unit）、ＧＰＵ（Graphics　Processing　Unit）等の電子回路や、ＡＳＩＣ（Application　Specific　Integrated　Circuit）、ＦＰＧＡ（Field　Programmable　Gate　Array）等の集積回路である。

　また、制御部１３は、各種の処理手順を規定したプログラムや制御データを格納するための内部メモリを有し、内部メモリを用いて各処理を実行する。また、制御部１３は、各種のプログラムが動作することにより各種の処理部として機能する。例えば、制御部１３は、取得部１３１、抽出部１３２、設計部１３３、学習部１３４及び実行部１３５を有する。

　取得部１３１は、業務における環境に関する情報である環境情報と、業務における行動に関する情報である行動情報と、を取得する。

　取得部１３１は、業務を実施する作業者の行動に関する情報を行動情報として取得し、作業者に関する環境の情報を環境情報として取得することができる。また、取得部１３１は、作業者による端末装置２０に対する操作の内容を行動情報として取得し、作業者による操作に応じて変化する端末装置２０の状態を環境情報として取得することができる。

　例えば、取得部１３１は、カメラによって撮影された作業者の視点方向の画像、マイクによって収集された作業者の周囲の音声を環境情報として取得する。

　また、例えば、取得部１３１は、作業者によって操作される端末装置２０から出力される、画像及び音声等の情報を環境情報として取得する。

　取得部１３１が取得する画像は、キャプチャ画像等の静止画像であってもよいし、動画像であってもよい。また、取得部１３１は、収集された音声を音声ファイルとして取得してもよいし、収集された音声を変換したテキストを取得してもよい。

　例えば、取得部１３１は、作業者に取り付けたセンサによって感知された作業者の身体の運動の情報、マイクによって収集された作業者の発話内容を行動情報として取得する。

　また、例えば、取得部１３１は、作業者が端末装置２０に対して行った操作の内容を行動情報として取得する。操作の内容は、キーボードを打鍵した時刻、打鍵したキーの種類、マウスの移動の軌跡、マウスをクリックした位置及び時刻等である。

　このとき、取得部１３１は、作業者の端末装置２０に対する操作内容を行動情報として取得し、操作に応じて変化する端末装置２０の画面のキャプチャ画像を環境情報として取得することができる。

　さらに、取得部１３１は、端末装置２０において作業者が操作しているアプリケーション又はウィンドウを識別する情報を操作内容とともに行動情報として取得してもよい。

　抽出部１３２は、環境情報と行動情報とを対応付けて抽出する。言い換えると、抽出部１３２は、取得部１３１によって取得された環境情報と行動情報との組み合わせを抽出する。

　抽出部１３２は、業務における行動に関する行動情報と、行動が取られる前の環境及び行動に影響を受けた環境のうちの少なくともいずれかに関する環境情報と、を対応付けて抽出することができる。

　図２から図５を用いて、環境情報と行動情報の対応付けについて説明する。図２、図３、図４及び図５は、環境情報と行動情報の例を示す図である。

　図２及び図３には、端末装置２０を利用した業務に関する環境情報及び行動情報の例が示されている。

　図２の例では、抽出部１３２は、キャプチャ画像５１ａと操作内容５２ａとを対応付けて抽出する。キャプチャ画像５１ａは環境情報に相当する。操作内容５２ａは行動情報に相当する。

　作業者は、各種項目への入力を行い、ボタン５１１ａをマウスでクリック（押下）したものとする。この場合、操作内容５２ａには、操作イベントの種別がクリックであること、及びクリックが行われた際のカーソルの座標が含まれる。

　この場合、例えば、行動が取られる前の環境は、ボタン５１１ａが押下される前の画面のキャプチャ画像である。一方、行動に影響を受けた環境は、ボタン５１１ａが押下された後に遷移する画面のキャプチャ画像である。

　なお、抽出部１３２は、キャプチャ画像５１ａの全部を環境情報として抽出してもよいし、キャプチャ画像５１ａの一部であって、操作の対象となったボタン５１１ａを環境情報として抽出してもよい。

　なお、図２のキャプチャ画像５１ａは、ディスプレイに表示される画面の一部を切り出した画像である。一方で、環境情報は、ディスプレイに表示される画面全体のキャプチャ画像であって、ＯＳのタスクバー、及びブラウザ又は所定のアプリケーションのツールバー等を含む画像であってもよい。

　図３の例では、抽出部１３２は、キャプチャ画像５１ｂと操作内容５２ｂとを対応付けて抽出する。キャプチャ画像５１ｂは環境情報に相当する。操作内容５２ｂは行動情報に相当する。

　作業者は、ローマ字で「ｙｏｋｏｓｕｋａ」と入力するために、まずテキストボックス５１１ｂにキーボードで「ｙ」キーを打鍵（押下）し、その後キーボードで「ｏ」キーを打鍵したものとする。

　この場合、操作内容５２ｂには、操作イベントの種別が「ｏ」キーの押下であることが含まれる。

　この場合、例えば、行動が取られる前の環境は、「ｏ」キーが押下される前の画面のキャプチャ画像である。一方、行動に影響を受けた環境は、「ｏ」キーが押下された後にテキストボックス５１１ｂに「よ」が入力された状態の画面のキャプチャ画像である。なお、ローマ字入力においては、「ｙ」の後に「ｏ」を入力することでひらがなの「よ」が表示される。

　なお、抽出部１３２は、キャプチャ画像５１ｂの全部を環境情報として抽出してもよいし、キャプチャ画像５１ｂの一部であって、操作の対象となったテキストボックス５１１ｂを環境情報として抽出してもよい。

　なお、図３のキャプチャ画像５１ｂは、ディスプレイに表示される画面の一部を切り出した画像である。一方で、環境情報は、ディスプレイに表示される画面全体のキャプチャ画像であって、ＯＳのタスクバー、及びブラウザ又は所定のアプリケーションのツールバー等を含む画像であってもよい。

　抽出部１３２は、１つの行動情報に一連の複数の環境情報を対応付けて抽出してもよい。例えば、抽出部１３２は、端末装置２０に対する所定の操作内容が発生するまでの、時系列に沿った複数フレームの画面のキャプチャ画像を環境情報として抽出することができる。

　また、抽出部１３２は、抽出した環境情報に対応する環境との類似度が閾値以上である環境に関する環境情報を、行動情報と対応付けてさらに抽出してもよい。

　例えば、操作内容５２ｂに対応付けて、キャプチャ画像５１ｂに加えて、キャプチャ画像５１ｂに類似する過去のキャプチャ画像を抽出してもよい。

　例えば、２つのキャプチャ画像に共通して示されている単語の数を類似度とする。そして、抽出部１３２は、類似度が閾値以上であるキャプチャ画像同士を類似しているものとみなす。

　すなわち、抽出部１３２は、行動情報が示す行動が実施された瞬間の環境情報だけでなく、過去の類似する環境情報を併せて抽出する。

　図４には、電話対応業務に関する環境情報及び行動情報の例が示されている。

　図４の例では、抽出部１３２は、顧客からの電話問い合わせの音声５１ｃと、オペレータの回答の音声５２ｃとを対応付けて抽出する。音声５１ｃは環境情報に相当する。音声５２ｃは行動情報に相当する。

　このとき、抽出部１３２は、音声の代わりに当該音声を書き起こしたテキストを抽出してもよい。

　この場合、例えば、行動が取られる前の環境は、顧客からの電話問い合わせの音声５１ｃである。一方、行動に影響を受けた環境は、オペレータの回答の音声５２ｃに対してさらに顧客が発した音声である。

　図５には、設備の点検業務に関する環境情報及び行動情報の例が示されている。

　図５の例では、抽出部１３２は、移動中の作業者の視点の映像５１ｄと、作業者が移動した目的地の位置５２ｄとを対応付けて抽出する。映像５１ｄは環境情報に相当する。位置５２ｄは行動情報に相当する。

　この場合、例えば、行動が取られる前の環境は、移動中の作業者の視点の映像５１ｄである。一方、行動に影響を受けた環境は、移動後の作業者の視点の映像である。

　設計部１３３は、抽出部１３２によって対応付けられた環境情報と行動情報との組み合わせに基づき、業務を実行するモデルの強化学習における環境及び報酬を設計する。

　設計部１３３は、行動情報が示す行動を「正しい行動」と仮定し、当該行動がとられた際の環境において、エージェントが同様の行動を取った場合、報酬が付与されるように設計を行う。

　図６は、環境設計と行動設計の例を示す図である。図６に示すように、設計部１３３は、環境設計と報酬設計を行う。

　例えば、所定のボタンをクリックすることが「正しい行動」である場合、設計部１３３は、当該ボタン上でのクリック、及び当該ボタン上へのカーソルの移動という動作にプラスの報酬が与えられるように設計を行う。一方で、設計部１３３は、当該ボタン上以外でのクリックという動作にマイナスの報酬（罰則）が与えられるように設計を行う。

　さらに、設計部１３３は、作業者と同じ操作、すなわちボタンのクリックが行われた場合は環境を操作後のキャプチャ画像に遷移させ、ボタンのクリック以外の操作が行われた場合は環境を遷移させず同一の画面でエージェントに再度操作を実行させるように設計を行う。

　ここで、抽出部１３２は、行動が取られる前の環境に関する環境情報及び行動に影響を受けた環境に関する環境情報の両方を抽出するものとする。このとき、設計部１３３は、行動が取られる前の環境がエージェントに提示され、エージェントが「正しい行動」をとった場合に行動に影響を受けた環境に遷移するように設計を行う。

　なお、設計部１３３は、設計の内容を学習情報１２１として記憶部１２に格納する。

　学習部１３４は、学習情報１２１に従いモデルの強化学習を行うための学習環境を構築する。さらに、学習部１３４は、学習環境においてエージェントに行動を実施させた結果を基にモデル情報１２２を更新する。

　業務が端末装置２０を利用したものである場合、学習部１３４は、端末装置２０の画面のキャプチャ画像を環境としてエージェントに提示し、当該キャプチャ画像上でとるべき行動（クリックやカーソルの移動等）をエージェントに選択させる。

　業務が歩行による移動を伴うものである場合、学習部１３４は、歩行中の作業者の視点の動画像又は当該動画像から切り出した静止画像を環境としてエージェントに提示し、エージェントに進むべき方向を選択させる。

　このように、作業者の業務中の環境情報を学習環境として代用し、その環境上でエージェントに行動をとらせることで、実業務へ影響を与えず学習を行うことが可能となる。

　なお、エージェントは、モデル情報１２２から構築したモデルの出力に応じて行動を選択する模擬的な主体である。

　また、学習部１３４は、１人の作業者に関する環境情報と行動情報を基に学習を行っても良い。この場合、各作業者の特性を反映した行動の学習が見込める。

　一方、学習部１３４は、複数の作業者に関する環境情報と行動情報を組み合わせて学習を行ってもよい。この場合、より効率的な作業手順の学習が見込める。

　実行部１３５は、設計部１３３によって設計された環境及び報酬に基づいて強化学習を行ったモデルを用いて、業務に関する行動の系列を生成する。

　例えば、実行部１３５は、モデル情報１２２から構築した学習済みのモデルに実際の業務における環境情報を入力して得られた出力に基づき行動を特定する。

　具体的には、実行部１３５は、作業者の業務中の環境情報から、学習済みのモデルを用いて行動系列を生成し、生成した行動系列に基づき業務の支援を行う。

　業務の支援は、作業を直接行うものであってもよいし、業務において取るべき行動を作業者に提供するものであってもよい。

　例えば、実行部１３５は、端末装置の画面のキャプチャ画像を基に、項目への自動入力を行う。また、例えば、実行部１３５は、作業者の視点映像から次に行う作業を推測し、推測した作業に関する情報を音声で提供してもよい。

［第１の実施形態の処理］
　図７は、取得処理の流れを示すフローチャートである。図７に示すように、作業者が作業を終了していない場合（ステップＳ１０１、Ｎｏ）、取得部１３１は、作業者の業務中の環境情報を取得する（ステップＳ１０２）。

　そして、作業者が行動を取った場合（ステップＳ１０３、Ｙｅｓ）、取得部１３１は、作業者の行動情報を取得する（ステップＳ１０４）。

　作業者が行動を取らなかった場合（ステップＳ１０３、Ｎｏ）、取得部１３１はステップＳ１０１に戻る。

　ここで、作業者が作業を終了した場合（ステップＳ１０１、Ｙｅｓ）、取得部１３１は処理を終了する。

　図８は、抽出処理の流れを示すフローチャートである。抽出部１３２は、取得部１３１によって取得されたすべての行動情報について、対応した環境が抽出されていない場合（ステップＳ２０１、Ｎｏ）、ターゲットとする行動情報を決定する（ステップＳ２０２）。

　そして、抽出部１３２は、ターゲットとした行動情報に対応する環境情報を抽出する（ステップＳ２０３）。

　抽出部１３２は、取得部１３１によって取得されたすべての行動情報について対応した環境が抽出された場合（ステップＳ２０１、Ｙｅｓ）、抽出部１３２は処理を終了する。

　図９は、学習処理の流れを示すフローチャートである。ここでは、設計部１３３によって強化学習のための報酬及び環境が設計済みであるものとする。

　図９に示すように、取得した環境情報について、作業者と同様の行動を生成できない場合（ステップＳ３０１、Ｎｏ）、学習部１３４は、ターゲットとする環境情報を決定する（ステップＳ３０２）。

　学習部１３４は、ターゲットとして環境情報を強化学習の環境として用いて、試行錯誤により取るべき行動について学習を行う（ステップＳ３０３）。学習部１３４は、学習の結果に基づき、モデル情報１２２を更新する。

　取得した環境情報について、作業者と同様の行動を生成できるようになった場合（ステップＳ３０１、Ｙｅｓ）、学習部１３４は処理を終了する。

　図１０は、実行処理の流れを示すフローチャートである。ここでは、実行部１３５は、モデル情報１２２から学習済みのモデルを構築するものとする。

　図１０に示すように、作業者が業務を終了していない場合（ステップＳ４０１、Ｎｏ）、実行部１３５は、作業者の環境情報を取得する（ステップＳ４０２）。

　そして、実行部１３５は、環境に対する適切な行動系列を生成できる場合（ステップＳ４０３、Ｙｅｓ）、モデルを用いて生成した行動系列を実行する（ステップＳ４０４）。

　実行部１３５は、環境に対する適切な行動系列を生成できない場合（ステップＳ４０３、Ｎｏ）、ステップＳ４０１に戻る。

　作業者が業務を終了した場合（ステップＳ４０１、Ｙｅｓ）、実行部１３５は処理を終了する。

［第１の実施形態の効果］
　これまで説明してきたように、取得部１３１は、業務における環境に関する情報である環境情報と、業務における行動に関する情報である行動情報と、を取得する。抽出部１３２は、環境情報と行動情報とを対応付けて抽出する。設計部１３３は、抽出部１３２によって対応付けられた環境情報と行動情報との組み合わせに基づき、業務を実行するモデルの強化学習における環境及び報酬を設計する。

　このように、支援装置１０は、業務に関する行動及び環境を基に強化学習のための設計を行うことができる。その結果、実施形態によれば、業務を支援するための強化学習を低コストかつ容易に行うことが可能になる。

　また、取得部１３１は、業務を実施する作業者の行動に関する情報を行動情報として取得し、作業者に関する環境の情報を前記環境情報として取得する。このように、作業者の行動及び環境に注目することで容易に行動情報及び環境情報を取得することができる。

　また、取得部１３１は、作業者による端末装置２０に対する操作の内容を行動情報として取得し、作業者による操作に応じて変化する端末装置２０の状態を環境情報として取得する。これにより、端末装置を利用した業務に関して容易に環境情報を取得することができる。

　また、抽出部１３２は、業務における行動に関する第１の行動情報と、行動が取られる前の環境及び行動に影響を受けた環境のうちの少なくともいずれかに関する第１の環境情報と、を対応付けて抽出する。これにより、関連する行動情報と環境情報から強化学習の設計を容易に行うことができる。

　また、抽出部１３２は、環境との類似度が閾値以上である環境に関する第２の環境情報を第１の行動情報と対応付けてさらに抽出する。このように、行動情報に類似する複数の環境情報を対応付けることにより、強化学習の精度を向上させることができる。

　また、実行部１３５は、設計部１３３によって設計された環境及び報酬に基づいて強化学習を行ったモデルを用いて、業務に関する行動の系列を生成する。これにより、業務に関する人間の作業及び判断を削減することができる。

［システム構成等］
　また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散及び統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散又は統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、ＣＰＵ（Central　Processing　Unit）及び当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。なお、プログラムは、ＣＰＵだけでなく、ＧＰＵ等の他のプロセッサによって実行されてもよい。

　また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

［プログラム］
　一実施形態として、支援装置１０は、パッケージソフトウェアやオンラインソフトウェアとして上記の支援処理を実行する支援プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の支援プログラムを情報処理装置に実行させることにより、情報処理装置を支援装置１０として機能させることができる。ここで言う情報処理装置には、デスクトップ型又はノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やＰＨＳ（Personal　Handyphone　System）等の移動体通信端末、さらには、ＰＤＡ（Personal　Digital　Assistant）等のスレート端末等がその範疇に含まれる。

　また、支援装置１０は、ユーザが使用する端末装置をクライアントとし、当該クライアントに上記の支援処理に関するサービスを提供する支援サーバ装置として実装することもできる。例えば、支援サーバ装置は、業務における行動情報及び環境情報を入力とし、業務を支援するための学習済みモデルを出力とする支援サービスを提供するサーバ装置として実装される。この場合、支援サーバ装置は、Ｗｅｂサーバとして実装することとしてもよいし、アウトソーシングによって上記の支援処理に関するサービスを提供するクラウドとして実装することとしてもかまわない。

　図１１は、支援プログラムを実行するコンピュータの一例を示す図である。コンピュータ１０００は、例えば、メモリ１０１０、ＣＰＵ１０２０を有する。また、コンピュータ１０００は、ハードディスクドライブインタフェース１０３０、ディスクドライブインタフェース１０４０、シリアルポートインタフェース１０５０、ビデオアダプタ１０６０、ネットワークインタフェース１０７０を有する。これらの各部は、バス１０８０によって接続される。

　メモリ１０１０は、ＲＯＭ（Read　Only　Memory）１０１１及びＲＡＭ（Random　Access　Memory）１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic　Input　Output　System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１１００に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ１１００に挿入される。シリアルポートインタフェース１０５０は、例えばマウス１１１０、キーボード１１２０に接続される。ビデオアダプタ１０６０は、例えばディスプレイ１１３０に接続される。

　ハードディスクドライブ１０９０は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、支援装置１０の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール１０９３として実装される。プログラムモジュール１０９３は、例えばハードディスクドライブ１０９０に記憶される。例えば、支援装置１０における機能構成と同様の処理を実行するためのプログラムモジュール１０９３が、ハードディスクドライブ１０９０に記憶される。なお、ハードディスクドライブ１０９０は、ＳＳＤ（Solid　State　Drive）により代替されてもよい。

　また、上述した実施形態の処理で用いられる設定データは、プログラムデータ１０９４として、例えばメモリ１０１０やハードディスクドライブ１０９０に記憶される。そして、ＣＰＵ１０２０は、メモリ１０１０やハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して、上述した実施形態の処理を実行する。

　なお、プログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ１１００等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、プログラムモジュール１０９３及びプログラムデータ１０９４は、ネットワーク（ＬＡＮ（Local　Area　Network）、ＷＡＮ（Wide　Area　Network）等）を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール１０９３及びプログラムデータ１０９４は、他のコンピュータから、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

　１　支援システム
　１０　支援装置
　１１　入出力部
　１２　記憶部
　１３　制御部
　２０　端末装置
　５１ａ、５１ｂ　キャプチャ画像
　５１ｃ、５２ｃ　音声
　５１ｄ　映像
　５２ａ、５２ｂ　操作内容
　５２ｄ　位置
　１２１　学習情報
　１２２　モデル情報
　１３１　取得部
　１３２　抽出部
　１３３　設計部
　１３４　学習部
　１３５　実行部
　５１１ａ　ボタン
　５１１ｂ　テキストボックス

Claims

　業務における環境に関する情報である環境情報と、前記業務における行動に関する情報である行動情報と、を取得する取得部と、
　前記環境情報と前記行動情報とを対応付けて抽出する抽出部と、
　前記抽出部によって対応付けられた前記環境情報と前記行動情報との組み合わせに基づき、前記業務を実行するモデルの強化学習における環境及び報酬を設計する設計部と、
　を有することを特徴とする支援装置。
　前記取得部は、前記業務を実施する作業者の行動に関する情報を前記行動情報として取得し、前記作業者に関する環境の情報を前記環境情報として取得することを特徴とする請求項１に記載の支援装置。
　前記取得部は、前記作業者による端末装置に対する操作の内容を前記行動情報として取得し、前記作業者による操作に応じて変化する前記端末装置の状態を前記環境情報として取得することを特徴とする請求項２に記載の支援装置。
　前記抽出部は、前記業務における行動に関する第１の行動情報と、前記行動が取られる前の環境及び前記行動に影響を受けた環境のうちの少なくともいずれかに関する第１の環境情報と、を対応付けて抽出することを特徴とする請求項１から３のいずれか１項に記載の支援装置。
　前記抽出部は、前記環境との類似度が閾値以上である環境に関する第２の環境情報を前記第１の行動情報と対応付けてさらに抽出することを特徴とする請求項４に記載の支援装置。
　前記設計部によって設計された環境及び報酬に基づいて強化学習を行ったモデルを用いて、業務に関する行動の系列を生成する実行部をさらに有することを特徴とする請求項１から５のいずれか１項に記載の支援装置。
　支援装置によって実行される支援方法であって、
　業務における環境に関する情報である環境情報と、前記業務における行動に関する情報である行動情報と、を取得する取得工程と、
　前記環境情報と前記行動情報とを対応付けて抽出する抽出工程と、
　前記抽出工程によって対応付けられた前記環境情報と前記行動情報との組み合わせに基づき、前記業務を実行するモデルの強化学習における環境及び報酬を設計する設計工程と、
　を含むことを特徴とする支援方法。
　コンピュータを、請求項１から６のいずれか１項に記載の支援装置として機能させるための支援プログラム。