WO2023188061A1

WO2023188061A1 - トレーニング支援装置、トレーニング支援方法、トレーニング支援プログラム、学習装置、学習方法、および学習プログラム

Info

Publication number: WO2023188061A1
Application number: PCT/JP2022/015798
Authority: WO
Inventors: 力江藤
Original assignee: 日本電気株式会社
Priority date: 2022-03-30
Filing date: 2022-03-30
Publication date: 2023-10-05

Abstract

トレーニングに関する状態を考慮してトレーニングメニューを生成するために、トレーニング支援装置（２）は、対象者が行うトレーニングに関する状態を示す状態データを取得するデータ取得部（２１）と、トレーニングに関する状態に応じたトレーニングメニューを示す学習データを用いて逆強化学習することにより生成された目的関数を用いて最適化計算を行うことにより、状態データが示す状態に応じたトレーニングメニューを生成する生成部（２２）と、を備える。

Description

トレーニング支援装置、トレーニング支援方法、トレーニング支援プログラム、学習装置、学習方法、および学習プログラム

　トレーニングを支援するトレーニング支援装置等に関する。

　従来からトレーニングを支援する技術の開発が進められている。例えば、下記の特許文献１には、顧客データ等に基づいて予め統計データベースから導出された参照テーブルや数理モデルに基づいてトレーニングメニューを出力する技術が開示されている。具体的には、特許文献１には、対象者が行ったトレーニングの種目と回数から消費カロリーを計算し、消費カロリーが目標値に到達するトレーニングメニューを返信することが記載されている。また、特許文献１には、アンケート結果に基づいて心理傾向を加味したトレーニングメニューを返信することが記載されている。

特開２０１７－０１０４８６号

　特許文献１の技術は、トレーニングメニューの決定において、トレーニングに関する各種状態を考慮することができないという点で改善の余地がある。例えば、特許文献１の技術により生成されるトレーニングメニューに含まれるトレーニング種目の一部が、対象者の利用するトレーニング施設では実施できないことや、対象者の体力的に実施が難しいことも考えられる。

　本発明の一態様は、上記の問題に鑑みてなされたものであり、その目的の一例は、トレーニングに関する状態を考慮してトレーニングメニューを生成する技術を提供することである。

　本発明の一側面に係るトレーニング支援装置は、対象者が行うトレーニングに関する状態を示す状態データを取得するデータ取得手段と、トレーニングに関する状態に応じた、当該状態で適用すべきトレーニングメニューを示す学習データを用いて逆強化学習することにより生成された目的関数を用いて最適化計算を行うことにより、前記状態データが示す状態に応じたトレーニングメニューを生成する生成手段と、を備える。

　本発明の一側面に係るトレーニング支援方法は、少なくとも１つのプロセッサが、対象者が行うトレーニングに関する状態を示す状態データを取得することと、トレーニングに関する状態に応じた、当該状態で適用すべきトレーニングメニューを示す学習データを用いて逆強化学習することにより生成された目的関数を用いて最適化計算を行うことにより、前記状態データが示す状態に応じたトレーニングメニューを生成することと、を含む。

　本発明の一側面に係るトレーニング支援プログラムは、コンピュータを、対象者が行うトレーニングに関する状態を示す状態データを取得するデータ取得手段、およびトレーニングに関する状態に応じた、当該状態で適用すべきトレーニングメニューを示す学習データを用いて逆強化学習することにより生成された目的関数を用いて最適化計算を行うことにより、前記状態データが示す状態に応じたトレーニングメニューを生成する生成手段として機能させる。

　本発明の一側面に係る学習装置は、トレーニングに関する状態に応じた、当該状態で適用すべきトレーニングメニューを示す学習データを取得するデータ取得手段と、前記学習データを用いて逆強化学習することにより、状態に応じたトレーニングメニューを生成するための目的関数を生成する学習手段と、を備える。

　本発明の一側面に係る学習方法は、少なくとも１つのプロセッサが、トレーニングに関する状態に応じた、当該状態で適用すべきトレーニングメニューを示す学習データを取得することと、前記学習データを用いて逆強化学習することにより、状態に応じたトレーニングメニューを生成するための目的関数を生成することと、を含む。

　本発明の一側面に係る学習プログラムは、コンピュータを、トレーニングに関する状態に応じた、当該状態で適用すべきトレーニングメニューを示す学習データを取得するデータ取得手段、および前記学習データを用いて逆強化学習することにより、状態に応じたトレーニングメニューを生成するための目的関数を生成する学習手段として機能させる。

　本発明の一態様によれば、トレーニングに関する状態を考慮してトレーニングメニューを生成することが可能になる。

本発明の例示的実施形態１に係るトレーニング支援システムの構成を示すブロック図である。本発明の例示的実施形態１に係る学習方法の流れを示すフロー図である。本発明の例示的実施形態１に係るトレーニング支援方法の流れを示すフロー図である。本発明の例示的実施形態２に係るトレーニング支援方法の概要を示す図である。本発明の例示的実施形態２に係るトレーニング支援装置の要部構成の一例を示すブロック図である。本発明の例示的実施形態２に係る目的関数の学習の概要を示す図である。ＢＧＭを含むトレーニングメニューの生成例を示す図である。トレーニングメニューとＢＧＭの表示画面例を示す図である。本発明の例示的実施形態２に係るトレーニング支援装置が実行する処理の流れを示すフロー図である。本発明の各例示的実施形態に係る各装置の各機能を実現するソフトウェアであるプログラムの命令を実行するコンピュータの一例を示す図である。

　〔例示的実施形態１〕
　本発明の第１の例示的実施形態について、図面を参照して詳細に説明する。本例示的実施形態は、後述する例示的実施形態の基本となる形態である。

　（トレーニング支援システム）
　本例示的実施形態に係るトレーニング支援システム３について図１を参照して説明する。図１は、トレーニング支援システム３の構成を示すブロック図である。トレーニング支援システム３は、対象者のトレーニングを支援するためのシステムであり、図示のように学習装置１とトレーニング支援装置２を含む。そして、学習装置１は、データ取得部１１と学習部１２とを備えている。また、トレーニング支援装置２は、データ取得部２１と生成部２２とを備えている。

　データ取得部１１は、トレーニングに関する状態に応じた、当該状態で適用すべきトレーニングメニューを示す学習データを取得する。

　学習部１２は、上記学習データを用いて逆強化学習することにより、状態に応じたトレーニングメニューを生成するための目的関数を生成する。

　データ取得部２１は、対象者が行うトレーニングに関する状態を示す状態データを取得する。

　生成部２２は、トレーニングに関する状態に応じた、当該状態で適用すべきトレーニングメニューを示す学習データを用いて逆強化学習することにより生成された目的関数を用いて最適化計算を行うことにより、上記状態データが示す状態に応じたトレーニングメニューを生成する。なお、生成部２２が用いる目的関数は学習装置１の学習部１２が生成したものであってもよいし、他の装置で生成されたものであってもよい。

　以上のように、本例示的実施形態に係る学習装置１は、トレーニングに関する状態に応じた、当該状態で適用すべきトレーニングメニューを示す学習データを取得するデータ取得部１１と、上記学習データを用いて逆強化学習することにより、状態に応じたトレーニングメニューを生成するための目的関数を生成する学習部１２とを備えている。このため、本例示的実施形態に係る学習装置１によれば、状態に応じたトレーニングメニューを生成するための目的関数を生成することができるから、トレーニングに関する状態を考慮してトレーニングメニューを生成することが可能になるという効果が得られる。

　また、以上のように、本例示的実施形態に係るトレーニング支援装置２は、対象者が行うトレーニングに関する状態を示す状態データを取得するデータ取得部２１と、トレーニングに関する状態に応じた、当該状態で適用すべきトレーニングメニューを示す学習データを用いて逆強化学習することにより生成された目的関数を用いて最適化計算を行うことにより、上記状態データが示す状態に応じたトレーニングメニューを生成する生成部２２とを備えている。このため、本例示的実施形態に係るトレーニング支援装置２によれば、トレーニングに関する状態を考慮してトレーニングメニューを生成することができるという効果が得られる。

　（学習プログラム）
　上述の学習装置１の機能は、プログラムによって実現することもできる。本例示的実施形態に係る学習プログラムは、コンピュータを、トレーニングに関する状態に応じた、当該状態で適用すべきトレーニングメニューを示す学習データを取得するデータ取得手段、および上記学習データを用いて逆強化学習することにより、状態に応じたトレーニングメニューを生成するための目的関数を生成する学習手段として機能させる。この学習プログラムによれば、状態に応じたトレーニングメニューを生成するための目的関数を生成することができるから、トレーニングに関する状態を考慮してトレーニングメニューを生成することが可能になるという効果が得られる。

　（トレーニング支援プログラム）
　上述のトレーニング支援装置２の機能は、プログラムによって実現することもできる。本例示的実施形態に係るトレーニング支援プログラムは、コンピュータを、対象者が行うトレーニングに関する状態を示す状態データを取得するデータ取得手段、およびトレーニングに関する状態に応じた、当該状態で適用すべきトレーニングメニューを示す学習データを用いて逆強化学習することにより生成された目的関数を用いて最適化計算を行うことにより、上記状態データが示す状態に応じたトレーニングメニューを生成する生成手段として機能させる。このトレーニング支援プログラムによれば、トレーニングに関する状態を考慮してトレーニングメニューを生成することができるという効果が得られる。

　（学習方法の流れ）
　本例示的実施形態に係る学習方法の流れについて、図２を参照して説明する。図２は、学習方法の流れを示すフロー図である。なお、この学習方法における各ステップの実行主体は、学習装置１が備えるプロセッサであってもよいし、他の装置が備えるプロセッサであってもよく、各ステップの実行主体がそれぞれ異なる装置に設けられたプロセッサであってもよい。

　Ｓ１１では、少なくとも１つのプロセッサが、トレーニングに関する状態に応じた、当該状態で適用すべきトレーニングメニューを示す学習データを取得する。

　Ｓ１２では、少なくとも１つのプロセッサが、上記学習データを用いて逆強化学習することにより、状態に応じたトレーニングメニューを生成するための目的関数を生成する。

　以上のように、本例示的実施形態に係る学習方法においては、少なくとも１つのプロセッサが、トレーニングに関する状態に応じた、当該状態で適用すべきトレーニングメニューを示す学習データを取得することと、上記学習データを用いて逆強化学習することにより、状態に応じたトレーニングメニューを生成するための目的関数を生成することと、を含む構成が採用されている。このため、本例示的実施形態に係る学習方法によれば、状態に応じたトレーニングメニューを生成するための目的関数を生成することができるから、トレーニングに関する状態を考慮してトレーニングメニューを生成することが可能になるという効果が得られる。

　（トレーニング支援方法の流れ）
　本例示的実施形態に係るトレーニング支援方法の流れについて、図３を参照して説明する。図３は、トレーニング支援方法の流れを示すフロー図である。なお、このトレーニング支援方法における各ステップの実行主体は、トレーニング支援装置２が備えるプロセッサであってもよいし、他の装置が備えるプロセッサであってもよく、各ステップの実行主体がそれぞれ異なる装置に設けられたプロセッサであってもよい。

　Ｓ２１では、少なくとも１つのプロセッサが、対象者が行うトレーニングに関する状態を示す状態データを取得する。

　Ｓ２２では、少なくとも１つのプロセッサが、トレーニングに関する状態に応じた、当該状態で適用すべきトレーニングメニューを示す学習データを用いて逆強化学習することにより生成された目的関数を用いて最適化計算を行うことにより、上記状態データが示す状態に応じたトレーニングメニューを生成する。

　以上のように、本例示的実施形態に係るトレーニング支援方法においては、少なくとも１つのプロセッサが、対象者が行うトレーニングに関する状態を示す状態データを取得することと、トレーニングに関する状態に応じた、当該状態で適用すべきトレーニングメニューを示す学習データを用いて逆強化学習することにより生成された目的関数を用いて最適化計算を行うことにより、上記状態データが示す状態に応じたトレーニングメニューを生成することと、を含む構成が採用されている。このため、本例示的実施形態に係るトレーニング支援方法によれば、トレーニングに関する状態を考慮してトレーニングメニューを生成することができるという効果が得られる。

　〔例示的実施形態２〕
　（概要）
　本例示的実施形態に係るトレーニング支援方法の概要を図４に基づいて説明する。図４は、本例示的実施形態に係るトレーニング支援方法（以下、本方法と称する）の概要を示す図である。

　図示のように、本方法における入力データには、トレーニングを行う対象者が選択可能なトレーニング種目およびそれらの特性を示す種目プロパティと、対象者の特性を示すユーザプロパティと、トレーニングメニューを生成する際の制約条件とが含まれている。このうち種目プロパティとユーザプロパティは、対象者が行うトレーニングに関する状態を示す状態データである。本方法では、制約条件を充足し、かつ、上記の状態データが示す状態に応じたトレーニングメニューを生成する。

　具体的には、図４に示す種目プロパティには、対象者が選択可能なトレーニング種目と、各種目のトレーニングにより期待できる効果が示されている。例えば、図４に示す種目プロパティには、「種目１」というトレーニング種目が選択可能であることが示されていると共に、この種目の筋肥大効果が８０であり、筋出力を向上させる効果が７０であることが示されている。なお、トレーニングの効果を評価する方法は特に限定されず、任意の評価方法で評価した任意のトレーニング効果を種目リストに含めることができる。例えば、消費カロリーや筋持久力を向上させる効果を各種目に対応付けてもよい。また、効果以外にも、運動強度や負荷がかかる部位等を種目プロパティに含めることもできる。なお、消費カロリーは、単位時間あたりの消費カロリーであってもよいし、当該種目のトレーニング時間が決められているときには当該時間全体での消費カロリーであってもよい。

　また、図４に示すユーザプロパティには、対象者の身長および体重が示されている。ユーザプロパティは、対象者の特性を示すものであればよく、例えば、一日の最大トレーニング時間、一日の最低消費カロリー、一日の最大運動強度、年齢、性別、職業、運動経験、およびトレーニング目標等をユーザプロパティとしてもよい。なお、一日の最大トレーニング時間等については、曜日ごとに異なる時間を設定してもよい。

　また、図４に示す制約条件には、消費カロリーが目標値以上であること、およびトレーニングの所要時間の合計値が設定値以内であることが示されている。制約条件は任意に設定することができ、例えば、１週間で体の各部位にまんべんなく負荷をかける、等の制約条件を設定することもできる。このような制約条件は、対象者が自由に設定および変更できるようにすることができる。

　本方法では、以上のような入力データと、トレーニングに関する状態に応じた、当該状態で適用すべきトレーニングメニューを示す学習データを用いて逆強化学習することにより生成された目的関数とを用いて最適化計算を行うことにより、トレーニングメニューを生成する。

　上記の目的関数は、トレーニングメニューを評価する各観点をどの程度重視するかを示す重み値を含む。図４に示す目的関数では、１つ目の観点が「筋肥大」であり、２つ目の観点が「筋出力」であり、３つ目の観点が「筋持久力」であり、これらの各観点の重み値がそれぞれα、β、γである。観点は学習の際に自動で決定することもできるし、対象者が観点を設定および変更できるようにしてもよい。設定する観点はトレーニングメニューに関連したものであればよく、例えばトレーニング種目の組み合わせの相性等を観点に設定することもできる。

　図４に示す出力データすなわちトレーニングメニューは、各曜日に行うトレーニング種目およびそれらの実行順序を示すものである。例えば、図４に示すトレーニングメニューでは、月曜日には種目３、２、５の順でトレーニングを行うことが示されている。なお、本方法では、図４の例に限られず、任意の形式のトレーニングメニューを生成することができる。例えば、各種目の実行順を規定せず、種目の組み合わせを規定したトレーニングメニューを生成することもできるし、一月単位のトレーニングメニューを生成することもできる。

　（トレーニング支援装置の構成）
　本例示的実施形態に係るトレーニング支援装置２Ａについて図５に基づいて説明する。図５は、トレーニング支援装置２Ａの要部構成の一例を示すブロック図である。トレーニング支援装置２Ａは、対象者のトレーニングメニューを生成することにより、当該対象者のトレーニングを支援する装置である。また、トレーニング支援装置２Ａは、例示的実施形態１の学習装置１の機能、すなわちトレーニングメニューを評価する各観点をどの程度重視するかを示す重み値を含む目的関数を生成する機能も備えている。

　図示のように、トレーニング支援装置２Ａは、トレーニング支援装置２Ａの各部を統括して制御する制御部２０Ａと、トレーニング支援装置２Ａが使用する各種データを記憶する記憶部２１Ａを備えている。また、トレーニング支援装置２Ａは、トレーニング支援装置２Ａに対する各種データの入力を受け付ける入力部２２Ａ、およびトレーニング支援装置２Ａが各種データを出力するための出力部２３Ａを備えている。なお、以下では出力部２３Ａが各種データを表示出力する表示装置である例を説明するが、出力部２３Ａは音声出力あるいは印字出力等の他の出力態様でデータを出力するものであってもよい。

　また、制御部２０Ａには、データ取得部２０１、生成部２０２、検索部２０３、および学習部２０４が含まれている。そして、記憶部２１Ａには、状態データ２１１、目的関数２１２、トレーニングメニュー２１３、および学習データ２１４が記憶されている。なお、検索部２０３については、後記「検索用キーワードの表示について」の項目で説明する。

　データ取得部２０１は、対象者が行うトレーニングに関する状態を示す状態データ２１１を取得する。状態データ２１１は、対象者が行うトレーニングに関する状態を示すものであればよい。例えば、状態データ２１１には、図４に示す種目プロパティのようなトレーニング自体に関するものが含まれていてもよいし、ユーザプロパティのような対象者自身に関する者が含まれていてもよい。

　また、データ取得部２０１は、トレーニングメニューを生成する際の制約条件についても取得してもよい。また、データ取得部２０１は、トレーニングに関する状態に応じた、当該状態で適用すべきトレーニングメニューを示す学習データ２１４を取得する。これらのデータの取得方法は特に限定されず、例えば、データ取得部２０１は、入力部２２Ａを介して入力される状態データ２１１、制約条件、および学習データ２１４を取得してもよい。

　生成部２０２は、データ取得部２０１が取得する状態データが示す状態に応じたトレーニングメニューを生成する。より詳細には、生成部２０２は、トレーニングに関する状態に応じた、当該状態で適用すべきトレーニングメニューを示す学習データ２１４を用いて逆強化学習することにより生成された目的関数２１２を用いて最適化計算を行うことにより、データ取得部２０１が取得する状態データが示す状態に応じたトレーニングメニュー２１３を生成する。トレーニングメニュー２１３の生成方法については、後記「最適化計算」の項目で説明する。

　学習部２０４は、学習データ２１４を用いて、状態に応じたトレーニングメニューを生成するための目的関数２１２を生成する。図４に基づいて説明したように、学習部２０４が生成する目的関数２１２は、トレーニングメニューを評価する各観点を示すと共に、各観点をどの程度重視するかを示す重み値を含む。目的関数２１２の生成方法については、後記「目的関数の学習」の項目で説明する。

　以上のように、本例示的実施形態に係るトレーニング支援装置２Ａは、対象者が行うトレーニングに関する状態を示す状態データ２１１を取得するデータ取得部２０１と、トレーニングに関する状態に応じた、当該状態で適用すべきトレーニングメニューを示す学習データ２１４を用いて逆強化学習することにより生成された目的関数２１２を用いて最適化計算を行うことにより、データ取得部２０１が取得する状態データが示す状態に応じたトレーニングメニュー２１３を生成する生成部２０２とを備えている。このため、本例示的実施形態に係るトレーニング支援装置２Ａによれば、トレーニングに関する状態を考慮してトレーニングメニューを生成することができるという効果が得られる。

　また、以上のように、本例示的実施形態に係るトレーニング支援装置２Ａでは、データ取得部２０１が、対象者のトレーニングメニューを作成する際の制約条件を取得し、生成部２０２が、取得された制約条件を充足するトレーニングメニュー２１３を生成する。このため、本例示的実施形態に係るトレーニング支援装置２Ａによれば、例示的実施形態１に係るトレーニング支援装置２の奏する効果に加えて、所望の制約条件を充足するトレーニングメニュー２１３を生成することができるという効果が得られる。

　さらに、本例示的実施形態に係るトレーニング支援装置２Ａは学習装置としての機能も備えている。すなわち、トレーニング支援装置２Ａは、トレーニングに関する状態に応じた、当該状態で適用すべきトレーニングメニューを示す学習データ２１４を取得するデータ取得部２０１と、学習データ２１４を用いて逆強化学習することにより、状態に応じたトレーニングメニューを生成するための目的関数２１２を生成する学習部２０４とを備えている。本例示的実施形態に係るトレーニング支援装置２Ａによれば、トレーニングメニューを評価する各観点をどの程度重視するかを示す重み値を含む目的関数２１２を生成することができるから、トレーニングの対象者が重視する観点を考慮してトレーニングメニュー２１３を生成することが可能になるという効果が得られる。

　（目的関数の学習）
　学習部２０４による目的関数２１２の学習について図６に基づいて説明する。図６は、目的関数２１２の学習の概要を示す図である。図６に示される学習データ２１４には、状態データとしてユーザプロパティと種目プロパティが含まれていると共に、制約条件とトレーニングメニューが含まれている。

　学習データ２１４は、トレーニングに関する状態に応じた、当該状態で適用すべきトレーニングメニューを示すものであればよい。例えば、学習データ２１４は、実際にトレーニングを行った者のうち、トレーニングの成果が顕著であった者（以下、エキスパートと称する）が実行したトレーニングメニューを示すものであってもよい。この場合、学習データ２１４におけるユーザプロパティは、エキスパートのユーザプロパティとし、種目プロパティはエキスパートが実行したトレーニング種目のプロパティとする。また、学習データ２１４の制約条件は、エキスパートのトレーニングメニュー作成時の制約条件とし、トレーニングメニューはエキスパートが実行したトレーニングメニューを示すものとすればよい。

　以下、本実施形態において、学習データ２１４をエキスパートと関連づけて説明する。しかし、学習データ２１４はエキスパートによって限定されるものではない。学習データ２１４は、トレーニングに関する状態を示すデータと、当該状態で適用すべきトレーニングメニュー示すデータとの組み合わせであればよい。

　また、学習データ２１４は、必ずしも実際に実行されたトレーニングメニューに基づいて生成されたものである必要はない。例えば、典型的な状態データを作成すると共に、それに対応する適切なトレーニングメニューを作成して学習データ２１４としてもよい。例えば、２０代男性に適切なトレーニングメニューがある場合、そのトレーニングメニューに対し、そのトレーニングメニューに含まれるトレーニング種目の種目プロパティと、２０代男性に典型的なユーザプロパティとを対応付けて学習データ２１４としてもよい。また、必要に応じて制約条件を学習データ２１４に含めてもよい。

　学習部２０４は、状態がそれぞれ異なる上記のような学習データ２１４を複数用いて学習することにより、トレーニングメニューを評価する各観点をどの程度重視するかを示す重み値を含む目的関数２１２を生成する。この学習は、エキスパートが、ある学習データ２１４に含まれる状態データに示される状態のときに、その学習データ２１４に含まれるトレーニングメニューを採用した意図を学習するものであるともいえる。なお、上述のように観点は任意に設定することが可能である。

　学習においては、まず、学習部２０４は、目的関数２１２の各重み値を初期値に設定する。次に、生成部２０２が、重み値が初期値に設定された目的関数２１２を用いた最適化計算により、学習データ２１４に含まれる状態データが示す状態に応じたトレーニングメニューを生成する。そして、学習部２０４は、学習データ２１４に示されるトレーニングメニューと、生成部２０２が生成するトレーニングメニューとの差異が小さくなるように重み値を更新する。これらの処理を、学習データ２１４に示されるトレーニングメニューと、生成部２０２が生成するトレーニングメニューとの差異が十分小さくなるまで繰り返すことにより、目的関数２１２の学習は終了する。

　具体的な学習手法としては、一般的な逆強化学習で用いられる各種手法を適用することもできる。例えば、最大エントロピー逆強化学習の手法を適用してもよい。この場合、学習部２０４は、最大エントロピー原理を用いて目的関数の確率分布を表し、目的関数の確率分布を真の確率分布へ近付けること（すなわち最尤推定）により目的関数を学習する。また、学習データ２１４に含まれるトレーニングメニューを評価するために適切な観点についても学習により特定することが可能である。

　以上のような学習により生成される目的関数２１２は、エキスパートの意思決定基準を示すものともいえる。例えば、「筋肥大」という観点に対する重み値が、「筋持久力」という観点に対する重み値よりも大きい値である目的関数２１２は、エキスパートが筋持久力と筋肥大の両方の観点を考慮しつつ、筋持久力よりも筋肥大を重視してトレーニングメニューを作成したことを示している。

　（最適化計算）
　目的関数２１２を用いればトレーニングメニューの良し悪しを評価する評価値を算出することができる。よって、生成部２０２は、目的関数２１２を用いて算出される評価値が最大になるトレーニングメニューを生成すればよい。目的関数と状態データと制約条件とを用いた最適化問題の解法は任意である。例えば、生成部２０２は、目的関数２１２と状態データ２１１と制約条件から、最適化ソルバを用いて最適なトレーニングメニューを生成してもよい。生成部２０２は、最適化ソルバとして、例えばIBM ILOG CPLEX、Gurobi Optimizer、S CIP等の一般的なアプリケーションプログラムを用いることもできる。

　（目的関数の切り替え）
　また、本例示的実施形態に係るトレーニング支援装置２Ａでは、予め用意された複数の目的関数２１２を記憶部２１Ａ等に記憶させておいてもよい。この場合、生成部２０２は、予め用意された複数の目的関数２１２のうちトレーニングを行う対象者に応じた目的関数を用いてトレーニングメニュー２１３を生成してもよい。この構成によれば、複数の目的関数２１２の中でもより対象者に適合した目的関数２１２を用いることが可能になるから、例示的実施形態１に係るトレーニング支援装置２の奏する効果に加えて、より対象者に適合したトレーニングメニュー２１３を生成することができるという効果が得られる。

　例えば、トレーニングの目的に応じた複数の目的関数２１２を記憶部２１Ａ等に記憶させておいてもよい。この場合、生成部２０２は、対象者のトレーニングの目的に応じた目的関数２１２を用いて、対象者の目的に合致したトレーニングメニュー２１３を生成することができる。

　（ＢＧＭを含むトレーニングメニューの生成）
　トレーニング支援装置２Ａは、ＢＧＭ（Back Ground Music）を含むトレーニングメニューを生成することもできる。これについて図７に基づいて説明する。図７は、ＢＧＭを含むトレーニングメニューの生成例を示す図である。図７の例は、図４の例と比べて、状態データに楽曲プロパティが含まれている点、制約条件および目的関数の内容、そして生成されるトレーニングメニューにおいて、各トレーニング種目にＢＧＭとなる楽曲が対応付けられている点で相違している。

　楽曲プロパティは、ＢＧＭとして使用できる楽曲とそれらの特性を示すデータである。例えば、図７に示す楽曲プロパティには、「楽曲１」という楽曲がＢＧＭとして使用できることが示されていると共に、この楽曲の人気度が８０であること、また、この楽曲がＢＧＭとして使用された使用履歴が示されている。なお、楽曲プロパティは、ＢＧＭとして使用できる楽曲と、それらの特性とを示すものであればよく図７に示す例に限られない。例えば、曲名、ジャンル、リリース日、アルバム名、アーティスト名、曲の長さ、音の大きさ、曲調、テンポ、および拍子等を楽曲プロパティとしてもよい。この他にも、例えば、ダンスに向く度合い、ライブ感、ポジティブな印象を受ける度合い、楽曲からエネルギーを与えられる感覚の強さ、電子楽器を使用しているか否か、インストルメンタル（歌唱のない楽曲）であるか否か、スピーチに近いものであるか否か、等を楽曲プロパティとしてもよい。

　ＢＧＭを含むトレーニングメニューを生成する場合、トレーニングに関する制約条件以外に、ＢＧＭに関する制約条件を設定することもできる。図７に示す制約条件には、新曲を少なくとも１回使用するという条件が含まれている。このような制約条件を使用することにより、１回のトレーニング中に必ず１回は新曲が含まれるようにＢＧＭが決定される。なお、新曲の定義は予め定めておけばよく、例えばリリース日から半年以内の楽曲を新曲と定義してもよい。

　また、ＢＧＭを含むトレーニングメニューを生成する場合、ＢＧＭを選択する際の観点を含む目的関数が用いられる。観点は、ＢＧＭに関するものであればよい。例えば、図７に示す目的関数には、トレーニングメニューを評価する観点である「運動強度」に加えて、ＢＧＭを選択する際の観点として「種目とＢＧＭの相性」および「ＢＧＭの人気度」が含まれている。

　ＢＧＭを含むトレーニングメニューを生成するための上記のような目的関数は、トレーニングに関する状態に応じた、当該状態で適用すべきトレーニングメニューとそのトレーニング中に流すべき楽曲を示す学習データ２１４を用いた学習により生成することができる。例えば、エキスパートが実行したトレーニングメニューおよび種目プロパティと、該トレーニングメニューの実行中にエキスパートが流したＢＧＭおよび該ＢＧＭの楽曲プロパティとを示す学習データ２１４を用いてもよい。これにより、エキスパートがＢＧＭを選ぶ際の意思決定基準を示す目的関数を生成することができる。

　なお、「種目とＢＧＭの相性」は、例えば楽曲の使用履歴等を用いて評価することができる。つまり、あるトレーニング種目においてＢＧＭとして使用された回数や頻度が多い楽曲はその種目との相性がよいと評価することができる。このように、観点をどのようなプロパティにより評価するかは予め定めておけばよい。これは、トレーニングに関する観点についても同様である。

　なお、学習部２０４は、任意の特徴量選択の技術を用いて、「種目とＢＧＭの相性」等の観点を自動で選択してもよい。学習部２０４が利用可能な、逆強化学習における特徴量選択方法の一例として、“Teaching Risk”が挙げられる。“Teaching Risk”による特徴量選択とは、目的関数における理想的なパラメータを仮定して学習過程のパラメータと比較し、二つのパラメータの差をより小さくする特徴量（すなわち観点）を重要な特徴量として選択するものである。

　無論、学習部２０４が利用できる特徴量選択の技術は“Teaching Risk”に限定されない。学習部２０４は、例えば公開公報ＰＣＴ／ＪＰ２０２０／０３２８４８に開示されている手法を用いて特徴量選択を行うこともできる。

　図７の例では、以上のような状態データ、制約条件、および目的関数から、曜日ごとのトレーニング種目とそのＢＧＭとする楽曲とを示すトレーニングメニューが生成されている。例えば、図７のトレーニングメニューでは、月曜日に実行すべきトレーニング種目の１つ目が「種目２」であり、この種目のトレーニング中のＢＧＭが「楽曲１」であることが示されている。

　なお、トレーニング支援装置２Ａは、１つのトレーニング種目に対し、複数の楽曲を対応付けたトレーニングメニューを生成することもできる。また、トレーニング支援装置２Ａは、連続して実行する複数のトレーニング種目に対し、１または複数の楽曲を対応付けたトレーニングメニューを生成することもできる。なお、トレーニング支援装置２Ａは、複数の楽曲を対象者に提示する際に、それら複数の楽曲を１つのプレイリストとして提示してもよい。

　以上のように、本例示的実施形態に係るトレーニング支援装置２Ａでは、生成部２０２は、トレーニング中に流す楽曲を示す情報を含む学習データ２１４を用いて学習された目的関数２１２を用い、トレーニング中に流す楽曲を含むトレーニングメニュー２１３を生成する。このため、本例示的実施形態に係るトレーニング支援装置２Ａによれば、例示的実施形態１に係るトレーニング支援装置２の奏する効果に加えて、より魅力あるトレーニングメニュー２１３を生成することができるという効果が得られる。

　（検索用キーワードの表示について）
　また、トレーニング支援装置２Ａは、上述のようにして特定したトレーニング時のＢＧＭとする楽曲を対象者に提示し、最終的な楽曲の決定を対象者に行わせてもよい。これについて図８に基づいて説明する。図８は、トレーニングメニューとＢＧＭの表示画面例を示す図である。

　図８の表示画面例には、月曜日のトレーニングメニューとして、「種目２」および「種目５」という２つのトレーニング種目と、それらの所要時間が示されている。また、この表示画面例には、「種目２」に対応するお薦めのプレイリストとして「ＰＬ１」が示されていると共に、「種目５」に対応するお薦めのプレイリストとして「ＰＬ３」が示されている。これらの種目およびプレイリストは、生成部２０２が目的関数２１２を用いて特定したものである。

　なお、生成部２０２は、「種目５」以降のトレーニング種目およびお薦めのプレイリストを、例えば表示画面を横方向にスクロールさせる操作が行われたことに応じて表示させるようにしてもよい。また、生成部２０２は、月曜日以降のトレーニング種目およびお薦めのプレイリストも所定の操作に応じて表示させるようにしてもよい。また、生成部２０２は、プレイリストに含まれる各楽曲についても表示させてもよいし、プレイリストに含まれる各楽曲は対象者の操作に応じて表示させてもよい。

　図８の表示画面例において、対象者は、お薦めのプレイリストをそのまま採用する場合には、その旨の操作を行えばよい。また、対象者は、お薦めのプレイリストを採用せず、ＢＧＭとする楽曲を自身で選択してもよい。図８の表示画面例における「キーワード」は、対象者の楽曲選択の一助となるものであり、検索部２０３により表示される。

　検索部２０３は、目的関数２１２に示される、トレーニングメニューを評価する観点のうち、楽曲に関する観点を示す語句を、楽曲を検索するための検索語として表示する。トレーニング支援装置２Ａは、検索部２０３を備えていることにより、例示的実施形態１に係るトレーニング支援装置２の奏する効果に加えて、観点に適合する楽曲を容易に検索させることができるという効果が得られる。

　具体的には、図８の表示画面例には、キーワードとして「種目との相性」および「人気度」の２つが示されている。これらのキーワードは、何れも目的関数に示される観点のうち、楽曲に関する観点を示す語句である。キーワードが選択された場合、検索部２０３は、ＢＧＭとして選択可能な楽曲の中から、当該キーワードに適合する楽曲を検索し、その検索結果を表示させる。対象者は、表示された検索結果に所望の楽曲が含まれていれば、それをトレーニング時のＢＧＭとして選択することができる。

　また、検索部２０３は、目的関数の構造を利用することで、上述の観点を選択してもよい。例えば、検索部２０３は、学習された目的関数において、「人気度」の観点の重みが大きい場合、「人気度」をキーワードとして表示させてもよい。

　例えば、「種目２」の実施時のＢＧＭを選択する際に、「種目との相性」のキーワードが選択されたとする。この場合、検索部２０３は、図７に示したような楽曲プロパティを参照して、「種目２」の実施時においてＢＧＭとして使用された回数や頻度が上位の所定数の楽曲を特定し、それらの楽曲をＢＧＭの候補として表示させてもよい。

　なお、トレーニング支援装置２Ａは、お気に入りの楽曲やプレイリストの登録を受け付けるようにしてもよい。そして、トレーニング支援装置２Ａは、お気に入りとして登録された楽曲やプレイリストについても、お薦めのプレイリストと共に表示してもよい。これにより、対象者好みのＢＧＭを設定しやすくすることができる。

　（処理の流れ）
　トレーニング支援装置２Ａが実行する処理（トレーニング支援方法）について図９に基づいて説明する。図９は、トレーニング支援装置２Ａが実行する処理の流れを示すフロー図である。なお、以下ではトレーニング中に流す楽曲を含むトレーニングメニューを生成する例を説明する。

　Ｓ３１では、データ取得部２０１が、対象者が行うトレーニングに関する状態を示す状態データ２１１を取得する。また、データ取得部２０１は、Ｓ３１において、トレーニングメニューを生成する際の制約条件についても取得してもよい。

　Ｓ３２では、生成部２０２が、Ｓ３１で取得された状態データ２１１が示す状態に応じたトレーニングメニュー２１３を生成する。具体的には、生成部２０２は、トレーニングに関する状態に応じた、当該状態で適用すべきトレーニングメニューを示す学習データ２１４を用いて逆強化学習することにより生成された目的関数２１２を用いた最適化計算によりトレーニングメニュー２１３を生成する。このトレーニングメニュー２１３には、トレーニング中に流す楽曲が含まれている。

　Ｓ３３では、生成部２０２が、Ｓ３２で生成したトレーニングメニュー２１３と、トレーニングメニュー２１３の実行時に流す楽曲を出力部２３Ａに表示出力させる。また、検索部２０３が、楽曲を検索するための検索語を出力部２３Ａに表示出力させる。上述のように、検索部２０３が表示させる検索語は、目的関数２１２に示される、トレーニングメニューを評価する観点のうち、楽曲に関する観点を示す語句である。なお、楽曲は１曲単位で表示させてもよいし、複数の楽曲をまとめて１つのプレイリストとして表示させてもよい（図８参照）。

　Ｓ３４では、検索部２０３が、検索を実行するか否かを判定する。例えば、検索部２０３は、表示させたキーワードを選択する操作が行われたことを検知した場合に検索を実行すると判定すればよい。Ｓ３４でＹＥＳと判定された場合にはＳ３５の処理に進み、Ｓ３４でＮＯと判定された場合にはＳ３６の処理に進む。

　Ｓ３５では、検索部２０３が、Ｓ３３で表示させたキーワードのうち、対象者が選択したキーワードにより楽曲の検索を実行し、検索結果を出力部２３Ａに表示出力させる。なお、検索部２０３は、対象者が入力するキーワードや、対象者が選択する絞り込み条件を用いて楽曲の検索を行ってもよい。

　Ｓ３６では、検索部２０３が、ＢＧＭとする楽曲が選択されたか否かを判定する。なお、選択される楽曲はＳ３３で表示させたものであってもよいし、Ｓ３５で表示させたものであってもよい。また、楽曲の選択は入力部２２Ａを介して受け付ければよい。Ｓ３６でＹＥＳと判定された場合にはＳ３７に進み、Ｓ３７でＮＯと判定された場合にはＳ３４に戻る。

　Ｓ３７では、生成部２０２が、Ｓ３６で選択された楽曲をトレーニング中に流すＢＧＭに決定する。これにより、トレーニング中に流す楽曲を含むトレーニングメニュー２１３が完成し、図９の処理は終了する。

　〔変形例〕
　上述の例示的実施形態で説明した各処理の実行主体は任意であり、上述の例に限られない。例えば、相互に通信可能な複数の装置により、トレーニング支援装置２Ａと同様の機能を有するトレーニング支援システムを構築することができる。例えば、図５に示す各ブロックを複数の装置に分散して設けることにより、トレーニング支援装置２Ａと同様の機能を有するトレーニング支援システムを構築することができる。

　〔ソフトウェアによる実現例〕
　学習装置１およびトレーニング支援装置２、２Ａの一部又は全部の機能は、集積回路（ＩＣチップ）等のハードウェアによって実現してもよいし、ソフトウェアによって実現してもよい。

　後者の場合、学習装置１およびトレーニング支援装置２、２Ａは、例えば、各機能を実現するソフトウェアであるプログラムの命令を実行するコンピュータによって実現される。このようなコンピュータの一例（以下、コンピュータＣと記載する）を図１０に示す。コンピュータＣは、少なくとも１つのプロセッサＣ１と、少なくとも１つのメモリＣ２と、を備えている。メモリＣ２には、コンピュータＣを学習装置１およびトレーニング支援装置２、２Ａとして動作させるためのプログラムＰが記録されている。コンピュータＣにおいて、プロセッサＣ１は、プログラムＰをメモリＣ２から読み取って実行することにより、学習装置１およびトレーニング支援装置２、２Ａの各機能が実現される。

　プロセッサＣ１としては、例えば、ＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphic Processing Unit）、ＤＳＰ（Digital Signal Processor）、ＭＰＵ（Micro Processing Unit）、ＦＰＵ（Floating point number Processing Unit）、ＰＰＵ（Physics Processing Unit）、ＴＰＵ（Tensor Processing Unit）、量子プロセッサ、マイクロコントローラ、又は、これらの組み合わせなどを用いることができる。メモリＣ２としては、例えば、フラッシュメモリ、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、又は、これらの組み合わせなどを用いることができる。

　なお、コンピュータＣは、プログラムＰを実行時に展開したり、各種データを一時的に記憶したりするためのＲＡＭ（Random Access Memory）を更に備えていてもよい。また、コンピュータＣは、他の装置との間でデータを送受信するための通信インタフェースを更に備えていてもよい。また、コンピュータＣは、キーボードやマウス、ディスプレイやプリンタなどの入出力機器を接続するための入出力インタフェースを更に備えていてもよい。

　また、プログラムＰは、コンピュータＣが読み取り可能な、一時的でない有形の記録媒体Ｍに記録することができる。このような記録媒体Ｍとしては、例えば、テープ、ディスク、カード、半導体メモリ、又はプログラマブルな論理回路などを用いることができる。コンピュータＣは、このような記録媒体Ｍを介してプログラムＰを取得することができる。また、プログラムＰは、伝送媒体を介して伝送することができる。このような伝送媒体としては、例えば、通信ネットワーク、又は放送波などを用いることができる。コンピュータＣは、このような伝送媒体を介してプログラムＰを取得することもできる。

　〔付記事項１〕
　本発明は、上述した実施形態に限定されるものでなく、請求項に示した範囲で種々の変更が可能である。例えば、上述した実施形態に開示された技術的手段を適宜組み合わせて得られる実施形態についても、本発明の技術的範囲に含まれる。

　〔付記事項２〕
　上述した実施形態の一部又は全部は、以下のようにも記載され得る。ただし、本発明は、以下の記載する態様に限定されるものではない。

　（付記１）
　対象者が行うトレーニングに関する状態を示す状態データを取得するデータ取得手段と、トレーニングに関する状態に応じた、当該状態で適用すべきトレーニングメニューを示す学習データを用いて逆強化学習することにより生成された目的関数を用いて最適化計算を行うことにより、前記状態データが示す状態に応じたトレーニングメニューを生成する生成手段と、を備えるトレーニング支援装置。

　（付記２）
　前記データ取得手段は、前記対象者のトレーニングメニューを生成する際の制約条件を取得し、前記生成手段は、前記制約条件を充足する前記トレーニングメニューを生成する、付記１に記載のトレーニング支援装置。

　（付記３）
　前記生成手段は、予め用意された複数の前記目的関数のうち前記対象者に応じた目的関数を用いて前記トレーニングメニューを生成する、付記１または２に記載のトレーニング支援装置。

　（付記４）
　前記学習データには、トレーニング中に流す楽曲を示す情報が含まれており、前記生成手段は、トレーニング中に流す楽曲を含む前記トレーニングメニューを生成する、付記１から３の何れか１つに記載のトレーニング支援装置。

　（付記５）
　前記目的関数に示される、トレーニングメニューを評価する観点のうち、楽曲に関する前記観点を示す語句を、楽曲を検索するための検索語として表示する検索手段を備える、付記４に記載のトレーニング支援装置。

　（付記６）
　少なくとも１つのプロセッサが、
　対象者が行うトレーニングに関する状態を示す状態データを取得することと、トレーニングに関する状態に応じた、当該状態で適用すべきトレーニングメニューを示す学習データを用いて逆強化学習することにより生成された目的関数を用いて最適化計算を行うことにより、前記状態データが示す状態に応じたトレーニングメニューを生成することと、を含むトレーニング支援方法。

　（付記７）
　コンピュータを、対象者が行うトレーニングに関する状態を示す状態データを取得するデータ取得手段、およびトレーニングに関する状態に応じた、当該状態で適用すべきトレーニングメニューを示す学習データを用いて逆強化学習することにより生成された目的関数を用いて最適化計算を行うことにより、前記状態データが示す状態に応じたトレーニングメニューを生成する生成手段として機能させるトレーニング支援プログラム。

　（付記８）
　トレーニングに関する状態に応じた、当該状態で適用すべきトレーニングメニューを示す学習データを取得するデータ取得手段と、前記学習データを用いて逆強化学習することにより、状態に応じたトレーニングメニューを生成するための目的関数を生成する学習手段と、を備える学習装置。

　（付記９）
　少なくとも１つのプロセッサが、トレーニングに関する状態に応じた、当該状態で適用すべきトレーニングメニューを示す学習データを取得することと、前記学習データを用いて逆強化学習することにより、状態に応じたトレーニングメニューを生成するための目的関数を生成することと、を含む学習方法。

　（付記１０）
　コンピュータを、
　トレーニングに関する状態に応じた、当該状態で適用すべきトレーニングメニューを示す学習データを取得するデータ取得手段、および前記学習データを用いて逆強化学習することにより、状態に応じたトレーニングメニューを生成するための目的関数を生成する学習手段として機能させる学習プログラム。

　〔付記事項３〕
　上述した実施形態の一部又は全部は、更に、以下のように表現することもできる。

　少なくとも１つのプロセッサを備え、前記プロセッサは、対象者が行うトレーニングに関する状態を示す状態データを取得するデータ取得処理と、トレーニングに関する状態に応じた、当該状態で適用すべきトレーニングメニューを示す学習データを用いて逆強化学習することにより生成された目的関数を用いて最適化計算を行うことにより、前記状態データが示す状態に応じたトレーニングメニューを生成する生成処理とを実行するトレーニング支援装置。

　なお、このトレーニング支援装置は、更にメモリを備えていてもよく、このメモリには、前記データ取得処理と、前記生成処理とを前記プロセッサに実行させるためのプログラムが記憶されていてもよい。また、このプログラムは、コンピュータ読み取り可能な一時的でない有形の記録媒体に記録されていてもよい。

　少なくとも１つのプロセッサを備え、前記プロセッサは、トレーニングに関する状態に応じた、当該状態で適用すべきトレーニングメニューを示す学習データを取得するデータ取得処理と、前記学習データを用いて逆強化学習することにより、状態に応じたトレーニングメニューを生成するための目的関数を生成する学習処理と、を実行する学習装置。

　なお、この学習装置は、更にメモリを備えていてもよく、このメモリには、前記データ取得処理と、前記学習処理とを前記プロセッサに実行させるためのプログラムが記憶されていてもよい。また、このプログラムは、コンピュータ読み取り可能な一時的でない有形の記録媒体に記録されていてもよい。

１　学習装置
２、２Ａ　トレーニング支援装置
１１、２１、２０１　データ取得部
１２、２０４　学習部
２２、２０２　生成部
２０３　検索部

Claims

　対象者が行うトレーニングに関する状態を示す状態データを取得するデータ取得手段と、
　トレーニングに関する状態に応じた、当該状態で適用すべきトレーニングメニューを示す学習データを用いて逆強化学習することにより生成された目的関数を用いて最適化計算を行うことにより、前記状態データが示す状態に応じたトレーニングメニューを生成する生成手段と、を備えるトレーニング支援装置。
　前記データ取得手段は、前記対象者のトレーニングメニューを生成する際の制約条件を取得し、
　前記生成手段は、前記制約条件を充足する前記トレーニングメニューを生成する、請求項１に記載のトレーニング支援装置。
　前記生成手段は、予め用意された複数の前記目的関数のうち前記対象者に応じた目的関数を用いて前記トレーニングメニューを生成する、請求項１または２に記載のトレーニング支援装置。
　前記学習データには、トレーニング中に流す楽曲を示す情報が含まれており、
　前記生成手段は、トレーニング中に流す楽曲を含む前記トレーニングメニューを生成する、請求項１から３の何れか１項に記載のトレーニング支援装置。
　前記目的関数に示される、トレーニングメニューを評価する観点のうち、楽曲に関する前記観点を示す語句を、楽曲を検索するための検索語として表示する検索手段を備える、請求項４に記載のトレーニング支援装置。
　少なくとも１つのプロセッサが、
　対象者が行うトレーニングに関する状態を示す状態データを取得することと、
　トレーニングに関する状態に応じた、当該状態で適用すべきトレーニングメニューを示す学習データを用いて逆強化学習することにより生成された目的関数を用いて最適化計算を行うことにより、前記状態データが示す状態に応じたトレーニングメニューを生成することと、を含むトレーニング支援方法。
　コンピュータを、
　対象者が行うトレーニングに関する状態を示す状態データを取得するデータ取得手段、および
　トレーニングに関する状態に応じた、当該状態で適用すべきトレーニングメニューを示す学習データを用いて逆強化学習することにより生成された目的関数を用いて最適化計算を行うことにより、前記状態データが示す状態に応じたトレーニングメニューを生成する生成手段として機能させるトレーニング支援プログラム。
　トレーニングに関する状態に応じた、当該状態で適用すべきトレーニングメニューを示す学習データを取得するデータ取得手段と、
　前記学習データを用いて逆強化学習することにより、状態に応じたトレーニングメニューを生成するための目的関数を生成する学習手段と、を備える学習装置。
　少なくとも１つのプロセッサが、
　トレーニングに関する状態に応じた、当該状態で適用すべきトレーニングメニューを示す学習データを取得することと、
　前記学習データを用いて逆強化学習することにより、状態に応じたトレーニングメニューを生成するための目的関数を生成することと、を含む学習方法。
　コンピュータを、
　トレーニングに関する状態に応じた、当該状態で適用すべきトレーニングメニューを示す学習データを取得するデータ取得手段、および
　前記学習データを用いて逆強化学習することにより、状態に応じたトレーニングメニューを生成するための目的関数を生成する学習手段として機能させる学習プログラム。