WO2024071171A1

WO2024071171A1 - ロボット、学習装置、制御方法およびプログラム

Info

Publication number: WO2024071171A1
Application number: PCT/JP2023/035074
Authority: WO
Inventors: 健吾山内; 理人福島; 啓太清島; 裕介清水
Original assignee: 日東電工株式会社
Priority date: 2022-09-29
Filing date: 2023-09-27
Publication date: 2024-04-04
Also published as: TW202419234A

Abstract

ユーザの触れ合い方に合わない行動を低減する。ロボットは、ロボットに対するユーザの接触に関する情報を取得する取得部と、前記接触に関する情報に基づき、前記ユーザの触れ合い方の状態に応じて前記ユーザの良好な反応を誘発する所定の行動の実行を指令する行動制御部と、を有する。

Description

ロボット、学習装置、制御方法およびプログラム

　本開示は、ロボット、学習装置、制御方法およびプログラムに関する。

　従来から、ユーザとの触れ合いを想定したロボットが知られている。また、ユーザと触れ合うことにより癒しを提供するロボットが知られている。

　特許文献１には、ロボットの体表面に対するユーザの接触を検出し、接触箇所および接触強度に応じて快適行為か否かを判定し、判定結果に応じてロボットの行動を変化させることが開示されている。

特開２０１９－７２４９５号公報

　しかし、特許文献１においてはユーザの接触がロボットにとって快適行為か否かに応じてロボットの行動を変化させるため、ユーザが求める触れ合い方に合った行動を行うことは困難である。ロボットがユーザの触れ合い方に合わない行動を行うと、ユーザにとって違和感のあるコミュニケーションになってしまう。ひいてはユーザに長期的に触れ合ってもらえず、癒しを提供することができない。

　開示の技術は、ユーザの触れ合い方に合わない行動を低減することを目的とする。

　本開示の一態様は、ロボットに対するユーザの接触に関する情報を取得する取得部と、前記接触に関する情報に基づき、前記ユーザの触れ合い方の状態に応じて前記ユーザの良好な反応を誘発する所定の行動の実行を指令する行動制御部と、を有する、ロボットである。

　本開示の他の態様は、ロボットに通信可能に接続する学習装置であって、前記ロボットに対するユーザの接触に関する情報に基づき、前記ユーザの触れ合い方の状態を観測する状態観測部と、入力を前記ユーザの前記触れ合い方の状態とし、出力を前記ロボットの行動の価値とする学習モデルを機械学習により生成する学習部と、を有する、学習装置である。

　本開示の一態様によれば、ユーザの触れ合い方に合わない行動を低減することができる。

一実施形態のロボットの斜視図である。一実施形態のロボットの側面図である。一実施形態のIII－III切断線に沿うロボットの断面図である。一実施形態のバイタルセンサの構成を示す図である。一実施形態の制御部のハードウェア構成を示すブロック図である。一実施形態の制御部の機能構成を示すブロック図である。一実施形態の推定部（学習装置）のハードウェア構成を示すブロック図である。一実施形態の推定部（学習装置）の機能構成を示すブロック図である。一実施形態のニューロンの学習モデルの模式図である。一実施形態のニューラルネットワークの学習モデルの模式図である。一実施形態の制御部の処理を示すフローチャートである。一実施形態の推定部（学習装置）の処理を示すフローチャートである。変形例の推定部（学習装置）の機能構成を示すブロック図である。変形例の推定部（学習装置）の処理を示すフローチャートである。

　以下、図面を参照して本開示の実施形態について詳細に説明する。各図面において、同一構成要素には同一符号を付与し、重複した説明を適宜省略する。

　以下に示す実施形態は、本開示の技術思想を具体化するためのロボットを例示するものであって、本開示を以下に示す実施形態に限定するものではない。以下に記載されている構成部品の寸法、材質、形状、その相対的配置等は、特定的な記載がない限り、本開示の範囲をそれのみに限定する趣旨ではなく、例示することを意図したものである。また図面が示す部材の大きさや位置関係等は、説明を明確にするため、誇張している場合がある。

　＜ロボット１００の全体構成例＞
　図１から図３を参照して、一実施形態に係るロボット１００の構成について説明する。図１は、一実施形態に係るロボット１００を例示する斜視図である。図２は、ロボット１００の側面図である。図３は、図２におけるIII－III切断線に沿う断面図である。

　ロボット１００は、外装部材１０を有し、供給される電力により駆動可能なロボットである。本実施形態で例示するロボット１００は、子熊を模した人形型のコミュニケーションロボットである。ロボット１００は、ユーザが抱きかかえることに適した大きさおよび重量により製作されている。ここで、ユーザはロボット１００のユーザを意味する。ユーザの代表的な一例には、一人暮らしの社会人、子供が独り立ちしたシニア、在宅医療の対象となるフレイル高齢者等が挙げられる。また、ユーザには、ロボット１００の使用者のほか、ロボット１００の管理者等の、単にロボット１００に接触する接触者が含まれてもよい。

　外装部材１０は柔軟性を有する。外装部材１０は、例えばロボット１００のユーザがロボット１００に触れた際に触り心地のよい軟質な素材を含んでいる。外装部材１０の素材には、ウレタンフォーム、ゴム、樹脂、繊維等の有機材料を含むものを使用できる。外装部材１０は、断熱性を有するウレタンフォーム材等の外装と、外装の外側表面を覆う柔らかい布材と、により構成されることが好ましい。

　ロボット１００は、一例として、胴部１と、頭部２と、腕部３と、脚部４と、を有する。頭部２は、右眼部２ａと、左眼部２ｂと、口部２ｃと、右頬部２ｄと、左頬部２ｅと、を有する。腕部３は、右腕部３ａと、左腕部３ｂと、を含み、脚部４は、右脚部４ａと、左脚部４ｂと、を含む。ここで、胴部１はロボット本体に対応する。頭部２、腕部３および脚部４のそれぞれは、ロボット本体に対して相対的に変位可能に連結される駆動体に対応する。

　本実施形態では、腕部３は、胴部１に対して変位可能に構成されている。例えば、ロボット１００は、ユーザにより抱きかかえられた際に、右腕部３ａおよび左腕部３ｂを変位させ、ユーザを抱擁するようにユーザの首や胴等に接触させる。この動作により、ユーザはロボット１００に対して親近感を感じるため、ユーザとロボット１００との触れ合いが促進される。なお、ユーザとの触れ合いとは、さする、タッピングする（触れる）およびハグする（抱きつく）等のようにユーザとロボット１００が互いに触れ合う行為（接触する行為）を意味する。

　胴部１、頭部２、腕部３および脚部４は、いずれも外装部材１０により覆われている。胴部１における外装部材と、腕部３における外装部材と、は一体化しており、頭部２および脚部４における外装部材は、胴部１および腕部３における外装部材に対して分離している。但し、これらの構成に限定されるものではなく、例えばユーザに接触されやすいロボット１００の部位のみが外装部材１０により覆われていてもよい。また胴部１、頭部２、腕部３および脚部４それぞれにおける外装部材１０の少なくとも１つが他の外装部材と分離されていてもよい。また頭部２、腕部３および脚部４のうちの変位しない部位が、その内側にセンサ等の構成部を含まず、外装部材１０のみにより構成されてもよい。

　ロボット１００は、外装部材１０の内側に、カメラ１１と、触覚センサ１２と、制御部１３と、バイタルセンサ１４と、バッテリ１５と、第１静電容量センサ２１と、第２静電容量センサ３１と、を有する。またロボット１００は、胴部１における外装部材１０の内側に、カメラ１１、触覚センサ１２、制御部１３、バイタルセンサ１４およびバッテリ１５を有する。さらにロボット１００は、頭部２における外装部材１０の内側に、第１静電容量センサ２１を有し、腕部３における外装部材１０の内側に、第２静電容量センサ３１を有する。

　またロボット１００は、頭部２における外装部材１０の内側に、ディスプレイ２４と、スピーカ２５と、ライト２６と、を有する。さらにロボット１００は、右眼部２ａおよび左眼部２ｂにおける外装部材１０の内側に、ディスプレイ２４を有する。加えてロボット１００は、口部２ｃにおける外装部材１０の内側にスピーカ２５を有し、右頬部２ｄおよび左頬部２ｅにおける外装部材１０の内側にライト２６を有する。

　より詳しくは、図３に示すように、ロボット１００は、胴部１における外装部材１０の内側に、胴部フレーム１６と、胴部載置台１７と、を有する。またロボット１００は、頭部２における外装部材１０の内側に、頭部フレーム２２と、頭部載置台２３と、を有する。さらにロボット１００は、右腕部３ａにおける外装部材１０の内側に、右腕部フレーム３２ａと、右腕部載置台３３と、を有し、左腕部３ｂにおける外装部材１０の内側に、左腕部フレーム３２ｂを有する。加えてロボット１００は、右脚部４ａにおける外装部材１０の内側に、右脚部フレーム４２ａを有し、左脚部４ｂにおける外装部材１０の内側に、左脚部フレーム４２ｂを有する。

　胴部フレーム１６、頭部フレーム２２、右腕部フレーム３２ａ、左腕部フレーム３２ｂ、右脚部フレーム４２ａおよび左脚部フレーム４２ｂは、それぞれ複数の柱状部材を組合せて形成された構造体である。胴部載置台１７、頭部載置台２３、および右腕部載置台３３は、載置面を有する板状部材である。胴部載置台１７は胴部フレーム１６に固定され、頭部載置台２３は頭部フレーム２２に固定され、右腕部載置台３３は右腕部フレーム３２ａに固定されている。なお、胴部フレーム１６、頭部フレーム２２、右腕部フレーム３２ａ、左腕部フレーム３２ｂ、右脚部フレーム４２ａおよび左脚部フレーム４２ｂは、複数の板状部材を含む箱状に形成されてもよい。

　右腕部フレーム３２ａは、右腕部連結機構３４ａを介して胴部フレーム１６に連結しており、右腕部サーボモータ３５ａによって駆動されることにより、胴部フレーム１６に対して相対的に変位可能である。右腕部フレーム３２ａが変位することにより、右腕部３ａは胴部１に対して相対的に変位する。右腕部連結機構３４ａは、例えば右腕部サーボモータ３５ａの出力トルクを増加させる減速機を有することが好ましい。

　本実施形態では、右腕部フレーム３２ａは、複数のフレーム部材と、複数の連結機構と、を含む多関節ロボットアームにより構成される。例えば右腕部フレーム３２ａは、右肩部フレームＦ１ａと、右上腕部フレームＦ２ａと、右肘部フレームＦ３ａと、右前腕部フレームＦ４ａと、を有している。胴部フレーム１６、右肩部フレームＦ１ａ、右上腕部フレームＦ２ａ、右肘部フレームＦ３ａおよび右前腕部フレームＦ４ａは、それぞれ連結機構を介して互いに連結している。

　右腕部サーボモータ３５ａは、複数のサーボモータの総称表記である。例えば右腕部サーボモータ３５ａは、右肩部サーボモータＭ１ａと、右上腕部サーボモータＭ２ａと、右肘部サーボモータＭ３ａと、右前腕部サーボモータＭ４ａと、を有している。右肩部サーボモータＭ１ａは、胴部フレーム１６に対して垂直な回転軸回りに右肩部フレームＦ１ａを回動させる。右上腕部サーボモータＭ２ａは、右肩部フレームＦ１ａの回転軸に対して垂直な回転軸回りに右上腕部フレームＦ２ａを回動させる。右肘部サーボモータＭ３ａは、右上腕部フレームＦ２ａの回転軸に対して垂直な回転軸回りに右肘部フレームＦ３ａを回動させる。右前腕部サーボモータＭ４ａは、右肘部フレームＦ３ａの回転軸に対して垂直な回転軸回りに右前腕部フレームＦ４ａを回動させる。

　左腕部フレーム３２ｂは、左腕部連結機構３４ｂを介して胴部フレーム１６に連結しており、左腕部サーボモータ３５ｂによって駆動されることにより、胴部フレーム１６に対して相対的に変位可能である。左腕部フレーム３２ｂが変位することにより、左腕部３ｂは胴部１に対して相対的に変位する。左腕部連結機構３４ｂは、例えば左腕部サーボモータ３５ｂの出力トルクを増加させる減速機を有することが好ましい。

　本実施形態では、左腕部フレーム３２ｂは、複数のフレーム部材と、複数の連結機構と、を含む多関節ロボットアームにより構成される。例えば左腕部フレーム３２ｂは、左肩部フレームＦ１ｂと、左上腕部フレームＦ２ｂと、左肘部フレームＦ３ｂと、左前腕部フレームＦ４ｂと、を有している。胴部フレーム１６、左肩部フレームＦ１ｂ、左上腕部フレームＦ２ｂ、左肘部フレームＦ３ｂおよび左前腕部フレームＦ４ｂは、それぞれ連結機構を介して互いに連結している。

　左腕部サーボモータ３５ｂは、複数のサーボモータの総称表記である。例えば左腕部サーボモータ３５ｂは、左肩部サーボモータＭ１ｂと、左上腕部サーボモータＭ２ｂと、左肘部サーボモータＭ３ｂと、左前腕部サーボモータＭ４ｂと、を有している。左肩部サーボモータＭ１ｂは、胴部フレーム１６に対して垂直な回転軸回りに左肩部フレームＦ１ｂを回動させる。左上腕部サーボモータＭ２ｂは、左肩部フレームＦ１ｂの回転軸に対して垂直な回転軸回りに左上腕部フレームＦ２ｂを回動させる。左肘部サーボモータＭ３ｂは、左上腕部フレームＦ２ｂの回転軸に対して垂直な回転軸回りに左肘部フレームＦ３ｂを回動させる。左前腕部サーボモータＭ４ｂは、左肘部フレームＦ３ｂの回転軸に対して垂直な回転軸回りに左前腕部フレームＦ４ｂを回動させる。

　このように腕部３が４軸の関節部を有することにより、ロボット１００は、よりリアリティが高い動作を実現できる。例えばロボット１００は、比較的長時間優しくハグしてくれた（抱きしめてくれた）ユーザに対して腕部３を動かして優しく「ハグする」ことにより、ユーザの触れ合いイメージに合った行動が可能になる。またロボット１００は、比較的短時間だけさすってくれたユーザに対して腕部３を動かして短時間だけ「さする」ことにより、忙しいユーザの状況に合った行動も可能になる。

　頭部フレーム２２は、頭部連結機構２７を介して胴部フレーム１６に連結しており、頭部サーボモータ３５ｃによって駆動されることにより、胴部フレーム１６に対して相対的に変位可能である。頭部フレーム２２が変位することにより、頭部２は胴部１に対して相対的に変位する。頭部連結機構２７は、例えば頭部サーボモータ３５ｃの出力トルクを増加させる減速機を有することが好ましい。

　本実施形態では、頭部フレーム２２は、頸部フレームＦ１ｃと、顔部フレームＦ２ｃと、を有している。胴部フレーム１６、頸部フレームＦ１ｃおよび顔部フレームＦ２ｃは、それぞれ連結機構を介して互いに連結している。

　頭部サーボモータ３５ｃは、複数のサーボモータの総称表記である。例えば頭部サーボモータ３５ｃは、頸部サーボモータＭ１ｃと、顔部サーボモータＭ２ｃと、を有している。頸部サーボモータＭ１ｃは、胴部フレーム１６に対して垂直な回転軸回りに頸部フレームＦ１ｃを回動させる。顔部サーボモータＭ２ｃは、頸部フレームＦ１ｃの回転軸に対して垂直な回転軸回りに顔部フレームＦ２ｃを回動させる。

　このように頭部２が２軸の関節部を有することにより、ロボット１００は、よりリアリティが高い動作を実現できる。例えばロボット１００は、比較的短時間抱きかかえてくれたユーザに対して頭部２を動かして「顔を見上げる」（注目する）ことにより、ユーザの触れ合い方に合った行動が可能になる。

　右脚部フレーム４２ａは、右脚部連結機構４４ａを介して胴部フレーム１６に連結しており、底面側に右脚部車輪４１ａを有している。ロボット１００の姿勢を安定させるため、ロボット１００は右脚部フレーム４２ａの前後方向に２個の右脚部車輪４１ａを有することが好ましい。右脚部車輪４１ａは、右脚部サーボモータ３５ｄによって駆動されることにより、右脚部フレーム４２ａの前後方向に対して垂直な回転軸回りに回転可能である。右脚部車輪４１ａが回転することにより、ロボット１００の走行が可能になる。右脚部連結機構４４ａは、例えば右脚部サーボモータ３５ｄの出力トルクを増加させる減速機を有することが好ましい。

　左脚部フレーム４２ｂは、左脚部連結機構４４ｂを介して胴部フレーム１６に連結しており、底面側に左脚部車輪４１ｂを有している。ロボット１００の姿勢を安定させるため、ロボット１００は左脚部フレーム４２ｂの前後方向に２個の左脚部車輪４１ｂを有することが好ましい。左脚部車輪４１ｂは、左脚部サーボモータ３５ｅによって駆動されることにより、左脚部フレーム４２ｂの前後方向に対して垂直な回転軸回りに回転可能である。左脚部車輪４１ｂが回転することにより、ロボット１００は走行が可能になる。左脚部連結機構４４ｂは、例えば左脚部サーボモータ３５ｅの出力トルクを増加させる減速機を有することが好ましい。

　本実施形態では、右脚部車輪４１ａおよび左脚部車輪４１ｂを同時に前転または後転させることにより、ロボット１００は前進または後進する。右脚部車輪４１ａと左脚部車輪４１ｂのいずれか一方をブレーキにより制動させ、他方を前転または後転させることにより、ロボット１００は右旋回または左旋回する。

　このように脚部４により、ロボット１００は、よりリアリティが高い動作を実現できる。例えばロボット１００は、比較的長時間なででくれたユーザに対して脚部４を動かして「身体を預ける」ことにより、ユーザの触れ合いイメージに合った行動が可能になる。

　カメラ１１は、胴部フレーム１６に固定されている。触覚センサ１２、制御部１３、バイタルセンサ１４およびバッテリ１５は、胴部載置台１７に固定されている。制御部１３およびバッテリ１５は、胴部載置台１７における触覚センサ１２およびバイタルセンサ１４が固定された側とは反対側に固定されている。なお、ここでの制御部１３およびバッテリ１５の配置は、胴部載置台１７上に配置可能なスペースの都合であって、必ずしも上記に限定されない。但し、胴部載置台１７における触覚センサ１２およびバイタルセンサ１４が固定された側とは反対側にバッテリ１５を固定すると、バッテリ１５は他の構成部と比較して重いため、ロボット１００の重心が低くなる。ロボット１００の重心が低いと、ロボット１００の位置および姿勢の少なくとも１つが安定し、かつバッテリ１５の充電および交換の少なくとも１つが行いやすくなるため好ましい。

　第１静電容量センサ２１は、頭部載置台２３に固定され、第２静電容量センサ３１は右腕部載置台３３に固定されている。ディスプレイ２４は、右眼ディスプレイ２４ａと、左眼ディスプレイ２４ｂと、を有している。右眼ディスプレイ２４ａ、左眼ディスプレイ２４ｂおよびスピーカ２５は、頭部フレーム２２に固定されている。ライト２６は、右頬ライト２６ａと、左頬ライト２６ｂと、を有している。右頬ライト２６ａおよび左頬ライト２６ｂは、頭部フレーム２２に固定されている。

　なお、カメラ１１、触覚センサ１２、制御部１３、バイタルセンサ１４、バッテリ１５、第１静電容量センサ２１、第２静電容量センサ３１等の固定は、ネジ部材または接着部材等により行うことができる。また右眼ディスプレイ２４ａ、左眼ディスプレイ２４ｂ、スピーカ２５、右頬ライト２６ａ、左頬ライト２６ｂ等の固定も、ネジ部材または接着部材等により行うことができる。

　胴部フレーム１６、胴部載置台１７、頭部フレーム２２、頭部載置台２３、右腕部フレーム３２ａ、右腕部載置台３３および左腕部フレーム３２ｂの各材質に特段の制限はなく、樹脂材料または金属材料等を使用できる。但し、駆動時における強度を確保する観点では、胴部フレーム１６、右腕部フレーム３２ａおよび左腕部フレーム３２ｂには、アルミニウム等の金属材料を用いることが好ましい。一方、強度を確保可能であれば、ロボット１００を軽量化するために、これら各部の材料には樹脂材料を用いることが好ましい。胴部載置台１７、頭部フレーム２２、頭部載置台２３、右腕部載置台３３および左腕部フレーム３２ｂの各材質にも特段の制限はなく、樹脂材料または金属材料を使用できるが、ロボット１００を軽量化する観点では、樹脂材料を用いることが好ましい。

　制御部１３は、カメラ１１、触覚センサ１２、バイタルセンサ１４、第１静電容量センサ２１、第２静電容量センサ３１、右腕部サーボモータ３５ａおよび左腕部サーボモータ３５ｂのそれぞれと、有線または無線により通信可能に接続している。また制御部１３は、頭部サーボモータ３５ｃ、右脚部サーボモータ３５ｄおよび左脚部サーボモータ３５ｅのそれぞれにも、有線または無線により通信可能に接続している。さらに制御部１３は、右眼ディスプレイ２４ａ、左眼ディスプレイ２４ｂ、スピーカ２５、右頬ライト２６ａおよび左頬ライト２６ｂのそれぞれにも、有線または無線により通信可能に接続している。

　カメラ１１は、ロボット１００周辺の撮影画像を制御部１３に出力するイメージセンサである。本実施形態では、カメラ１１は、ユーザを撮影する撮影部の一例である。カメラ１１は、レンズと、該レンズによる像を撮像する撮像素子と、を含んでいる。撮像素子にはＣＣＤ（Charge Coupled Device）またはＣＭＯＳ（Complementary Metal-Oxide Semiconductor）等を使用できる。撮影画像は、静止画または動画のいずれであってもよい。

　またカメラ１１は、ロボット１００周辺の距離画像を制御部１３に出力するＴＯＦ（Time Of Flight）カメラにより構成されることが好ましい。したがって、カメラ１１から出力される撮影画像は、二次元の撮影画像に加えてまたは二次元の撮像画像の代わりに、三次元の撮影画像（距離画像）を含むこともある。撮影画像は、ユーザの存在または接近の検出、ロボット１００からユーザまでの距離の検出、ユーザの認証、またはユーザの感情の推定等に用いられる。撮影画像は、ユーザの顔画像の一例である。またロボット１００は、カメラ１１に加えて、超音波センサ、赤外線センサ、ミリ波レーダーまたはＬｉＤＡＲ（light Detection And Raging）等の人感センサを備えていてもよい。

　触覚センサ１２は、人間の手等に備わっている触覚が感じとる情報を検出し、電気信号である触覚信号に変換して制御部１３に出力するセンサ素子である。触覚センサ１２は、ロボット１００の触り心地を良好にする観点において、ユーザの触感を邪魔しないように構成されることが好ましい。例えば、触覚センサ１２は可撓性を有するように構成され、ロボット１００の外装部材１０の変形に対し、追従して変形可能に構成されることが好ましい。例えば触覚センサ１２は、ユーザがロボット１００に接触することにより生じた圧力や振動の情報を圧電素子によって触覚信号に変換して制御部１３に出力する。触覚センサ１２から出力された触覚信号は、ロボット１００に対するユーザの接触に関する情報の一例である。

　バイタルセンサ１４は、電磁波を利用してユーザの生体情報を取得する電磁波センサの一例である。バイタルセンサ１４については、図４を参照して別途詳述する。

　第１静電容量センサ２１および第２静電容量センサ３１は、ユーザがロボット１００に接触または近接したことを静電容量の変化に基づき検出した静電容量信号を制御部１３に出力するセンサ素子である。第１静電容量センサ２１および第２静電容量センサ３１は、ロボット１００の触り心地を良好にする観点において、ユーザの触感を邪魔しないように構成されることが好ましい。例えば第１静電容量センサ２１および第２静電容量センサ３１は、外装部材１０に網の目状に固定された導電糸等を含む可撓性のセンサとして構成される。なお、第１静電容量センサ２１および第２静電容量センサ３１から出力された静電容量信号は、ロボット１００に対するユーザの接触に関する情報の一例である。

　なお、「ユーザの接触に関する情報」は、触覚信号または静電容量信号等のユーザの接触を検知するセンサの情報から検出される、接触部位、接触範囲、接触時間および接触強度のうちの少なくとも一つに関する情報を含む。これら接触部位、接触範囲、接触時間および接触強度に関する情報は、次のように定義される。

　「接触部位」に関する情報は、例えば１回のユーザによる触れ合いにおいてユーザにより触れられたロボット１００の身体部位の情報である。例えばユーザがロボット１００の頭部２をなでた場合は、「接触部位」は頭部２になり、例えばユーザがロボット１００をハグした場合は、「接触部位」は、胴部１および腕部３になる。また「接触部位」は、１回のユーザによる触れ合いにおいて時間と共に変化することがあるが、この場合、接触部位の数が最大となるロボット１００の身体部位でよい。なお、「１回のユーザによる触れ合い」とは、ユーザがロボット１００に触れてから所定の時間（例えば１秒間）離れるまでの接触の継続期間である。例えばユーザがロボット１００を連続して２回タッチしても、１回目のタッチと２回目のタッチの間が所定の時間以上（例えば１秒以上）空いていなければ、１回の触れ合いになる。

　また「接触部位」に関する情報は、胴部１、頭部２、腕部３または脚部４等のように大分類ではなく、これらの中分類または小分類であることが好ましい。例えば「接触部位」は、胸部、腹部、背中部および腰部等のように胴部１の中分類または小分類であり、眼部、鼻部、口部、顎部、頬部、額部、頭頂部、側頭部および後頭部等のように頭部２の中分類または小分類である。また例えば「接触部位」は、右腕部３ａまたは左腕部３ｂの肩部、上腕部、前腕部および手部等のように腕部３の中分類または小分類であり、右脚部４ａまたは左脚部４ｂの大腿部、膝部、下腿部および足部等のように脚部４の中分類または小分類である。したがって、触覚センサ１２、第１静電容量センサ２１および第２静電容量センサ３１は、大分類、中分類または小分類の身体部位を検知できることが好ましい。

　「接触範囲」に関する情報は、例えば１回のユーザによる触れ合いにおいてユーザにより触れられたロボット１００の表面領域および表面積の少なくとも一方の情報である。例えばユーザがロボット１００をハグした場合、「接触範囲」は、胸部（胴部１）－＞右上腕部および左上腕部（腕部３）－＞背部（胴部１）といったユーザにより触れられたロボット１００の身体部位の連結情報を含む表面領域になる。またユーザがロボット１００をハグした場合、「接触範囲」は、胸部（胴部１）と、右上腕部（腕部３）と、左上腕部（腕部３）と、背部（胴部１）とにおいてユーザによりそれぞれ触れられたロボット１００の各表面積を合計した表面積になる。また「接触範囲」は、１回のユーザによる触れ合いにおいて時間と共に変化することがあるが、この場合、１回のユーザによる触れ合いにおいて接触範囲が最大となるロボット１００の接触範囲でよい。

　「接触時間」に関する情報は、例えば１回のユーザによる触れ合いにおける継続時間の情報である。「接触時間」は、ユーザがロボット１００の一つの身体部位を継続的に触れた継続時間ではなく、例えばユーザがロボット１００の腕部３をさすった後にすぐハグをした場合は、ユーザがロボット１００をさすってからハグを終えるまでの継続期間になる。また「接触時間」に関する情報には、ロボット１００に対するユーザの接触速度および接触加速度のうちの少なくとも一方が含まれていてもよい（以下、ユーザの「接触変化率」と称する。）。さらに「接触時間」に関する情報には、ユーザが１日当たりにハグした回数またはユーザが１日当たりになでた回数等のユーザの触れ合い方の頻度が含まれていてもよい。

　「接触強度」に関する情報は、例えば１回のユーザによる触れ合いにおいてユーザがロボット１００の表面に加えた強さの情報である。例えばユーザがロボット１００をハグした場合、「接触強度」は、胸部（胴部１）と、右上腕部（腕部３）と、左上腕部（腕部３）と、背中部（胴部１）と、においてユーザによりそれぞれ加えられた強さの最大値または平均値である。また「接触強度」は、１回のユーザによる触れ合いにおいて時間と共に変化することがあるが、この場合、１回のユーザによる触れ合いにおいてユーザにより加えられた強さの最大値または平均値でよい。

　右眼ディスプレイ２４ａおよび左眼ディスプレイ２４ｂは、制御部１３からの指令に応じて、文字、数字および記号等の文字列または画像を表示するディスプレイモジュールである。右眼ディスプレイ２４ａおよび左眼ディスプレイ２４ｂは、例えば液晶ディスプレイモジュールにより構成される。右眼ディスプレイ２４ａおよび左眼ディスプレイ２４ｂに表示される文字列または画像は、ロボット１００の感情表現に用いられる。例えばロボット１００は、比較的短時間強く抱きかかえたユーザに対して「表情を変える」（目を開閉する）画像を右眼ディスプレイ２４ａおよび左眼ディスプレイ２４ｂに表示することにより、ユーザの触れ合い方に合った行動が可能になる。

　スピーカ２５は、制御部１３からの音声信号を増幅して音声を出力するスピーカユニットである。スピーカ２５から出力される音声は、ロボット１００の言葉または鳴き声であり、ロボット１００の感情表現に用いられる。例えばロボット１００は、ワンタッチしてくれたユーザに対してスピーカ２５から「声を出す」（呼びかける）ことにより、ユーザの触れ合い方に合った行動が可能になる。

　右頬ライト２６ａおよび左頬ライト２６ｂは、制御部１３からのオンオフ信号に応じて明滅または色変更するライトモジュールである。右頬ライト２６ａおよび左頬ライト２６ｂは、例えばＬＥＤ（Light Emitting Diode）ライトモジュールにより構成される。右頬ライト２６ａおよび左頬ライト２６ｂの明滅または色変更は、ロボット１００の感情表現に用いられる。例えばロボット１００は、抱きかかえてくれたユーザに対して右頬ライト２６ａおよび左頬ライト２６ｂを赤色に明滅させることにより、ユーザの触れ合い方に合った行動が可能になる。

　バッテリ１５は、カメラ１１、触覚センサ１２、制御部１３、バイタルセンサ１４、第１静電容量センサ２１、第２静電容量センサ３１、右腕部サーボモータ３５ａおよび左腕部サーボモータ３５ｂそれぞれに電力を供給する電源である。またバッテリ１５は、頭部サーボモータ３５ｃ、右脚部サーボモータ３５ｄおよび左脚部サーボモータ３５ｅのそれぞれにも電力を供給する。さらにバッテリ１５は、右眼ディスプレイ２４ａ、左眼ディスプレイ２４ｂ、スピーカ２５、右頬ライト２６ａおよび左頬ライト２６ｂのそれぞれにも電力を供給する。バッテリ１５には、リチウムイオン電池、リチウムポリマー電池等の各種二次電池を使用できる。

　なお、ロボット１００における触覚センサ１２、第１静電容量センサ２１、第２静電容量センサ３１、カメラ１１およびバイタルセンサ１４の設置位置は適宜変更可能である。さらにカメラ１１およびバイタルセンサ１４等の各種センサは、ロボット１００の外側に配置して無線を介してロボット１００または外部装置に必要な情報を送信してもよい。例えばＰＣ（Personal Computer）またはサーバにより構成される学習装置は、外部装置の一例である。

　また、ロボット１００は、制御部１３を必ずしも外装部材１０の内側に有さなくてもよく、制御部１３は外装部材１０の外側から無線を介して各機器と通信することもできる。バッテリ１５は、外装部材１０の外側から各構成部に電力供給することもできる。

　本実施形態では、頭部２、腕部３および脚部４が変位可能である構成を例示しているが、これに限定されるものではなく、頭部２、腕部３および脚部４の少なくとも１つが変位可能であってもよい。また腕部３は、４軸の多関節ロボットアームにより構成されているが、６軸の多関節ロボットアームにより構成されてもよい。さらに腕部３は、ハンド等のエンドエフェクタを連結可能であることが好ましい。また脚部４は、車輪方式により構成されているが、クローラ方式または脚方式により構成可能である。

　ロボット１００の構成および形状も、本実施形態で例示するものに限定されず、ユーザの嗜好やロボット１００の使用形態等に応じて適宜変更可能である。例えばロボット１００は、子熊を模した形態ではなく、産業用ロボット等のロボットアームの形態でもよいし、またはヒューマノイド等の人型の形態でもよい。またロボット１００は、アーム、ディスプレイ、スピーカおよびライト等の少なくとも一つを有するドローンまたは車両等の移動装置の形態でもよい。

　＜バイタルセンサ１４の構成例＞
　図４は、バイタルセンサ１４の構成を例示する図である。バイタルセンサ１４は、マイクロ波発射部１４１と、マイクロ波受信部１４２と、有するマイクロ波ドップラーセンサである。マイクロ波は電磁波の一例である。

　バイタルセンサ１４は、ロボット１００における外装部材１０の内側から、マイクロ波発射部１４１によって、ユーザ２００に向けてマイクロ波である発射波Ｍｓを発射する。またバイタルセンサ１４は、発射波Ｍｓがユーザ２００により反射された反射波Ｍｒを、マイクロ波受信部１４２により受信する。

　バイタルセンサ１４は、発射波Ｍｓの周波数と反射波Ｍｒの周波数との差から、ドップラー効果を利用して、ユーザ２００の心臓の拍動等により体表面に生じる微小変位を非接触で検出する。バイタルセンサ１４は、検出した微小変位からユーザ２００の生体情報としての心拍、呼吸、脈波、血圧等の情報を取得し、取得した生体情報を制御部１３に出力できる。

　但し、バイタルセンサ１４は、マイクロ波ドップラーセンサに限定されるものではなく、人体とアンテナの結合の変化を利用して体表面に生じる微小な変位を検出するものであってもよいし、近赤外光等のマイクロ波以外の電磁波を利用するものであってもよい。またバイタルセンサ１４は、ミリ波レーダー、マイクロ波レーダー等であってもよい。さらにバイタルセンサ１４は、ドップラーセンサに加え、ユーザ２００から発する赤外線等を検知する非接触体温計を兼ね備えていることが好ましい。この場合、バイタルセンサ１４は、心拍（脈拍）、呼吸、血圧および体温のうちの少なくとも一つに関する情報を含んだユーザ２００の生体情報を検知する。

　本実施形態では、外装部材１０の内側にバイタルセンサ１４が設けられているため、ユーザ２００は、バイタルセンサ１４を視認することはできない。これにより、生体情報を検出されることに対するユーザ２００の抵抗感が抑制され、生体情報の円滑な取得が可能になる。また、バイタルセンサ１４は非接触で生体情報を取得できるため、ユーザが同じ場所に一定期間接触することが求められる接触式のセンサとは異なり、ユーザがある程度動いたとしても生体情報を取得できる。

　また、ロボット１００の抱擁動作等によってユーザ２００とロボット１００との触れ合いを促進することにより、ロボット１００は、ユーザ２００に抱きかかえられ、ユーザ２００に接触または近接した状態で生体情報を取得できる。これにより、ロボット１００は、ノイズが抑制された信頼性が高い生体情報を取得できる。

　＜制御部１３の構成例＞
　（ハードウェア構成例）
　図５は、制御部１３のハードウェア構成を示すブロック図である。制御部１３は、コンピュータによって構築されており、ＣＰＵ(Central Processing Unit)１３１と、ＲＯＭ(Read Only Memory)１３２と、ＲＡＭ(Random Access Memory)１３３と、を有する。また制御部１３は、ＨＤＤ／ＳＳＤ(Hard Disk Drive／Solid State Drive)１３４と、機器接続Ｉ／Ｆ(Interface)１３５と、通信Ｉ／Ｆ１３６と、を有する。これらは、システムバスＡを介して相互に通信可能に接続している。

　ＣＰＵ１３１は、各種の演算処理を含む制御処理を実行する。ＲＯＭ１３２は、ＩＰＬ(Initial Program Loader)等のＣＰＵ１３１の駆動に用いられるプログラムを記憶する。ＲＡＭ１３３は、ＣＰＵ１３１のワークエリアとして使用される。ＨＤＤ／ＳＳＤ１３４は、プログラム等の各種情報、カメラ１１により取得された撮像画像、バイタルセンサ１４により取得された生体情報等の各種センサによる検出情報等を記憶する。

　機器接続Ｉ／Ｆ１３５は、制御部１３を各種の外部機器と接続するためのインターフェースである。ここでの外部機器は、カメラ１１、触覚センサ１２、バイタルセンサ１４、第１静電容量センサ２１、第２静電容量センサ３１、サーボモータ３５およびバッテリ１５等である。また外部機器には、ディスプレイ２４、スピーカ２５およびライト２６等も含まれる。

　ここでサーボモータ３５は、右腕部サーボモータ３５ａ、左腕部サーボモータ３５ｂ、頭部サーボモータ３５ｃ、右脚部サーボモータ３５ｄおよび左脚部サーボモータ３５ｅの総称表記である。またディスプレイ２４は、右眼ディスプレイ２４ａおよび左眼ディスプレイ２４ｂの総称表記である。さらにライト２６は、右頬ライト２６ａおよび左頬ライト２６ｂの総称表記である。

　通信Ｉ／Ｆ１３６は、通信ネットワーク等を介して、外部装置との間で通信するためのインターフェースである。例えば、制御部１３は、通信Ｉ／Ｆ１３６を介してインターネットに接続し、インターネットを介して外部装置との間で通信する。

　なお、ＣＰＵ１３１により実現される機能の少なくとも一部は、電気回路または電子回路により実現されてもよい。

　（機能構成例）
　図６は、制御部１３の機能構成を示すブロック図である。制御部１３は、取得部１０１と、通信制御部１０２と、格納部１０３と、認証部１０４と、登録部１０５と、開始制御部１０６と、モータ制御部１０７と、出力部１０８と、を有する。さらに制御部１３は、検出部１１０、推定部１１１と、行動制御部１１２と、を有する。

　制御部１３は、取得部１０１および出力部１０８の各機能を機器接続Ｉ／Ｆ１３５等により実現し、通信制御部１０２の機能を通信Ｉ／Ｆ１３６等により実現できる。また、制御部１３は、格納部１０３および登録部１０５の各機能をＨＤＤ／ＳＳＤ１３４等の不揮発性メモリにより実現できる。さらに認証部１０４、開始制御部１０６およびモータ制御部１０７の各機能を、ＣＰＵ１３１等のプロセッサがＲＯＭ１３２等の不揮発性メモリに格納されたプログラムに規定された処理を実行すること等により実現できる。

　また検出部１１０、推定部１１１および行動制御部１１２の各機能を、ＣＰＵ１３１等のプロセッサがＲＯＭ１３２等の不揮発性メモリに格納されたプログラムに規定された処理を実行すること等により実現できる。なお、制御部１３が有する上記機能の一部は、ＰＣまたはサーバ等の外部装置により実現されてもよいし、制御部１３と外部装置との分散処理により実現されてもよい。例えば推定部１１１は、ロボット１００に通信可能に接続する学習装置として構成されてもよい。

　取得部１０１は、制御部１３とカメラ１１との間での通信を制御することにより、カメラ１１からユーザ２００を写した撮影画像Ｉｍを取得する。また取得部１０１は、制御部１３と触覚センサ１２との間での通信を制御することにより、触覚センサ１２から触覚信号Ｓを取得する。さらに取得部１０１は、制御部１３とバイタルセンサ１４との間での通信を制御することにより、バイタルセンサ１４からユーザ２００の生体情報Ｂを取得する。

　また取得部１０１は、制御部１３と第１静電容量センサ２１との間での通信を制御することにより、第１静電容量センサ２１から第１静電容量信号Ｃ１を取得する。また取得部１０１は、制御部１３と第２静電容量センサ３１との間での通信を制御することにより、第２静電容量センサ３１から第２静電容量信号Ｃ２を取得する。

　通信制御部１０２は、通信ネットワーク等を介して外部装置との間で通信を制御する。例えば通信制御部１０２は、カメラ１１により取得された撮影画像Ｉｍ、バイタルセンサ１４により取得された生体情報Ｂ、触覚センサ１２により取得された触覚信号Ｓ等を、通信ネットワークを介して外部装置（例えば後述の学習装置）に送信できる。

　格納部１０３は、バイタルセンサ１４により取得された生体情報Ｂを格納する。格納部１０３は、取得部１０１がバイタルセンサ１４から生体情報Ｂを取得している間、取得される生体情報Ｂを連続して格納する。また格納部１０３は、カメラ１１による撮影画像Ｉｍ、触覚センサ１２からの触覚信号Ｓ、第１静電容量センサ２１からの第１静電容量信号Ｃ１、および第２静電容量センサ３１からの第２静電容量信号Ｃ２から得られる情報も格納できる。

　認証部１０４は、カメラ１１によるユーザ２００の撮影画像Ｉｍに基づいてユーザ２００を個人認証する。例えば認証部１０４は、カメラ１１により撮影されたユーザ２００の顔を含む撮影画像Ｉｍに基づき、登録部１０５に予め登録された顔画像の登録情報１０９を参照して顔認証する。これにより、現在、ロボット１００に接触または近接しているユーザ２００と、予め登録された個人情報と、を対応付け、バイタルセンサ１４により取得される生体情報Ｂと、該個人情報と、を対応付けることができる。また、制御部１３は、撮影画像Ｉｍに含まれる顔画像が登録部１０５に登録されていない場合には、バイタルセンサ１４による生体情報の取得開始を中止するように制御することもできる。

　開始制御部１０６は、バイタルセンサ１４に生体情報Ｂの取得を開始させる。例えば、開始制御部１０６は、検出部１１０により、ロボット１００に対するユーザ２００の接触または近接が検出された場合に、バッテリ１５からバイタルセンサ１４へ電力供給するスイッチ等をオンする。これにより開始制御部１０６は、バイタルセンサ１４に生体情報Ｂの取得を開始させる。

　検出部１１０は、カメラ１１による撮影画像Ｉｍ等に基づき、ロボット１００周辺のユーザ２００の存在または接近を検出する。検出部１１０は、カメラ１１による撮影画像Ｉｍ（距離画像）に基づき、ロボット１００からユーザ２００までの距離を検出することが好ましい。また検出部１１０は、触覚センサ１２からの触覚信号Ｓに基づき、ロボット１００に対するユーザ２００の接触に関する情報を検出する。さらに検出部１１０は、第１静電容量信号Ｃ１または第２静電容量信号Ｃ２に基づき、ロボット１００に対するユーザ２００の接触に関する情報を検出してもよい。

　推定部１１１は、ロボット１００に対するユーザ２００の接触に関する情報に基づき、ユーザ２００の触れ合い方の状態ｓｔ（ｔは時刻）に適したロボット１００の所定の行動ａｎ（ｎは行動ａの識別番号）を推定する。本実施形態において、推定部１１１は、強化学習を行ってユーザ２００の触れ合い方の状態ｓｔに適したロボット１００の所定の行動ａｔ（ｔは時刻）を推定する。但し、推定部１１１は、教師あり学習、半教師あり学習または教師なし学習等の他の機械学習を行ってユーザ２００の触れ合い方の状態ｓｔに適したロボット１００の所定の行動ａｔを推定してもよい。

　強化学習を行う推定部１１１の構成については、図８を参照して別途詳述する。また教師あり学習を行う推定部１１１の構成については、図１３を参照して別途詳述する。さらに推定部１１１は、学習が収束した場合には、学習済の学習モデル（本実施形態では学習済の行動価値テーブルまたは学習済のニューラルネットワーク）を用いてユーザ２００の触れ合い方の状態ｓｔに適したロボット１００の行動ａｔを推定してもよい。この場合、推定部１１１は、所定のロジックまたは所定のアルゴリズムによりユーザ２００の触れ合い方の状態ｓｔに適したロボット１００の所定の行動ａｔを推定することになる。

　行動制御部１１２は、モータ制御部１０７または出力部１０８に対してロボット１００の行動ａｔの実行を指令する。また行動制御部１１２は、ユーザ２００の触れ合い方の状態ｓｔに応じてユーザ２００の良好な反応を誘発する所定の行動ａｔの実行を指令する。ロボット１００がユーザ２００の触れ合い方に合った所定の行動ａｔを行うことにより、ユーザ２００にとって違和感のある行動を低減することができる。ひいてはロボット１００がユーザ２００に長期的に触れ合ってもらえるようになり、ユーザ２００に癒しを提供することができる。

　なお、ロボット１００の所定の行動ａｔは、例えばユーザ２００が比較的長時間ハグした時の反応として、比較的長時間「ハグする」等のようにユーザ２００の触れ合い方を模倣した行動であることが好ましい。またロボット１００の所定の行動ａｔは、ユーザ２００による触れ合いの継続時間と、ユーザ２００の接触変化率（接触速度または接触加速度）と、ユーザ２００の接触強度とのうちの少なくとも一つを模倣した行動であることが好ましい。

　またロボット１００の所定の行動ａｔは、例えばユーザ２００が比較的短時間ワンタッチした時の反応として比較的短時間「表情を変える」（頬を明滅するまたは目で笑う）等のように忙しいユーザ２００の状況に合った行動であることが好ましい。さらにロボット１００の所定の行動ａｔは、例えばユーザ２００が比較的短時間優しく頭をなでた時の反応として、比較的短時間「声を出す」（呼びかける声を出す）等のようにユーザ２００の触れ合い方に合った行動であることが好ましい。またロボット１００の所定の行動ａｔは、例えばユーザ２００にたたかれた時の反応として、「怯える」または「表情を変える」（涙を流すまたは目を開閉する）等のようにユーザ２００の戯れ方または遊び方に合った行動であることが好ましい。

　格納部１０３は、事前に定義されたロボット１００の行動ａｎに関する情報を格納する。ロボット１００の行動ａｎに関する情報は、例えばデータベースのテーブルにより管理される。以下の表１Ａおよび表１Ｂは、ロボット１００の行動ａｎに関する行動テーブルＴＢ１の一例である。行動テーブルＴＢ１は、ロボット１００の行動ａｎを識別する行動ＩＤと、ロボット１００の行動内容と、行動ａｎの指令内容と、１サイクル当たりの行動時間と、用途例と、を有する。

　表１Ａおよび表１Ｂにおける指令内容における符号は、制御対象の符号を表す。また教示指令とは、オフラインティーチング、オンラインティーチングまたはダイレクトティーチング等の教示方法を用いて事前に教示される動作指令である。また追尾指令とは、撮影画像Ｉｍ（距離画像）等の各種センサ情報に基づき、ユーザ２００の位置および姿勢を追尾する動作指令である。

　モータ制御部１０７は、行動制御部１１２からのロボット１００の行動ａｔの指令内容に応じて、サーボモータ３５の駆動を制御する。ロボット１００の行動内容が例えば「ハグする」の場合、モータ制御部１０７は、追尾指令によりユーザ２００の位置および姿勢に対するロボット１００の位置および姿勢を制御した後、事前に教示された「ハグする」動作指令を実行する。

　出力部１０８は、行動制御部１１２からのロボット１００の行動ａｔの実行の指令に応じて、制御部１３とディスプレイ２４との間で通信を制御する。ロボット１００の行動内容が例えば「目で笑う」の場合、出力部１０８は、笑顔の画像の表示指令を右眼ディスプレイ２４ａおよび左眼ディスプレイ２４ｂに出力する。

　また出力部１０８は、行動制御部１１２からのロボット１００の行動ａｔの実行の指令に応じて、制御部１３とスピーカ２５との間で通信を制御する。ロボット１００の行動内容が例えば「（呼びかける）声を出す」の場合、出力部１０８は、呼びかける音声出力信号をスピーカ２５に出力する。

　さらに出力部１０８は、行動制御部１１２からのロボット１００の行動ａｔの実行の指令に応じて、制御部１３とライト２６との間で通信を制御する。ロボット１００の行動内容が例えば「頬を明滅する」の場合、出力部１０８は、オンオフ信号を右頬ライト２６ａおよび左頬ライト２６ｂのスイッチング素子に出力する。

　＜推定部１１１の構成＞
　（ハードウェア構成例）
　図７は、推定部１１１のハードウェア構成を示すブロック図である。図７は、図６に示す推定部１１１を、ロボット１００に通信可能に接続する学習装置３００として構成した例を示している。但し、推定部１１１の機能は、図６に示すようにロボット１００の内部に設けてもよい。

　推定部１１１は、コンピュータによって構築されており、ＣＰＵ３０１と、ＲＯＭ３０２と、ＲＡＭ３０３と、ＨＤＤ／ＳＳＤ３０４と、機器接続Ｉ／Ｆ３０５と、通信Ｉ／Ｆ３０６と、を有する。これらは、システムバスＡ′を介して相互に通信可能に接続している。なお、コンピュータの学習処理能力を向上させるため、学習装置３００は、ＧＰＵ（Graphics Processing Unit）を有するか、または複数のコンピュータを有するＰＣクラスタ等により構成されることが好ましい。

　ＣＰＵ３０１は、各種の演算処理を含む制御処理を実行する。ＲＯＭ３０２は、ＩＰＬ(Initial Program Loader)等のＣＰＵ３０１の駆動に用いられるプログラムを記憶する。ＲＡＭ３０３は、ＣＰＵ３０１のワークエリアとして使用される。ＨＤＤ／ＳＳＤ３０４は、プログラム等の各種情報、カメラ１１により取得された撮像画像Ｉｍ、バイタルセンサ１４により取得された生体情報Ｂ、または各種センサによる検出情報等を記憶する。

　機器接続Ｉ／Ｆ３０５は、推定部１１１を各種の外部機器と接続するためのインターフェースである。ここでの外部機器は、カメラ１１、触覚センサ１２、バイタルセンサ１４、第１静電容量センサ２１、第２静電容量センサ３１等である。但し、推定部１１１は、後述の通信Ｉ／Ｆ３０６を介して、これら各種センサの検出情報等をロボット１００から取得してもよい。

　通信Ｉ／Ｆ３０６は、通信ネットワーク等を介して、ロボット１００等の外部装置との間で通信するためのインターフェースである。例えば推定部１１１は、通信Ｉ／Ｆ１３６によりインターネットに接続し、インターネットを介して外部装置との間で通信する。また推定部１１１は、通信Ｉ／Ｆ３０６により外部装置と直接的に無線通信を行う。

　なお、ＣＰＵ３０１により実現される機能の少なくとも一部は、電気回路または電子回路により実現されてもよい。

　（機能構成例）
　図８は、推定部１１１の機能構成を示すブロック図である。推定部１１１は、状態観測部１２１と、行動決定部１２２と、結果取得部１２３と、学習部１２４と、通信制御部１２５と、格納部１２６と、を有する。なお、推定部１１１の機能をロボット１００の内部に設ける場合は、通信制御部１２５および格納部１２６が不要になる。また推定部１１１が学習済の学習モデルＬＭを用いてまたは所定のアルゴリズムに基づいてユーザ２００の触れ合い方の状態ｓｔに適したロボット１００の行動ａｔを推定する場合、結果取得部１２３および学習部１２４が不要になる。

　状態観測部１２１、行動決定部１２２、結果取得部１２３および学習部１２４の各種機能は、ＣＰＵ３０１等のプロセッサがＲＯＭ３０２等の不揮発性メモリに格納されたプログラムに規定された処理を実行すること等により実現できる。また通信制御部１２５の機能は、通信Ｉ／Ｆ３０６等により実現できる。さらに格納部１２６の機能は、ＨＤＤ／ＳＤＤ３０４等の不揮発性メモリにより実現できる。

　本実施形態の推定部１１１は、強化学習を行ってユーザ２００の触れ合い方の状態ｓｔに適したロボット１００の行動ａｔを推定する。強化学習のアルゴリズムとしては、Ｑ学習、Ｓａｒｓａ、モンテカルロ法および深層強化学習（ＤＱＮ（Deep-Q-Network）を用いた強化学習）等のうちのいずれか一つを用いることができる。以下では、Ｑ学習および深層強化学習を例示して説明する。

　状態観測部１２１は、ユーザ２００の状態ｓｔを観測するための各種処理を実行する。状態観測部１２１は、ロボット１００に対するユーザ２００の接触に関する情報に基づき、ユーザ２００の触れ合い方の状態ｓｔを観測する。本例のユーザ２００の接触に関する情報は、触覚信号Ｓであるが、第１静電容量信号Ｓ１または第２静電容量信号Ｓ２でもよい。

　状態観測部１２１は、触れ合い方推定部１５１を有する。触れ合い方推定部１５１は、状態観測部１２１における一処理を担当する。触れ合い方推定部１５１の機能は、学習装置３００に通信可能に接続する別の外部装置が担当してもよい。触れ合い方推定部１５１は、ユーザ２００の接触に関する情報に基づき、ユーザ２００の触れ合い方の状態ｓｔを推定する。ユーザ２００の触れ合い方は、ロボット１００における接触部位、接触範囲、接触時間および接触強度のうちの少なくとも一つに関する情報に基づき、所定の状態に分類される。例えばユーザ２００の触れ合い方は、「ハグする」、「タッピングする」、「さする」、「たたく」、「押す」、「手を握る」、「顔を擦り付ける」、「なでる」および「お手をする」等のうちのいずれか一つを含む所定の状態ｓｎに分類される。なお、ユーザ２００の触れ合い方は、表１Ａおよび表１Ｂに示すロボット１００の行動内容と実質的に同じでよい。

　触れ合い方推定部１５１は、学習済の学習モデルを用いてまたは機械学習を行いながら触れ合い方の推定を行う。例えば触れ合い方推定部１５１は、教師データを用いて、入力をユーザ２００の接触に関する情報（接触部位、接触範囲および接触時間に関する情報）とし、出力をユーザ２００の触れ合い方としたニューラルネットワークの学習モデルを深層学習する。これにより、ユーザ２００がハグした時の新たな接触に関する情報をニューラルネットワークの学習モデルに入力してＡＩ（人工知能）解析すると、ユーザ２００の触れ合い方を「ハグする」に分類することができる。

　格納部１２６は、ユーザ２００の触れ合い方の状態ｓｎ（ｎは状態ｓの識別番号）に関する情報を格納する。触れ合い方の状態ｓｎに関する情報は、例えばデータベースのテーブルにより管理される。以下の表２は、ユーザ２００の触れ合い方の状態ｓｎに関する状態テーブルＴＢ２の一例である。状態テーブルＴＢ２は、ユーザ２００の触れ合い方の状態ｓｎを識別する状態ＩＤと、ユーザ２００の触れ合い方の状態内容と、を有する。ユーザ２００の触れ合い方の状態ｓｎは、事前に定義されたユーザ２００の触れ合い方の種類の数だけ存在する。なお、推定部１１１の機能がロボット１００の内部に設けられる場合、ロボット１００の格納部１０３が状態テーブルＴＢ２を格納する。

　なお、ユーザ２００の触れ合い方の状態内容は、ユーザ２００の触れ合い方と、接触時間および接触強度と、を有するが、ロボット１００に対するユーザ２００の接触変化率（接触速度および接触加速度等）と、ユーザの触れ合い方の頻度（ユーザが１日当たりにハグした回数等）と、をさらに有していてもよい。

　ユーザ２００の触れ合い方の状態ｓｔが例えば「触れ合い方：ハグ、接触時間：1s-3s、接触強度：1N-3N」の場合には、比較的短時間のハグであるため、ユーザ２００が比較的短時間の触れ合いを期待している状態であると観測される。したがって、ロボット１００が例えば比較的長時間「ハグする」行動ａｔを実行すると、ユーザ２００にとって違和感のある行動になってしまう。ユーザ２００が相手をしてあげているという感覚になると、最終的にはロボット１００に飽きて相手をしなくなってしまう。一方、ロボット１００が例えば比較的短時間「ハグする」行動ａｔを実行すると、ユーザ２００の良好な反応を誘発する可能性が高くなる。

　またユーザ２００の触れ合い方の状態ｓｔが「触れ合い方：ハグ、接触時間：3s-5s、接触強度：3N-5N」の場合には、比較的強いハグであるため、ユーザ２００が比較的強い触れ合いを期待している状態であると観測される。したがって、ロボット１００が例えば比較的弱い「ハグする」行動ａｔを実行すると、ユーザ２００が求める触れ合いイメージに合わない可能性がある。ユーザ２００の触れ合いイメージに合わないと、ユーザ２００はロボット１００とは合わない感覚を覚えるようになり、飽きて離れてしまう。一方、ロボット１００が例えば比較的強く「ハグする」または「抜け出そうとする」等のようなユーザ２００の触れ合い方に合った行動ａｔを行うと、ユーザ２００の良好な反応を誘発する可能性が高くなる。このようにユーザ２００の触れ合い方の状態ｓｔと、ロボット１００の行動ａｔの価値Ｑとの間には、一定の相関関係があることが推認される。

　行動決定部１２２は、行動ａｔ－１（ｔ－１は前回の時刻）の価値Ｑに基づき、ユーザ２００の触れ合い方の状態ｓｔに対するロボット１００の行動ａｔを決定する。格納部１２６は、ユーザ２００の触れ合い方の状態ｓｎに対するロボットの行動ａｎの価値Ｑを表す行動価値テーブルＴＢ３を格納する。以下の表３は、或る時刻ｔにおける行動価値テーブルＴＢ３の一例である。

　行動価値テーブルＴＢ３の初期状態（時刻ｔ＝0等）においては、ユーザ２００の触れ合い方の状態ｓｔに対するロボット１００の行動ａｔの価値Ｑが分かっていない。そこで、行動決定部１２２は、全ての行動ａｎの価値Ｑを乱数により初期化し、所定の行動ａｎの中から１つの行動ａｔを選択することが好ましい。

　また行動決定部１２２は、価値Ｑが最も高い行動ａｔのみを選択し続けて学習を進めると、未だ経験したことがない触れ合い方の状態ｓｔ＋１（ｔ＋１は次回の時刻）に遷移することがなくなってしまう。そこで、行動決定部１２２は、ε-greedy法等を用いて、確率１－εで価値Ｑが最も高い行動ａｔを選択し、確率εで全ての行動ａｎの中から１つの行動ａｔを選択することが好ましい。

　例えばユーザ２００の触れ合い方の状態ｓｔが「触れ合い方：ハグ、接触時間：5s以上、接触強度：1N-3N」の場合、行動決定部１２２は、0.9の確率（ε=0.1）で価値Ｑが最も高い「ハグする」行動ａ０を選択する。これにより、ユーザ２００は良好な反応を示す可能性が高くなる。また行動決定部１２２は、0.1の確率で全ての行動ａｎの中から任意の行動ａｔを選択する。これにより、ユーザ２００はロボット１００が自由な意思下で行動ａｔを選択していると感じ、ロボット１００に飽きなくなる。なお、最も高い価値Ｑがなく、同じ価値Ｑが複数ある場合は、行動決定部１２２は、最も高い同列の価値Ｑの中から乱数によりいずれか一つの行動ａｔを選択する。

　通信制御部１２５は、行動決定部１２２により決定された行動ａｔの実行の指令をロボット１００に送信する。ロボット１００は、通信制御部１０２により、行動ａｔの実行の指令を受信する。そして行動制御部１１２は、モータ制御部１０７または出力部１０８に対してロボット１００の行動ａｔの実行を指令する。これによりロボット１００は、ユーザ２００の触れ合い方の状態ｓｔに応じてユーザ２００の良好な反応を誘発する行動ａｔを実行する。

　結果取得部１２３は、ロボット１００の行動ａｔの結果として、ユーザ２００の反応の良否結果に関する情報を取得する。ユーザ２００の反応の良否結果に関する情報は、ユーザ２００の感情に関する情報を有することが好ましい。ユーザ２００の感情に関する情報は、少なくともユーザ２００のポジティブまたはネガティブの感情レベルを含む。

　結果取得部１２３は、感情レベル推定部１５２を有する。感情レベル推定部１５２の機能は、学習装置３００に通信可能に接続する別の外部装置が担当してもよい。感情レベル推定部１５２は、ユーザ２００を写した撮影画像Ｉｍ（顔画像）と、ユーザ２００の心拍、呼吸、血圧および体温のうちの少なくとも一つに関する情報とに基づき、ユーザ２００の感情レベルを推定する。

　例えばユーザ２００の感情は、ユーザ２００の顔画像と、ユーザ２００の心拍数〔bpm〕、呼吸数〔回／分〕、血圧値〔mmHg〕および体温〔℃〕のうちの少なくとも一つとに基づき、所定の状態に分類される。例えばユーザ２００の感情は、「ニュートラル」、「幸福」、「悲しみ」、「嫌悪」、「恐怖」、「驚き」および「怒り」のうちの少なくとも一つに分類されることが好ましい。ユーザ２００の感情は、例えば「恐怖」および「驚き」の組み合わせでもよい。

　感情レベル推定部１５２は、学習済の学習モデルを用いてまたは機械学習を行いながら感情の推定を行う。例えば感情レベル推定部１５２は、教師データを用いて、入力をユーザ２００の顔画像、心拍数および血圧値とし、出力を「ニュートラル」、「幸福」、「悲しみ」および「嫌悪」を含むユーザ２００の感情としたニューラルネットワークの学習モデルを深層学習する。これにより、ユーザ２００が笑顔の時の新たな顔画像、心拍数および血圧値をニューラルネットワークの学習モデルに入力してＡＩ（人工知能）解析すると、ユーザ２００の感情を「幸福」に分類することができる。

　そして感情レベル推定部１５２は、ユーザ２００の感情を「ニュートラル」に分類した場合は感情レベルを「ニュートラル」として推定し、「幸福」に分類した場合は感情レベルを「非常にポジティブ」として推定する。また感情レベル推定部１５２は、ユーザ２００の感情を「悲しみ」に分類した場合は感情レベルを「ネガティブ」として推定し、「嫌悪」に分類した場合は感情レベルを「非常にネガティブ」として推定する。

　以上により、結果取得部１２３は、ロボット１００の行動ａｔの結果として、ユーザ２００の反応の良否結果（例えばユーザ２００の感情レベル）を取得する。特に、感情レベル推定部１５２が、ユーザ２００の感情レベルを「ポジティブ」と推定した場合、結果取得部１２３は、「ユーザ２００の良好な反応」が示されたという結果を取得する。

　学習部１２４は、入力をユーザ２００の触れ合い方の状態ｓｔとし、出力をロボット１００の行動ａｔの価値Ｑ（ｓｔ，ａｔ）とする学習モデルＬＭを強化学習により生成する。また学習部１２４は、ユーザ２００の反応の良否結果に基づき、学習モデルＬＭを更新する。本実施形態では、学習部１２４は、ユーザ２００の反応の良否結果に基づき、ロボット１００の行動ａｔに対する報酬ｒを取得し、報酬ｒに基づいてユーザ２００の触れ合い方の状態ｓｔに対する行動ａｔの価値Ｑ（行動価値テーブルＴＢ３）を更新する。

　学習部１２４は、報酬取得部１５５と、価値更新部１５６と、を有する。報酬取得部１５５は、ユーザ２００の反応の良否結果（例えばユーザ２００の感情レベル）に基づき、ロボット１００の行動ａｔに対する報酬ｒを取得する。

　格納部１２６は、ユーザ２００の反応の良否結果に基づいた所定の報酬ｒｎ（ｎは報酬ｒの識別番号）に関する情報を格納する。報酬ｒｎに関する情報は、例えばデータベースのテーブルにより管理される。以下の表４は、所定の報酬ｒｎを示す報酬テーブルＴＢ４の一例である。報酬テーブルＴＢ４は、報酬ｒｎを識別する報酬ＩＤと、ユーザ２００の反応の良否結果と、ユーザ２００の反応の良否結果に基づく報酬ｒｎと、を有する。報酬ｒｎは、事前に定義されたユーザ２００の反応の良否結果の数だけ存在する。

　報酬取得部１５５は、ユーザ２００の感情レベルに応じた所定の報酬ｒｎを取得する。報酬ｒｎは、ユーザ２００の感情レベルが「ポジティブ」な程、プラスの報酬ｒｎが定義されることが好ましい。また報酬ｒｎは、ユーザ２００の感情レベルが「ネガティブ」な程、マイナスの報酬ｒｎが定義されることが好ましい。一方、ユーザ２００の感情レベルが「ニュートラル」の場合、報酬取得部１５５は、ゼロの報酬ｒｎを取得する。

　価値更新部１５６は、所定の報酬ｒｎに基づき、ユーザ２００の触れ合い方の状態ｓｔに対するロボット１００の行動ａｔの価値Ｑを更新する。Ｑ学習においては、次の式１により価値Ｑが更新される。

　式１において、ｓｔは或る時刻ｔにおけるユーザ２００の触れ合い方の状態であり、ａｔは或る時刻ｔにおけるロボット１００の行動である。ロボット１００の行動ａｔにより、ユーザ２００の触れ合い方の状態はｓｔ＋１（ｔ＋１は次回の時刻）に変化する。ｒは、その触れ合い方の状態の変化により得られる報酬である。また、ｍａｘの付いた項は、触れ合い方の状態がｓｔ＋１の下で、その時に分かっている最も高い価値Ｑの行動ａｔ＋１を選択した場合の価値Ｑに割引率γ（０＜γ≦１）を乗じたものである。またαは、学習係数（０＜γ≦１）であり、学習の速度を調節する。

　式１は、ロボット１００の行動ａｔの結果として帰ってきた報酬ｒを元に、ユーザ２００の触れ合い方の状態ｓｔに対する行動ａｔの価値Ｑ（ｓｔ，ａｔ）を更新する方法を表している。ユーザ２００の或る触れ合い方の状態ｓｔに対するロボット１００の或る行動ａｔの価値Ｑが、その報酬ｒと、次の触れ合い方の状態ｓｔ＋１に対する最良の行動ａｔ＋１の割引価値Ｑとの合計より小さい場合、価値Ｑ（ｓｔ，ａｔ）を大きくする。反対に、ユーザ２００の触れ合い方の状態ｓｔに対するロボット１００の行動ａｔの価値が、その報酬ｒと、次の触れ合い方の状態ｓｔ＋１に対する最良の行動ａｔ＋１の割引価値Ｑとの合計より大きい場合、価値Ｑ（ｓｔ，ａｔ）を小さくする。したがって、式１は、或る触れ合い方の状態ｓｔにおける或る行動ａｔの価値Ｑを、結果としての報酬ｒと、次の触れ合い方の状態ｓｔ＋１に対する最良の行動ａｔ＋１の割引価値Ｑとの合計に近づけるようにしている。

　価値更新部１５６は、式１により行動価値テーブルＴＢ３の価値Ｑ（ｓｎ，ａｎ）を更新する。そして状態観測部１２１は、次のユーザ２００の触れ合い方の状態ｓｔ＋１を観測する。行動決定部１２２は、行動ａｔの価値Ｑ（本例では行動価値テーブルＴＢ３）に基づき、ε-greedy法等により、次のユーザ２００の触れ合い方の状態ｓｔ＋１に対するロボット１００の行動ａｔ＋１を決定する。

　通信制御部１２５は、決定された行動ａｔ＋１の実行の指令をロボット１００に送信する。ロボット１００は、通信制御部１０２を介して、学習装置３００から行動ａｔ＋１の実行の指令を受信する。そして行動制御部１１２は、モータ制御部１０７または出力部１０８に対してロボット１００の行動ａｔ＋１の実行を指令する。これにより、ロボット１００はユーザ２００の触れ合い方の状態ｓｔ＋１に適した行動ａｔ＋１を実行する。

　ここで、価値Ｑ（ｓｔ，ａｔ）の計算機上での表現方法には、前述のように、全てのユーザ２００の触れ合い方の状態ｓｎと、全てのロボット１００の行動ａｎとの組み合わせに対して、価値Ｑ（ｓｔ，ａｔ）を行動価値テーブルＴＢ３として保存しておく方法がある。また行動価値テーブルＴＢ３を近似するような行動価値関数を用意する方法もある。後者の方法は、確率勾配降下法等の手法により近似関数のパラメータを調整していくことにより実現できる。例えば近似関数として、学習部１２４は、入力をユーザ２００の触れ合い方の状態ｓｔとし、出力をロボット１００の行動ａｔの価値Ｑとしたニューラルネットワーク（ＤＱＮ）の学習モデルを深層強化学習により生成することが好ましい。

　以下では、深層強化学習について説明するが、その前にニューラルネットワークについて説明する。図９は、ニューロンの学習モデルを模式的に示す図であり、図１０は、図９に示すニューロンを組み合わせて構成した三層のニューラルネットワークの学習モデルを模式的に示す図である。ニューラルネットワークは、例えば図９に示すようなニューロン（単純パーセプトロン）のモデルを模した演算装置およびメモリ等で構成される。

　図９に示すように、ニューロンは、複数の入力ｘ（図９では、一例として入力ｘ１～入力ｘ３）に対する出力（結果）ｙを出力するものである。各入力ｘ（ｘ１，ｘ２，ｘ３）には、この入力ｘに対応する重みｗ（ｗ１，ｗ２，ｗ３）が掛けられる。これにより、ニューロンは、次の式２により表現される出力ｙを出力する。なお、入力ｘ、出力ｙおよび重みｗは、すべてベクトルである。また、下記の式２において、θはバイアスであり、ｆｋは活性化関数である。

　図１０には、図９に示すニューロンを組み合わせて構成した三層のニューラルネットワークが示されている。図１０に示すように、ニューラルネットワークの左側から複数の入力ｘ（ここでは、一例として入力ｘ１～入力ｘ３）が入力され、右側から結果ｙ（ここでは、一例として出力ｙ１～出力ｙ３）が出力される。具体的に、入力ｘ１，ｘ２，ｘ３は、３つのニューロンＮ１１～Ｎ１３の各々に対して、対応する重みが掛けられて入力される。これらの入力に掛けられる重みは、まとめてＷ１と表記されている。

　ニューロンＮ１１～Ｎ１３は、それぞれ、ｚ１１～ｚ１３を出力する。図１０において、これらｚ１１～ｚ１３は、まとめて特徴ベクトルＺ１と表記され、入力ベクトルの特徴量を抽出したベクトルとみなすことができる。この特徴ベクトルＺ１は、重みＷ１と重みＷ２との間の特徴ベクトルである。ｚ１１～ｚ１３は、２つのニューロンＮ２１およびＮ２２の各々に対して、対応する重みが掛けられて入力される。これらの特徴ベクトルに掛けられる重みは、まとめてＷ２と表記されている。

　ニューロンＮ２１，Ｎ２２は、それぞれｚ２１，ｚ２２を出力する。図１０において、これらｚ２１，ｚ２２は、まとめて特徴ベクトルＺ２と表記されている。この特徴ベクトルＺ２は、重みＷ２と重みＷ３との間の特徴ベクトルである。ｚ２１，ｚ２２は、３つのニューロンＮ３１～Ｎ３３の各々に対して、対応する重みが掛けられて入力される。これらの特徴ベクトルに掛けられる重みは、まとめてＷ３と表記されている。

　最後に、ニューロンＮ３１～Ｎ３３は、それぞれ出力ｙ１～出力ｙ３を出力する。ニューラルネットワークの動作には、ニューラルネットワークの重みＷ１～重みＷ３を学習する学習モードと、入力ｘ１～ｘ３から出力ｙ１～ｙ３を推定する推定モードとがある。例えば学習モードにおいて、学習データセットを用いて重みＷ１～Ｗ３を学習し、そのパラメータを用いて推定モードにおいて、ロボット１００の行動ａｔの決定を行う。なお、便宜上、推定と書いたが、検出および分類等の多様なタスクが可能なのはいうまでもない。

　また、重みＷ１～Ｗ３は、誤差逆伝播法（バックプロパゲーション）により学習可能である。誤差の情報は、ニューラルネットワークの右側から入り左側に流れる。誤差逆伝播法は、各ニューロンについて、入力ｘが入力されたときの出力ｙと、真の出力ｙ（ラベルデータ）との差分（誤差）を小さくするように、それぞれの重みを調整（学習）する手法である。

　このようなニューラルネットワークは、三層以上に、さらに層を増やして深層学習を行うことも可能である。また入力の特徴抽出を段階的に行う畳み込みニューラルネットワーク（ＣＮＮ）と、出力を分類または回帰するニューラルネットワークと、を有する演算装置を、教師データのみから自動的に獲得することも可能である。

　前述の行動価値テーブルＴＢ３では、ユーザ２００の触れ合い方の状態ｓｎの数と、ロボット１００の行動ａｎの数とが膨大になった時に、行動価値テーブルＴＢ３のメモリ空間が大きくなり過ぎてしまうことがある。そこで、行動価値テーブルＴＢ３をニューラルネットワーク（ＤＱＮ）で関数近似することにより、メモリ空間の増大を防止することができる。

　図８を再び参照して、深層強化学習を行う推定部１１１の構成について説明する。学習部１２４は、ターゲットネットワークＴＮ（価値Ｑ（ｓｔ，ａｔ）｜θ^－）と、ＱネットワークＱＮ（価値Ｑ（ｓｔ，ａｔ）｜θ）と、を含む２つのニューラルネットワーク（ＤＱＮ）を有する。２つのネットワークは格納部１２６に格納される。２つのネットワークの構造は同一であるが、パラメータθ（前述の重みに相当）は異なる。２つのネットワークの入力はいずれもユーザ２００の触れ合い方の状態ｓｔであり、出力はロボット１００の行動ａｔの価値Ｑ（ｓｔ，ａｔ）である。

　状態観測部１２１は、ユーザ２００の触れ合い方の状態ｓｔを観測して、行動決定部１２２および学習部１２４に出力する。行動決定部１２２は、ユーザ２００の触れ合い方の状態ｓｔをターゲットネットワークＴＮに入力してターゲットネットワークＴＮから出力された行動ａｔの価値Ｑ（ｓｔ，ａｔ｜θ^－）に基づき、ε-greedy法等によりロボット１００の行動ａｔを決定する。通信制御部１２５は、決定された行動ａｔの実行の指令をロボット１００に送信し、ロボット１００は、行動ａｔの実行の指令に応じて行動ａｔを実行する。

　結果取得部１２３は、ロボット１００の行動ａｔの結果として、ユーザ２００の反応の良否結果（例えばユーザ２００の感情レベル）を取得し、学習部１２４に出力する。学習部１２４は、ユーザ２００の反応の良否結果に基づき、報酬ｒを取得する。また状態観測部１２１は、次のユーザ２００の触れ合い方の状態ｓｔ＋１を観測して、行動決定部１２２および学習部１２４に出力する。

　学習部１２４は、ロボット１００の経験ｅｔ（＜ｓｔ，ａｔ，ｓｔ＋１，ｒ＞）をExperience Bufferとして格納部１２６に保存する。ここで、ｓｔは、ユーザ２００の触れ合い方の状態であり、ａｔはロボット１００の行動であり、ｓｔ＋１は次のユーザ２００の触れ合い方の状態であり、ｒは報酬である。なお、学習部１２４は、外れ値等に過剰に反応しないように報酬ｒを－１～＋１の範囲にクリップすることが好ましい（いわゆるReward Clipping）。

　学習部１２４は、定期的に格納部１０３（Experience Buffer）から任意の経験ｅｔを取得し、ＱネットワークＱＮを学習させる。例えば学習部１２４は、格納部１２６からミニバッチ学習Ｂのための経験（Ｂ＝ｅ０～ｅｎ）を取得する。そして学習部１２４は、以下の式３に示すＴＤ（Temporal Difference）誤差Ｌ（θ）を最小化するようにＱネットワークＱＮのパラメータθを更新する（いわゆるExperience Replay）。

　次いで学習部１２４は、任意の間隔でＱネットワークＱＮのパラメータθをターゲットネットワークＴＮに反映させる。学習部１２４は、定期的にＱネットワークＱＮの全てのパラメータθをまとめてターゲットネットワークＴＮに複製してもよいし、またはＱネットワークＱＮのパラメータθを更新する度に少しずつＱネットワークＱＮのパラメータθを反映させてもよい。

　行動決定部１２２は、次のユーザ２００の触れ合い方の状態ｓｔ＋１をターゲットネットワークＴＮに入力する。そして行動決定部１２２は、ターゲットネットワークＴＮから出力された行動ａｔ＋１の価値Ｑ（ｓｔ＋１，ａｔ＋１｜θ^－）に基づき、ε-greedy法等によりロボット１００の行動ａｔ＋１を決定する。通信制御部１２５は、決定された行動ａｔ＋１の実行の指令をロボット１００に送信し、ロボット１００は、行動ａｔ＋１の実行の指令に応じて行動ａｔ＋１を実行する。

　以上により、推定部１１１は、深層強化学習を行ってユーザ２００の触れ合い方の状態ｓｔに適したロボット１００の行動ａｔを推定することができる。

　＜制御部１３による処理例＞
　図１１は、制御部１３の処理を例示するフローチャートである。図１１は、制御部１３により、ユーザ２００の触れ合い方の状態ｓｔに応じてユーザ２００の良好な反応を誘発する行動ａｔの実行を指令する処理を示している。

　まずステップＳ１０において、制御部１３は、取得部１０１により、ロボット１００に対するユーザ２００の接触に関する情報を取得する。ユーザ２００の接触に関する情報は、例えば触覚信号Ｓ、第１静電容量信号Ｃ１および第２静電容量信号Ｃ２のうちの少なくとも一つである。

　なお、ステップＳ１０においては、触覚センサ１２、第１静電容量センサ２１および第２静電容量センサ３１には、バッテリ１５から電力が供給されている。しかし、バッテリ１５の消費電力を削減するため、カメラ１１、バイタルセンサ１４、サーボモータ３５、ディスプレイ２４、スピーカ２５およびライト２６には電力が供給されていなくてもよい。

　次いでステップＳ１１において、制御部１３は、推定部１１１により、ユーザ２００の接触に関する情報に基づき、ユーザ２００の触れ合い方の状態ｓｔに適したロボット１００の所定の行動ａｔを推定する。制御部１３は、推定部１１１により、強化学習を行いながらまたは学習済の学習モデルを用いてユーザ２００の触れ合い方の状態ｓｔに適したロボット１００の所定の行動ａｔを推定することが好ましい。なお、ステップＳ１１における処理は、制御部１３の必須の処理ではなく、ロボット１００に通信可能に接続する外部装置（後述の学習装置）において実行することができる。ステップＳ１１における詳細な処理については、図１２を参照して別途詳述する。

　そしてステップＳ１２において、制御部１３は、行動制御部１１２により、ユーザ２００の触れ合い方の状態ｓｔに応じてユーザ２００の良好な反応を誘発する行動ａｔの実行を指令する。ロボット１００が行動ａｔを実行した後、制御部１３は、ステップＳ１０～ステップＳ１２の処理を繰り返すことにより、ユーザ２００にとって違和感のない行動ａｔを積み重ねることができる。自然な行動ａｔの積み重ねが良きパートナーの印象に繋がり、コミュニケーションをとることが自然になる。ひいてはユーザ２００に長期的に触れ合ってもらえるようになり、ユーザ２００に癒しを提供することができる。

　以上のようにして、制御部１３は、ユーザ２００の触れ合い方の状態ｓｔに応じてユーザ２００の良好な反応を誘発する行動ａｔを実行する処理を行う。なお、学習処理能力の向上のためまたはバッテリ１５の消費電力を抑制するため、推定部１１１の機能を、ロボット１００に通信可能に接続する学習装置３００が担当する場合、ステップＳ１１の処理は、学習装置３００により実行されることになる。

　また図１１に示す処理の開始時において、サーボモータ３５、ディスプレイ２４、スピーカ２５およびライト２６は、供給電力量が抑制された待機状態（スリープ状態）であってもよい。つまり、制御部１３は、供給電力が抑制された待機状態から必要に応じて各種機器を復帰させることにより、バッテリ１５の消費電力を抑制することが好ましい。

　＜推定部１１１による処理＞
　図１２は、推定部１１１（例えば学習装置３００）の処理を示すフローチャートである。図１２は、推定部１１１が強化学習を行ってユーザ２００の触れ合い方の状態ｓｔに適したロボット１００の所定の行動ａｔを推定する処理を示している。図１２に示す各ステップは、図１１に示すステップＳ１１の詳細な処理である。

　まずステップＳ２０において、推定部１１１は、状態観測部１２１により、ロボット１００に対するユーザ２００の接触に関する情報に基づき、ユーザ２００の触れ合い方の状態ｓｔを観測する。推定部１１１は、ユーザ２００による接触部位、接触範囲、接触時間および接触強度のうちの少なくとも一つに関する情報に基づき、ユーザ２００の触れ合い方を推定して触れ合い方の状態ｓｔを観測することが好ましい。

　次いでステップＳ２１において、推定部１１１は、行動決定部１２２により、行動ａｔ－１の価値Ｑ（前述した行動価値テーブルＴＢ３またはＤＱＮ等の学習モデルＬＭ）に基づき、ユーザ２００の触れ合い方の状態ｓｔに適したロボット１００の行動ａｔを決定する。推定部１１１は、行動ａｔの実行の指令を、行動制御部１１２に出力するか、または通信制御部１２５を介してロボット１００に送信することにより、ロボット１００は行動ａｔを実行する（ステップＳ１２）。

　なお、ステップＳ２０およびステップＳ２１は、ユーザ２００の触れ合い方の状態ｓｔに適したロボット１００の行動ａｔを推定する推定フェーズであり、それ以外のステップは学習フェーズである。

　ステップＳ２２において、推定部１１１は、結果取得部１２３により、ロボット１００の行動ａｔの結果として、ユーザ２００の反応の良否結果に関する情報（例えばユーザ２００の感情レベル）を取得する。

　ステップＳ２３において、推定部１１１は、報酬取得部１５５により、ユーザ２００の反応の良否結果に基づき、ロボット１００の行動ａｔに対する報酬ｒを取得する。

　ステップＳ２４において、推定部１１１は、価値更新部１５６により、報酬ｒに基づき、ユーザ２００の触れ合い方の状態ｓｔに対するロボット１００の行動ａｔの価値Ｑを更新する。

　学習後、ステップＳ２０に戻り、推定部１１１は、状態観測部１２１により、次のユーザ２００の触れ合い方の状態ｓｔ＋１を観測する。そしてステップＳ２１において、推定部１１１は、行動決定部１２２により、更新された行動ａｔの価値Ｑに基づき、次のユーザ２００の触れ合い方の状態ｓｔ＋１に適したロボット１００の行動ａｔ＋１を決定する。そしてロボット１００は、次の行動ａｔ＋１を実行する（ステップＳ１２）。

　なお、ステップＳ２４の後、推定部１１１は、価値更新部１５６により、行動ａｔの価値Ｑが収束したか（つまり学習が収束したか）を判定するステップを設けてもよい。推定部１１１は、学習が収束したと判定した場合は、以降の処理において学習フェーズを実行しなくてよい。つまり推定部１１１は、推定フェーズのみを実行し、学習済の学習モデルＬＭ（行動価値テーブルＴＢ３またはＤＱＮ等）を用いて、ユーザ２００の触れ合い方の状態ｓｔ＋ｎに適したロボット１００の行動ａｔ＋ｎを推定する（ｔ＋ｎはｎ回後の時刻）。

　＜変形例の推定部１１１の構成＞
　図１３は、変形例の推定部１１１の機能構成を示すブロック図である。変形例の推定部１１１は、教師あり学習を行ってユーザ２００の触れ合い方の状態ｓｔに適したロボット１００の行動ａｔを推定する点で、図８に示す推定部１１１の機能構成とは異なる。つまり学習部１２４は、教師データ記録部１５７と、誤差算出部１５８と、学習モデル更新部１５９と、を有する。以下では、図８に示す推定部１１１の構成とは異なる点についてのみ説明する。

　教師データ記録部１５７の機能は、ＨＤＤ／ＳＳＤ３０４等の不揮発性メモリにより実現できる。また誤差算出部１５８および学習モデル更新部１５９の各機能は、ＣＰＵ３０１等のプロセッサがＲＯＭ３０２等の不揮発性メモリに格納されたプログラムに規定された処理を実行すること等により実現できる。

　学習部１２４は、教師あり学習を行う学習モデルＬＭとして、決定木（回帰木）、ニューラルネットワークまたはロジスティック回帰等を用いることができる。以下では、学習部１２４が、入力をユーザ２００の触れ合い方の状態ｓｔとし、出力をロボット１００の行動ａｔの価値Ｑとしたニューラルネットワークの学習モデルＬＭを教師あり学習により生成する例について説明する。

　教師データ記録部１５７は、例えば他のロボット１００またはシミュレーション等により過去に得られた教師データを保存する。教師データは、ユーザ２００の触れ合い方の状態ｓｔ－ｎ（ｔ－ｎはｎ回前の時刻）と、ロボット１００の行動ａｔ－ｎと、行動ａｔ－ｎの価値Ｑ（ラベルに相当）と、を含む、結果（ラベル）付きデータである。推定部１１１は、通信制御部１２５等を介して、他のロボット１００または別の外部装置から教師データを取得する。また推定部１１１は、ロボット１００自体が体験した経験を教師データとして保存してもよい。

　誤差算出部１５８は、まず教師データ記録部１５７から教師データを取得し、教師データに基づき、行動ａｔの価値Ｑの誤差Ｌを算出する。例えば誤差算出部１５８は、実際にはユーザ２００の反応が良好であった場合は、－ｌｏｇ（Ｑ（ｓｔ，ａｔ））の誤差があるとみなして誤差Ｌを算出する。また誤差算出部１５８は、実際にはユーザ２００の反応が良好でなかった場合は、－ｌｏｇ（１－Ｑ（ｓｔ，ａｔ））の誤差があるとみなして誤差Ｌを算出する。

　学習モデル更新部１５９は、誤差Ｌを最小化するようにニューラルネットワークの学習モデルＬＭのパラメータ（前述の重み等）を更新する。学習モデルＬＭの更新には、前述の誤差逆伝播法（バックプロパゲーション）を用いることができる。これにより学習部１２４は、教師データにより一定レベルまで学習した学習モデルＬＭを生成する。

　その後、推定部１１１は、教師あり学習により生成した学習モデルＬＭを用いて、実際のユーザ２００の触れ合い方の状態ｓｔに適した行動ａｔを推定する。そしてロボット１００は、ユーザ２００の触れ合い方の状態ｓｔに応じてユーザ２００の良好な反応を誘発する行動ａｔを実行する。

　より具体的には、状態観測部１２１がユーザ２００の触れ合い方の状態ｓｔを観測し、行動決定部１２２が学習モデルＬＭを用いてユーザ２００の触れ合い方の状態ｓｔに適した所定の行動ａｔを決定する。そして通信制御部１２５は、行動ａｔの実行の指令をロボット１００に送信し、ロボット１００は、受信した行動ａｔの実行の指令を実行する。

　結果取得部１２３は、ロボット１００の行動ａｔの結果として、ユーザ２００の反応の良否結果を取得する。誤差算出部１５８は、ユーザ２００の反応の良否結果に基づき、行動ａｔの価値Ｑの誤差を算出し、学習モデル更新部１５９は、誤差Ｌを最小化するようにニューラルネットワークの学習モデルＬＭをさらに更新する。そして行動決定部１２２は、学習モデルＬＭを用いて、次のユーザ２００の触れ合い方の状態ｓｔ＋１に適したロボット１００の行動ａｔ＋１を決定する。

　以上のように、推定部１１１は、教師あり学習により一定レベルまで学習した学習モデルＬＭを用いて、ユーザ２００の触れ合い方の状態ｓｔに適したロボット１００の行動ａｔを推定する。これにより、例えばロボット１００が故障して同じ型番のロボット１００に交換する場合であっても、交換後のロボット１００は、故障したロボット１００の教師データに基づき過去の経験を学習してユーザ２００の触れ合い方の状態ｓｔに適した行動ａｔを即座に実行できる。またロボット１００は、初めて接するユーザ２００に対しても、ユーザ２００の触れ合い方の状態ｓｔに適した行動ａｔを一定レベルで実行できるようになる。

　＜変形例の推定部１１１による処理＞
　図１４は、変形例の推定部１１１（学習装置３００）の処理を示すフローチャートである。図１４は、推定部１１１が教師あり学習を行ってユーザ２００の触れ合い方の状態ｓｔに適したロボット１００の行動ａｔを推定する処理を示している。図１４に示す各ステップは、図１１に示すステップＳ１１の詳細な処理である。

　まずステップＳ３０において、推定部１１１は、誤差算出部１５８により、教師データ記録部１５７から教師データを取得し、教師データに基づき、ロボット１００の行動ａｔの価値Ｑの誤差Ｌを算出する。

　次いでステップＳ３１において、推定部１１１は、学習モデル更新部１５９により、誤差Ｌを最小化するようにニューラルネットワークの学習モデルＬＭのパラメータ（前述した重み等）を更新する。これにより推定部１１１は、教師データにより一定レベルまで学習した学習モデルＬＭを用いて、実際のユーザ２００の触れ合い方の状態ｓｔに適した行動ａｔを推定することができる。

　その後、ステップＳ３２において、推定部１１１は、状態観測部１２１により、ロボット１００に対するユーザ２００の接触に関する情報に基づき、実際のユーザ２００の触れ合い方の状態ｓｔを観測する。推定部１１１は、ユーザ２００による接触部位、接触範囲、接触時間および接触強度のうちの少なくとも一つに関する情報に基づき、ユーザ２００の触れ合い方を推定して触れ合い方の状態ｓｔを観測することが好ましい。

　次いでステップＳ３３において、推定部１１１は、行動決定部１２２により、行動ａｔ－１の価値Ｑ（ニューラルネットワーク等の学習モデルＬＭ）に基づき、ユーザ２００の触れ合い方の状態ｓｔに適したロボット１００の行動ａｔを決定する。推定部１１１は、行動ａｔの実行の指令を、行動制御部１１２に出力するか、または通信制御部１２５を介してロボット１００に送信する。これにより、ロボット１００はユーザ２００の触れ合い方の状態ｓｔに応じた行動ａｔを実行する（ステップＳ１２）。

　なお、ステップＳ３２およびステップＳ３３は、ユーザ２００の触れ合い方の状態に適したロボット１００の行動ａｔを推定する推定フェーズであり、それ以外のステップは学習フェーズである。

　ステップＳ３４において、推定部１１１は、結果取得部１２３により、ロボット１００の行動ａｔの結果として、ユーザ２００の反応の良否結果に関する情報（ユーザ２００の感情レベル）を取得する。

　次いでステップＳ３０に戻り、推定部１１１は、誤差算出部１５８により、ユーザ２００の反応の良否結果に基づき、行動ａｔの価値Ｑの誤差Ｌを算出する。

　そしてステップＳ３１において、推定部１１１は、学習モデル更新部１５９により、誤差Ｌに基づき、学習モデルＬＭのパラメータ（重み等）を更新する。

　学習後、ステップＳ３２において、推定部１１１は、状態観測部１２１により、次のユーザ２００の触れ合い方の状態ｓｔ＋１を観測する。そしてステップＳ３３において、推定部１１１は、行動決定部１２２により、更新された行動ａｔの価値Ｑに基づき、次のユーザ２００の触れ合い方の状態ｓｔ＋１に適したロボット１００の行動ａｔ＋１を決定する。そしてロボット１００は、次の行動ａｔ＋１を実行する（ステップＳ１２）。

　なお、ステップＳ３１の後、推定部１１１は、学習モデル更新部１５９により、行動ａｔの価値Ｑが収束したか（つまり学習が収束したか）を判定するステップを設けてもよい。推定部１１１は、学習が収束したと判定した場合は、以降の処理において学習フェーズを実行しなくてよい。つまり推定部１１１は、推定フェーズのみを実行し、学習済の学習モデルＬＭ（ニューラルネットワーク等）を用いて、ユーザ２００の触れ合い方の状態ｓｔ＋ｎ（ｔ＋ｎはｎ回後の時刻）に適したロボット１００の行動ａｔ＋ｎを推定することになる。

　＜本実施形態の作用効果＞
　以上のように、ロボット１００は、ロボット１００に対するユーザ２００の接触に関する情報に基づき、ユーザ２００の触れ合い方の状態ｓｔに応じてユーザ２００の良好な反応を誘発する行動ａｔを実行する。したがって、ユーザ２００の触れ合い方に合わない行動を低減することができる。自然な行動の積み重ねが良きパートナーの印象に繋がり、コミュニケーションをとることが自然になる。ひいてはユーザ２００に長期的に触れ合ってもらえるようになり、ユーザ２００に癒しを提供することができる。

　またユーザ２００の接触に関する情報には、ロボット１００における接触部位、接触範囲、接触時間および接触強度のうちの少なくとも一つに関する情報が含まれる。ユーザ２００は、たとえロボット１００をハグした場合であっても、必ずしもゆっくり触れ合える状態であるとは限らず、忙しい可能性がある。また、ユーザ２００は、ロボット１００を強くハグしたい可能性もある。したがって、接触部位および接触範囲に関する情報だけでなく、接触時間および接触強度に関する情報を加味することにより、ユーザ２００の触れ合い方の状態ｓｔを精度良く観測することができる。

　なお、ユーザ２００の接触に関する情報を検知するセンサは、触覚センサ１２、第１静電容量センサ２１および第２静電容量センサ３１等のようにユーザ２００の触感を邪魔しないセンサ、つまり触り心地が良好なセンサであることが好ましい。例えば、ロボット１００の外装部材１０の接触変化に追従するような、可撓性を有する構成であることが好ましい。これにより、ユーザ２００はロボット１００に触れ合いたくなり、ユーザ２００がロボット１００に触れ合う頻度または回数を増やすことができる。

　またユーザ２００の触れ合い方の状態ｓｔは、ユーザ２００の接触に関する情報に基づき推定される触れ合い方と、触れ合い方の接触時間および接触強度のうちの少なくとも一方と、の組み合わせにより分類される所定の状態ｓｎである。例えば触れ合い方の状態ｓｔは、「ハグする」、「タッピングする」、「さする」、「たたく」、「押す」、「手を握る」、「顔を擦り付ける」、「なでる」および「お手をする」等のうちのいずれか一つの所定の状態ｓｎである。これにより、ユーザ２００の触れ合い方の状態ｓｔが数十種類～数百種類に分類されるため、行動価値テーブルＴＢ３のメモリ空間の増大を抑制することができる。

　さらにロボット１００の所定の行動ａｎは、ユーザ２００の触れ合い方を模倣した行動である。また所定の行動ａｎは、ユーザ２００による触れ合いの継続時間、ユーザ２００の接触変化率および接触強度のうちの少なくとも一つを模倣した行動である。つまりロボット１００は、ユーザ２００の触れ合い方の状態ｓｔを模倣した行動を行うため、ユーザ２００の良好な反応を誘発する可能性を高めることができる。

　またロボット１００は、入力をユーザ２００の触れ合い方の状態ｓｔとし、出力をロボット１００の行動ａｔの価値Ｑとする学習モデルＬＭを機械学習（強化学習または教師あり学習等）により生成する。したがって、ロボット１００は、ユーザ２００の触れ合い方に適した行動ａｔを学習することができ、コミュニケーションの違和感を低減することができる。ひいてはユーザ２００との継続的な触れ合いが実現し、ユーザ２００に癒しを提供することができる。

　さらにロボット１００は、ユーザ２００の反応の良否結果に関する情報を取得する結果取得部１２３をさらに有し、学習部１２４は、ユーザ２００の反応の良否結果に基づき、学習モデルＬＭを更新する。したがって、ロボット１００は、ユーザ２００の触れ合い方の状態ｓｔに適した行動ａｔを継続的に学習して、ユーザ２００の触れ合い方に合った行動を継続的に実行することができ、コミュニケーションの違和感を低減することができる。また学習モデルＬＭは、既に効果が実証されている行動価値テーブルＴＢ３またはニューラルネットワーク（ＤＱＮ）を用いることにより、ロボット１００の学習能力の信頼性を高めることができる。

　またユーザ２００の反応の良否結果に関する情報は、ユーザ２００の顔画像および生体情報から推定されたユーザ２００の感情レベルを含む。そして学習部１２４は、ユーザ２００の反応の良否結果（感情レベル）に基づき、ロボット１００の行動ａｔに対する報酬ｒを取得して報酬ｒに基づいてユーザ２００の触れ合い方の状態ｓｔに対する行動ａｔの価値Ｑを更新する。したがって、ロボット１００は、ユーザ２００の感情レベルに応じてユーザ２００の触れ合い方の状態ｓｔに適した行動ａｔを学習することができる。

　またロボット１００は、教師あり学習により一定レベルまで学習した学習モデルＬＭを用いて、ユーザ２００の触れ合い方の状態ｓｔに適したロボット１００の行動ａｔを推定してもよい。これにより、例えばロボット１００が故障して同じ型番のロボット１００に交換する場合であっても、交換後のロボット１００は、教師データに基づき過去の経験を学習してユーザ２００の触れ合い方の状態ｓｔに適した行動ａｔを即座に実行できる。またロボット１００は、初めて接するユーザ２００に対しても、ユーザ２００の触れ合い方の状態ｓｔに適した行動ａｔを一定レベルで実行できるようになる。

　以上のロボット１００の推定部１１１の機能は、ロボット１００に通信可能に接続する学習装置３００に設けて分散処理させてもよい。これにより、コンピュータによる学習処理能力を高めることができる。また学習装置３００による分散処理により、ロボット１００のバッテリ１５の消費電力削減、充電回数削減、およびバッテリ重量削減という技術的な効果を得ることができる。

　以上、好ましい実施の形態について詳説したが、上述した実施の形態に制限されることはなく、特許請求の範囲に記載された範囲を逸脱することなく、上述した実施の形態に種々の変形および置換を加えることができる。

　また、上述した実施形態の説明で用いた序数、数量等の数字は、全て本発明の技術を具体的に説明するために例示するものであり、本発明は例示された数字に制限されない。また、構成要素間の接続関係は、本発明の技術を具体的に説明するために例示するものであり、本発明の機能を実現する接続関係はこれに限定されない。

　本実施形態に係るロボットは、一人暮らしの社会人、子供が独り立ちしたシニア、在宅医療の対象となるフレイル高齢者等のオキシトシン分泌を促進して癒し（安心感または自己肯定感）を提供する用途に特に好適である。但し、この用途に限定されるものではなく、様々なユーザに癒しを提供する用途に使用できる。

　本開示の態様は、例えば以下の通りである。

　＜１＞　ロボットに対するユーザの接触に関する情報を取得する取得部と、
　前記接触に関する情報に基づき、前記ユーザの触れ合い方の状態に応じて前記ユーザの良好な反応を誘発する所定の行動の実行を指令する行動制御部と、
　を有する、ロボット。

　＜２＞　前記接触に関する情報に基づき、前記ユーザの前記触れ合い方の状態に適した前記所定の行動を推定する推定部をさらに有し、
　前記推定部は、
　　前記接触に関する情報に基づいて前記ユーザの前記触れ合い方の状態を観測する状態観測部と、
　　前記行動の価値に基づき、前記触れ合い方の状態に適した前記所定の行動を決定する行動決定部と、
　を有する、前記＜１＞に記載のロボット。

　＜３＞　前記接触に関する情報は、接触部位、接触範囲、接触時間および接触強度のうちの少なくとも一つに関する情報を含む、前記＜１＞または＜２＞に記載のロボット。

　＜４＞　前記接触に関する情報を検知するセンサをさらに有し、前記センサは前記ユーザの触感を邪魔しないセンサにより構成される、前記＜１＞～＜３＞のいずれか一つに記載のロボット。

　＜５＞　前記触れ合い方の状態は、前記接触に関する情報に基づき推定される前記触れ合い方と、前記触れ合い方の接触時間および接触強度のうちの少なくとも一方に関する情報と、の組み合わせにより分類される所定の状態である、前記＜１＞～＜４＞のいずれか一つに記載のロボット。

　＜６＞　前記所定の行動は、前記ユーザの前記触れ合い方を模倣した行動である、前記＜１＞～＜５＞のいずれか一つに記載のロボット。

　＜７＞　前記所定の行動は、前記ユーザによる触れ合いの継続時間、前記ユーザの接触変化率および前記ユーザの接触強度のうちの少なくとも一つを模倣した行動である、前記＜１＞～＜６＞のいずれか一つに記載のロボット。

　＜８＞　前記推定部は、入力を前記ユーザの前記触れ合い方の状態とし、出力を前記ロボットの前記行動の価値とする学習モデルを機械学習により生成する学習部を有する、前記＜２＞に記載のロボット。

　＜９＞　前記推定部は、前記ロボットの前記行動の結果として、前記ユーザの反応の良否結果に関する情報を取得する結果取得部をさらに有し、
　前記学習部は、前記反応の良否結果に基づき、前記学習モデルを更新する、前記＜８＞に記載のロボット。

　＜１０＞　前記学習モデルは、行動価値テーブルまたはニューラルネットワークである、前記＜８＞または＜９＞に記載のロボット。

　＜１１＞　前記取得部は前記ユーザの顔画像および生体情報をさらに取得し、
　前記反応の良否結果に関する情報は、前記顔画像および前記生体情報から推定された前記ユーザの感情レベルを含み、
　前記学習部は、
　　前記反応の良否結果に基づき、前記ロボットの前記行動に対する報酬を取得し、
　　前記報酬に基づいて前記ユーザの前記触れ合い方の状態に対する前記行動の価値を更新する、前記＜９＞に記載のロボット。

　＜１２＞　ロボットに通信可能に接続する学習装置であって、
　前記ロボットに対するユーザの接触に関する情報に基づき、前記ユーザの触れ合い方の状態を観測する状態観測部と、
　入力を前記ユーザの前記触れ合い方の状態とし、出力を前記ロボットの行動の価値とする学習モデルを機械学習により生成する学習部と、
　を有する、学習装置。

　＜１３＞　前記行動の価値に基づき、前記触れ合い方の状態に適した前記ロボットの前記行動を決定する行動決定部と、
　前記行動の実行の指令を前記ロボットに送信する通信制御部と、
　を有する、前記＜１２＞に記載の学習装置。

　＜１４＞　ロボットの制御方法であって、前記ロボットが、
　前記ロボットに対するユーザの接触に関する情報を取得するステップと、
　前記接触に関する情報に基づき、前記ユーザの触れ合い方の状態に応じて前記ユーザの良好な反応を誘発する所定の行動を実行するステップと、
　を実行する、制御方法。

　＜１５＞　ロボットを制御するコンピュータに、
　前記ロボットに対するユーザの接触に関する情報を取得するステップと、
　前記接触に関する情報に基づき、前記ユーザの触れ合い方の状態に応じて前記ユーザの良好な反応を誘発する所定の行動の実行を指令するステップと、
　を実行させる、プログラム。

　この出願は、２０２２年９月２９日に日本国特許庁に出願された日本国特許出願第２０２２－１５６７６５号に基づいて、その優先権を主張するものであり、この日本国特許出願の全内容を含む。

１　　　胴部
２　　　頭部
２ａ　　右眼部
２ｂ　　左眼部
２ｃ　　口部
２ｄ　　右頬部
２ｅ　　左頬部
３　　　腕部
３ａ　　右腕部
３ｂ　　左腕部
４　　　脚部
４ａ　　右脚部
４ｂ　　左脚部
１０　　外装部材
１１　　カメラ
１２　　触覚センサ
１３　　制御部
１４　　バイタルセンサ（電磁波センサ）
１４１　マイクロ波発射部
１４２　マイクロ波受信部
１５　　バッテリ
１６　　胴部フレーム
１７　　胴部載置台
２１　　第１静電容量センサ
２２　　頭部フレーム
２３　　頭部載置台
２４　　ディスプレイ
２４ａ　右眼ディスプレイ
２４ｂ　左眼ディスプレイ
２５　　スピーカ
２６　　ライト
２６ａ　右頬ライト
２６ｂ　左頬ライト
２７　　頭部連結機構
３１　　第２静電容量センサ
３２ａ　右腕部フレーム
３２ｂ　左腕部フレーム
３３　　右腕部載置台
３４ａ　右腕部連結機構
３４ｂ　左腕部連結機構
３５　　サーボモータ
３５ａ　右腕部サーボモータ
３５ｂ　左腕部サーボモータ
３５ｃ　頭部サーボモータ
３５ｄ　右脚部サーボモータ
３５ｅ　左脚部サーボモータ
４１ａ　右脚部車輪
４１ｂ　左脚部車輪
４２ａ　右脚部フレーム
４２ｂ　左脚部フレーム
４４ａ　右脚部連結機構
４４ｂ　左脚部連結機構
１００　ロボット
１０１　取得部
１０２　通信制御部
１０３　格納部
１０４　認証部
１０５　登録部
１０６　開始制御部
１０７　モータ制御部
１０８　出力部
１０９　登録情報
１１０　検出部
１１１　推定部
１１２　行動制御部
１２１　状態観測部
１２２　行動決定部
１２３　結果取得部
１２４　学習部
１２５　通信制御部
１２６　格納部
１３１　ＣＰＵ
１３２　ＲＯＭ
１３３　ＲＡＭ
１３４　ＨＤＤ／ＳＳＤ
１３５　機器接続Ｉ／Ｆ
１３６　通信Ｉ／Ｆ
１５１　触れ合い方推定部
１５２　感情レベル推定部
１５５　報酬取得部
１５６　価値更新部
１５７　教師データ記録部
１５８　誤差算出部
１５９　学習モデル更新部
２００　ユーザ
３００　学習装置
３０１　ＣＰＵ
３０２　ＲＯＭ
３０３　ＲＡＭ
３０４　ＨＤＤ／ＳＳＤ
３０５　機器接続Ｉ／Ｆ
３０６　通信Ｉ／Ｆ
Ａ、Ａ′　　　システムバス
Ｂ　　　生体情報
Ｃ１　　第１静電容量信号
Ｃ２　　第２静電容量信号
Ｆ１ａ　右肩部フレーム
Ｆ２ａ　右上腕部フレーム
Ｆ３ａ　右肘部フレーム
Ｆ４ａ　右前腕部フレーム
Ｆ１ｂ　左肩部フレーム
Ｆ２ｂ　左上腕部フレーム
Ｆ３ｂ　左肘部フレーム
Ｆ４ｂ　左前腕部フレーム
Ｆ１ｃ　頸部フレーム
Ｆ２ｃ　顔部フレーム
Ｉｍ　　撮影画像
Ｌ　誤差
ＬＭ　学習モデル
Ｍｓ　　発射波
Ｍｒ　　反射波
Ｍ１ａ　右肩部サーボモータ
Ｍ２ａ　右上腕部サーボモータ
Ｍ３ａ　右肘部サーボモータ
Ｍ４ａ　右前腕部サーボモータ
Ｍ１ｂ　左肩部サーボモータ
Ｍ２ｂ　左上腕部サーボモータ
Ｍ３ｂ　左肘部サーボモータ
Ｍ４ｂ　左前腕部サーボモータ
Ｍ１ｃ　頸部サーボモータ
Ｍ２ｃ　顔部サーボモータ
Ｑ　価値
Ｓ　触覚信号
ｓ　状態
ａ　行動
ｒ　報酬

Claims

　ロボットに対するユーザの接触に関する情報を取得する取得部と、
　前記接触に関する情報に基づき、前記ユーザの触れ合い方の状態に応じて前記ユーザの良好な反応を誘発する所定の行動の実行を指令する行動制御部と、
　を有する、ロボット。
　前記ユーザの前記触れ合い方の状態に適した前記所定の行動を推定する推定部をさらに有し、
　前記推定部は、
　　前記接触に関する情報に基づいて前記ユーザの前記触れ合い方の状態を観測する状態観測部と、
　　前記行動の価値に基づき、前記触れ合い方の状態に適した前記所定の行動を決定する行動決定部と、
　を有する、請求項１に記載のロボット。
　前記接触に関する情報は、接触部位、接触範囲、接触時間および接触強度のうちの少なくとも一つに関する情報を含む、請求項１または２に記載のロボット。
　前記接触に関する情報を検知するセンサをさらに有し、前記センサは前記ユーザの触感を邪魔しないように構成される、請求項１または２に記載のロボット。
　前記触れ合い方の状態は、前記接触に関する情報に基づき推定される前記触れ合い方と、前記触れ合い方の接触時間および接触強度のうちの少なくとも一方に関する情報と、の組み合わせにより分類される所定の状態である、請求項１または２に記載のロボット。
　前記所定の行動は、前記ユーザの前記触れ合い方を模倣した行動である、請求項１または２に記載のロボット。
　前記所定の行動は、前記ユーザによる触れ合いの継続時間、前記ユーザの接触変化率および前記ユーザの接触強度のうちの少なくとも一つを模倣した行動である、請求項１または２に記載のロボット。
　前記推定部は、入力を前記ユーザの前記触れ合い方の状態とし、出力を前記ロボットの前記行動の価値とする学習モデルを機械学習により生成する学習部を有する、請求項２に記載のロボット。
　前記推定部は、前記ロボットの前記行動の結果として、前記ユーザの反応の良否結果に関する情報を取得する結果取得部をさらに有し、
　前記学習部は、前記反応の良否結果に基づき、前記学習モデルを更新する、請求項８に記載のロボット。
　前記学習モデルは、行動価値テーブルまたはニューラルネットワークである、請求項８に記載のロボット。
　前記取得部は前記ユーザの顔画像および生体情報をさらに取得し、
　前記反応の良否結果に関する情報は、前記顔画像および前記生体情報から推定された前記ユーザの感情レベルを含み、
　前記学習部は、
　　前記反応の良否結果に基づき、前記ロボットの前記行動に対する報酬を取得し、
　　前記報酬に基づいて前記ユーザの前記触れ合い方の状態に対する前記行動の価値を更新する、請求項９に記載のロボット。
　ロボットに通信可能に接続する学習装置であって、
　前記ロボットに対するユーザの接触に関する情報に基づき、前記ユーザの触れ合い方の状態を観測する状態観測部と、
　入力を前記ユーザの前記触れ合い方の状態とし、出力を前記ロボットの行動の価値とする学習モデルを機械学習により生成する学習部と、
　を有する、学習装置。
　前記行動の価値に基づき、前記触れ合い方の状態に適した前記ロボットの前記行動を決定する行動決定部と、
　前記行動の実行の指令を前記ロボットに送信する通信制御部と、
　を有する、請求項１２に記載の学習装置。
　ロボットの制御方法であって、前記ロボットが、
　前記ロボットに対するユーザの接触に関する情報を取得するステップと、
　前記接触に関する情報に基づき、前記ユーザの触れ合い方の状態に応じて前記ユーザの良好な反応を誘発する所定の行動を実行するステップと、
　を実行する、制御方法。
　ロボットを制御するコンピュータに、
　前記ロボットに対するユーザの接触に関する情報を取得するステップと、
　前記接触に関する情報に基づき、前記ユーザの触れ合い方の状態に応じて前記ユーザの良好な反応を誘発する所定の行動の実行を指令するステップと、
　を実行させる、プログラム。