WO2023286224A1

WO2023286224A1 - 会話処理プログラム、会話処理システムおよび会話型ロボット

Info

Publication number: WO2023286224A1
Application number: PCT/JP2021/026535
Authority: WO
Inventors: 和也高橋; 洋輝森; 弘太郎重冨
Original assignee: ザ・ハーモニー株式会社
Priority date: 2021-07-14
Filing date: 2021-07-14
Publication date: 2023-01-19
Also published as: JPWO2023286224A1; JP7142403B1

Abstract

【課題】会話相手を飽きさせることなく会話の持続性を高める。【解決手段】質問生成部３ａは、スピーカ２ａより出力すべき質問を生成する。応答解析部３ｂは、スピーカ２ａより出力された質問に対して、マイク２ｂより取得された会話相手の応答を解析する。応答評価部３ｃは、解析された応答がネガティブであるか否かを示す所定の評価基準に従って、それぞれの質問に対する応答を評価して、その指標となる評価値を付与する。歌指示部３ｄは、評価値を時系列的に累積した評価累積値が所定のしきい値に到達した場合、会話途中において、スピーカ２ａより歌を再生すべき旨を指示する。

Description

会話処理プログラム、会話処理システムおよび会話型ロボット

　本発明は、会話処理プログラム、会話処理システムおよび会話型ロボットに係り、特に、会話途中における歌の再生に関する。

　従来、スピーカより質問を発し、会話相手の回答をマイクより取得することで、会話を成立させる会話システムが知られている。例えば、特許文献１には、会話相手のコミュニケーション感を高めつつ、会話を促進する対話型ペットロボットが開示されている。具体的には、質問の内容が音声出力された場合、この質問に対する返答の候補として、複数の選択肢がディスプレイに表示される。これらの選択肢のうちのいずれかがユーザによって発話された場合、音声認識によって選択肢が特定される。そして、対話型ペットロボットが次にとるべき反応として、この選択肢に対応するアクションが決定される。

　また、このような会話システムに関するものではないが、特許文献２には、介護老人ホームなどの介護施設で手軽に扱えて、脳機能障害を有する高齢者の生活を支援する脳機能障害者生活支援装置が開示されている。この支援装置では、通話機能を有するタブレット端末を用いて、通話中にバックグランドミュージック（ＢＧＭ）が出力される。ＢＧＭとしては、脳機能の回復を促進すべく、高齢者が若い頃に好きだった曲が再生される。

特開２００６－６８４８９号公報特開２０１５－１９２８４４号公報

　近年、高齢者施設などの介護現場では、認知症を伴う高齢者や耳の遠い高齢者を対象としたコミュニケーションツールとして、会話型ロボットに代表される会話システムが注目されている。発明者らが介護現場に赴いて実際にロボットを試したところ、単に短い質問を繰り返しただけでは、高齢者が短時間で飽きてしまったり、疲れてしまうといった事態が多発して、会話の持続性に難があることが判明した。また、耳が遠い方には質問を聞き取ってもらえず、認知症の方には不安感を与えてしまうといった問題も散見された。そこで、施設で普段流している歌を質問と同じ声で作成し、所定の間隔で繰り返し再生するといった実験を行ったところ、歌が流れ始めると皆が笑顔で一緒に歌ってくれ、歌い終わりには拍手もしてくれた。この実験結果を通じて、本発明者らは、高齢者向けに特化した場合、会話相手（高齢者）を飽きさせないための手段として、会話途中に歌を挿入することが有効であるとの知得を得るに至った。

　本発明は、かかる事情に鑑みてなされたものであり、その目的は、会話相手を飽きさせることなく会話の持続性を高めることである。

　かかる課題を解決すべく、第１の発明は、以下のステップをコンピュータに実行させる会話処理プログラムを提供する。第１のステップでは、スピーカより出力された質問に対して、マイクより取得された会話相手の応答を解析する。第２のステップでは、応答がネガティブであるか否かを示す所定の評価基準に従って、それぞれの質問に対する応答を評価して評価値を付与する。第３のステップでは、評価値を時系列的に累積した評価累積値が所定のしきい値に到達した場合、会話途中において、スピーカより歌を再生すべき旨を指示する。

　ここで、第１の発明において、スピーカによる歌の再生時にマイクより音声を取得し、マイクより取得された音声波形と、歌の音声波形との差分を算出することによって、歌の再生時における会話相手の反応を特定する第４のステップを設けてもよい。

　第１の発明において、上記第２のステップは、応答がネガティブであると判断された場合、上記評価値として、プラスおよびマイナスの一方の符号を有する第１の評価値を付与するとともに、応答がネガティブでないと判断された場合、上記評価値として、第１の評価値とは反対の符号を有する第２の評価値を付与することが好ましい。

　第１の発明において、上記第２のステップは、予め登録されたネガティブなワードが応答中に含まれているか否かに基づいて、応答がネガティブであるか否かを判断してもよい。また、上記第２のステップは、質問から応答までに要した時間に基づいて、応答がネガティブであるか否かを判断してもよい。また、上記第２のステップは、会話当初を基準とした、マイクより取得された会話相手の声量に基づいて、応答がネガティブであるか否かを判断してもよい。また、上記第２のステップは、カメラによって撮影された会話相手の表情に基づいて、応答がネガティブであるか否かを判断してもよい。さらに、上記第２のステップは、脈拍センサによって取得された会話相手の脈拍に基づいて、応答がネガティブであるか否かを判断してもよい。

　第１の発明において、上記第３のステップは、上記評価値に応じて、スピーカより再生すべき歌の長さまたは種類を変えてもよい。また、ある応答に関する評価値の符号に応じて、この応答に対応する質問の提示頻度を調整する第５のステップを設けてもよい。さらに、上記評価値に応じて、人間と会話するキャラクターの動作を指示する第６のステップを設けてもよい。

　第２の発明は、質問生成部と、応答解析部と、応答評価部と、歌指示部とを有する会話処理システムを提供する。質問生成部は、スピーカより出力すべき質問を生成する。応答解析部は、スピーカより出力された質問に対して、マイクより取得された会話相手の応答を解析する。応答評価部は、応答がネガティブであるか否かを示す所定の評価基準に従って、それぞれの質問に対する応答を評価して評価値を付与する。歌指示部は、評価値を時系列的に累積した評価累積値が所定のしきい値に到達した場合、会話途中において、スピーカより歌を再生すべき旨を指示する。

　ここで、第２の発明において、上記応答解析部は、スピーカによる歌の再生時にマイクより音声を取得し、マイクより取得された音声波形と、歌の音声波形との差分を算出することによって、歌の再生時における会話相手の反応を特定してもよい。

　第２の発明において、上記応答評価部は、応答がネガティブであると判断された場合、評価値として、プラスおよびマイナスの一方の符号を付与するとともに、応答がネガティブでないと判断された場合、評価値として、第１の評価値とは反対の符号を付与することが好ましい。

　第２の発明において、上記応答評価部は、予め登録されたネガティブなワードが応答中に含まれているか否かに基づいて、応答がネガティブであるか否かを判断してもよい。また、上記応答評価部は、質問から応答までに要した時間に基づいて、応答がネガティブであるか否かを判断してもよい。また、上記応答評価部は、会話当初を基準とした、マイクより取得された会話相手の声量に基づいて、応答がネガティブであるか否かを判断してもよい。また、上記応答評価部は、カメラによって撮影された会話相手の表情に基づいて、応答がネガティブであるか否かを判断してもよい。さらに、上記応答評価部は、脈拍センサによって取得された会話相手の脈拍に基づいて、応答がネガティブであるか否かを判断してもよい。

　第２の発明において、上記歌指示部は、上記評価値に応じて、スピーカより再生すべき歌の長さまたは種類を変えてもよい。また、上記質問生成部は、ある応答に関する評価値の符号に応じて、当該応答に対応する質問の提示頻度を調整してもよい。さらに、上記評価値に応じて、人間と会話するキャラクターの動作を指示する動作指示部を設けてもよい。

　第３の発明は、スピーカと、マイクと、歌再生部とを有する会話型ロボットを提供する。スピーカは、会話相手に対して質問および歌を出力する。マイクは、スピーカより出力された質問に対する会話相手の応答を取得する。歌再生部は、評価累積値が所定のしきい値に到達したタイミングにおいて、会話途中で歌を挿入してスピーカより再生する。ここで、評価累積値は、評価値を時系列的に累積した値である。また、評価値は、マイクより取得された応答がネガティブであるか否かを示す所定の評価基準に従って、それぞれの質問に対する応答を評価した値である。

　ここで、第３の発明において、上記歌再生部は、会話型ロボットにネットワーク接続されたサーバからの再生指示に基づいて、予め登録された複数の歌のいずれかを選択し、スピーカより出力してもよい。

　本発明によれば、会話相手の応答を所定の評価基準に従って評価し、評価値を時系列的に累積した評価累積値が所定のしきい値に到達した場合、歌を再生する。このように会話途中で歌を挿入することで、会話相手を飽きさせることなく会話の持続性を高めることができる。

会話処理システムの全体構成図評価値の符号表会話処理のフローチャート第１の例に係る評価値のタイムチャート第２の例に係る評価値のタイムチャート第３の例に係る評価値のタイムチャート第４の例に係る評価値のタイムチャート第５の例に係る評価値のタイムチャート

　図１は、本実施形態に係る会話処理システムの全体構成図である。本実施形態において、会話処理システム１は、高齢者（認知症を発症した者、その疑いがある者、耳の遠い者などを含む。）との会話を実現するために用いられ、会話型ロボット２と、会話処理サーバ３とを主体に構成されている。会話型ロボット２および会話処理サーバ３は、インターネット等のネットワークに接続されており、必要なデータの通信を行う。会話型ロボット２および会話処理サーバ３を分離する理由は、もっぱら、会話型ロボット２の機能を最低限に留めて、会話型ロボット２を安価に提供するためである。したがって、技術的な観点でいえば、両者を分離する必要はなく、会話処理サーバ３の機能のすべてまたはその一部を会話型ロボット２に担わせる構成であってもよい。

　会話型ロボット２は、人、動物、アニメの主人公などの外観を有する物品（物理的な構造体）であり、高齢者施設などの介護現場に設置されている。会話型ロボット２は、高齢者である会話相手と会話を行うためのインターフェースとして、会話相手に対して質問を発する機能と、この質問に対する会話相手の応答を取得する機能とを少なくとも備えている。会話型ロボット２は、スピーカ２ａと、マイク２ｂと、歌再生部２ｃとを有する。スピーカ２ａは、会話相手に対する質問と、会話途中で挿入される歌とを出力する。マイク２ｂは、スピーカ２ａより出力された質問に対する会話相手の応答を取得する。歌再生部２ｃは、会話途中で歌を挿入してスピーカ２ａより再生する。

　また、会話型ロボット２は、後述する付加的または拡張的な機能を実現すべく、カメラ２ｅと、脈拍センサ２ｆと、アクチュエータ２ｇとを有する。カメラ２ｅは、会話相手の顔の表情を読み取るために、会話相手の顔を撮影する。脈拍センサ２ｆは、会話相手の脈拍を取得する。アクチュエータ２ｇは、会話の過程において豊かな表現を演出すべく、会話型ロボット２の手足や頭を動作させる。

　データ通信部２ｄは、マイク２ｂによって取得された音声データ（応答）、カメラ２ｅによって取得された画像データ（会話相手の表情）、および、脈拍センサ２ｆによって取得された脈拍データ（会話相手の脈拍）を会話処理サーバ３に送信する。また、データ通信部２ｄは、スピーカ２ａより出力される音声データ（質問）、歌を再生すべき旨の再生指示、および、アクチュエータ２ｇを動作させるための動作データを会話処理サーバ３より受信する。

　一方、会話処理サーバ３は、会話相手との会話を成立させるために必要な各種の処理を行う。この会話処理サーバ３は、質問生成部３ａと、応答解析部３ｂと、応答評価部３ｃと、歌指示部３ｄとを主体に構成されている。質問生成部３ａは、会話型ロボット２側のスピーカ２ａより出力、換言すれば、会話相手に提示すべき質問を生成する。応答解析部３ｂは、スピーカ２ａより出力された質問に対して、会話型ロボット２側のマイク２ｂより取得された会話相手の応答を解析する。周知のとおり、音声（応答）の解析では、音声認識、テキスト化、および、自然言語処理といった手法が用いられる。質問生成部３ａは、応答の有無等に応じて、次の質問を生成する。応答評価部３ｃは、応答解析部３ｂによって解析された応答がネガティブであるか否かを示す所定の評価基準に従って、それぞれの質問に対する応答を評価して、その指標となる評価値を付与する。それとともに、応答評価部３ｃは、会話の進捗に伴い、評価値を時系列的に累積した評価累積値を算出する。歌指示部３ｄは、評価累積値が所定のしきい値に到達した場合、会話途中において、スピーカ２ａより歌を再生すべき旨を会話型ロボット２に指示する。

　会話型ロボット２側の歌再生部２ｃは、歌指示部３ｄからの再生指示に基づいて、再生すべき歌を特定し、スピーカ２ａより歌を出力する。これにより、歌指示部３ｄからの再生指示のタイミング、換言すれば、評価累積値が所定のしきい値に到達したタイミングで、会話の流れの中で歌が再生されることになる。再生される歌の候補は、高齢者にとって馴染みがあり、かつ、歌いやすい童謡などが会話型ロボット２側に予め複数登録されており、いずれかが適宜の選択手法（例えばランダム）で選択される。

　また、会話処理サーバ３は、会話型ロボット２がカメラ２ｅを備えている場合、会話型ロボット２の動作を指示する動作指示部３ｇを有する。さらに、応答評価部３ｃによって随時付与された評価値を時系列的に保存する記憶部３ｆを設けて、保存されたデータを認知症のスクリーニングなどに用いてもよい。

　データ通信部３ｅは、質問生成部３ａによって生成された音声データ（質問）、および、歌指示部３ｄの再生指示を会話型ロボット２に送信する。また、データ通信部３ｅは、マイク２ｂによって取得された音声データ（応答）、および、カメラ２ｅの画像データ、および、脈拍センサ２ｆの脈拍データを会話型ロボット２より受信する。

　なお、本実施形態では、会話処理サーバ３側（歌指示部３ｄ）は歌を再生すべき旨の指示のみを行い、この指示に基づく再生処理（歌の音声データの取得を伴う。）は、会話型ロボット２側（歌再生部２ｃ）にて行っている。これは、歌の音声データを会話型ロボット２側に予め記憶しておくことで、この音声データそのものの通信を不要にして、通信データ量を低減するためである。したがって、通信データ量を考慮する必要がないのであれば、再生すべき歌の音声データを会話処理サーバ３がその都度送信してもよい。この場合、歌指示部３ｄが音声データを送信したことを以て、歌の再生を指示したものとみなされ、会話型ロボット２では、受信した音声データがそのままスピーカ２ａより出力される。

　図２は、応答評価部３ｃによって付与される評価値の符号表である。上述したように、評価値は、応答がネガティブであるか否かを示す所定の評価基準に基づき付与されるものであるが、プラスおよびマイナスのどちらかの符号を伴う。本実施形態では、評価値の一例として、会話相手の「不安」の指標となる不安値を用い、ポジティブな応答については、会話相手の感情が不安であることを示すプラスの符号が付与される。これにより、評価値を時系列的に累積した累積評価値は増加する方向（「不安」が増す方向）に作用する。一方、ネガティブでない応答、すなわち、ポジティブな応答については、会話相手の感情が安心方向であることを示すマイナスの符号が付与される。これにより、累積評価値は減少する方向（「不安」が減る方向）に作用する。

　応答がネガティブであるか否かを判断するための評価基準は、システム上予め定められており、以下に例示するものを単独または組み合わせて用いることができる。

　第１に、ネガティブなワード（表現）が応答中に含まれているかである。例えば、「わからない」、「難しい」、「帰りたい」といったネガティブなワードが含まれている場合、プラスの評価値が付与される。一方、「楽しい」、「元気です」といったポジティブなワードが含まれている場合、マイナスの評価値が付与される。ネガティブなワードやポジティブなワードは、システム辞書として予め登録されており、これを参照することよって判別される。

　第２に、ある質問からその応答までに要した応答時間である。この応答時間が所定のしきい値Ｔth1よりも長い場合、回答が難しい質問であると考えられるので、プラスの評価値が付与される。一方、応答時間が所定のしきい値Tth1よりも短い場合、会話相手が会話を楽しんでいる状態と考えられるので、マイナスの評価値が付与される。また、応答がなかった場合、すなわち、応答時間が所定のしきい値Ｔth2（Ｔth2 >Ｔth1）よりも長い場合、回答に詰まった状態、または、会話相手の興味が別にある状態と考えられるので、プラスの評価値が付与される。

　第３に、応答の声量である。具体的には、会話当初を基準として所定のしきい値を超えて声量が小さくなった場合、会話相手が自信を奏した状態、または、疲労している状態を考えられるので、プラスの評価値が付与される。一方、声量の低下が所定のしきい値内に収まっている場合、あるいは、会話当初よりも声量が増大している場合、会話相手が楽しくなっている状態と考えられるので、マイナスの評価値が付与される。

　第４に、会話相手の表情である。具体的には、会話相手の表情が不安であると判断された場合にはプラスの評価値が付与され、これが安心であると判断された場合にはマイナスの評価値が付与される。会話相手の表情は、カメラ２ｅによって撮影された画像に対して周知の画像認識技術を適用することによって判断することができる。

　第５に、会話相手の脈拍である。具体的には、会話当初を基準として脈拍が増大している場合にはプラスの評価値が付与され、脈拍が減少している場合にはマイナスの評価値が付与される。会話相手の脈拍は、脈拍センサ２ｆによって特定される。

　なお、本実施形態では、会話相手の「不安」に着目した評価値（不安値）を用い、プラスを不安方向、マイナスを安心方向としているが、会話相手の「安心」に着目して評価値（安心度）を用いてもよい。この場合、プラスが安心方向、マイナスが不安方向となり、累積評価値が減少するほど不安が増すことを意味する。また、評価値の重み付けは同一（例えば全評価基準の増減量が１）であってもよいが、評価基準の種類に応じて、異なる重み付けを行ってもよい。例えば、応答中のワードについては増減量２、応答の声量については増減量１にするといった如くである。

　図３は、会話処理のフローチャートである。まず、ステップ１において、マイク２ｂより取得された会話相手の応答（音声データ）が入力される。つぎに、ステップ２において、応答解析部３ｂは、ステップ１で入力された音声データに基づいて、会話相手の応答を解析する。

　ステップ３において、応答評価部３ｃは、上述した評価基準に従って、会話相手の応答がネガティブであるか否かを判断する。ステップ３の判断が肯定の場合、すなわち、応答がネガティブであると判断した場合、応答評価部３ｃはプラスの評価値を付与する（ステップ４）。これに対して、ステップ３の判断が否定の場合、すなわち、応答がネガティブでないと判断された場合、応答評価部３ｃはマイナスの評価値を付与する（ステップ５）。

　ステップ６において、応答評価部３ｃは、ステップ４，５で付与された評価値に基づいて、現在の評価累積値を更新する。これにより、プラスの評価値が付与された場合には評価累積値が増加し、マイナスの評価値が付与された場合には評価累積値が減少する。

　ステップ７において、ステップ６で更新された評価累積値が所定のしきい値（例えば＋５）に到達したか否かが判断される。ここで、しきい値は、固定値であってもよいが可変値としてもよい。例えば、ある会話相手に関する累積評価値が安定的に低い場合、その者はお喋り好きと判断して、通常よりもしきい値を高め（例えば＋１０）に設定するといった如くである。ステップ７の判断が否定の場合、質問生成部３ａは、新たな質問を生成して、その音声データを出力する（ステップ８）。これに対して、ステップ７の判断が肯定の場合、すなわち、評価累積値がしきい値に到達した場合、歌指示部３ｄは、歌を再生すべき旨を指示するとともに（ステップ９）、評価累積値が初期値にリセットされる（ステップ１０）。

　ステップ１１において、ステップ８で生成された質問の音声データ、または、ステップ９で生成された歌の再生指示が出力される。これによって、会話型ロボット２において、質問または歌が再生される。以上のような一連のステップ１～１１は、会話相手によって会話の終了が指示されるまで繰り返される。

　なお、会話型ロボット２（スピーカ２ａ）による歌の再生時において、会話相手の反応、例えば、会話相手が歌に併せて歌っているか否かを特定してもよい。具体的には、まず、スピーカ２ａによる歌の再生時にマイク２ｂより音声が取得される。つぎに、応答解析部３ｂは、マイク２ｂによって取得された音声波形と、歌の音声波形（歌の音声データから一義的に特定される。）との差分を算出する。これにより、歌の再生時における会話相手の反応が差分波形として得られる。そして、応答解析部３ｂは、この差分波形と、歌の音声波形との類似性を評価する。両者の類似性が高いほど、会話相手が再生された歌に併せて歌っていると判断できる。この評価結果、あるいは、この評価の前提となるデータ（差分波形および歌の音声波形のセット）を記憶部３ｆに記憶しておけば、認知症のスクリーニングなどに利用することができる。

　図４は、一例としての評価値のタイムチャートである。図３に示したフローチャートにおいて、会話型ロボット２による質問と、会話相手の応答とのセットが繰り返されることでプラスおよびマイナスの評価値が付与され、会話の進捗に応じて評価累積値が増減する。そして、タイミングｔ１において評価累積値がしきい値（例えば＋５）に到達すると、会話型ロボット２は、質問に代えて歌を歌い始める。これにより、会話の流れの中で歌が挿入されることになる。

　このように、本実施形態によれば、高齢者である会話相手を飽きさせないための手段として、会話途中に歌を挿入することが有効であるとの知得に基づき、会話相手の応答を所定評価基準に従って評価し、応答毎に生成される評価値を累積した値（評価累積値）が所定のしきい値に到達した場合に歌を出力する。会話の流れの中で歌を挿入することで、会話相手を飽きさせることなく会話の持続性を高めることができる。その結果、介護を必要とする者に対する介護の省力化を図ることができる。

　なお、本発明は、上述した実施形態に限定されるものではなく、以下のような変形例（バリエーション）を適用してもよい。

　第１の変形例として、歌指示部３ｄは、評価値の時系列的な推移を分析した結果に応じて、スピーカ２ａより出力すべき歌の長さまたは種類を変える。例えば、図４に例示したタイムチャートにおいて、しきい値に到達するまでの過程で評価累積値が急激に増加している場合、会話型ロボット２は、会話相手の興味を惹くために長めの歌、あるいは、それ用に分類された歌を歌う。逆に、適切な応答を伴いつつ評価累積値が緩慢に増加している場合、会話型ロボット２は、短めの歌、あるいは、それ用に分類された歌を歌う。なお、第１の変形例の場合、歌指示部３ｄによる歌の再生指示には、歌の長さまたは種類についての指定も含まれる。

　第２の変形例として、質問生成部３ａは、ある応答に関する評価値の符号の種別に応じて、この応答に対応する質問の提示頻度を調整する。例えば、図５に示すように、「犬は好きですか？」という質問に対するＡさんの応答によって評価累積値が増加した場合（プラスの評価値が付与された場合）、Ａさんに対しては、この質問の提示頻度を下げる。逆に、図６に示すように、同一の質問に対するＢさんの応答によって評価累積値が減少した場合（マイナスの評価値が付与された場合）、Ｂさんに対しては、この質問の提示頻度を上げる。

　第３の変形例として、動作指示部３ｇは、評価値の時系列的な推移を分析した結果に応じて、会話型ロボット２の動作を指示する。例えば、図７に示すように、評価累積値が増大した場合、会話相手の興味を惹くべく、会話型ロボット２の首を振ったり、頷いたりする旨の指示を行う。

　第４の変形例として、応答評価部３ｃによって随時付与された評価値を記憶部３ｆに時系列的に保存する。記憶部３ｆに保存されたデータは、認知症のスクリーニングなどに利用することができる。図８に示すように、時間の経過により、同じ質問についての評価値がマイナスからプラスに転じた場合、これを認知症の進行の指標とすることができる。

　また、本発明は、図３のフローチャートに示した手順をコンピュータに実行させる会話処理プログラムとして捉えることができる。本発明を会話処理プログラムおよび会話処理サーバとして捉えた場合、その制御対象は、会話型ロボットに限定されず、キャラクター全般に広く適用することができる。本明細書において、「キャラクター」とは、人間と会話する相手方を指し、ロボットのような物理的な構造体のみならず、携帯端末などの画面上に表示される仮想的な主体（人、動物、アニメの主人公などを表現したもの）を含む概念をいう。

　さらに、上述した実施形態では、高齢者向けの会話処理システム１について説明したが、会話処理の仕組みという技術的観点でいえば、高齢者以外の会話相手（例えば幼児など）を対象にしてもよい。ただし、上述したように、発明者らが実験を通じて得た知得によれば、高齢者向けとするのが最も効果的であろう。

　１　会話処理システム
　２　会話型ロボット
　２ａ　スピーカ
　２ｂ　マイク
　２ｃ　歌再生部
　２ｄ　データ通信部
　２ｅ　カメラ
　２ｆ　脈拍センサ
　２ｇ　アクチュエータ
　３　会話処理サーバ
　３ａ　質問生成部
　３ｂ　応答解析部
　３ｃ　応答評価部
　３ｄ　歌指示部
　３ｅ　データ通信部
　３ｆ　記憶部
　３ｇ　動作指示部

Claims

　会話処理プログラムにおいて、
　スピーカより出力された質問に対して、マイクより取得された会話相手の応答を解析する第１のステップと、
　前記応答がネガティブであるか否かを示す所定の評価基準に従って、それぞれの質問に対する応答を評価して評価値を付与する第２のステップと、
　前記評価値を時系列的に累積した評価累積値が所定のしきい値に到達した場合、会話途中において、前記スピーカより歌を再生すべき旨を指示する第３のステップと、
を有する処理をコンピュータに実行させることを特徴とする会話処理プログラム。
　前記スピーカによる歌の再生時に前記マイクより音声を取得し、前記マイクより取得された音声波形と、前記歌の音声波形との差分を算出することによって、歌の再生時における会話相手の反応を特定する第４のステップをさらに有することを特徴とする請求項１に記載された会話処理プログラム。
　前記第２のステップは、前記応答がネガティブであると判断された場合、前記評価値として、プラスおよびマイナスの一方の符号を有する第１の評価値を付与するとともに、前記応答がネガティブでないと判断された場合、前記評価値として、前記第１の評価値とは反対の符号を有する第２の評価値を付与することを特徴とする請求項１または２に記載された会話処理プログラム。
　前記第２のステップは、予め登録されたネガティブなワードが前記応答中に含まれているか否かに基づいて、前記応答がネガティブであるか否かを判断することを特徴とする請求項３に記載された会話処理プログラム。
　前記第２のステップは、前記質問から前記応答までに要した時間に基づいて、前記応答がネガティブであるか否かを判断することを特徴とする請求項３に記載された会話処理プログラム。
　前記第２のステップは、会話当初を基準とした、前記マイクより取得された会話相手の声量に基づいて、前記応答がネガティブであるか否かを判断することを特徴とする請求項３に記載された会話処理プログラム。
　前記第２のステップは、カメラによって撮影された会話相手の表情に基づいて、前記応答がネガティブであるか否かを判断することを特徴とする請求項３に記載された会話処理プログラム。
　前記第２のステップは、脈拍センサによって取得された会話相手の脈拍に基づいて、前記応答がネガティブであるか否かを判断することを特徴とする請求項３に記載された会話処理プログラム。
　前記第３のステップは、前記評価値に応じて、前記スピーカより再生すべき歌の長さまたは種類を変えることを特徴とする請求項１に記載された会話処理プログラム。
　ある応答に関する前記評価値の符号に応じて、当該応答に対応する質問の提示頻度を調整する第５のステップをさらに有することを特徴とする請求項１に記載された会話処理プログラム。
　前記評価値に応じて、人間と会話するキャラクターの動作を指示する第６のステップをさらに有することを特徴とする請求項１に記載された会話処理プログラム。
　会話処理システムにおいて、
　スピーカより出力すべき質問を生成する質問生成部と、
　前記スピーカより出力された質問に対して、マイクより取得された会話相手の応答を解析する応答解析部と、
　前記応答がネガティブであるか否かを示す所定の評価基準に従って、それぞれの質問に対する応答を評価して評価値を付与する応答評価部と、
　前記評価値を時系列的に累積した評価累積値が所定のしきい値に到達した場合、会話途中において、前記スピーカより歌を再生すべき旨を指示する歌指示部と
を有することを特徴とする会話処理システム。
　前記応答解析部は、前記スピーカによる歌の再生時に前記マイクより音声を取得し、前記マイクより取得された音声波形と、前記歌の音声波形との差分を算出することによって、歌の再生時における会話相手の反応を特定することを特徴とする請求項１２に記載された会話処理システム。
　前記応答評価部は、前記応答がネガティブであると判断された場合、前記評価値として、プラスおよびマイナスの一方の符号を付与するとともに、前記応答がネガティブでないと判断された場合、前記評価値として、前記第１の評価値とは反対の符号を付与することを特徴とする請求項１２または１３に記載された会話処理システム。
　前記応答評価部は、予め登録されたネガティブなワードが前記応答中に含まれているか否かに基づいて、前記応答がネガティブであるか否かを判断することを特徴とする請求項１４に記載された会話処理システム。
　前記応答評価部は、前記質問から前記応答までに要した時間に基づいて、前記応答がネガティブであるか否かを判断することを特徴とする請求項１４に記載された会話処理システム。
　前記応答評価部は、会話当初を基準とした、前記マイクより取得された会話相手の声量に基づいて、前記応答がネガティブであるか否かを判断することを特徴とする請求項１４に記載された会話処理システム。
　前記応答評価部は、カメラによって撮影された会話相手の表情に基づいて、前記応答がネガティブであるか否かを判断することを特徴とする請求項１４に記載された会話処理システム。
　前記応答評価部は、脈拍センサによって取得された会話相手の脈拍に基づいて、前記応答がネガティブであるか否かを判断することを特徴とする請求項１４に記載された会話処理システム。
　前記歌指示部は、前記評価値に応じて、前記スピーカより再生すべき歌の長さまたは種類を変えることを特徴とする請求項１２に記載された会話処理システム。
　前記質問生成部は、ある応答に関する前記評価値の符号に応じて、当該応答に対応する質問の提示頻度を調整することを特徴とする請求項１２に記載された会話処理システム。
　前記評価値に応じて、人間と会話するキャラクターの動作を指示する動作指示部をさらに有することを特徴とする請求項１２に記載された会話処理システム。
　会話型ロボットにおいて、
　会話相手に対して質問および歌を出力するスピーカと、
　前記スピーカより出力された質問に対する会話相手の応答を取得するマイクと、
　評価累積値が所定のしきい値に到達したタイミングにおいて、会話途中で歌を挿入して前記スピーカより再生する歌再生部とを有し、
　前記評価累積値は、評価値を時系列的に累積した値であって、
　前記評価値は、前記マイクより取得された応答がネガティブであるか否かを示す所定の評価基準に従って、それぞれの質問に対する応答を評価した値であることを特徴とする会話型ロボット。
　前記歌再生部は、前記会話型ロボットにネットワーク接続されたサーバからの再生指示に基づいて、予め登録された複数の歌のいずれかを選択し、前記スピーカより出力することを特徴とする請求項２３に記載された会話型ロボット。