WO2016052520A1

WO2016052520A1 - 対話装置

Info

Publication number: WO2016052520A1
Application number: PCT/JP2015/077545
Authority: WO
Inventors: 圭司寺島; 俊介山縣
Original assignee: シャープ株式会社
Priority date: 2014-09-30
Filing date: 2015-09-29
Publication date: 2016-04-07
Also published as: JP2016071248A; JP6373709B2

Abstract

　スムーズな応答が可能であり、ユーザにストレスを与えることなく快適な対話環境を提供できる対話装置を提供する。対話装置（１０）は、入力音声の推定入力時刻よりも前に、副応答情報を背生成または更新する副応答情報生成部（１９）と、入力音声が入力されると、主応答情報が示す応答内容と共に副応答情報が示す応答内容を音声出力する出力制御部（２０）と、を備える。

Description

対話装置

　本発明は、ユーザの音声を認識して応答する対話装置及び対話システムに関する。

　近年、介護や癒しのケアロボットや家事代行ロボットといったロボットが徐々にユーザの生活に浸透してきている。例えば、特許文献１～４に開示されているように、音声認識機能を有し、ユーザの発話に対して応答する対話ロボット（対話装置）や、例えば、特許文献５，６に開示されているように、音声認識機能に加え、ユーザの生活情報を蓄積してユーザの補助や支援を行う機能を有する対話ロボットも開発されている。

国際公開公報「ＷＯ０５／０７６２５８Ａ１（２００５年８月１８日公開）」日本国公開特許公報「特開２００６－０４３７８０号公報（２００６年２月１６日公開）」日本国公開特許公報「特開２０１０－１２８２８１号公報（２０１０年６月１０日公開）」日本国公開特許公報「特開２００３－０２２０９２号公報（２００３年１月２４日公開）」日本国公開特許公報「特開２００４－１７１８４号公報（２００４年１月２２日公開）」日本国公開特許公報「特開２００７－１５２４４４号公報（２００７年６月２１日公開）」

　従来の対話ロボットは、性能やコストの面から複雑な音声認識を行うことは困難であり、また応答内容もパターン化されたものや単純なものであり、面白みに欠け、飽きられ易いものとなりがちである。そこで、対話ロボットをサーバ装置と通信接続させ、対話ロボットがサーバ装置による音声認識に基づく応答内容を受信して出力（応答）するシステムも開発されている。しかし、この場合、対話ロボット単体で音声認識して応答する場合と比べて、応答のタイミングが遅れてしまう。また、通信が切断されると、応答内容を受信できない。そのため、ユーザがストレスを感じ、会話し難いといった思いをすることもある。

　そこで、本発明は、上記の問題点に鑑みてなされたものであり、複数の情報をスムーズに音声出力でき、ユーザにストレスを与えることなく快適な対話環境を提供できる対話装置及び対話システムを提供することにある。

　上記の課題を解決するために、本発明の一態様に係る対話装置は、入力音声を音声認識する音声認識部と、上記音声認識の結果に応じた応答内容を示す主応答情報、及び、当該応答情報に対応づけられ当該主応答情報が示す応答内容に付加される応答内容を示す副応答情報を格納する応答情報格納部と、上記入力音声が入力される時刻を推定する時刻算出部と、上記推定された時刻である推定入力時刻よりも前に、上記副応答情報の生成または更新に用いる材料情報を取得して上記副応答情報を生成または更新する副応答情報生成部と、上記入力音声の入力に対し、上記応答情報格納部を参照して得られる上記主応答情報が示す応答内容と共に上記副応答情報が示す応答内容を音声出力する出力制御部と、を備えたことを特徴とする。

　本発明の一態様に係る対話装置によると、入力音声に対して、主応答情報が示す応答内容の音声出力に、副応答情報が示す応答内容の音声出力を付加できるので、複数の情報での応答が可能である。また、副応答情報は、入力音声の推定入力時刻よりも前に生成または更新されるので、変化に富んだ応答が可能である。このように、上記構成によると、複数の情報をスムーズに音声出力でき、ユーザにストレスを与えることなく快適な対話環境を提供できる。

本発明の実施の形態１に係る対話装置の概略構成を示す図である。本発明の実施の形態１に係る対話システムの概略構成を示す図である。本発明の実施の形態１に係る対話装置で用いる主応答情報及び副応答情報の一例を説明する図である。本発明の実施の形態１に係る対話装置で用いる主応答情報及び副応答情報の別の例を説明する図である。本発明の実施の形態２に係る対話装置が設置されているユーザ宅の概略構成を示す図である。本発明の実施の形態２に係る対話装置の概略構成を示す図である。本発明の実施の形態２に係る対話装置の動作モードを説明する図である。

　〔実施の形態１〕
　以下、本発明の一実施形態について図１～４に基づいて説明すれば以下の通りである。

　（対話システムの構成）
　図１は、本実施の形態に係る対話システム１００の構成を示す図である。図１に示すように、対話システム１００は、対話装置１０、管理サーバ３０、情報提供サーバ３１－１，３１－２、通信端末７０、を備えており、これらは通信ネットワークを介して接続している。この通信ネットワークとしては、例えば、インターネットが利用できる。また、電話回線網、移動体通信網、ＣＡＴＶ（CAble TeleVision）通信網、衛星通信網などを利用することもできる。

　対話装置１０は音声認識機能を有しており、ユーザは自然言語を用いた音声出力（発話）によって対話装置１０と対話することができる。対話装置１０は、対話ロボットであってもよいし、音声認識機能を備えた、スマートフォン、タブレット端末、パーソナルコンピュータ、家電（家庭用電子機器）等であってもよい。

　管理サーバは、対話装置１０を管理する装置であり、情報提供サーバ３１－１、３１－２は対話装置１０に各種情報を提供する装置であり、通信端末７０は、対話装置１０のユーザが有する通信端末であり、例えば、ユーザに関する情報を管理サーバに登録するのに用いられる。詳細は後述する。

　なお、図１では、説明の簡略化のため、１つの対話装置１０、１つの通信端末７０、２つの情報提供サーバ３１－１，３１－２を図示しているが、これらの数は限定されない。また、図１では、対話装置１０は対話ロボットとして、通信端末７０はスマートフォンとして表わされているが、これらに限定されるものではない。また、管理サーバ３０が管理する対話装置１０の種類は問わず、つまり、管理サーバ３０に、対話ロボットとスマートフォンといったように異なる種類の対話装置１０が通信接続していてもよい。

　（対話装置）
　対話装置１０の構成について説明する。対話装置１０は、音声（入力音声）が入力されると、音声認識を行い、その認識結果に応じた対話を行う装置である。対話装置１０は、図１に示すように、音声入力部１１、音声出力部１２、制御部１３、データ格納部１４、及び通信部１５を備えている。

　音声入力部１１は、マイク等の音声入力装置であり、音声出力部１２は、スピーカ等の音声出力装置である。

　制御部１３は、対話装置１０の各部の動作を制御するブロックである。制御部１３は、例えば、ＣＰＵ（Central Processing Unit）や専用プロセッサなどの演算処理部などにより構成されるコンピュータ装置から成る。制御部１３は、データ格納部１４に記憶されている対話装置１０における各種制御を実施するためのプログラムを読み出して実行することで、対話装置１０の各部の動作を統括的に制御する。

　データ格納部１４は、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、ＨＤＤ（Hard Disk Drive）などを含み、対話装置１０にて用いられる各種情報（データ）を記憶するブロックである。また、データ格納部１４には、応答情報格納部１４１が含まれる。応答情報格納部１４１は、単語やフレーズに対応させて主応答情報が登録されているデータベースである。主応答情報は、単語１つに対応したものだけでなく、複数の単語の組み合わせに対応しものが登録されている。また、ある単語やあるフレーズに対応させて複数の主対応情報が登録されていてもよく、この場合、実際に音声出力されるものを選択すればよい。なお、単語やフレーズおよび主応答情報は、何れもテキストデータとして格納しておけばよい。このようなデータベースの構築、また、データベースからの応答情報の取得については、公知技術が利用できる。

　さらに、応答情報格納部１４１には、主応答情報対応付けられて副応答情報が登録されている。副応答情報は、主応答情報が示す応答内容に付加される応答内容を示す情報であり、後述のように、応答情報格納部１４１に格納されていない場合には、所定時刻になると生成されて格納される。また、格納されている場合には、所定時刻になると更新される。副応答情報については、具体例を用いて後述する。副応答情報もテキストデータとして応答情報格納部１４１に格納すればよい。

　さらに、制御部１３は、音声認識部１６、時刻算出部１７、材料情報取得部１８、副応答情報生成部１９、出力制御部２０、及び音声合成部２１としての機能を有する。

　音声認識部１６は、ユーザからの入力音声を認識するブロックである。具体的には、音声認識部１６は、音声入力部１１から入力された音声データをテキストデータに変換して、そのテキストデータを解析して単語やフレーズを抽出する。なお、音声認識の処理について公知技術を用いることができる。

　時刻算出部１７は、入力音声が入力される時刻を推定（算出）するブロックである。時刻算出部１７により推定された時刻を推定入力時刻と称する。材料情報取得部１８は、副応答情報の生成または更新に用いる後述の材料情報を取得するブロックである。副応答情報生成部１９は、時刻算出部１７が算出した推定入力時刻よりも前に、材料情報取得部１８から材料情報を受け取り（取得し）、副応答情報を生成または更新するブロックである。生成または更新された副応答情報は応答情報格納部１４１に格納される。

　本実施形態では、時刻算出部１７は、入力音声のうちの特定の入力音声の推定入力時刻を算出し、副応答情報生成部１９は、時刻算出部１７が算出した特定の入力音声の推定入力時刻よりも前に、応答情報格納部１４１に格納されている全ての副応答情報を生成または更新する。例えば、特定の入力音声を「おはよう」とすると、「おはよう」の推定入力時刻よりも前に、つまり、ユーザの一日の始まりと推定される時刻前に、全ての副音声情報を生成または更新することができる。ユーザは、一日毎に生成または更新された副応答情報が示す応答内容の音声を聞くことができる。

　もちろん、入力音声毎に推定入力時刻を算出して、ある入力音声の音声認識の結果に対応付けられた主応答情報に付加される副応答情報を、その入力音声について算出した推定入力時刻前に生成または更新する構成であってもよい。

　時刻算出部１７による推定入力時刻を算出について具体例を用いて説明する。時刻算出部１７は、入力音声の過去の入力時刻の情報を基に推定入力時刻を算出する。この場合、例えば、入力音声の前回の入力時刻の情報を推定入力時刻として算出してもよいし、あるいは、過去の所定期間内（例えば、直近の、１週間または１ヶ月）の入力音声の入力時刻の平均を推定入力時刻として算出してもよい。あるいは、時刻算出部１７は、ユーザの生活情報を基に推定入力時刻を算出する。この場合、例えば、ユーザの起床時刻を推定入力時刻として算出してもよい。ユーザの起床時刻は、例えば、対話装置１０に目覚まし時計の機能が備えられており、設定されたアラームを鳴らす時刻から取得してもよい。もちろん、これらは例示であり、これらに限定されない。生活情報は、ユーザの生活状態ないし生活環境に関する情報であれば限定されない。

　副応答情報生成部１９は、材料情報として入力音声の過去の入力時刻の情報を基に副応答情報を生成または更新する。あるいは、副応答情報生成部１９は、材料情報としてユーザの生活状態ないし生活環境に関する生活情報を基に副応答情報を生成または更新する。生活情報は、ユーザの生活状態ないし生活環境に関する情報であればどのような情報でもよく、例えば、対話装置が設置された地域の天気や交通に関する情報、ユーザのスケジュール（計画）、ユーザの生活パターンに関する情報、ユーザの健康に関する情報等が挙げられる。また、生活情報は、声認識部による入力音声の音声認識の結果から得られる情報であってもよい。また、通信部１５を介して外部から受信した情報、あるいは、ユーザないしその周囲の状態を検知する状態検知部が検知した情報であってもよい。また、これらの情報の組み合わせであってもよい。状態検知部については、実施の形態２にて説明を行う。副応答情報については、後段で具体例を用いて説明する。

　副応答情報が応答情報格納部１４１に登録されていない場合には、副応答情報生成部１９は、材料情報を用いて副応答情報を生成する。この生成の処理は、情報が無い（ゼロ）副応答情報の更新の処理とも言えるので、応答情報の生成の処理も副応答情報の更新の処理に含めてもよい。

　また、上記では、副応答情報生成部１９が、副応答情報を生成または更新するものとして説明したが、推定入力時刻前に副応答情報を生成し、所定時刻あるいは所定の音声（例えば、「おやすみ」）入力後に副音声情報をクリアする構成であってもよい。

　また、副応答情報生成部１９が、副応答情報を通信ネットワーク６０経由で外部から受信する処理も、副応答情報の生成または更新の処理に含めてもよい。

　出力制御部２０は、音声データを音声出力部１２に出力させることで音声出力を行うブロックである。出力制御部２０は、音声入力部１１からの入力音声に対する応答として、応答情報格納部１４１を参照して得られる主応答情報が示す応答内容と共に上記副応答情報が示す応答内容を音声出力する。

　音声合成部２１は、音声データを生成するブロックである。音声合成部２１は、主応答情報で示される応答内容の音声データ、副応答情報で示される応答内容の音声データを生成する。生成された音声データは、音声出力部１２を介して出力される。

　対話装置１０は、このように、応答情報格納部１４１を参照することにより、ユーザの発話に対して応答を返すことが、つまり、ユーザとの対話が可能になる。

　通信部１５は、外部との通信を行うブロックである。通信部１５は、管理サーバ３０及び情報提供サーバ３１－１、３１－２から、生活情報を受信する。

　以上のように、対話装置１０は、入力音声に対して、主応答情報が示す応答内容の音声出力に、副応答情報が示す応答内容の音声出力を付加できるので、複数の情報での応答が可能である。また、副応答情報は、推定入力時刻よりも前に生成または更新されるので、変化に富んだ応答が可能である。このように、対話装置１０は、複数の情報をスムーズに音声出力でき、ユーザにストレスを与えることなく快適な対話環境を提供できる。

　また、副応答情報の生成または更新に用いられる材料情報を外部から取得する場合、入力音声の入力時に外部との通信が途絶えていても、入力音声の推定入力時刻より前に副応答情報を生成または更新するので、この生成または更新後に入力音声が入力されると、生成または更新された副応答情報をユーザに提供することができる。また、入力音声の入力時には、副応答情報も応答情報格納部１４１を参照して得るため、副応答情報を入力時に生成または更新したり、外部から受信したりする装置よりも、すばやい応答（音声出力）が可能である。

　なお、対話装置１０に撮像部が備えられている場合には、撮像部から入力された画像からユーザの表情や位置を解析してそれに基づき対話をするように構成されていてもよい。また、撮像部から得られる画像等からユーザを識別して対話をするように構成されていてもよい。

　（管理サーバ及び情報提供サーバ）
　次に、管理サーバ３０及び情報提供サーバ３１－１、３１－２について説明する。

　管理サーバ３０は、対話装置１０を管理する装置である。管理サーバ３０に複数の対話装置１０が接続されている場合には、それぞれを個別に管理する。さらに、管理サーバ３０は、対話装置１０に生活情報を提供（送信）する。管理サーバ３０はが提供する生活情報は、後述のように、通信端末７０から取得（受信）した生活情報である。管理サーバ３０は、クラウドサービスを提供するクラウドサーバであってもよいが、これに限定されることはない。また、管理サーバ３０は、１台であってもよいし、複数台が通信ネットワークを介して接続したものであってもよい。

　情報提供サーバ３１－１，３１－２は、ユーザの生活情報を提供する装置である。情報提供サーバ３１－１，３１－２が提供する生活情報はどのような情報であってもよく、例えば、気象情報、交通情報、災害情報、行政が発信する地域情報等が挙げられる。以下では、情報提供サーバ３１－１を、天気情報を提供する天気情報提供サーバ３１－１、情報提供サーバ３１－２を、交通情報を提供する交通情報提供サーバ３１－２として説明を行う。

　ここで、管理サーバ３０、天気情報提供サーバ３１－１、交通情報提供サーバ３１－２が、個別にユーザの生活情報を対話装置１０に送信する構成でも、天気情報提供サーバ３１－１及び交通情報提供サーバ３１－２からの材料情報は管理サーバ３０にいったん集約されて、管理サーバから対話装置１０に送信する構成であってもよい。

　対話システム１００では、このような管理サーバ３０及び情報提供サーバ３１－１，３１－２から提供された生活情報を基に副応答情報を生成または更新できるため、例えば、次のような応答を行うことが可能となる。副応答情報を生成または更新する際に天気情報提供サーバ３１－１の提供する天気情報を利用することで、例えば、「おはよう。」という入力音声に対して、主応答情報が示す応答内容の音声（主応答情報で出力される音声）である「おはよう。」に、副応答情報が示す応答内容の音声（副応答情報で出力される音声）である「今日は雨が降るみたいだよ。」を付加することができる。

　さらに、管理サーバ３０は、通信端末７０や図示しない他の通信端末から録音音声を登録できるようになっていてもよい。そして、この場合、副応答情報生成部１９が、この登録された録音音声を副応答情報として取得することも、副応答情報の生成または更新に含める。録音音声は音声データとして形成されているので、そのまま対話装置１０に送信すると、対話装置１０での音声合成の処理はなされない。例えば、「冷蔵庫にケーキがあるよ」という音声がユーザの母親の通信端末（図示せず）から管理サーバ３０に登録されると、対話装置１０が、ユーザの「ただいま」という入力音声に対して、主応答情報を用いて「おかえり」を音声出力して、それに付加して、副応答情報を用いて「お母さんからの伝言だよ。「冷蔵庫にケーキがあるよ」。」を音声出力する、というような高度な応答を行うこともできる。

　（通信端末）
　通信端末７０は、通信ネットワーク６０を介して他の装置と通信を行える機器である。通信端末７０は、管理サーバ３０にユーザの生活情報を登録できるように構成されている。通信端末７０としては、ユーザの生活情報を登録するためのソフトウェア（アプリケーション）が内蔵されたタブレット端末やスマートフォン、パーソナルコンピュータ等の汎用機器を想定する。通信端末７０から管理サーバ３０に登録できる生活情報は、生活状態ないし生活環境に関する情報であれば限定されず、例えば、ユーザのスケジュール、住んでいる地域、起床時間、ユーザのよく使用する（例えば、通勤や通学に使用する）路線等の情報が挙げられる。こまた、生活情報は、ユーザが通信端末７０に入力してもよいし、通信端末７０が自動または手動で取得してもよい。例えば、ユーザのよく使用する路線として、使用回数の多い基地局からユーザの通常の行動範囲を把握して、その範囲に含まれる路線を取得してもよい。これらは全て例示である。

　（主応答情報及び副応答情報）
　次に、主応答情報及び副応答情報を用いた応答について具体例を図３及び４を参照して説明する。

　図３の（ａ）は、対話装置１０が取得している、副応答情報の生成または更新に用いられる材料情報の一例を示す。図３の（ａ）は、取得している材料情報には、「晴」を示す天気の情報、「なし」を示す交通の情報、「燃えるごみの日」、「１０時に習い事のピアノ」、「１９時に食事会」を示すスケジュールの情報、「昨日の起床時刻は７時３分」を示す生活ログの情報があることを示している。

　ここで、「なし」という交通の情報を取得しているとは、言い換えれば、交通の情報は取得していない、ということである。ケジュールの情報は、上記したように通信端末７０から管理サーバ３０に登録したものを対話装置１０が取得する構成でも、対話装置１０にユーザが直接登録でき、対話装置１０はそれを取得する構成であってもよい。生活ログとは、対話装置１０が取得するユーザの生活情報であり、対話装置１０は生活ログを記録しデータ格納部１４に格納する。あるいは、通信端末７０が生活ログを記録し管理サーバ３０に送信し、対話装置１０は管理サーバ３０から生活ログを取得するという構成であってもよい。

　副応答情報生成部１９は、時刻算出部１７が算出した特定の入力音声（例えば、「おはよう」）の推定入力時刻よりも前に、材料情報を取得しおき、材料情報を基に副応答情報を生成または更新する。ここでは、対話装置１０は、毎日、特定の入力音声である「おはよう」の推定入力時刻よりも前に、材料情報を取得しておき、材料情報を基に副応答情報を生成または更新するものとする。

　図３の（ｃ）は、入力音声を音声認識した結果である音声認識単語に応じた応答内容を示す主応答情報のデータベースの一例である。図３の（ｃ）に示すデータベースでは、さらに、各主応答情報には、副応答情報を付加するか否かを示す情報が対応付けられている。

　図３の（ｄ）は、主応答情報「おはよう」に付加される副応答情報の一例であり、材料情報を基に生成または更新したものを示している。図３の（ｄ）のように副応答情報が複数ある場合には、副応答情報生成部１９は、副応答情報に優先度を設定する。そして、出力制御部２０は、優先度に従って副応答情報を特定し、特定した副応答情報で示される応答内容を音声出力する。副応答情報は、主応答情報毎に設けられているが、ここでは、「おはよう」以外の主応答情報に付加される副応答情報の例については説明しない。

　普段とは異なる状況を伝える副音声情報、緊急性を要する内容を伝えるものである副音声情報には、優先度を高く設定する。例えば、交通情報、スケジュール登録、悪天候を材料情報として生成または更新した副音声情報には高い優先度を付ける。本実施の形態では、優先度は１から３まであり、１の方が優先されるものである。

　出力制御部２０は、優先度が１の副応答情報は必ず出力する。また、優先度が２の副応答情報は優先度が１の副応答情報が無い場合に、ランダムに１つ出力する。また、優先度が３の副応答情報は、優先度が１の副応答情報及び優先度が２の副応答情報が無い場合にランダムに出力する。

　この具体例では、図３の（ｂ）に示すように、対話装置１０は、「おはよう」という入力音声に対して、「おはよう」という主応答情報に、優先度が１の「今日は燃えるごみの日だよ」という副応答情報を付加して音声出力する。優先度が１の副応答情報が複数有る場合には、複数出力してもよいし、選択して出力してもよい。

　別の具体例を図４を用いて説明する。図４の（ａ）は、材料情報の一例、図４の（ｃ）は、入力音声を音声認識した結果である音声認識単語に応じた応答内容を示す主応答情報のデータベースの一例である。図４の（ｄ）は、主応答情報「いってきます」に付加される副応答情報の一例である。この具体例では、図４の（ｂ）に示すように、対話装置１０は、「いってきます」という入力音声に対して、「いってらっしゃい」という主応答情報に、「傘忘れていない？」という副応答情報を付加して音声出力する。

　〔実施の形態２〕
　以下では、本発明の別の実施の形態の対話装置１０ａについて図５～７を用いて説明する。なお説明の便宜上、実施の形態１にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。

　対話装置１０の提供するサービス（対話装置１０の動作）は主に対話であったが、対話装置１０ａは、対話以外にも、ユーザに各種サービスを提供可能に設けられている。そのため、対話装置１０ａは、提供可能なサービス毎の動作モードを有している。対話装置１０ａが提供可能なサービスとしては、例えば、対話、家電の操作、ユーザの生活情報の記録、ユーザへの音声アドバイスが挙げられるが、こられに限定されない。対話は、ユーザからの入力音声に対して行うものであるが、ユーザへの音声アドバイスとは、ユーザからの入力音声が無くても、対話装置１０ａから自発的に音声出力（発話）される情報である。対話装置１０ａによるサービスの提供については後に具体例を用いて説明する。

　対話装置１０ａは、図５に示すように、ユーザ宅４０にある家電を赤外線通信や無線ＬＡＮ通信などで操作可能に設けられている。家電は、例えば、空気調和機（エアコン）、洗濯機、冷蔵庫、調理器具、照明装置、給湯機器、撮影機器、各種ＡＶ（Audio-Visual）機器、各種家庭用ロボット（例えば、掃除ロボット、家事支援ロボット、動物型ロボット等）等である。以下では、対話装置１０ａが操作できる家電として、エアコン５０－１、テレビ５０－２、冷蔵庫５０－３を用いて説明を行うが、操作対象の家電はこれらに限定されない。

　対話装置１０ａは、図６に示すように、実施の形態１の対話装置１０の構成に加え、動作部２２及び状態検知部２４を備えている。動作部２２は、対話装置１０ａの各種動作を実行するブロックである。状態検知部２４は、ユーザないしその周囲の状態を検知する装置であればよく、例えば、人感センサ、撮像部（カメラ）、温度センサ等が挙げられる。しかし、これらに限定されない。

　また、対話装置１０ａの制御部１３ａは、制御部１３と同様の機能に加え、モード設定部２３としての機能を有する。モード設定部２３は、音声入力部１１から入力された入力音声の音声認識の結果に基づき提供するサービスを決定し、決定したサービスを提供する動作モードに対話装置１０ａを設定する。よって、対話装置１０ａは、ユーザとの対話から、例えば、エアコン５０－１を操作したいことを類推した場合には、エアコン５０－１を操作する動作モードに対話装置１０ａを設定し、操作を行うことが可能となる。

　また、対話装置１０ａのデータ格納部１４ａは、モード情報格納部１４３を含み、モード情報格納部１４３には、サービス毎に、そのサービスを提供する動作モードに対話装置１０ａを設定するための情報が格納されている。

　対話装置１０ａから家電を操作する際には、赤外線を用いて家電の位置を検出してもよいし、状態検知部２４が撮像部を有している場合には、この撮像部が取得した情報で家電の位置を検出してもよい。

　実施の形態の対話システムは、図２の対話装置１０が対話装置１０ａに置き換わったものである。実施の形態の対話システムは、さらに、エアコン５０－１、テレビ５０－２、及び冷蔵庫５０－３が通信ネットワーク６０に接続しており、管理サーバ３０が、これら家電からの情報を取得する構成であってもよい。この場合に管理サーバ３０が取得する情報としては、例えば、エアコン５０－１、テレビ５０－２、及び冷蔵庫５０－３の、設定状況、動作状況を示す情報、周囲環境の情報が挙げられる。管理サーバ３０は、これら家電から取得した情報のうちユーザの生活情報、例えば、エアコン５０－１のＯＮ／ＯＦＦや設定温度の情報、冷蔵庫５０－３を開ける回数の情報、テレビ５０－２のＯＮ／ＯＦＦの情報を、対話装置１０ａに送信する。

　このような構成であると、対話装置１０ａは、エアコン５０－１、テレビ５０－２、及び冷蔵庫５０－３から得た生活情報も推定入力時刻の算出及び副応答情報の生成または更新に利用することができる。よって、この場合、例えば、「いってきます」という入力音声に対して、主応答情報で出力される音声である「いってらっしゃい。」に、副応答情報で出力される音声である「エアコンとテレビが点いているので消してね。」を付加することができる。

　なお、管理サーバ３０を介さず、エアコン５０－１、テレビ５０－２、及び冷蔵庫５０－３から直接対話装置１０ａに生活情報を送信する構成であってもよい。この場合、エアコン５０－１、テレビ５０－２、及び冷蔵庫５０－３が、対話装置１０ａに生活情報を提供する情報提供装置である。

　また、冷蔵庫５０－３が音声録音及び再生機能を有している場合、「ただいま」という入力音声に対して、主応答情報で出力される音声である「おかえり。」に、副応答情報で出力される音声である「冷蔵庫さんがお母さんの伝言を聞いているよ。」を付加することができる。この場合、冷蔵庫の伝言が再生されるまで、一定時間ごとに、副応答情報で出力される音声の出力を繰り返してもよい。冷蔵庫５０－３への音声録音は、直接行う構成であっても、実施の形態１に記載のように、管理サーバ３０介して行う構成でもよい。

　次に、対話装置１０ａの動作の具体例について、図７を用いて説明する。

　例えば、「おはよう」という入力音声を音声認識すると、生活状態が「起床」であると把握して、生活ログとして「起床時間」を記録しデータ格納部１４に格納する。なお、生活ログとは、対話装置１０ａが取得するユーザの生活情報である。この「起床時間」の過去の記録を基に平均起床時刻を算出ることで、実施の形態１で記載したように、「おはよう」という入力音声の推定入力時刻の算出ができる。

　さらに、このとき対話装置１０ａは、対話装置１０ａの動作モードを、スリープモード（またはセキュリティモード）から復帰させ、例えば、音声出力を最小限に抑えた対話モードに変更する。これは、起床時ユーザは忙しいことが多いための配慮である。

　対話装置１０ａは、起床時に必要な情報（例えば、天気やニュースの情報）を副応答情報として出力する。例えば、主応答情報に応じて「おはよう。」を、副応答情報に応じて「今日は晴れだよ。」を音声出力する。

　また、起床平均時刻と今回記録した「起床時刻」を比較し、例えば、「早起きだね。」や「遅刻するよ。」を副応答情報として出力してもよい。また、副応答情報生成部１９は、例えば、「早起きだね」の副応答情報には、起床平均時刻よりも前の所定時間になると倒れるフラグを付けておき、出力制御部２０はフラグが倒れた副応答情報は出力しないようになっていてもよい。これは、起床平均時刻の直前や起床平均時刻の後に「早起きだね」が出力されないための処置である。

　また、起床平均時刻から、この時刻以前に、生活情報を取得して副応答情報の生成または更新を行ったり、エアコン５０－１の運転を行ったりする。また、起床平均時刻を所定時刻経過しても入力音声「おはよう」を受信しないと、例えば、「もう朝だよ、起きなくていいの？」を音声アドバイスとして音声出力して通知する。

　同様に、例えば、「いただきます」あるいは「ごちそうさま」という入力音声を音声認識すると、生活状態が「食事（朝食）」であると把握して、生活ログとして「食事回数」を記録しデータ格納部１４に格納する。この場合、「食事回数」のデータを参照して、食べていない日があれば、例えば「朝ごはん食べた方がいいよ。」を音声アドバイスとして音声出力して通知する。

　これらのように、対話装置１０ａは、入力音声の音声認識の結果に基づき、各種サービスを提供することができる。よって、ユーザは、対話装置に話し掛けるだけでサービスの提供を受けることができ、快適な生活環境を享受できる。

　〔実施の形態３〕
　実施の形態１及び２にて説明した対話装置１０及び１０ａは、それぞれ、集積回路（ＩＣチップ）等に形成された論理回路（ハードウェア）によって実現してもよいし、ＣＰＵ（Central Processing Unit）を用いてソフトウェアによって実現してもよい。

　後者の場合、対話装置１０及び１０ａは、それぞれ、各機能を実現するソフトウェアであるプログラムの命令を実行するＣＰＵ、上記プログラム及び各種データがコンピュータ（またはＣＰＵ）で読み取り可能に記録されたＲＯＭ（Read Only Memory）または記憶装置（これらを「記録媒体」と称する）、上記プログラムを展開するＲＡＭ（Random Access Memory）等を備えている。そして、コンピュータ（またはＣＰＵ）が上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路等を用いることができる。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体（通信ネットワークや放送波等）を介して上記コンピュータに供給されてもよい。なお、本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。

　本発明は上述した各実施の形態に限定されるものではなく、種々の変更が可能であり、異なる実施の形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施の形態についても本発明の技術的範囲に含まれる。さらに、各実施の形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。

　〔まとめ〕
　本発明の態様１に係る対話装置１０は、入力音声を音声認識する音声認識部１６と、上記音声認識の結果に応じた応答内容を示す主応答情報、及び、当該主応答情報が示す応答内容に付加される応答内容を示す副応答情報を格納する応答情報格納部１４１と、上記入力音声が入力される時刻を推定する時刻算出部１７と、上記推定された時刻である推定入力時刻よりも前に、上記副応答情報の生成または更新に用いる材料情報を取得して上記副応答情報を生成または更新する副応答情報生成部１９と、上記入力音声が入力されると、上記応答情報格納部を参照して得られる上記主応答情報が示す応答内容と共に上記副応答情報が示す応答内容を音声出力する出力制御部２０と、を備えている。

　上記構成によると、入力音声の推定入力時刻よりも前に、副応答情報を生成または更新し、入力音声が入力されると、主応答情報が示す応答内容の共に上記副応答情報が示す応答内容を音声出力する。このように、入力音声に対して、主応答情報が示す応答内容の音声出力に、副応答情報が示す応答内容の音声出力を付加できるので、複数の情報での応答が可能である。また、副応答情報は、入力音声の推定入力時刻よりも前に生成または更新されるので、変化に富んだ応答が可能である。このように、上記構成によると、複数の情報をスムーズに音声出力でき、ユーザにストレスを与えることなく快適な対話環境を提供できる。

　また、副応答情報の生成または更新に用いられる材料情報を外部から取得する場合、入力音声の入力時に外部との通信が途絶えていても、入力音声の推定入力時刻より前に副応答情報を生成または更新するので、この生成または更新後に入力音声が入力されると、生成または更新された副応答情報をユーザに提供することができる。また、入力音声の入力時には、副応答情報も応答情報格納部を参照して得るため、副応答情報を入力時に生成または更新したり外部から受信したりする装置よりも、すばやい応答（音声出力）が可能である。

　本発明の態様２に係る対話装置では、上記態様１において、上記時刻算出部は、上記入力音声の過去の入力時刻の情報、または、ユーザの生活状態ないし生活環境に関する生活情報を基に上記推定入力時刻を算出する。

　上記構成によると、入力音声の過去の入力時刻の情報、または、ユーザの生活状態ないし生活環境に関する生活情報によって算出された推定入力時刻よりも前に、副応答情報が生成または更新される。入力音声の過去の入力時刻の情報またはユーザの生活情報を用いることで、副応答情報の生成または更新の時期をユーザの生活パターンに則したものとすることができる。

　本発明の態様３に係る対話装置では、上記態様１または２において、上記材料情報は、上記入力音声の過去の入力時刻の情報、または、ユーザの生活状態ないし生活環境に関する生活情報である。

　上記構成によると、入力音声の過去の入力時刻の情報、または、ユーザの生活状態ないし生活環境に関する生活情報に基づき副応答情報が生成または更新される。よって、入力音声の過去の入力時刻の情報またはユーザの生活情報を用いることで、副応答情報の応答内容を、例えば、ユーザのよく口にする音声や生活パターンに沿ったものとすることができる。よって、副応答情報として、ユーザにとって有益な情報を提供することが可能になる。

　生活情報は、ユーザの生活状態ないし生活環境に関する情報であればどのような情報でもよく、例えば、対話装置が設置された地域の天気や交通に関する情報、ユーザの生活パターンに関する情報、ユーザの健康に関する情報が挙げられる。

　上記生活情報は、声認識部による上記入力音声の音声認識の結果であってもよい。また、外部装置から受信した情報、あるいは、ユーザないしその周囲の状態を検知する自装置が有する状態検知部が検知した情報であってもよい。また、これらの情報の組み合わせであってもよい。自装置が有する状態検知部とは、ユーザないしその周囲の状態を検知することができる装置であればよく、例えば、人感センサ、カメラ、温度センサ等が挙げられる。しかし、これらに限定されない。

　本発明の態様４に係る対話装置では、上記態様１から３のいずれか１つにおいて、上記時刻算出部は、上記入力音声のうちの特定の入力音声の推定入力時刻を算出し、上記副応答情報生成部は、上記特定の入力音声の推定入力時刻よりも前に全ての上記副応答情報を生成または更新する。

　上記構成によると、特定の入力音声の音声認識の結果に応じた応答内容を示す主応答情報に付加される副応答情報だけでなく、全ての副応答情報を、特定の入力音声の推定入力時刻よりも前に生成または更新することができる。このように、特定の入力音声の推定入力時刻を用いることで、例えば、「おはよう」という入力音声の推定入力時刻よりも前に、つまり、ユーザの一日の始まりと推定される時刻前に、全ての副音声情報を生成または更新することができる。ユーザは、一日毎に生成または更新された副応答情報が示す応答内容の音声を聞くことができる。

　本発明の態様５に係る対話装置では、上記態様１から４のいずれか１つにおいて、副応答情報生成部は、上記副応答情報に優先度を設定し、上記応答情報格納部が優先度を設定された副応答情報を複数格納している場合、上記出力制御部は、上記優先度に従って副応答情報を特定し、当該特定した副応答情報で示される応答内容を音声出力する。

　上記構成によると、副応答音声が複数ある場合、優先度に従った音声出力を行うことが可能となる。

　本発明の態様６に係る対話装置では、上記態様１から５のいずれか１つにおいて、自装置が提供可能なサービス毎の動作モードを有しており、上記音声認識部による上記入力音声の音声認識の結果に基づき提供するサービスを決定し、当該決定したサービスを提供する動作モードに自装置を設定するモード設定部２３をさらに備えている。

　上記構成によると、提供するサービスの決定は、音声認識部による入力音声の音声認識の結果に基づき行うことができる。そして、対話装置は、提供するサービスが決定されると、そのサービスを提供する動作モードに自装置を設定し、サービスの提供を行うことが可能となる。提供するサービスの例としては、例えば、対話、家電の操作、ユーザの生活情報の記録、ユーザへの音声アドバイスが挙げられる。対話は、ユーザからの入力音声に対して行うものであるが、ユーザへの音声アドバイスとは、ユーザからの入力音声が無くても、対話装置から自発的に音声出力される情報であるとする。このように、ユーザは、対話装置に話し掛けるだけでサービスの提供を受けることができ、快適な生活環境を享受できる。

　さらに、モード設定部は、外部装置から受信した情報、あるいは、ユーザないしその周囲の状態を検知する自装置が有する状態検知部が検知した情報等に基づき提供するサービスを決定してもよい。

　本発明の態様７に係る対話システムは、上記態様１から６のいずれか１つに記載の対話装置と、上記材料情報を提供する情報提供装置とが通信ネットワークを介して接続されて構成されている。

　上記対話システムによると、ユーザによる入力音声に対してスムーズな応答が可能であり、ユーザにストレスを与えることなく快適な対話環境を提供できる。

　また、本発明の態様８に係る情報提供装置は、上記態様７の対話システムに備えられる情報提供装置である。

　上記情報提供装置を用いることで、上記態様８の対話システムを構築することができる。

　また、本発明の各態様に係る対話装置、情報提供装置または対話システムは、コンピュータによって実現してもよく、この場合には、コンピュータを対話装置、情報提供装置または対話システムが備える各手段として動作させることにより対話装置、情報提供装置または対話システムをコンピュータにて実現させるプログラム、及びそれを記録したコンピュータ読み取り可能な記録媒体も本発明の範疇に入る。

　本発明は、ユーザの音声を認識して応答する対話装置等に利用可能である。

　１０，１０ａ　　対話装置
　１１　　音声入力部
　１２　　音声出力部
　１３，１３ａ　　制御部
　１４，１４ａ　　データ格納部
　１５　　通信部
　１６　　音声認識部
　１７　　時刻算出部
　１８　　材料情報取得部
　１９　　副応答情報生成部
　２０　　出力制御部部
　２２　　動作部
　２３　　モード設定部
　３０　　管理サーバ（外部装置、情報提供装置）
　３１－１，３１－２　　情報提供サーバ（外部装置、情報提供装置）
　４０　　ユーザ宅
　５０－１　　エアコン
　５０－２　　テレビ
　５０－３　　冷蔵庫
　１００　　対話システム
　１４１　　応答情報格納部
　１４３　　モード情報格納部

Claims

　入力音声を音声認識する音声認識部と、
　上記音声認識の結果に応じた応答内容を示す主応答情報、及び当該主応答情報が示す応答内容に付加される応答内容を示す副応答情報を格納する応答情報格納部と、
　上記入力音声が入力される時刻を推定する時刻算出部と、
　上記推定された時刻である推定入力時刻よりも前に、上記副応答情報の生成または更新に用いる材料情報を取得して上記副応答情報を生成または更新する副応答情報生成部と、
　上記入力音声が入力されると、上記応答情報格納部を参照して得られる上記主応答情報が示す応答内容と共に上記副応答情報が示す応答内容を音声出力する出力制御部と、を備えたことを特徴とする対話装置。
　上記時刻算出部は、上記入力音声の過去の入力時刻の情報、または、ユーザの生活状態ないし生活環境に関する生活情報を基に上記推定入力時刻を算出することを特徴とする請求項１に記載の対話装置。
　上記材料情報は、上記入力音声の過去の入力時刻の情報、または、ユーザの生活状態ないし生活環境に関する生活情報であることを特徴とする請求項１または２に記載の対話装置。
　副応答情報生成部は、上記副応答情報に優先度を設定し、
　上記応答情報格納部が優先度を設定された副応答情報を複数格納している場合、上記出力制御部は、上記優先度に従って副応答情報を特定し、当該特定した副応答情報で示される応答内容を音声出力することを特徴とする請求項１から３のいずれか１項に記載の対話装置。
　自装置が提供可能なサービス毎の動作モードを有しており、
　上記音声認識部による上記入力音声の音声認識の結果に基づき提供するサービスを決定し、当該決定したサービスを提供する動作モードに自装置を設定するモード設定部をさらに備えたことを特徴とする請求項１から４のいずれか１項に記載の対話装置。