JPWO2020070878A1

JPWO2020070878A1 - エージェント装置、エージェント制御方法、およびプログラム

Info

Publication number: JPWO2020070878A1
Application number: JP2020551052A
Authority: JP
Inventors: 大志杉原; 関口　敦; 敦関口; 侑紀松浦; 英輔相馬; 航遠藤; 亮介田中; 俊克倉持
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2018-10-05
Filing date: 2018-10-05
Publication date: 2021-09-02
Anticipated expiration: 2038-10-05
Also published as: CN112805182A; JP7133029B2; CN112805182B; US20220005470A1; WO2020070878A1; US11798552B2

Abstract

車室内の音声を収集するマイクと、前記車室内に音声を出力するスピーカと、機能が異なる複数のエージェント機能部と、を備え、前記複数のエージェント機能部のそれぞれは、前記マイクにより収集された音声の意味に基づいて車両の乗員に対して話しかけるエージェント音声を生成し、生成したエージェント音声を前記スピーカに出力させ、前記マイクにより収集された音声の内容に基づいて、前記乗員と対話する主体となるエージェント機能部が切り替わる、エージェント装置。

Description

本発明は、エージェント装置、エージェント制御方法、およびプログラムに関する。

従来、車両の乗員と対話を行いながら、乗員の要求に応じた運転支援に関する情報や車両の制御、その他のアプリケーション等を提供するエージェントに関する技術が知られている（例えば、特許文献１参照）。

特開２００６−３３５２３１号公報

しかしながら、乗員の要求は多様であるため、一つのエージェントのみでは対応できない場合があった。また、複数のエージェントを用いた場合であっても、乗員が呼び出した一つのエージェントが起動している場合には、他のエージェント装置は停止状態となるため、エージェント間での連携が充分に行えない場合があった。その結果、乗員への適切な支援ができない場合があった。

本発明の態様は、このような事情を考慮してなされたものであり、乗員に、より適切な支援を行うことができるエージェント装置、エージェント制御方法、およびプログラムを提供することを目的の一つとする。

この発明に係るエージェント装置、エージェント制御方法、およびプログラムは、以下の構成を採用した。
（１）：この発明の一態様に係るエージェント装置は、車室内の音声を収集するマイクと、前記車室内に音声を出力するスピーカと、機能が異なる複数のエージェント機能部と、を備え、前記複数のエージェント機能部のそれぞれは、前記マイクにより収集された音声の意味に基づいて車両の乗員に対して話しかけるエージェント音声を生成し、生成したエージェント音声を前記スピーカに出力させ、前記マイクにより収集された音声の内容に基づいて、前記乗員と対話する主体となるエージェント機能部が切り替わる、エージェント装置である。

（２）：上記（１）の態様において、前記複数のエージェント機能部のそれぞれは、前記生成したエージェント音声の音像が所定の位置に定位されるように、前記エージェント音声を前記スピーカに出力させるものである。

（３）：上記（１）または（２）の態様において、前記マイクにより収集された音声の意味に基づいて、前記乗員と対話する主体を切り替えるマスタエージェント機能部を更に備え、前記複数のエージェント機能部は、前記マスタエージェント機能部による切り替え制御によって、前記乗員と対話する主体となるものが切り替わるものである。

（４）：上記（３）の態様において、前記マスタエージェント機能部と、前記複数のエージェント機能部のうち一つが、一体に動作するものである。

（５）：上記（３）または（４）の態様において、前記複数のエージェント機能部のそれぞれが実行可能な機能に関する機能情報を記憶する記憶部を、更に備え、前記マスタエージェント機能部は、前記音声の意味に基づいて、前記機能情報を参照し、前記音声の意味に対応する機能を実現可能なエージェント機能部に切り替えるものである。

（６）：上記（３）〜（５）のうち何れか一つの態様において、前記車両に搭載された機器に対する制御は、前記複数のエージェント機能部のうち、特定のエージェント機能部により実行されるものである。

（７）：上記（３）〜（５）のうち何れか一つの態様において、画像を表示する表示部を、更に備え、前記複数のエージェント機能部は、前記乗員とのコミュニケーションを行う擬人化されたエージェント画像を生成し、前記マスタエージェント機能部は、前記複数のエージェント機能部により生成されたエージェント画像を前記表示部に表示させるとともに、前記乗員と対話する主体が切り替わる場合に、前記エージェント画像の表示態様を変更させるのである。

（８）：上記（３）〜（７）のうち何れか一つの態様において、前記マイクを前記車室内に複数備え、前記複数のマイクは、前記車室内における所定距離以内の位置に設置されるものである。

（９）：上記（８）の態様において、前記複数のマイクからの入力のうちの一つは、前記マスタエージェント機能部に割り当てられるものである。

（１０）：上記（８）または（９）の態様において、前記マスタエージェント機能部に割り当てられるマイクは、他のマイクよりも高性能である。

（１１）：上記（８）〜（１０）のうち何れか一つの態様において、前記マスタエージェント機能部は、割り当てられたマイクからの音声を常時入力するものである。

（１２）：上記（８）〜（１１）のうち何れか一つの態様において、前記複数のマイクにより収集したそれぞれの音声は、前記マスタエージェント機能部の音声入力インターフェースに入力が可能である。

（１３）：この発明の他の一態様に係るエージェント制御方法は、コンピュータが、機能が異なる複数のエージェント機能部のそれぞれに、車室内の音声を収集するマイクにより収集された音声の意味に基づいて車両の乗員に対して話しかけるエージェント音声を生成させ、生成したエージェント音声を、前記車室内に音声を出力するスピーカに出力させ、前記マイクにより収集された音声の内容に基づいて、前記乗員と対話する主体となるエージェント機能部が切り替わる、エージェント制御方法である。

（１４）：この発明の他の一態様に係るプログラムは、コンピュータに、機能が異なる複数のエージェント機能部のそれぞれに、車室内の音声を収集するマイクにより収集された音声の意味に基づいて車両の乗員に対して話しかけるエージェント音声を生成させ、生成したエージェント音声を、前記車室内に音声を出力するスピーカに出力させ、前記マイクにより収集された音声の内容に基づいて、前記乗員と対話する主体となるエージェント機能部が切り替えさせる、プログラムである。

（１）〜（１４）によれば、乗員に、より適切な支援を行うことができる。

第１の実施形態に係るエージェント装置を含むエージェントシステム１の構成図である。車両Ｍに設置されるマイク、表示部、およびスピーカを模式的に示す図である。後部座席付近のスピーカの位置を説明するための図である。機能情報テーブル１７２の内容の一例を示す図である。音像が定位する位置を移動させることについて説明するための図である。サーバ装置２００の機能構成の一例を示す図である。サーバ装置２００Ａが備える回答情報ＤＢ２４４Ａの内容の一例を示す図である。サーバ装置２００Ｂが備える回答情報ＤＢ２４４Ｂの内容の一例を示す図である。第１の場面において、エージェント装置１００により実行される処理について説明するための図である。第２の場面において、エージェント装置１００により実行される処理について説明するための図である。第３の場面において、エージェント装置１００により実行される処理について説明するための図である。第４の場面において、エージェント装置１００により実行される処理について説明するための図である。エージェント装置１００による一連の処理の流れの一例を示すフローチャートである。第２の実施形態に係るエージェント装置を含むエージェントシステム２の構成図である。第３の実施形態に係るエージェント装置を含むエージェントシステム３の構成図である。

以下、図面を参照し、本発明のエージェント装置、エージェント制御方法、およびプログラムの実施形態について説明する。また、以下では、エージェント装置の一例として、車両（以下、車両Ｍ）に搭載され、対話型エージェント機能を備えたエージェント装置について説明する。対話型エージェント機能とは、例えば、車両Ｍの乗員と対話をしながら、乗員の要求に基づく各種情報の提供や車両内の機器の制御等を行うことで乗員を支援する機能である。対話型エージェント機能は、例えば、乗員の音声を認識する音声認識処理（音声をテキスト化する処理）に加え、自然言語機能（テキストの構造や意味を理解する処理）、対話制御処理、検索処理等を統合的に利用して実現される。これらの処理の一部または全部は、ＡＩ（Artificial Intelligence）技術によって実現される。また、これらの処理を行う構成の一部または全部は、車両Ｍと通信可能なサーバ装置（外部装置）に設けられてもよい。

（第１の実施形態）
［全体構成］
図１は、第１の実施形態に係るエージェント装置を含むエージェントシステム１の構成図である。エージェントシステム１は、例えば、エージェント装置１００と、サーバ装置２００とを備える。エージェント装置１００とサーバ装置２００とは、例えば、インターネットやＷＡＮ（Wide Area Network）、ＬＡＮ（Local Area Network）等のネットワークＮＷによりデータの送受信が可能な状態で接続されている。図１に示すサーバ装置２００Ａ〜２００Ｃは、例えば、後述するサブエージェント機能部１５４Ａ〜１５４Ｃに対応するものである。以下、サーバ装置２００Ａ〜２００Ｃのそれぞれを区別しない場合には「サーバ装置２００」と称して説明する。他の名称についても同様とする。

エージェント装置１００は、車両Ｍの乗員と対話を行い、乗員からの音声等による質問等の要求に対して、サーバ装置２００にリクエストを行い、サーバ装置２００から得られた回答を、所定の出力態様で乗員に提示することで、乗員への支援を行う。乗員とは、例えば、運転席に着座する乗員（以下、運転者）であるが、これに加えて助手席や後部座席に着座する乗員（同乗者）でもよい。所定の出力態様とは、例えば、音声出力、画像出力等の態様である。また、エージェント装置１００は、乗員からの音声による指示に応答して、車載機器または家庭機器等に対する制御を実行する。

エージェント装置１００は、例えば、通信装置１１０と、操作部１２０と、車載機器１３０と、ナビゲーション装置１４０と、エージェント制御装置１５０とを備える。これらの装置や機器は、ＣＡＮ（Controller Area Network）通信線等の多重通信線やシリアル通信線、無線通信網等によって互いに接続される。なお、図１に示す構成はあくまで一例であり、構成の一部が省略されてもよいし、更に別の構成が追加されてもよい

通信装置１１０は、例えば、セルラー網やＷｉ−Ｆｉ網、Ｂｌｕｅｔｏｏｔｈ（登録商標）、ＤＳＲＣ（Dedicated Short Range Communication）等を利用してサーバ装置２００や他車両、乗員が所持する端末装置等と通信する。サーバ装置２００との間の通信は、ネットワークＮＷにより仲介される。通信装置１１０は、例えば、エージェント制御装置１５０から入力された音声を含む情報をサーバ装置２００に送信する。また、通信装置１１０は、サーバ装置２００により生成された対話情報および出力制御情報を受信する。対話情報には、例えば、後述する音声の出力制御に関する情報が含まれる。出力制御情報には、例えば、画像等の表示制御に関する情報、その他の各種機器制御に関する情報等が含まれる。

操作部１２０は、乗員からの操作を受け付ける。操作部１２０は、例えば、音声入力部１２２を備える。音声入力部１２２は、車室内に存在する乗員の音声を収集する。音声入力部１２２は、例えば、複数のマイク１２４を備える。複数のマイク１２４は、性能が異なるマイクであってもよい。マイクの性能には、例えば、感度、指向性、周波数特性、強度が含まれる。以下では、二つのマイク１２４Ａおよび１２４Ｂを用いて説明するものとし、マイク１２４Ａの方がマイク１２４Ｂよりも高性能であるものとする。それぞれのマイクにより収集された音声（音声ストリーム）は、後述するマスタエージェント機能部１５２が備える音声入力インターフェース（音声入力ＩＦ）１５２ａに入力される。また、操作部１２０は、スイッチやボタン、キー、タッチパネル等を備えてもよい。

車載機器１３０は、エージェント制御装置１５０が制御する対象の一例である。車載機器１３０は、例えば、表示部１３２と、スピーカ１３４と、アンプ（ＡＭＰ）１３６と、ミキサー１３８と、車両制御機器１３９とを備える。

表示部１３２は、車室内のシートに着座する乗員の前方付近に設置される。また、スピーカ１３４は、車室内のシート付近または表示部１３２付近に設置される。表示部１３２およびスピーカ１３４は、車室内に複数設置されてよい。

図２は、車両Ｍに設置されるマイク、表示部、およびスピーカを模式的に示す図である。図２に示す車両Ｍの車室内には、マイク１２４Ａ〜１２４Ｂ、表示部１３２Ａ〜１３２Ｄと、スピーカ１３４Ａ〜１３４Ｆとが設置されている。

マイク１２４Ａおよび１２４Ｂは、インストルメントパネルＩＰの任意の箇所に、所定距離以内の位置で設置される。所定距離以内の位置で設置されることで、マイク１２４Ａおよび１２４Ｂの両方から、ほぼ同様の音声を入力することができる。また、マイク１２４Ａおよび１２４Ｂは、ステアリングホイールやシートに設置されてもよい。

表示部１３２Ａは、例えば、ＨＵＤ（Head-Up Display）装置である。ＨＵＤ装置は、風景に重畳させて画像を視認させる装置であり、一例として、車両Ｍのフロントウインドシールドやコンバイナーに画像を含む光を投光することで、運転者に虚像を視認させる装置である。表示部１３２Ａには、例えば、ナビゲーション装置１４０により実行されるナビゲーション処理に対応する画像や、エージェント制御装置１５０により生成される画像等が表示される。

表示部１３２Ｂは、インストルメントパネルＩＰにおける運転席（例えば、ステアリングホイールに最も近い座席）の正面付近に設けられ、運転者がステアリングホイールの間隙から、或いはステアリングホイール越しに視認可能な位置に設置される。表示部１３２Ｂは、例えば、ＬＣＤ（Liquid Crystal Display）や有機ＥＬ（Electro Luminescence）表示装置等である。表示部１３２Ｂには、例えば、車両Ｍの速度、エンジン回転数、燃料残量、ラジエータ水温、走行距離、その他の情報の画像や、エージェント制御装置１５０により生成される画像等が表示される。

表示部１３２Ｃは、インストルメントパネルＩＰの中央付近に設置される。表示部１３２Ｃは、例えば、表示部１３２Ｂと同様に、ＬＣＤや有機ＥＬ表示装置等である。表示部１３２Ｃには、例えば、ナビゲーション装置１４０により実行されるナビゲーション処理に対応する画像、エージェント制御装置１５０により生成される画像等が表示される。また、表示部１３２Ｃは、テレビ番組を表示したり、ＤＶＤを再生したり、ダウンロードされた映画等のコンテンツを表示してもよい。

表示部１３２Ｄは、インストルメントパネルＩＰにおける助手席（運転席の隣りの座席）の正面付近に設けられる。表示部１３２Ｄには、例えば、テレビ番組やサーバ装置２００からダウンロードされた映画等のコンテンツ画像、その他のアプリケーションの実行に基づいて生成される画像、エージェント制御装置１５０により生成される画像等が表示される。なお、車室内には、上述した表示部に加えて、車外カメラによって取得した車両Ｍの側後方の画像を表示する表示部（電子ミラー）が設置されていてもよい。

エージェント制御装置１５０は、例えば、乗員からのリクエストに対する回答結果を、表示部１３２Ａ〜１３２Ｄのうち少なくとも一つに表示させる。例えば、エージェント制御装置１５０は、運転者の質問に対する回答結果を表示する場合に、表示部１３２Ａまたは１３２Ｂに表示させることで、運転者に車両前方を監視させながら回答結果を視認させ易くすることができる。また、エージェント制御装置１５０は、表示部１３２Ｃや１３２Ｄに回答結果を表示させることで、運転者だけでなく、他の同乗者にも回答結果を認識させ易くすることができる。どの表示部１３２に表示させるかについては、例えば、回答結果の内容や、車両状況（走行中または停止中）に基づいて決定されてもよく、乗員の指示に基づいて決定されてもよい。

スピーカ１３４Ａおよび１３４Ｂは、例えば、車両Ｍの左右の前方の窓柱（いわゆるＡピラー）に設置される。また、スピーカ１３４Ｃは、運転席側のドアの下部に設置され、スピーカ１３４Ｄは、助手席側のドアの下部に設置される。スピーカ１３４Ｅは、表示部１３２Ｃ付近、つまり、インストルメントパネルＩＰの中央付近に設置される。スピーカ１３４Ｆは、車室内の天井の中央部付近に設置される。

また、車両Ｍには、後部座席付近にスピーカが設けられていてもよい。図３は、後部座席付近のスピーカの位置を説明するための図である。図３の例では、図２に示すスピーカ１３４Ａ〜１３４Ｆの他に、運転席ＳＴ１と助手席ＳＴ２の後方に設置された後部座席ＳＴ３付近にスピーカ１３４Ｇおよび１３４Ｈが設けられている。具体的には、スピーカ１３４Ｇおよび１３４Ｈは、左右の方向ドアの下部に設けられる。また、スピーカ１３４は、車両Ｍの前方ドアと後方ドアとの間に設けられる窓柱（いわゆるＢピラー）に設けられてもよく、後部座席の後方に設けられてもよい。

ＡＭＰ１３６は、音声制御部１５８による制御によりスピーカ１３４から出力される音の大きさを調整する。例えば、ＡＭＰ１３６は、基準となる音の大きさ（最大強度）に対し、０〜１００％の間で音の調節を可能とする。また、ＡＭＰ１３６は、例えば、ミキサー１３８を備える。ミキサー１３８は、入力された複数の音を合成する機能を備える。また、ミキサー１３８は、スピーカ１３４が複数存在する場合に、それぞれのスピーカに出力する音を分配する機能を備える。エージェント制御装置１５０は、スピーカ１３４Ａ〜１３４Ｈのうち、少なくとも一つのスピーカから音声を出力させる。

また、車両制御機器１３９は、車両Ｍまたは車室内の状態を制御するための機器であり、例えば、エアコン（Air Conditioner）、室内灯を点灯または消灯させる照明装置、座席の位置やリクライニング角度を自動で変化させるシート駆動装置、サイドウインドシールドを開閉させるパワーウインドユニットである。また、車載機器１３０には、ナビゲーション装置１４０が含まれてよい。

ナビゲーション装置１４０は、例えば、ＧＮＳＳ（Global Navigation Satellite System）衛星から受信した信号に基づいて、車両Ｍの位置を特定する。また、ナビゲーション装置１４０は、特定された車両Ｍの位置（或いは入力された任意の位置）から、操作部１２０や表示部１３２を用いて乗員により入力された目的地までの経路（以下、地図上経路）を、地図情報１４２を参照して決定する。地図情報１４２は、例えば、道路を示すリンクと、リンクによって接続されたノードとによって道路形状が表現された情報である。地図情報１４２は、道路の曲率やＰＯＩ（Point Of Interest）情報等を含んでもよい。また、地図情報１４２は、例えば、車線の中央の情報あるいは車線の境界の情報、車線の種別の情報等を含んでもよい。また、地図情報１４２には、道路情報、交通規制情報、住所情報（住所・郵便番号）、施設情報、電話番号情報等が含まれてよい。地図情報１４２は、通信装置１１０が他装置と通信することにより、随時、アップデートされてよい。

また、ナビゲーション装置１４０は、例えば、乗員の保有するスマートフォンやタブレット端末等の端末装置の機能によって実現されてもよい。また、ナビゲーション装置１４０は、通信装置１１０を介してサーバ装置２００或いはナビゲーションサーバに現在位置と目的地を送信し、サーバ装置２００やナビゲーションサーバから地図上経路と同等の経路を取得してもよい。また、ナビゲーション装置１４０は、エージェント制御装置１５０により実行されるナビゲーション用のアプリケーション（ナビアプリ）の機能によって、上述したナビゲーション装置１４０の機能が実現されてもよい。また、ナビゲーション装置１４０は、地図上経路に基づいて、表示部１３２による地図画像表示やスピーカ１３４による音声出力によって、経路案内を行ってもよい。

［エージェント制御装置］
エージェント制御装置１５０は、例えば、マスタエージェント機能部１５２と、複数のサブエージェント機能部（エージェント機能部の一例）１５４と、表示制御部１５６と、音声制御部１５８と、機器制御部１６０と、記憶部１７０とを備える。これらの構成要素は、例えば、ＣＰＵ（Central Processing Unit）等のコンピュータプロセッサがプログラム（ソフトウェア）を実行することにより実現される。また、これらの構成要素のうち一部または全部は、ＬＳＩ（Large Scale Integration）やＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field-Programmable Gate Array）、ＧＰＵ（Graphics Processing Unit）等のハードウェア（回路部；circuitryを含む）によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。プログラムは、予め記憶部１７０に格納されていてもよいし、ＤＶＤやＣＤ−ＲＯＭ等の着脱可能な記憶媒体に格納されており、記憶媒体がドライブ装置に装着されることで記憶部１７０にインストールされてもよい。以下では、複数のサブエージェント機能部１５４の一例として、三つのサブエージェント機能部１５４Ａ〜１５４Ｃを用いるものとする。

記憶部１７０は、例えば、ＨＤＤ、フラッシュメモリ、ＥＥＰＲＯＭ（Electrically Erasable Programmable Read Only Memory）、ＲＯＭ（Read Only Memory）、またはＲＡＭ（Random Access Memory）等により実現される。記憶部１７０には、例えば、機能情報テーブル１７２、プロセッサによって読み出されて実行されるプログラム、その他の情報等が格納される。機能情報テーブル１７２の内容については、後述する。

［マスタエージェント機能部］
マスタエージェント機能部１５２は、マイク１２４Ａおよび１２４Ｂから音声を入力することができる音声入力インターフェース１５２ａを備える。また、サブエージェント機能部１５４Ａ〜１５４Ｃは、それぞれマイク１２４Ｂから音声を入力することができる音声入力インターフェース１５４Ａａ〜１５４Ｃａを備える。つまり、マイク１２４Ａは、音声入力インターフェース１５２ａに割り当てられ、マイク１２４Ｂは、乗員の要求に対する処理状態に応じてマスタエージェント機能部１５２またはサブエージェント機能部１５４Ａ〜１５４Ｃのうち、何れか一つに切り替え可能に割り当てられる。マイク１２４Ｂよりも高性能であるマイク１２４Ａをマスタエージェント機能部１５２に割り当てることで、マスタエージェント機能部１５２は、マイク１２４Ｂよりも音質のよい音声を入力することができる。

マスタエージェント機能部１５２は、音声入力インターフェース１５２ａにより入力された音声（音声ストリーム）から音声の意味を認識する。具体的に説明すると、まず、マスタエージェント機能部１５２は、入力された音声ストリームにおける音声波形の振幅と零交差に基づいて音声区間を検出する。また、マスタエージェント機能部１５２は、混合ガウス分布モデル（ＧＭＭ；Gaussian mixture model) に基づくフレーム単位の音声識別および非音声識別に基づく区間検出を行ってもよい。

次に、マスタエージェント機能部１５２は、検出した音声区間における音声を認識し、認識した音声を文字情報としてテキスト化する。そして、マスタエージェント機能部１５２は、テキスト化された文字情報に対する自然言語処理を実行し、文字情報の意味を認識する。自然言語処理には、形態素解析、構文解析、意味解析、文脈解析等が含まれる。形態素解析は、例えば、文字情報を、意味を持つ最小の表現要素の単位に分割し、分割した単位（形態素）ごとの品詞等を解析する。構文解析は、例えば、形態素解析により得られた形態素をもとに、文の構造を解析する。意味解析は、例えば、構文解析により得られた構文をもとに、意味を持つまとまりを判別する。文脈解析は、例えば、文単位で意味を認識する。

次に、マスタエージェント機能部１５２は、認識した意味に基づいて、ワードまたはコマンドを認識する。例えば、入力された音声が「ねえ！」や「おーい！」等の任意のエージェント（対話型エージェント）を呼び出すワードや、サブエージェント機能部１５４Ａ〜１５４Ｃのそれぞれによって実現されるエージェントを指定して呼び出すワード（例えば、ウェイクワード）を認識する。

また、マスタエージェント機能部１５２は、認識した意味に対応するコマンドを生成する。例えば、認識結果として、「エアコンをつけて」、「エアコンの電源を入れてください」等の意味が認識された場合、マスタエージェント機能部１５２は、標準文字情報「エアコンの起動」に置き換えたコマンドを生成する。これにより、リクエストの音声に文字揺らぎがあった場合にも要求にあった制御を実行し易くすることができる。また、マスタエージェント機能部１５２は、例えば、確率を利用した機械学習処理等の人工知能処理を用いて文字情報の意味を認識したり、認識結果に基づくコマンドを生成してもよい。

また、マスタエージェント機能部１５２は、認識したワードやコマンドに基づいて、乗員との対話を行うサブエージェントを決定する。例えば、任意のエージェントを呼び出すワードを認識した場合、予め指定されたエージェント（例えば、サブエージェント機能部１５４Ａによって実現されるエージェントＡ）に決定する。また、マスタエージェント機能部１５２は、特定のエージェントを指定するワードが認識された場合に、認識されたワードで指定されたエージェントに決定する。また、マスタエージェント機能部１５２は、認識したコマンドに基づいて、記憶部１７０に記憶された機能情報テーブル１７２を参照し、コマンドに対応付けられる機能を実現可能なエージェントを、乗員との対話を行うエージェントとして決定してもよい。

図４は、機能情報テーブル１７２の内容の一例を示す図である。機能情報テーブル１７２は、機能情報に、エージェント識別情報が対応付けられている。機能情報には、例えば、車載機器制御、店舗検索、経路案内、交通情報通知、ラジオ制御、家庭機器制御、商品注文が含まれる。また、エージェント情報には、例えば、サブエージェント機能部１５４Ａ〜１５４Ｃによって実現されるエージェントＡ〜Ｃが含まれる。また、図４の例では、エージェントが実現可能な機能に「１」が格納され、実現不可能な機能に「０」が格納されているが、他の識別情報を用いてもよい。

例えば、マスタエージェント機能部１５２は、認識したコマンドが「エアコンの起動」である場合に、コマンドに対応する制御である車載機器制御が実行可能なエージェントを、機能情報テーブル１７２を参照して決定する。図４の例において、マスタエージェント機能部１５２は、エアコンの起動が実行可能なエージェントがエージェントＡであることを取得し、乗員と対話するエージェントをエージェントＡに決定する。なお、店舗検索のように、複数のエージェントが実行可能な機能の場合、マスタエージェント機能部１５２は、機能ごとに予め決められた優先順位に基づいてエージェントを決定してもよい。

また、マスタエージェント機能部１５２は、特定のエージェントを呼び出すウェイクワードを認識した場合、ウェイクワードに基づいて乗員との対話を行うエージェントを決定してもよい。

マスタエージェント機能部１５２は、決定したエージェントに対応するサブエージェント機能部１５４を乗員と対話可能な状態にさせる。そのため、マスタエージェント機能部１５２は、マイク１２４Ｂからの音声を、乗員と対話するサブエージェント機能部１５４の音声入力インターフェースに割り当てる。これにより、マスタエージェント機能部１５２により対話可能な状態となったサブエージェント機能部１５４は、音声入力インターフェースにより入力したマイク１２４Ｂからの音声に基づいて、乗員からのリクエストを取得したり、乗員と対話を行ったりすることができる。

また、マスタエージェント機能部１５２は、所定のサブエージェント機能部１５４が乗員と対話可能な状態であっても、マイク１２４Ａにより収集された音声を常時入力する。これにより、マスタエージェント機能部１５２は、例えば、サブエージェント機能部１５４Ａと乗員との対話内容を把握することができるとともに、より適切な回答を得る可能性がある他のサブエージェント機能部１５４を選定し、選定された他のサブエージェント機能部１５４に切り替えるといった制御を行うことができる。これにより、複数のエージェントの連携性を向上させることができるとともに、乗員へのより適切な支援を実現することができる。

また、マスタエージェント機能部１５２は、サブエージェント機能部１５４が対話可能な状態でない場合に、マイク１２４Ａおよび１２４Ｂの両方から音声を入力することができるため、より高性能な音声を入力することができる。また、マスタエージェント機能部１５２は、マイク１２４Ａおよび１２４Ｂの両方の音声の位相差に基づいて、車室内のどの方向から音声が聞こえているかを認識することができる。

また、マスタエージェント機能部１５２は、サブエージェント機能部１５４Ａ〜１５４Ｃのそれぞれが出力する音声の出力位置や、画像の表示位置等を調整する。マスタエージェント機能部１５２における音声の出力位置や画像の表示位置の調整の詳細については、後述する。

［サブエージェント機能部］
サブエージェント機能部１５４は、音声入力インターフェースから入力した音声を含む情報を、ネットワークＮＷを介してサーバ装置２００に送信し、送信した音声に対応する対話情報や出力制御情報を取得する。また、サブエージェント機能部１５４は、入力した音声を含む情報をサーバ装置２００に送信する場合に、車両Ｍの状態（例えば、車両Ｍの位置や周囲環境）に関する情報を送信してもよい。

サブエージェント機能部１５４は、取得した対話情報に音声制御が含まれる場合に、音声制御部１５８に音声の生成や音声制御を実行させる。また、サブエージェント機能部１５４は、取得した出力制御情報に表示制御が含まれる場合に、表示制御部１５６に画像の生成や表示制御を実行させる。また、サブエージェント機能部１５４は、取得した出力制御情報に車両制御機器１３９に対する制御が含まれる場合に、機器制御部１６０に対象の機器に対する制御を実行させる。また、サブエージェント機能部１５４は、マスタエージェント機能部１５２からの指示により、画像の生成や音声の生成を行ってもよい。

なお、サブエージェント機能部１５４は、マイク１２４Ｂからの音声や、通信装置１１０から得られる対話情報および出力制御情報の入力をＡＰＩ（Application Programming Interface）によって受け付け、受け付けた入力に基づく処理を実行する機能部（表示制御部１５６、音声制御部１５８、および機器制御部１６０）を選択し、選択した機能部に、ＡＰＩを介して処理を実行させてもよい。

表示制御部１５６は、サブエージェント機能部１５４の制御により、車内で乗員とのコミュニケーションを行う擬人化されたエージェントの画像（以下、エージェント画像と称する）を生成し、生成したエージェント画像を表示部１３２に表示させる。エージェント画像は、例えば、乗員に対して話しかける態様の画像である。エージェント画像は、例えば、少なくとも観者（乗員）によって表情や顔向きが認識される程度の顔画像を含む。例えば、エージェント画像は、顔領域の中に目や鼻に擬したパーツが表されており、顔領域の中のパーツの位置に基づいて表情や顔向きが認識されるものである。また、エージェント画像は、立体的に感じられ、観者によって三次元空間における頭部画像を含むことでエージェントの顔向きが認識されたり、本体（胴体や手足）の画像を含むことで、エージェントの動作や振る舞い、姿勢等が認識されるものであってもよい。また、エージェント画像は、アニメーション画像であってもよい。

また、表示制御部１５６は、出力制御情報に含まれる画像を、サブエージェント機能部１５４により指示された表示部１３２に表示させるための表示態様（例えば、画像サイズ、画像フォーマット）に変換し、変換した画像を指示された表示部１３２に表示させる。

音声制御部１５８は、サブエージェント機能部１５４の制御により、対話情報に含まれるエージェント画像が乗員に話しかける音声（以下、エージェント音声と称する）や、エージェント音声以外の音声（例えば、ラジオや音楽、映像等のコンテンツに対する音声）をスピーカ１３４から出力させる。このとき、音声制御部１５８は、複数のスピーカ１３４を用いて、エージェント画像の表示位置に対応する位置にエージェント音声の音像を定位させる制御を行ってもよい。エージェント画像の表示位置に対応する位置とは、例えば、エージェント画像がエージェント音声を喋っていると乗員が感じると予測される位置であり、具体的には、エージェント画像の表示位置付近（例えば、２〜３［ｃｍ］以内）の位置である。また、音像が定位するとは、例えば、乗員の左右の耳に伝達される音の大きさを調節することにより、乗員が感じる音源の空間的な位置を定めることである。音像は、例えば、音源が元々保有している音特性や、車室内環境の情報、頭部伝達関数（HRTF；Head-related transfer function）に基づいて定まる。このような原理を利用して、音像を所定の位置に定位させることができる。

図５は、音像が定位する位置を移動させることについて説明するための図である。図５では、説明を簡略化するために、上述したスピーカ１３４Ｃ〜１３４Ｅを用いるが、車室内に設けられたスピーカ１３４Ａ〜１３４Ｈを用いて音像を定位させる位置を空間的に移動させることができる。例えば、図５に示す三次元座標（Ｘ、Ｙ、Ｚ）で定められる空間位置ＭＰ１に音像を定位させる場合、ＡＭＰ１３６は、音声制御部１５８により生成された音声に基づいて、所定の出力対象の音声に対し、スピーカ１３４Ｃから最大強度の５％の出力を行い、スピーカ１３４Ｄから最大強度の８０％の出力を行い、スピーカ１３４Ｅから最大強度の１５％の出力を行った場合、乗員Ｐ１の位置からは、図５に示す空間位置ＭＰ１に音像が定位しているように感じることになる。

また、ＡＭＰ１３６は、出力対象の音声に対し、スピーカ１３４Ｃから最大強度の４５％の出力を行い、スピーカ１３４Ｄから最大強度の４５％の出力を行い、スピーカ１３４Ｅから最大強度の４５％の出力を行った場合、乗員Ｐ１の位置からは、図４に示す空間位置ＭＰ２に音像が定位しているように感じることができる。このように、車室内に設けられる複数のスピーカとそれぞれのスピーカから出力される音の大きさを調整することで、音像が定位される位置を変化させることができる。以下、音像が定位される空間上の位置ＭＰを「音像位置ＭＰ」と称するものとする。

機器制御部１６０は、出力制御情報に含まれる機器制御情報に基づいて、車両制御機器１３９の制御を実行する。車両制御機器１３９の制御とは、例えば、エアコンのオン／オフ、温度調整、室内灯の点灯／消灯、リクライニング角度の調整、サイドウインドシールドの開閉等である。

［サーバ装置］
次に、サーバ装置２００の概略構成について図を用いて説明する。なお、図１に示すサーバ装置２００Ａ〜２００Ｃは、サブエージェント機能部１５４Ａ〜１５４Ｃごとに設けられているが、それぞれの概略構成については、後述する回答情報ＤＢの内容を除いて略同様であるため、「サーバ装置２００」として纏めて説明する。

図６は、サーバ装置２００の機能構成の一例を示す図である。サーバ装置２００は、例えば、通信部２１０と、認識部２２０と、対話生成部２３０と、記憶部２４０とを備える。これらの構成要素は、例えば、ＣＰＵ等のコンピュータプロセッサがプログラム（ソフトウェア）を実行することにより実現される。また、これらの構成要素のうち一部または全部は、ＬＳＩやＡＳＩＣ、ＦＰＧＡ、ＧＰＵ等のハードウェア（回路部；circuitryを含む）によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。プログラムは、予め記憶部２４０に格納されていてもよいし、ＤＶＤやＣＤ−ＲＯＭ等の着脱可能な記憶媒体に格納されており、記憶媒体がドライブ装置に装着されることで記憶部２４０にインストールされてもよい。

記憶部２４０は、例えば、ＨＤＤ、フラッシュメモリ、ＥＥＰＲＯＭ、ＲＯＭ、またはＲＡＭ等により実現される。記憶部２４０は、例えば、パーソナルプロファイル２４２、回答情報ＤＢ２４４、その他の情報等が格納される。

通信部２１０は、例えば、セルラー網やＷｉ−Ｆｉ網、Ｂｌｕｅｔｏｏｔｈ、ＤＳＲＣ等を利用して、ネットワークＮＷを介してエージェント装置１００と通信する。通信部２１０は、エージェント装置１００から送信された音声（例えば、音声ストリーム）を含む情報を受信する。また、通信部２１０は、対話生成部２３０により生成された音声を含む対話情報や、画像または機器への出力制御情報をエージェント装置１００に送信する。

認識部２２０は、例えば、通信部２１０により受信した音声ストリームから音声の意味を認識する。具体的には、認識部２２０は、エージェント装置１００から送信された音声ストリームにおける音声波形の振幅や零交差等に基づいて音声区間を検出する。また、認識部２２０は、ＧＭＭに基づくフレーム単位の音声・非音声識別に基づく区間検出を行ってもよい。また、認識部２２０は、検出した音声区間における音声を認識し、音声を文字情報としてテキスト化する。また、認識部２２０は、認識された音声から発話者の特徴を特定してもよい。発話者の特徴には、例えば、性別や年齢、運転者であるか、同乗者であるかの情報が含まれる。

また、認識部２２０は、音声から得られる特徴情報を用いて、記憶部２４０に記憶されたパーソナルプロファイル２４２と照合を行ってもよい。パーソナルプロファイル２４２には、例えば、音声の特徴情報に、個人情報が対応付けられている。音声の特徴情報とは、例えば、声の高さ、イントネーション、リズム（音の高低のパターン）、ポーズ等の喋り方の特徴や、メル周波数ケプストラム係数（Mel Frequency Cepstrum Coefficients）等による特徴量に関する情報である。音声の特徴情報は、例えば、乗員の初期登録時に所定の単語や文章等を乗員に発声させ、発声させた音声を認識することで得られる情報である。個人情報には、例えば、氏名、住所、年齢、趣味、過去のサーバ装置２００の使用履歴が含まれる。氏名、住所、年齢、趣味は、乗員の初期登録時に音声の特徴情報とともに設定され、その後、設定変更等により適宜更新がなされる。認識部２２０は、音声から得られる特徴情報と、記憶部２４０に記憶されたパーソナルプロファイル２４２の特徴情報とを照合して、合致した特徴情報に対応付けられた個人情報を認識する。

また、認識部２２０は、テキスト化された文字情報に対する自然言語処理を実行し、文字情報の意味を認識する。自然言語処理には、形態素解析、構文解析、意味解析、文脈解析等が含まれる。また、認識部２２０は、認識した意味に対応するコマンドを生成する。

また、対話生成部２３０は、認識部２２０から入力されたコマンドを用いて記憶部２４０に記憶された回答情報ＤＢ２４４のコマンドを参照し、合致するコマンドに対応する制御内容を取得する。なお、回答情報ＤＢ２４４は、サブエージェント機能部１５４Ａ〜１５４Ｃが実行可能な機能によって異なる。以下では、サーバ装置２００Ａおよびサーバ装置２００Ｂのそれぞれが備える回答情報ＤＢについて説明する。

図７は、サーバ装置２００Ａが備える回答情報ＤＢ２４４Ａの内容の一例を示す図である。回答情報ＤＢ２４４Ａには、例えば、コマンド情報に、サブエージェント機能部１５４Ａに実行させる制御内容が対応付けられている。回答情報ＤＢ２４４Ｂの制御内容には、例えば、車載機器に対する機器制御（起動、停止）に関する情報や、エージェント音声の出力制御、表示部１３２に表示させる画像制御等が含まれる。回答情報ＤＢ２４４Ａに含まれる内容は、上述した図４に示す機能情報テーブル１７２における実行可能な機能に対応付けられている。図７に示す「エアコンの起動」や「エアコンの停止」、「車内灯の点灯」のコマンドに対する制御は、車載機器制御機能に含まれる制御である。また、「Ａまでの距離は？」のコマンドに対する制御は、経路案内機能に含まれる制御である。また、「近くにあるレストランは？」のコマンドに対する制御は、店舗検索機能に含まれる制御である。

図８は、サーバ装置２００Ｂが備える回答情報ＤＢ２４４Ｂの内容の一例を示す図である。回答情報ＤＢ２４４Ｂには、例えば、コマンド情報に、サブエージェント機能部１５４Ｂに実行させる制御内容が対応付けられている。回答情報ＤＢ２４４Ｂには、エージェント音声の出力制御、表示部１３２に表示させる画像制御、アプリ実行制御等が含まれる。例えば、図８に示す「ラジオをつけて」のコマンドに対する制御は、ラジオ制御機能に含まれる制御である。このように、サーバ装置２００は、それぞれの特性や分野ごとに対応した回答情報ＤＢ２４４を備えることで、多種の情報の中から乗員の要求にあった情報を提供することができる。

対話生成部２３０は、コマンドに対応付けられた制御内容を取得する。例えば、コマンドが「エアコンの起動」である場合、対話生成部２３０は、車両Ｍに搭載されたエアコンを起動させる機器制御の制御内容と、「エアコンを起動しました。」という音声を出力する音声制御の制御内容と、車室内温度および設定温度を表示する表示制御の制御内容とを取得する。

また、コマンドが「Ａ駅までの距離は？」である場合、対話生成部２３０は、「ここから＊＊＊［ｋｍ］です。」という音声を出力する音声制御の制御内容と、Ａ駅までの経路画像を表示するという表示制御の制御内容とを取得する。この場合、対話生成部２３０は、エージェント装置１００から送信された車両Ｍの位置情報に基づいて、記憶部２４０または外部装置に記憶された地図情報（不図示）を参照し、車両Ｍの位置からＡ駅までの走行距離を導出する。そして、対話生成部２３０は、取得した音声制御の制御内容である「ここから＊＊＊［ｋｍ］です。」の「＊＊＊」の部分に、導出した走行距離を代入して最終的な音声情報を生成してもよい。

また、対話生成部２３０は、取得した制御内容に基づいて乗員と対話するための対話情報および出力制御情報を生成する。例えば、対話生成部２３０は、対話情報として、回答情報ＤＢ２４４から得られた内容（文字情報）に対する音声情報（音声ストリーム）を生成する。音声情報には、例えば、エージェント音声やその他の音声が含まれる。また、対話生成部２３０は、エージェント音声の内容に対応するエージェント画像を生成してもよい。また、対話生成部２３０は、出力制御情報として、乗員に提示する画像や映像、文字情報等を生成したり、機器制御に対する制御情報を生成する。例えば、回答情報ＤＢ２４４により得られる回答が「表示制御：Ａ駅までの経路画像を表示」である場合、対話生成部２３０は、地図情報を参照して、車両Ｍの位置からＡ駅までの経路画像を生成する。

また、対話生成部２３０は、認識部２２０により音声に対する個人情報が得られている場合に、個人情報に基づいて、音声で乗員の名前を呼んだり、乗員の話し方に似せた話し方にした音声情報を生成してもよい。また、対話生成部２３０は、パーソナルプロファイルから得られる乗員の趣味に関する情報を取得し、取得した情報を対話情報に含めてもよい。対話生成部２３０は、生成された対話情報および出力制御情報を、通信部２１０を介してエージェント装置１００に送信する。

［エージェント装置により実行される処理の詳細］
次に、エージェント装置１００により実行される処理の詳細について、異なる場面ごとに説明する。以下では、エージェント装置１００により出力されるエージェント画像が、表示部１３２Ａに表示されるものとして説明する。

＜第１の場面＞
図９は、第１の場面において、エージェント装置１００により実行される処理について説明するための図である。第１の場面は、例えば、マスタエージェント機能部１５２により、乗員の音声から任意のエージェントを呼び出すワードが認識された場面である。なお、第１の場面においては、マイク１２４Ａおよびマイク１２４Ｂのそれぞれで入力された音声が、マスタエージェント機能部１５２の音声入力インターフェース１５２ａに入力されているものとする。

第１の場面において、マスタエージェント機能部１５２は、任意のエージェントを呼び出すワードが認識された場合、サブエージェント機能部１５４Ａ〜１５４Ｃのそれぞれにエージェント画像ＥＩＡ〜ＥＩＣを生成させる。このとき、マスタエージェント機能部１５２は、それぞれのエージェント画像の表示態様を変更する。例えば、任意のエージェントを呼び出すワードを認識された場合、マスタエージェント機能部１５２は、予め指定されたサブエージェント機能部１５４ＡのエージェントＡを、乗員と対話するエージェントとして決定する。そして、マスタエージェント機能部１５２は、表示制御部１５６により生成されるサブエージェント機能部１５４Ａ〜１５４Ｃに対応するエージェント画像ＥＩＡ〜ＥＩＣのうち、対話を行うエージェント画像ＥＩＡを他のエージェントＥＩＢおよびＥＩＣよりも、乗員から見て手前に表示させる。なお、マスタエージェント機能部１５２は、画像空間上でのエージェント画像ＥＩＡ〜ＥＩＣの位置関係に応じて、各エージェント画像の大きさを調整してもよい。

図９に示すように、乗員と対話可能なエージェントに対応するエージェント画像ＥＩＡ〜ＥＩＣを表示部１３２に表示することで、乗員に複数のエージェントがいることを容易に把握させることができる。また、対話するエージェント画像ＥＩＡを乗員から見て手前に表示させることで、対話するエージェントを直感的に把握し易くすることができる。

また、マスタエージェント機能部１５２は、マイク１２４Ｂで収集された音声を、サブエージェント機能部１５４Ａの音声入力インターフェース１５４Ａａに入力させる。これにより、マイク１２４Ｂで収集された音声に基づいて、サブエージェント機能部１５４Ａのエージェントと乗員との間で対話を行わせることができるとともに、マイク１２４Ａから常時入力される音声に基づいて、マスタエージェント機能部１５２における機能を継続させる。

サブエージェント機能部１５４Ａは、表示部１３２Ａに表示されたエージェント画像ＥＩＡの表示位置に対応付けて、音声制御部１５８に、エージェント音声の音像位置ＭＰＡを調整させる。図９の例では、サーバ装置２００から取得した対話情報に含まれる「何かリクエストはありますか？」というエージェント音声が、エージェント画像ＥＩＡの表示位置付近から聞こえるように音像位置ＭＰＡが調整されている。

＜第２の場面＞
図１０は、第２の場面において、エージェント装置１００により実行される処理について説明するための図である。第２の場面は、例えば、乗員から「エアコンの起動」に対応するリクエストを含む音声が入力され、入力されたリクエストに対応する制御を実行した場面である。また、第２の場面は、上述した第１の場面以降の連続する場面であるものとする。

第２の場面において、マスタエージェント機能部１５２は、乗員の音声された認識されたコマンド「エアコンの起動」に基づいて、機能情報テーブル１７２のコマンド情報を参照し、車載機器制御が実現可能なエージェントＡ（サブエージェント機能部１５４Ａ）を、乗員と対話するエージェントに決定する。このとき、マスタエージェント機能部１５２は、決定したエージェントＡのエージェント画像ＥＩＡを他のエージェント画像ＥＩＢおよびＥＩＣよりも手前に表示させるが、第１の場面において、すでにエージェント画像ＥＩＡが手前に表示されているため、図９に示すエージェント画像の表示態様は継続される。

また、第２の場面において、サブエージェント機能部１５４Ａは、サーバ装置２００から取得した出力制御情報に基づいて、機器制御を実行する。また、サブエージェント機能部１５４Ａは、出力制御情報に含まれる表示制御に基づいて、車両Ｍに搭載された車両センサ（不図示）により検出された車室内温度と、エアコンで設定されている設定温度を取得し、取得した車室内温度および設定温度に関する文字情報ＣＩを表示部１３２に表示させる。図１０の例において、サブエージェント機能部１５４Ａは、表示制御部１５６の制御により、車室内温度が３２［℃］で、設定温度が２８［℃］であることを示す文字情報ＣＩを表示部１３２Ａに表示させている。

また、サブエージェント機能部１５４Ａは、機器制御が実行された場合、対話情報に含まれる音声制御内容に基づいて、エージェント画像ＥＩＡの表示位置付近に、エージェント音声の音像位置ＭＰＡを定位させ「エアコンを起動しました。」というエージェント音声を出力させる。

なお、サブエージェント機能部１５４Ａは、乗員のリクエストに対する制御内容に基づいて、エージェント画像ＥＩＡの表情やエージェント音声のトーン等を変化させてもよい。例えば、乗員のリクエストに対する制御が実行できた場合、サブエージェント機能部１５４Ａは、喜んだ表情のエージェント画像を表示させたり、エージェント音声のトーンを基準のトーンよりも高く出力させる。また、乗員のリクエストに対する制御が実行できなかった場合、サブエージェント機能部１５４Ａは、悲しい表情のエージェント画像を表示させたり、エージェント音声のトーンを基準のトーンよりも低く出力させる。

なお、エージェント画像やエージェント音声の変化は、リクエストに応えたエージェントであってもよく、その他のエージェントでもよい。図１０の例では、乗員のリクエストに応えたサブエージェント機能部１５４Ａのエージェント画像ＥＩＡと、リクエストに応えていないサブエージェント機能部１５４Ｂのエージェント画像ＥＩＢの表情が、微笑みの表情に変化している。このような表情を変化させた画像の生成は、マスタエージェント機能部１５２から指示を受けたサブエージェント機能部１５４により実行される。

＜第３の場面＞
図１１は、第３の場面において、エージェント装置１００により実行される処理について説明するための図である。第３の場面は、例えば、エージェントＡが実行できない機能制御について乗員からリクエストがあった場面である。

第３の場面において、マスタエージェント機能部１５２は、乗員の音声された認識されたリクエストに対応するコマンドに基づいて、機能情報テーブル１７２のコマンド情報を参照し、コマンドに対応する機能が実現可能なエージェント（図１１の例では、エージェントＢ）を、乗員と対話するエージェントとして決定する。このとき、マスタエージェント機能部１５２は、乗員と対話を行う主体をサブエージェント機能部１５４Ａからサブエージェント機能部１５４Ｂに切り替えるタイミングで、エージェント画像ＥＩＢを他のエージェント画像ＥＩＡおよびＥＩＣよりも手前に表示されるように表示態様を変更する。

また、マスタエージェント機能部１５２は、エージェント画像ＥＩＡとエージェント画像ＥＩＢの表示位置を入れ替える場合、対話するエージェントが切り替わったことを示すエージェント音声を、対象のサブエージェント機能部１５４に生成させてもよい。例えば、図１１に示すように、乗員と対話する主体がエージェントＡからエージェントＢに切り替わる場合、マスタエージェント機能部１５２は、エージェントＡから「そのリクエストは、エージェントＢがお応えします。」等のエージェント音声を出力させ、エージェントＢから「私がお応えします。」等のエージェント音声を出力させる。この場合、マスタエージェント機能部１５２は、エージェントＡに対するエージェント音声の音像位置ＭＰＡをエージェント画像ＥＩＡの表示位置付近に定位させ、エージェントＢに対するエージェント音声の音像位置ＭＰＢをエージェント画像ＥＩＢの表示位置付近に定位させる。これにより、エージェント間で円滑な連携が行われているという感覚を乗員に感じさせることができる。

また、マスタエージェント機能部１５２は、マイク１２４Ｂが収集した音声の入力を、サブエージェント機能部１５４Ａの音声入力インターフェース１５４Ａａからサブエージェント機能部１５４Ｂの音声入力インターフェース１５４Ｂａに切り替える。これにより、エージェントＢと乗員との間で対話等を実現することができる。

＜第４の場面＞
図１２は、第４の場面において、エージェント装置１００により実行される処理について説明するための図である。第４の場面は、例えば、第３の場面において、エージェントＢによる乗員への支援が終了した場面である。

第４の場面において、マスタエージェント機能部１５２は、乗員と対話する主体をエージェントＡに戻す制御を行う。具体的には、マスタエージェント機能部１５２は、エージェント画像ＥＩＡを他のエージェント画像ＥＩＢおよびＥＩＣよりも手前に表示させるとともに、マイク１２４Ｂが収集した音声の入力を、サブエージェント機能部１５４Ｂの音声入力インターフェース１５４Ｂａからサブエージェント機能部１５４Ａの音声入力インターフェース１５４Ａａに切り替える。

また、マスタエージェント機能部１５２は、エージェント画像ＥＩＡとエージェント画像ＥＩＢの表示位置を入れ替える場合、対話するエージェントが切り替わったことを示すエージェント音声を出力してもよい。例えば、図１２に示すように、乗員と対話する主体がエージェントＢからエージェントＡに切り替わる場合、マスタエージェント機能部１５２は、エージェントＡからエージェントＢに対して「ありがとね！」等のエージェント音声を出力させ、エージェントＢからエージェントＡに対して「また呼んでね！」等のエージェント音声を出力させる。この場合、マスタエージェント機能部１５２は、エージェント音声の音像位置ＭＰＡおよびＭＰＢを、エージェント画像ＥＩＡおよびＥＩＢの表示位置付近に定位させる。このように、エージェント間での疑似的な会話を出力させることで、エージェント間で、より円滑な連携が行われているという感覚を乗員に感じさせることができる。

このように、マスタエージェント機能部１５２は、複数のエージェントに対して、自動的に乗員と対話する主体を切り替える制御を行うことで、複数のエージェントによる、より適切な支援を行うことができる。

また、マスタエージェント機能部１５２は、店舗検索のように一つのリクエストに対して、複数のエージェントで情報提示が可能である場合に、乗員がウェイクワードで指定したエージェントだけでなく、他のエージェントが代わって情報提示を行わせることができる。したがって、より最適な情報を乗員に提供させることができる。また、マスタエージェント機能部１５２は、複数のエージェントの機能を管理することで、例えば、エージェントＣに商品注文をさせている状態で、エージェントＡによりエアコンの起動制御を行わせることができる。

［処理フロー］
以下、第１の実施形態のエージェント装置１００による一連の処理の流れを、フローチャートを用いて説明する。図１３は、エージェント装置１００による一連の処理の流れの一例を示すフローチャートである。なお、図１３では、主にマスタエージェント機能部１５２による処理の流れについて説明するための図である。図１３の処理は、所定のタイミングで繰り返し実行されてもよい。

まず、マスタエージェント機能部１５２は、マイク１２４により収集された音声を音声入力インターフェース１５２ａにより入力し、入力された音声の意味を認識する（ステップＳ１００）。次に、マスタエージェント機能部１５２は、認識された音声の意味から、予め設定された複数のサブエージェント機能部１５４のうち、乗員と対話する主体となるサブエージェント機能部１５４を決定する（ステップＳ１０２）。次に、マスタエージェント機能部１５２は、決定したサブエージェント機能部１５４を対話可能な状態にする（ステップＳ１０４）。

次に、マスタエージェント機能部１５２は、決定したサブエージェント機能部１５４にリクエストに対応する制御を実行させる（ステップＳ１０６）。また、マスタエージェント機能部１５２は、他のリクエストを認識したか否かを判定する（ステップＳ１０８）。他のリクエストを認識した場合、マスタエージェント機能部１５２は、乗員との対話を行っているサブエージェント機能部１５４で、そのリクエストに対する機能が実行可能か否かを判定する（ステップＳ１１０）。実行可能である場合には、ステップＳ１０６の処理に戻る。

また、実行可能でない場合、マスタエージェント機能部１５２は、複数のサブエージェント機能部１５４のうち、実行可能な他のサブエージェント機能部を決定する（ステップＳ１１２）。次に、マスタエージェント機能部１５２は、乗員と対話する主体を、決定したサブエージェント機能部に切り替え（ステップＳ１１４）、ステップＳ１０６の処理に戻る。また、ステップＳ１０８の処理において、他のリクエストを認識していない場合、本フローチャートの処理は終了する。

以上説明した第１の実施形態によれば、乗員に、より適切な支援を行うことができる。具体的には、第１の実施形態によれば、複数のエージェントが実行可能な機能を管理することで、乗員の要望に対して、より適切なエージェントに切り替えて対話をさせることができる。

(第２の実施形態)
次に、第２の実施形態に係るエージェント装置の構成について説明する。第２の実施形態では、第１の実施形態のエージェント装置１００と比較して、エージェント制御装置１５０にマスタエージェント機能部と複数のサブエージェント機能部のうち一つとが一体に動作するマスタ／サブエージェント機能部を備える点で異なる。したがって、以下では、主にマスタ／サブエージェント機能部の構成を中心に説明する。

図１４は、第２の実施形態に係るエージェント装置を含むエージェントシステム２の構成図である。第２の実施形態におけるエージェント装置１００＃は、例えば、通信装置１１０と、操作部１２０と、車載機器１３０と、ナビゲーション装置１４０と、エージェント制御装置１５０＃とを備える。また、エージェント制御装置１５０＃は、例えば、マスタ／サブエージェント機能部１５１と、サブエージェント機能部１５４Ｂおよび１５４Ｃと、表示制御部１５６と、音声制御部１５８と、機器制御部１６０と、記憶部１７０とを備える。

マスタ／サブエージェント機能部１５１は、例えば、音声入力インターフェース１５１ａを備える。また、マスタ／サブエージェント機能部１５１は、例えば、第１の実施形態におけるマスタエージェント機能部１５２およびサブエージェント機能部１５４Ａの機能を備える。したがって、マスタ／サブエージェント機能部１５１により提供されるエージェントＡは、他のエージェントを管理するマスタエージェントとして機能する。

例えば、エージェントＡは、マイク１２４Ａから音声入力インターフェース１５１ａに常時入力される音声に基づいて、他のエージェントへの切り替え等を円滑に行うことができる。更に、エージェントＡは、例えば、他のエージェント（例えば、エージェントＢまたはエージェントＣ）が乗員と対話している最中であっても、エージェントＡの呼び出しに即座に対応することができると共に、他のエージェントと同時に店舗検索等を行い、エージェント間で調整して、より適切な情報を乗員に提示することができる。また、エージェントＡに車載機器を制御する機能を備えることで、乗員から車載機器を制御するコマンドが入力された場合に、他のエージェントを仲介せずに迅速に対応することができる。

上述した第２の実施形態によれば、第１の実施形態と同様の効果を奏する他、特定のエージェントをマスタエージェントとして常駐させることで、他のエージェントとの連携の管理や出力内容の調整等を行うことができる。

(第３の実施形態)
次に、第３の実施形態に係るエージェント装置の構成について説明する。第３の実施形態では、第１の実施形態のエージェントシステム１と比較して、サーバ装置２００の機能をエージェント制御装置内に設ける点で異なる。したがって、以下では、主にエージェント制御装置の構成を中心に説明する。

図１５は、第３の実施形態に係るエージェント装置を含むエージェントシステム３の構成図である。第３の実施形態におけるエージェント装置１００＃＃は、例えば、通信装置１１０と、操作部１２０と、車載機器１３０と、ナビゲーション装置１４０と、エージェント制御装置１５０＃＃とを備える。また、エージェント制御装置１５０＃＃は、例えば、マスタエージェント機能部１５２と、サブエージェント機能部１５４Ａ＃〜１５４Ｃ＃と、表示制御部１５６と、音声制御部１５８と、機器制御部１６０と、記憶部１７０＃とを備える。

記憶部１７０＃には、機能情報テーブル１７２と、パーソナルプロファイル１７４と、回答情報ＤＢ１７６とを備える。パーソナルプロファイル１７４は、第１の実施形態のパーソナルプロファイル２４２に相当する。また、回答情報ＤＢ１７６は、第１の実施形態の回答情報ＤＢ２４４に相当する。なお、回答情報ＤＢ１７６は、サブエージェント機能部１５４Ａ＃〜１５４Ｃ＃ごとに設けられていてもよい。

また、サブエージェント機能部１５４Ａ＃は、例えば、音声入力インターフェース１５４Ａａと、認識部１５４Ａｂと、対話生成部１５４Ａｃとを備える。同様に、サブエージェント機能部１５４Ｂ＃は、例えば、音声入力インターフェース１５４Ｂａと、認識部１５４Ｂｂと、対話生成部１５４Ｂｃとを備える。サブエージェント機能部１５４Ｃ＃は、例えば、音声入力インターフェース１５４Ｃａと、認識部１５４Ｃｂと、対話生成部１５４Ｃｃとを備える。それぞれの認識部および対話生成部は、第１の実施形態のサーバ装置２００に設けられた認識部２２０および対話生成部２３０に相当する。

第３の実施形態により、サブエージェント機能部１５４Ａ＃〜１５４＃Ｃは、サーバ装置２００との通信を行うことなく、認識部１５４Ａｂ〜１５４Ｃｂにより音声を含む情報を認識し、対話生成部１５４Ａｃ〜対話生成部１５４Ｃｃにより回答情報ＤＢ１７６を参照して対話情報や出力制御情報を生成することができる。また、サブエージェント機能部１５４Ａ＃〜１５４＃Ｃは、パーソナルプロファイル１７４を参照して、乗員の嗜好に基づく対話情報や出力制御情報を生成することができる。

上述した第３の実施形態によれば、サブエージェント機能部１５４Ａ＃〜１５４Ｃ＃に、認識部および対話生成部の機能を備えることで、サーバ装置２００との通信を行う必要がなく、乗員からのリクエストに対する迅速な情報提供を行うことができる。なお、上述した第１〜第３の実施形態は、他の実施形態の構成の一部または全部を組み合わせてもよい。

以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。例えば、上述した実施形態のサーバ装置２００の構成要素のうち一部または全部は、エージェント装置１００内に設けられてもよい。また、上述した実施形態のエージェント装置の構成要素のうち一部または全部は、サーバ装置２００内に設けられてもよい。

１…エージェントシステム、１００…エージェント装置、１１０…通信装置、１２０…操作部、１２２…音声入力部、１２４Ａ、１２４Ｂ…マイク、１３０…車載機器、１３２…表示部、１３４…スピーカ、１３９…車両制御機器、１４０…ナビゲーション装置、１５０…エージェント制御装置、１５１…マスタ／サブエージェント機能部、１５２…マスタエージェント機能部、１５４…サブエージェント機能部、１５６…表示制御部、１５８…音声制御部、１６０…機器制御部、１７０、２４０…記憶部、１７２…機能情報テーブル、１７４、２４２…パーソナルプロファイル、１７６、２４４…回答情報ＤＢ、２００…サーバ装置、２１０…通信部、２２０…認識部、２３０…対話生成部

Claims

車室内の音声を収集するマイクと、
前記車室内に音声を出力するスピーカと、
機能が異なる複数のエージェント機能部と、を備え、
前記複数のエージェント機能部のそれぞれは、前記マイクにより収集された音声の意味に基づいて車両の乗員に対して話しかけるエージェント音声を生成し、生成したエージェント音声を前記スピーカに出力させ、前記マイクにより収集された音声の内容に基づいて、前記乗員と対話する主体となるエージェント機能部が切り替わる、
エージェント装置。
前記複数のエージェント機能部のそれぞれは、前記生成したエージェント音声の音像が所定の位置に定位されるように、前記エージェント音声を前記スピーカに出力させる、
請求項１に記載のエージェント装置。
前記マイクにより収集された音声の意味に基づいて、前記乗員と対話する主体を切り替えるマスタエージェント機能部を更に備え、
前記複数のエージェント機能部は、前記マスタエージェント機能部による切り替え制御によって、前記乗員と対話する主体となるものが切り替わる、
請求項１または２に記載のエージェント装置。
前記マスタエージェント機能部と、前記複数のエージェント機能部のうち一つが、一体に動作する、
請求項３記載のエージェント装置。
前記複数のエージェント機能部のそれぞれが実行可能な機能に関する機能情報を記憶する記憶部を、更に備え、
前記マスタエージェント機能部は、前記音声の意味に基づいて、前記機能情報を参照し、前記音声の意味に対応する機能を実現可能なエージェント機能部に切り替える、
請求項３または４に記載のエージェント装置。
前記車両に搭載された機器に対する制御は、前記複数のエージェント機能部のうち、特定のエージェント機能部により実行される、
請求項３から５のうち何れか１項に記載のエージェント装置。
画像を表示する表示部を、更に備え、
前記複数のエージェント機能部は、前記乗員とのコミュニケーションを行う擬人化されたエージェント画像を生成し、
前記マスタエージェント機能部は、前記複数のエージェント機能部により生成されたエージェント画像を前記表示部に表示させるとともに、前記乗員と対話する主体が切り替わる場合に、前記エージェント画像の表示態様を変更させる、
請求項３から５のうち何れか１項に記載のエージェント装置。
前記マイクを前記車室内に複数備え、
前記複数のマイクは、前記車室内における所定距離以内の位置に設置される、
請求項３から７のうち何れか１項に記載のエージェント装置。
前記複数のマイクからの入力のうちの一つは、前記マスタエージェント機能部に割り当てられる、
請求項８に記載のエージェント装置。
前記マスタエージェント機能部に割り当てられるマイクは、他のマイクよりも高性能である、
請求項８または９に記載のエージェント装置。
前記マスタエージェント機能部は、割り当てられたマイクからの音声を常時入力する、
請求項８から１０のうち何れか１項に記載のエージェント装置。
前記複数のマイクにより収集したそれぞれの音声は、前記マスタエージェント機能部の音声入力インターフェースに入力が可能である、
請求項８から１１のうち何れか１項に記載のエージェント装置。
コンピュータが、
機能が異なる複数のエージェント機能部のそれぞれに、車室内の音声を収集するマイクにより収集された音声の意味に基づいて車両の乗員に対して話しかけるエージェント音声を生成させ、
生成したエージェント音声を、前記車室内に音声を出力するスピーカに出力させ、
前記マイクにより収集された音声の内容に基づいて、前記乗員と対話する主体となるエージェント機能部が切り替わる、
エージェント制御方法。
コンピュータに、
機能が異なる複数のエージェント機能部のそれぞれに、車室内の音声を収集するマイクにより収集された音声の意味に基づいて車両の乗員に対して話しかけるエージェント音声を生成させ、
生成したエージェント音声を、前記車室内に音声を出力するスピーカに出力させ、
前記マイクにより収集された音声の内容に基づいて、前記乗員と対話する主体となるエージェント機能部が切り替えさせる、
プログラム。