JPWO2019207918A1

JPWO2019207918A1 - 情報処理装置、情報処理方法及びプログラム

Info

Publication number: JPWO2019207918A1
Application number: JP2020516055A
Authority: JP
Inventors: 義己田中; 邦在鳥居
Original assignee: Sony Corp; Sony Group Corp
Current assignee: Sony Corp; Sony Group Corp
Priority date: 2018-04-25
Filing date: 2019-02-15
Publication date: 2021-05-27
Also published as: CN111989660A; US20210165825A1; WO2019207918A1

Abstract

検索結果の候補として、複数の属性情報が対応付けられた所定の用語に対応する情報が、複数、存在する場合に、それぞれの情報を、各用語に対して算出された指標を認識可能にして報知する制御を行う制御部を有する情報処理装置である。図７

Description

本開示は、情報処理装置、情報処理方法及びプログラムに関する。

音声による要求に応じた情報を提供する、エージェントと称される電子機器が提案されている（例えば、特許文献１を参照のこと）。

特開２００８−９０５４５号公報

このような分野では、ユーザにより曖昧性のある発話がなされた場合に、それに対応する情報がどのような指標（基準）に基づいて判断されたことが、当該ユーザが認識できるようにすれば、ユーザビリティが向上する。

本開示は、例えば、検索結果に基づく情報が複数、存在する場合に、各情報に対応する指標を認識可能にして報知する情報処理装置、情報処理方法及びプログラムを提供することを目的の一つとする。

本開示は、例えば、
検索結果の候補として、複数の属性情報が対応付けられた所定の用語に対応する情報が、複数、存在する場合に、それぞれの情報を、各用語に対して算出された指標を認識可能にして報知する制御を行う制御部を有する
情報処理装置である。

本開示は、例えば、
制御部が、検索結果の候補として、複数の属性情報が対応付けられた所定の用語に対応する情報が、複数、存在する場合に、それぞれの情報を、各用語に対して算出された指標を認識可能にして報知する制御を行う
情報処理方法である。

本開示は、例えば、
制御部が、検索結果の候補として、複数の属性情報が対応付けられた所定の用語に対応する情報が、複数、存在する場合に、それぞれの情報を、各用語に対して算出された指標を認識可能にして報知する制御を行う
情報処理方法をコンピュータに実行させるプログラムである。

本開示の少なくとも一の実施の形態によれば、複数の情報が報知される場合に、当該情報に対応する指標をユーザが認識することができる。なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれの効果であっても良い。また、例示された効果により本開示の内容が限定して解釈されるものではない。

図１は、実施の形態に係るエージェントの構成例を示すブロック図である。図２は、第１の実施の形態に係る制御部の機能を説明するための図である。図３は、第１の実施の形態に係るデータベースに蓄積される情報の一例を示す図である。図４は、第１の実施の形態に係る精度スコア及びサブスコアの一例を示す図である。図５は、ユーザとエージェントとの間で行われるやり取りの一例を説明するための図である。図６は、ユーザとエージェントとの間で行われるやり取りの一例を説明するための図である。図７は、ユーザとエージェントとの間で行われるやり取りの一例を説明するための図である。図８は、ユーザとエージェントとの間で行われるやり取りの一例を説明するための図である。図９は、ユーザとエージェントとの間で行われるやり取りの一例を説明するための図である。図１０は、ユーザとエージェントとの間で行われるやり取りの一例を説明するための図である。図１１は、ユーザとエージェントとの間で行われるやり取りの一例を説明するための図である。図１２は、第１の実施の形態で行われる処理の流れを示すフローチャートである。図１３は、第１の実施の形態で行われる処理の流れを示すフローチャートである。図１４は、第２の実施の形態に係る制御部の機能を説明するための図である。図１５は、第２の実施の形態において、データベースに蓄積される情報の具体例を説明するために参照される図である。図１６は、第２の実施の形態に係る精度スコア及びサブスコアの一例を示す図である。図１７は、第３の実施の形態に係る制御部の機能を説明するための図である。図１８は、第３の実施の形態に係るデータベースに蓄積される情報の一例を示す図である。図１９は、第３の実施の形態に係る精度スコア及びサブスコアの一例を示す図である。図２０は、変形例を説明するための図である。

以下、本開示の実施の形態等について図面を参照しながら説明する。なお、説明は以下の順序で行う。
＜第１の実施の形態＞
＜第２の実施の形態＞
＜第３の実施の形態＞
＜変形例＞
以下に説明する実施の形態等は本開示の好適な具体例であり、本開示の内容がこれらの実施の形態等に限定されるものではない。

＜第１の実施の形態＞
［エージェントの構成例］
実施の形態では、情報処理装置の一例としてエージェントを例にして説明する。実施の形態に係るエージェントとは、例えば、可搬可能な程度の大きさである音声入出力装置若しくはそれらの装置が有するユーザとの音声対話機能を意味する。このようなエージェントは、スマートスピーカなどと称される場合もある。勿論、エージェントはスマートスピーカに限定されることなく、ロボット等であっても良いし、それ自体独立したものではなく、スマートホン等の各種の電子機器や車載機器、白物家電に組み込まれたものであっても良い。

図１は、第１の実施の形態に係るエージェント（エージェント１）の構成例を示すブロック図である。エージェント１は、例えば、制御部１０と、センサ部１１と、画像入力部１２と、操作入力部１３と、通信部１４と、音声入出力部１５と、ディスプレイ１６と、データベース１７とを有している。

制御部１０は、例えば、ＣＰＵ（Central Processing Unit）等から構成されており、エージェント１の各部を制御する。制御部１０は、プログラムが格納されるＲＯＭ(Read Only Memory)や当該プログラムを実行する際にワークメモリとして使用されるＲＡＭ（Random Access Memory）を有している（なお、これらの図示は省略している。）。制御部１０は、検索結果の候補として、複数の属性情報が対応付けられた所定の用語に対応する情報が、複数、存在する場合に、それぞれの情報を、各用語に対して算出された指標を認識可能にして報知する制御を行う。なお、制御部１０によって行われる具体的な制御例については、後述する。

センサ部１１は、例えば、エージェント１のユーザの生体情報を取得可能なセンサ装置である。生体情報としては、ユーザの指紋、血圧、脈拍、汗腺（汗腺の位置でも良いし、汗腺からの発汗の程度でも良い）、体温等が挙げられる。勿論、センサ部１１は、生体情報以外の情報を取得するセンサ装置（例えば、ＧＰＳ（Global Positioning System）センサや重力センサ等）であっても良い。センサ部１１により得られるセンサ情報が制御部１０に入力される。

画像入力部１２は、外部から入力される画像データ（静止画データでも良いし、動画データでも良い）を受け付けるインタフェースである。例えば、エージェント１とは異なる撮像装置等から画像入力部１２に対して画像データが入力される。画像入力部１２に入力された画像データが制御部１０に入力される。なお、画像データは、通信部１４を介してエージェント１に入力されても良く、係る場合、画像入力部１２はなくても良い。

操作入力部１３は、ユーザからの操作入力を受け付けるものである。操作入力部１３としては、例えば、ボタン、レバー、スイッチ、タッチパネル、マイク、視線検出デバイス等が挙げられる。操作入力部１３は、自身に対してなされた入力に応じて操作信号を生成し、当該操作信号を制御部１０に供給する。制御部１０は、当該操作信号に応じた処理を実行する。

通信部１４は、インターネット等のネットワークを介して接続される他の装置と通信を行う。通信部１４は、通信規格に対応した変復調回路、アンテナ等の構成を有している。通信部１４により行われる通信は、有線による通信でも良いし、無線による通信でも良い。無線通信としては、ＬＡＮ（Local Area Network）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、Ｗｉ−Ｆｉ（登録商標）、またはＷＵＳＢ（Wireless USB）等が挙げられる。エージェント１は、通信部１４の接続先から各種の情報を取得することができる。

音声入出力部１５は、エージェント１に対して音声を入力する構成及びユーザに対して音声を出力する構成である。エージェント１に対して音声を入力する構成としては、マイクロホンが挙げられる。また、ユーザに対して音声を出力する構成としては、スピーカ装置が挙げられる。音声入出力部１５に対して、例えば、ユーザの発話が入力される。音声入出力部１５に対して入力された発話は、発話情報として制御部１０に供給される。また、制御部１０による制御に応じて、音声入出力部１５は、所定の音声をユーザに対して再生する。なお、エージェント１が携帯可能な場合は、エージェント１を携帯することにより、任意の場所における音声の入出力が可能とされる。

ディスプレイ１６は、静止画や動画を表示する構成である。ディスプレイ１６としては、例えば、ＬＣＤ(Liquid Crystal Display)や有機ＥＬ（Electro Luminescence）、プロジェクタ等が挙げられる。なお、実施の形態に係るディスプレイ１６は、タッチスクリーンとして構成されており、ディスプレイ１６に対する接触（近接でも良い）による操作入力が可能となっている。

データベース１７は、各種の情報を記憶する記憶部である。データベース１７としては、例えば、ＨＤＤ（Hard Disk Drive）等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、光磁気記憶デバイス等が挙げられる。データベース１７に格納されている情報のうち所定の情報が制御部１０により検索され、その検索結果がユーザに対して提示される。

なお、エージェント１は商用電源から供給される電力に基づいて駆動する構成でも良いし、充放電可能なリチウムイオン二次電池等から供給される電力に基づいて駆動する構成でも良い。

以上、エージェント１の構成例について説明したが、エージェント１の構成は、適宜、変更可能である。即ち、エージェント１は、図示した構成の一部を有しない構成でも良いし、図示した構成とは異なる構成を有するものであっても良い。

［エージェントの機能］
次に、エージェント１の機能、より具体的には、制御部１０の機能の一例について、図２を参照して説明する。制御部１０は、その機能として、例えば、スコア算出用データ蓄積部１０ａと、スコア算出部１０ｂと、検索結果出力部１０ｃとを有している。

（スコア算出用データ蓄積部）
スコア算出用データ蓄積部１０ａは、データベース１７に情報を蓄積する。図２に示すように、スコア算出用データ蓄積部１０ａは、センサ部１１を介して得られる生体情報のセンシング結果、画像入力部１２から入力される写真等の画像データに対する画像解析の結果、音声認識の結果等に基づいて、感情を検出する。また、スコア算出用データ蓄積部１０ａは、音声入出力部１５を介して入力される発話情報に対して音声認識及び品詞分解を行い、その結果と、感情検出の結果等を対応付けてデータベース１７に履歴として蓄積（記憶）する。

スコア算出用データ蓄積部１０ａが行う音声認識及び品詞分解の結果により、例えば、所定の用語（例えば、名詞）、当該用語に関連する関連用語（例えば、用語と同格の名詞、用語にかかる形容詞、用語に対する動詞）、発話に含まれる時刻情報（時刻そのものでも良いし、それに準じるものでも良い）、発話に含まれる位置情報（例えば、地名、住所、緯度経度等）、識別スコア（音声認識の認識尤度によるスコア値）が得られる。

図３は、スコア算出用データ蓄積部１０ａによりデータベース１７に蓄積される情報の例を示している。データベース１７には、複数の属性情報が対応付けられた所定の用語が蓄積されている。図３では、属性情報の一例として「ＩＤ」、「日時」、「場所」、「同格の品詞」、「感情」、「関連語」、「認識精度」が示されている。

例えば、
「先週(2017.08.24)の日本食屋Ａさん、おいしかったね」
との発話が音声入出力部１５に入力される。

係る場合、スコア算出用データ蓄積部１０ａは、ＩＤ：１に対応する用語として「日本食屋Ａ」を設定し、発話情報に基づいて得られる属性情報を「日本食屋Ａ」に対応付けて記憶する。例えば、スコア算出用データ蓄積部１０ａは、「日本食屋Ａ」に対して、日時として「2017.08.24」、場所として「都内」、感情として「美味しい」、認識精度として「８０」という属性情報を対応付けて記憶する。なお、発話情報に場所が含まれない場合には、例えば、エージェント１が「2017.08.24」における位置情報のログ（例えば、スマートホン等に記憶されているログ等）を取得し、取得できた位置情報を場所として登録する。認識精度は、音声認識時におけるノイズの大きさ等に応じて設定される値である。

例えば、
「先月(2017.07)に言ったあの自転車ショップＢに新しいモデルが入荷したらしいよ」
との発話が音声入出力部１５に入力される。

係る場合、スコア算出用データ蓄積部１０ａは、発話情報に含まれる「自転車ショップＢ」、「新しいモデル」を抽出し、それぞれの用語に対応する属性情報を設定して、データベース１７に蓄積する。図３では、ＩＤ：２が用語「自転車ショップＢ」及び当該用語に対応する属性情報の例であり、ＩＤ：３が用語「新しいモデル」及び当該用語に対応する属性情報の例である。なお、エージェント１は、例えば、通信部１４を制御して自転車ショップＢのホームページにアクセスし、その詳細な場所情報（図３に示す例では「新宿」）を取得し、取得した場所情報を「自転車ショップＢ」に対応する場所として登録する。

ＩＤ：４は、
「先月(2017.05)に行った魚料理店ＣでＡさんに会ったよ」
との発話情報に基づいて、データベース１７に蓄積された用語及び当該用語に対応する属性情報の例である。

ＩＤ：５は、
「夏にいった大崎のもつ鍋屋Ｄがリニューアルしたよ」
との発話情報に基づいて、データベース１７に蓄積された用語及び当該用語に対応する属性情報の例である。本例のように、発話情報に基づいて、位置情報である「場所」が取得される場合もある。

ＩＤ：６は、
「九州に行ったときに飲んだ美味しい、ほんと美味しい焼酎を探したいのだけど」
との発話情報に基づいて、データベース１７に蓄積された用語及び当該用語に対応する属性情報の例である。なお、感情としては「美味しい」が繰り返された旨も記憶される。

ＩＤ：７は、
「あの８月の上旬に行ったとても美味しかった和食屋Ｅさんにまた行きたいな」
との発話情報に基づいて、データベース１７に蓄積された用語及び当該用語に対応する属性情報の例である。なお、感情としては「美味しい」を強調する「とても」との用語が付いている旨も記憶される。

勿論、図３に示すデータベース１７の内容は一例であり、これに限定されるものではない。属性情報として他の情報が用いられても良い。

（スコア算出部）
スコア算出部１０ｂは、データベース１７に蓄積されている情報に対する指標であるスコアを算出する。本実施の形態に係るスコアは、属性情報毎に算出されるサブスコアと、サブスコアを統合した統合スコアとを含む。統合スコアは、例えば、サブスコアを単純加算又は重み付け加算したものである。なお、以下の説明では、統合スコアを精度スコアと適宜、称する。

図２に示すように、制御部１０は、例えば、音声入出力部１５を介して発話情報が入力される場合に、当該発話情報に対する音声認識や品詞分解を常に行う。そして、曖昧性のある用語を含む発話情報が入力された場合に、当該発話情報に対応する精度スコア及びサブスコアを、データベース１７に蓄積されている各用語毎に算出する。曖昧性のある用語とは、何かを指し示すものの、その示すものを一意に特定できない用語である。曖昧性のある用語の具体例としては、あの、その等の指示語、最近等の時間的な曖昧性を含む用語、Ｐ駅の近くや周辺等の場所的な曖昧性を含む用語が挙げられる。曖昧性のある用語は、例えば、コンテキストに関するメタ情報を用いて抽出される。

例えば、2017.09.10に大崎駅で
「最近行ったあの美味しかった店予約しておいて」
とのユーザからの依頼が音声によりエージェント１に入力された場合を考える。

スコア算出部１０ｂは、発話情報に曖昧性のある用語（本例における「最近」との用語）が含まれていることから、精度スコア及びサブスコアを算出する。なお、精度スコア及びサブスコアの上限値、下限値等は適宜、設定可能である。

図４は、精度スコア及びサブスコアの一例を示す図である。発話情報の内容が「美味しい店」であることから、飲食店以外の情報（図４に示す例では、ＩＤ：２、ＩＤ：３に対応する情報）は除外される。係る場合は、ＩＤ：２及びＩＤ：３に対する精度スコアを算出しないようにしても良いし、０としても良い。

属性情報毎のサブスコアは、例えば、以下のようにして算出される。
・「日時」の場合、「日時」が近く、且つ、範囲が狭い方（発話情報で指定された日時とのずれが小さい方）のスコアを高くする。
・「場所」の場合も、場所が近く、範囲が狭い方（発話情報で指定された場所とのずれが小さい方）のスコアを高くする。
・「感情」の場合、感情のプラス/マイナスの情報を示す用語がある場合には、ベースとなるスコア値を与え、さらにそれを強める用語(例えば「とても」)がある場合や、それらを繰り返す場合には、そのベースとなるスコアの絶対値を大きくするように、スコアを算出する。
・「認識精度」は、データベース１７に蓄積された際の認識精度に基づいて算出される。
・属性情報が登録されていない場合でも、対象外とせずに一定値を付与する。例えば、ＩＤ：６に対応する日時は登録されていないものの、発話情報で指定された日時に対して近いか遠いかは不明であることから一定値（例えば、２０）を付与する。

スコア算出部１０ｂは、例えば、サブスコアを単純に加算することにより精度スコアを算出する。ＩＤ：１に対応する情報を用いて、具体的に説明する。ＩＤ：１に対応する用語は「日本食屋Ａ」であることから検索結果の候補となる。属性情報「日時」については、発話情報に含まれる日時（2017.09.10）に近いので、高スコア（例えば、９０）が付与される。属性情報「場所」については、発話情報に含まれる大崎駅は都内であるものの、ずれが大きい場合も想定されるので、中間程度の値（例えば、５０）が付与される。属性情報「感情」については、発話情報に含まれる「美味しい」との感情的表現との一致度が高いので、高スコア（例えば、１００）が付与される。認識精度は、その値がサブスコアとして用いられる。各サブスコアを単純加算した値である３２０が、用語「日本食屋Ａ」に対応する精度スコアとなる。他のＩＤに対応する情報についても同様に精度スコア及びサブスコアが算出される。

なお、本実施の形態では、付与されない場合が多い属性情報（同格の名詞や関連語等）に対しては、サブスコアを算出しないようにしている。これにより、処理を簡略化することができる。勿論、全ての属性情報に対してサブスコアを算出するようにしても良い。

（検索結果出力部）
検索結果出力部１０ｃは、スコア算出部１０ｂによるスコア算出結果に応じた検索結果を出力する。検索結果出力部１０ｃは、曖昧性のある用語を含む発話情報が入力された場合に、検索結果をユーザに報知する。検索結果出力部１０ｃは、４つのパターン（パターンＰ１、Ｐ２、Ｐ３、Ｐ４）で検索結果を出力する。４つのパターンについて図４に示した例を用いて説明する。なお、下記説明では、各パターンの理解を容易とするために各パターンに対応する条件が重複する場合もあるが、実際には、重複しないように適切に設定される。

［検索結果の出力例］
（パターンＰ１）
パターンＰ１は、発話情報に対応する情報（選択肢）が明らかに１つしかないと判断される場合に行われる検索結果の出力パターンである。明らかに選択肢が１つしかないと判断される場合とは、例えば、あるＩＤに対応する情報の精度スコアが閾値を超えており、且つ、精度スコアが当該閾値を超える情報が１つの場合である。

図５は、パターンＰ１の場合における、ユーザＵとエージェント１との間で行われるやり取りの例を示す図である。上述した例のように、ユーザＵがエージェント１に「最近行ったあの美味しかった店、予約しておいて。」との発話がなされる。エージェント１は、精度スコア及びサブスコアを算出した結果、「和食屋Ｅ」の精度スコアが閾値（例えば、３３０）を超えており、且つ、閾値を超えているのは「和食屋Ｅ」しかないことから、検索結果である「和食屋Ｅ」をパターンＰ１で出力する。

パターンＰ１の場合は、エージェント１は、唯一の候補をユーザＵに報知するものの、その正誤を問うことなく、発話に基づく処理を行う。エージェント１の制御部１０は、「その店は和食屋Ｅですよね。予約します。」との音声データを生成し、当該音声を音声入出力部１５から再生する制御を行う。また、エージェント１の制御部１０は、通信部１４を制御することにより「和食屋Ｅ」のホームページ等にアクセスし、適宜な予約処理を行う。

（パターンＰ２）
パターンＰ２は、発話情報に対応する情報（選択肢）が１つしかなく、その正確性が一定程度（例えば９０％程度）あると判断される場合に行われる検索結果の出力パターンである。例えば、あるＩＤに対応する情報の精度スコアが閾値（例えば、３００）を超えており、且つ、精度スコアが閾値を超える情報が１つの場合であって、精度スコアと閾値との差分が所定の範囲内である場合に、正確性が９０％と判断される。

図６は、パターンＰ２の場合における、ユーザＵとエージェント１との間で行われるやり取りの例を示す図である。上述した例のように、ユーザＵがエージェント１に「最近行ったあの美味しかった店、予約しておいて。」との発話がなされる。エージェント１は、精度スコア及びサブスコアを算出した結果、「和食屋Ｅ」の精度スコアが閾値（例えば、３３０）を超えており、且つ、閾値を超えているのは「和食屋Ｅ」しかないものの、精度スコアと閾値との差分が所定の範囲内（例えば４０以下）であることから、検索結果である「和食屋Ｅ」をパターンＰ２で出力する。

パターンＰ２の場合は、エージェント１は、唯一の候補をユーザＵに報知しつつ、その正誤を確認するインタラクションを行う。ユーザＵの発話に対して、エージェント１の制御部１０は、「その店は和食屋Ｅですか」との音声データを生成し、当該音声を音声入出力部１５から再生する制御を行う。ここで「そうだよ」との返答等、ユーザＵの確認がとれた場合には、エージェント１の制御部１０は、通信部１４を制御することにより「和食屋Ｅ」のホームページ等にアクセスし、適宜な予約処理を行う。なお、ユーザＵの意図が「和食屋Ｅ」でない場合は、次点の精度スコアに対応する情報を報知するようにしても良い。

（パターンＰ３）
パターンＰ３は、発話情報に対応する情報（選択肢）の精度スコアが十分であるものの、次点以降の候補の精度スコアとスコアが近いと判断される場合や、精度スコアが閾値を超える情報が複数存在する場合等に行われる検索結果の出力パターンである。パターンＰ３の場合は、検索結果として複数の候補が出力される。検索結果の出力として、映像を用いる方法と音声を用いる方法が考えられる。始めに、映像を用いる方法について説明する。

（パターンＰ３：映像による複数の検索結果の出力例）
図７は、パターンＰ３の場合における、ユーザＵとエージェント１との間で行われるやり取りの例を示す図である。ユーザＵの発話に応じて、制御部１０のスコア算出部１０ｂが精度スコア及びサブスコアを算出する。図４に示した例を参照すると、最も大きい精度スコアは３５４（ＩＤ：７に対応する情報）であるものの、精度スコアの差分が閾値（例えば、１５０）内であるものが２個（ＩＤ：１及びＩＤ：４に対応する情報）存在する。この場合は、制御部１０は、ＩＤ：１，４，７に対応する情報を検索結果の出力として出力する。例えば、図７に示すように、「いくつかの候補があります。どれでしょうか？」との音声と共に、検索結果を出力する。本例では、複数の候補に対応する静止画をディスプレイ１６に表示する。複数の候補に対応する静止画は、通信部１４を介して取得されても良いし、ユーザＵによって画像入力部１２を介して入力されても良い。

図７に示すように、「日本食屋Ａ」を示す画像ＩＭ１と、「魚料理店Ｃ」を示す画像ＩＭ２と、「和食屋Ｅ」を示す画像ＩＭ３とがディスプレイ１６に表示される。ここでは、画像ＩＭ１〜ＩＭ３が、所定の用語に対応する情報の例である。更に、各画像は、各画像に対応する精度スコア及びサブスコア、より具体的には、ＩＤ：１，４，７の各用語に対応する精度スコア及びサブスコアに対応付けられて表示される。即ち、画像ＩＭ１〜ＩＭ３は、画像ＩＭ１〜ＩＭ３に対応する用語に対して算出された精度スコア及びサブスコアを認識可能なようにして報知される。

具体的には、「日本食屋Ａ」を示す画像ＩＭ１の下に、「日本食屋Ａ」に対して算出された精度スコア「３２０」が表示される。また、属性情報「日時」に関するサブスコア「９０」と属性情報「場所」に関するサブスコア「５０」とが、精度スコアに並列して表示される。即ち、画像ＩＭ１の下には「３２０／９０／５０」とのスコアＳＣ１が表示される。

「魚料理店Ｃ」を示す画像ＩＭ２の下に、「魚料理店Ｃ」に対して算出された精度スコア「２１５」が表示される。また、属性情報「日時」に関するサブスコア「５０」と属性情報「場所」に関するサブスコア「１００」とが、精度スコアに並列して表示される。即ち、画像ＩＭ２の下には「２１５／５０／１００」とのスコアＳＣ２が表示される。

「和食屋Ｅ」を示す画像ＩＭ３の下に、「和食屋Ｅ」に対して算出された精度スコア「３５４」が表示される。また、属性情報「日時」に関するサブスコア「７０」と属性情報「場所」に関するサブスコア「８５」とが、精度スコアに並列して表示される。即ち、画像ＩＭ３の下には「３５４／７０／８５」とのスコアＳＣ３が表示される。

このように、少なくとも精度スコアを表示することで、検索結果の候補が複数、存在する場合に、どの候補の精度が高いと判断したのかを、ユーザが認識することができる。また、文言ではなく数値化されていることで、表示スペースをコンパクトにすることができ、ディスプレイ１６が小さい場合にも対応することができる。

なお、複数の候補に対する指定は、図７に示すように指さしのカーソルで指定しても良いし、「日本食屋Ａ」等の対象名を音声で指定することにより行われても良いし、表示位置を音声で指定することにより行われても良い。また、「日本食屋Ａ」を指定したい場合には、「スコアが３２０のお店」等、精度スコアを音声で指定することによる候補の選択がなされても良い。サブスコアを音声で指定することによる候補の選択がなされても良い。

精度スコアに応じて、表示を変更しても良い。例えば、精度スコアが大きい順に、表示を大きくしても良い。図７に示す例では、画像ＩＭ３が一番大きく表示され、画像ＩＭ１が次に大きく表示され、画像ＩＭ２が最も小さく表示される。精度スコアの大小に応じて各画像ＩＭ１〜ＩＭ３の表示の順序、濃淡、枠の色等が変更されても良い。例えば、精度スコアの大きい画像が目立つように、表示の順序等が適宜、設定される。これらの表示の変更のやり方を組み合わせて画像ＩＭ１〜ＩＭ３が表示されるようにしても良い。また、表示スペースに応じて、表示する精度スコアの上限値や下限値、表示するサブスコアの数等が設定されるようにしても良い。

図７に示すように、本実施の形態では、精度スコアだけでなく、少なくとも１個のサブスコアも表示するようにしている。但し、全てのサブスコアを表示するのではなく、そのうちの一部のサブスコアのみを表示するようにしている。係る表示により、複数の候補が表示される場合に、多くのサブスコアが表示されることによる視認性の低下を防止することができる。一方で、表示されたサブスコアに対応する属性情報が、ユーザＵが意図する属性情報と異なる場合もあり得る。そこで、本実施の形態では、更に、サブスコアの表示の切り替えを可能としている。

図８を参照して、サブスコアの表示の切り替えについて説明する。上述したように、エージェント１のディスプレイ１６には、画像ＩＭ１〜ＩＭ３が表示されているとする。この場合に、ユーザＵが「「感情」のサブスコアを表示して」と発話したとする。ユーザＵの発話情報が音声入出力部１５を介して制御部１０に供給され、制御部１０による音声認識が行われる。制御部１０は、データベース１７を検索し、画像ＩＭ１〜ＩＭ３、即ち、ＩＤ：１，４，７のそれぞれに対応するサブスコアを読み出す。そして、図８に示すように、制御部１０は、「感情」のサブスコアを各画像の下に表示する。具体的には、画像ＩＭ１の下には、「感情」のサブスコアが追加された「３２０／９０／５０／１００」のスコアＳＣ１ａが表示される。画像ＩＭ２の下には、「感情」のサブスコアが追加された「２１５／５０／１００／０」のスコアＳＣ２ａが表示される。画像ＩＭ３の下には、「感情」のサブスコアが追加された「３５４／７０／８５／１２０」のスコアＳＣ３ａが表示される。

係る表示により、ユーザＵは所望の属性情報に対応するサブスコアを知ることができる。なお、図８に示すように、精度スコア及び指定された属性情報に対応するサブスコアのみを含むスコアＳＣ１ｂ〜ＳＣ３ｂを表示するようにしても良い。また、ユーザＵがより認識し易いように、指定された属性情報に対応するサブスコアを強調して表示しても良い。例えば、指定された属性情報に対応するサブスコアの色を他のサブスコアの色と区別したり、指定された属性情報に対応するサブスコアを点滅させたりしても良い。また、発話により所定の属性情報が指定された際に、当該属性情報に対応するサブスコアが既に表示されている場合は、発話に応じて当該サブスコアを強調して表示するようにしても良い。

表示された検索結果に対して、ユーザＵが納得しない場合や違和感を覚える場合もあり得る。例えば、図８に示した例において、ユーザＵが「和食屋Ｅ」がとても美味しいと感じた記憶があるにも関わらず、「和食屋Ｅ」の精度スコアと「日本食屋Ａ」の精度スコアとの間の差が思ったほど無いと、ユーザＵが感じる場合もある。係る場合に対応するために、本実施の形態では、ユーザＵが重視する属性情報を指定することにより、精度スコアを算出するための重みを変更できるようにしている。より具体的には、ユーザＵが重視する属性情報に対応するサブスコアの重みを重く（大きく）して精度スコアが再計算される。

図９を参照して、具体例について説明する。画像ＩＭ１〜ＩＭ３を見たユーザＵが例えば「「感情」のサブスコアに重点をおいて。」と発話したとする。ユーザＵの発話情報が音声入出力部１５を介して制御部１０に入力され、制御部１０による音声認識が行われる。制御部１０のスコア算出部１０ｂは、指定された属性情報である「感情」のサブスコアに対する重みを例えば２倍にして、精度スコアを再計算する。

そして、図９に示すように、再計算された精度スコア及び変更された重みに応じて再計算されたサブスコアがスコアＳＣ１ｄ〜ＳＣ３ｄとしてディスプレイ１６に表示される。具体的には「日本食屋Ａ」の「感情」のサブスコアは元々「１００」であったので「２００」と再計算される。「日本食屋Ａ」の精度スコアは、サブスコアの増加分（１００）だけ増加した「４２０」となる。これらの精度スコア及び「感情」のサブスコアである「４２０／２００」がスコアＳＣ１ｄとして画像ＩＭ１の下に表示される。「魚料理店Ｃ」の「感情」のサブスコアは元々「０」であったので再計算後も「０」となる。従って、「魚料理店Ｃ」の精度スコア及び「感情」のサブスコアは変わらず「２１５／０」とのスコアＳＣ２ｄが画像ＩＭ２の下に表示される。「和食屋Ｅ」の「感情」のサブスコアは元々「１２０」であったので「２４０」と再計算される。「和食屋Ｅ」の精度スコアは、サブスコアの増加分（１２０）だけ増加した「４７４」となる。これらの精度スコア及び「感情」のサブスコアである「４７４／２４０」がスコアＳＣ３ｄとして画像ＩＭ３の下に表示される。再計算後の精度スコア及びサブスコアを見たユーザＵは、「日本食屋Ａ」と「和食屋Ｅ」との精度スコアの差分が大きくなったので、自身が以前「和食屋Ｅ」を美味しい店と感じたものと納得感を得ることができる。

（パターンＰ３：音声による複数の検索結果の出力例）
次に、音声による複数の検索結果の出力例について説明する。図１０は、音声による複数の検索結果の出力例を説明するための図である。ユーザＵにより曖昧性のある用語を含む発話がなされる。例えば、ユーザＵが「最近行ったあの美味しい店、予約しておいて」と発話する。発話情報が入力された制御部１０は、発話情報に対応して、複数の候補の音声データを生成し、当該音声データを音声入出力部１５から再生する。

例えば、検索結果である複数の候補を順に音声で再生する。図１０に示す例では、「日本食屋Ａ」、「魚料理店Ｃ」、「和食屋Ｅ」の順に、候補が音声で報知される。なお、ここでは各店舗名に対応する音声が、所定の用語に対応する情報の例である。そして、「和食屋Ｅ」が報知された際のユーザＵの応答（例えば、「それ」との音声による指定）により「和食屋Ｅ」が選択され、エージェント１による「和食屋Ｅ」の予約処理が行われる。

複数の候補を音声により報知する際に、精度スコアの高い候補の順に報知しても良い。また、複数の候補を音声により報知する際に、候補名と共に精度スコア及びサブスコアを連続的に報知しても良い。精度スコア等の数値だけでは、ユーザＵが聞き逃してしまう虞もあるため、精度スコア等を読み上げる際に、効果音やＢＧＭ(Background Music)等を付加しても良い。効果音等の種類は適宜、設定できるが、例えば、精度スコアが高い場合には当該精度スコアに対応する候補名を再生する際に明るい効果音が再生され、精度スコアが低い場合には当該精度スコアに対応する候補名を再生する際に暗い効果音が再生される。

（パターンＰ４）
パターンＰ４は、そもそも精度スコアが基準を満たすものが存在しない場合に行われる検索結果の出力パターンである。この場合は、エージェント１が直接その内容をユーザに問う。図１１は、パターンＰ４の場合における、ユーザＵとエージェント１との間で行われるやり取りの例を示す図である。

ユーザＵが、曖昧性のある用語を含む発話（例えば、「最近行ったあの美味しい店、予約しておいて」）をする。エージェント１は、発話情報に応じてデータベース１７を検索した結果、適切な候補が存在しない場合に、例えば、「その店ってどこ？」との音声を出力して、具体的な店名をユーザＵに直接問う。

エージェント１の問いかけに応じて、ユーザＵが「和食屋Ｅだよ」と回答したとする。回答に応じて、エージェント１は、和食屋Ｅを予約する処理を実行する。

以上、例示したパターンＰ１〜Ｐ４に基づいて、エージェント１から検索結果が出力される。なお、検索結果の出力として、映像を用いる方法と音声を用いる方法とを併用しても良い。また、パターンＰ１、Ｐ２、Ｐ４により検索結果を出力される場合に、映像を用いたり、映像と音声とを併用した方法を用いたりしても良い。

［処理の流れ］
第１の実施の形態に係るエージェント１で行われる処理の流れについて説明する。以下に説明する処理に関する制御は、特に断らない限り、制御部１０によって行われる。

図１２は、主に制御部１０のスコア算出部１０ｂにより行われる処理の流れを示すフローチャートである。ステップＳＴ１１では、ユーザが発話する。続く、ステップＳＴ１２では、発話に伴う音声が発話情報として音声入出力部１５を介して制御部１０に入力される。そして、処理がステップＳＴ１３に進む。

ステップＳＴ１３及びこれに続くステップＳＴ１４、ＳＴ１５では、制御部１０が発話情報に対して音声認識、品詞分解、単語分解等の音声処理を実行し、曖昧性のある用語（言葉）を検出する。そして、処理がステップＳＴ１６に進む。

ステップＳＴ１６では、ステップＳＴ１３〜ＳＴ１５までの処理の結果、ユーザの発話情報に曖昧性のある用語が含まれるか否かが判断される。発話情報に曖昧性のある用語が含まれない場合は、処理がステップＳＴ１１に戻る。発話情報に曖昧性のある用語が含まれる場合は、処理がステップＳＴ１７に進む。

ステップＳＴ１７では、制御部１０のスコア算出部１０ｂがスコア算出処理を行う。具体的には、制御部１０のスコア算出部１０ｂが、発話情報に対応するサブスコアを算出する。また、制御部１０のスコア算出部１０ｂが、算出したサブスコアに基づいて、精度スコアを算出する。

図１２のフローチャートで示した処理に続いて、図１３のフローチャートで示す処理が行われる。なお、図１２及び図１３のフローチャートで示される「ＡＡ」との記載は、処理の連続性を示すものであって、特定の処理を示すものではない。

図１３のフローチャートで示される処理は、主に制御部１０の検索結果出力部１０ｃで行われる処理である。ステップＳＴ１８では、発話情報に対応する候補が唯一であり、当該候補がユーザの発話に対応する候補であると断定できるレベル（以下、断定レベルと適宜、称する）であるか否かが判断される。検索結果の精度が断定レベル（例えば、９９％程度の精度）である場合には、処理がステップＳＴ１９に進む。

ステップＳＴ１９では、上述したパターンＰ１で検索結果である候補を報知する。例えば、制御部１０は、唯一の候補の候補名を報知しつつ、ステップＳＴ１１でなされたユーザの発話に基づく処理を行う。

検索結果の精度が断定レベルでない場合には、処理がステップＳＴ２０に進む。ステップＳＴ２０では、発話情報に対応する候補が唯一であり、当該候補がユーザの発話に対応する候補であるとほぼ断定できる程のレベル（以下、ほぼ断定レベルと適宜、称する）であるか否かが判断される。検索結果の精度がほぼ断定レベル（例えば、９０％程度の精度）である場合には、処理がステップＳＴ２１に進む。

ステップＳＴ２１では、上述したパターンＰ２で検索結果である候補を報知する。例えば、制御部１０は、唯一の候補の候補名を報知し、当該候補名が、ユーザが望む候補であると確認が取れた場合に、ステップＳＴ１１でなされたユーザの発話に基づく処理を行う。

検索結果の精度がほぼ断定レベルでない場合には、処理がステップＳＴ２２に進む。ステップＳＴ２２では、検索結果である候補がいくつかあるか否かが判断される。発話情報に対応する候補がない場合には、処理がステップＳＴ２３に進む。

ステップＳＴ２３では、上述したパターンＰ４に対応する処理が実行される。即ち、エージェント１がユーザに対して候補の名前を直接問いかける処理が行われる。

ステップＳＴ２２で、検索結果である候補がいくつかある場合には、処理がステップＳＴ２４に進む。ステップＳＴ２４では、上述したパターンＰ３に対応する処理が実行され、検索結果である複数の候補がユーザに対して報知される。複数の候補は、音声で報知されても良いし、映像で報知されても良いし、音声や映像を併用して報知されても良い。そして、処理がステップＳＴ２５に進む。

ステップＳＴ２５では、報知された複数の候補のうち、何れかの候補が選択されたか否かが判断される。候補の選択は、音声で行っても良いし、操作入力部１３による入力等により行われても良い。何れかの候補が選択された場合は、処理がステップＳＴ２６に進む。

ステップＳＴ２６では、制御部１０が、選択された候補に関して、ユーザの発話で指示された内容の処理を実行する。そして、処理が終了する。

ステップＳＴ２５では、報知された複数の候補のうち、何れかの候補が選択されない場合は、処理がステップＳＴ２７に進む。ステップＳＴ２７では、内容を変える指示があるか否かが判断される。内容を変える指示とは、例えば、属性情報毎の重みを変更する指示、より具体的には、所定の属性情報に重点をおく旨の指示等である。ステップＳＴ２７において、内容を変える指示がない場合には、処理がステップＳＴ２８に進む。

ステップＳＴ２８では、一連の処理を止める（中止する）指示がユーザによりなされたか否かが判断される。一連の処理を止める指示がなされた場合は、処理が終了する。一連の処理を止める指示がなされない場合は、処理がステップＳＴ２４に戻り、候補の報知が継続される。

ステップＳＴ２７において、内容を変える指示がある場合には、処理がステップＳＴ２９に進む。ステップＳＴ２９では、ステップＳＴ２７でなされた指示に応じて精度スコア及びサブスコアが再計算される。そして、処理がステップＳＴ２４に進み、再計算後の精度スコアやサブスコアに基づく報知が行われる。

以上、説明したように、本実施の形態によれば、エージェントが曖昧性のある用語をどのように判断したのかをユーザが客観的な指標（例えば、精度スコア）に基づいて理解できる。また、ユーザが指標（例えば、サブスコア）に対応する属性情報の内容を変更することができる。また、エージェントは、過去の言葉の蓄積から判断できるようになるので、エージェントの判断の精度が向上する。また、言葉だけでなく、生体情報、カメラ映像なども取り込むことで、エージェントがより精度の高い判断を行うことができるようになる。また、エージェントの判断精度が向上することにより、エージェントとユーザ（人）とのインタラクションがより自然になり、ユーザが違和感を覚えないようになる。

＜第２の実施の形態＞
次に、第２の実施の形態について説明する。以下の説明において、第１の実施の形態と同一又は同質の構成については、同一の参照符号を付し、重複した説明を省略する。また、第１の実施の形態で説明した事項は、特に断らない限り、第２の実施の形態に適用することができる。

第２の実施の形態は、エージェントを移動体、より具体的には、車載装置に適用した例である。本実施の形態では、移動体を車として説明するが、移動体は、電車、自転車、飛行機等何でも良い。

第２の実施の形態に係るエージェント（以下、エージェント１Ａと適宜、称する）は、エージェント１の制御部１０と同様の機能を有する、制御部１０Ａを有している。制御部１０Ａは、図１４に示すように、その機能として、例えば、スコア算出用データ蓄積部１０Ａａと、スコア算出部１０Ａｂと、検索結果出力部１０Ａｃとを有している。制御部１０Ａが、制御部１０とアーキテクチャ的に異なる点は、スコア算出用データ蓄積部１０Ａａである。車載装置に適用されたエージェント１Ａは、ＧＰＳやジャイロセンサ等を用いて位置センシングを行い、その結果を移動履歴としてデータベース１７に記憶する。移動履歴が時系列のデータとして蓄積される。また、車内でなされた会話に含まれる用語（言葉）も合わせて蓄積される。

図１５は、第２の実施の形態において、データベース１７に蓄積される情報の具体例を説明するために参照される図（地図）である。例えば、2017.11.4（土）に通ったルートＲ１が移動履歴としてデータベース１７に記憶される。ルートＲ１沿いの所定位置に「日本食屋Ｃ１」及び「家具屋Ｆ１」が存在し、ルートＲ１からやや離れた箇所に寿司屋Ｄ１が存在する。「日本食屋Ｃ１」付近でなされた会話（例えば「この店旨いよ」という内容の会話）や、「家具屋Ｆ１」付近を移動中になされた会話（例えば「ここ良いモノおいているよ」という内容の会話）も合わせてデータベース１７に記憶される。

また、例えば、2017.11.6（月）、2017.11.8（水）、2017.11.10（金）に通ったルートＲ２が移動履歴としてデータベース１７に記憶される。ルートＲ２沿いの所定位置に「ショップＡ１」、「日本食屋Ｂ１」及び「料理屋Ｅ１」が存在する。「日本食屋Ｂ１」付近を移動中になされた会話（例えば「この店いいよ」という内容の会話）も合わせてデータベース１７に記憶される。また、各ルート沿い及び各ルートから所定範囲内に存在する店舗名が用語としてデータベース１７に登録される。この場合の用語は、発話に基づくものであっても良いし、地図データから読み込まれたものであっても良い。

例示した情報がデータベース１７に記憶された状態で、例えば、「平日に通るＰ駅近くのあの和食屋さんの予約をお願い」との発話が、ユーザからエージェント１Ａに対してなされる。エージェント１Ａの制御部１０Ａは、発話情報に「あの」という曖昧性のある用語が含まれることから、第１の実施の形態と同様に、用語に対応する属性情報毎のサブスコアを算出し、また、算出したサブスコアに基づく精度スコアを算出する。

図１６は、算出されたサブスコア及び精度スコアの一例を示している。各用語には、属性情報として、例えば、「ＩＤ」、「位置精度」、「日時精度」、「和食屋に対する精度」、「個人評価」が対応付けられている。

以下、サブスコアの算出に関する設定について説明する。
位置精度：発話情報に「Ｐ駅近く」という言葉が含まれることから、Ｐ駅からの距離が近いほどサブスコアが高くなるようにする。
日時精度：発話情報に「平日」という言葉が含まれることから、平日に多く通るルートＲ２沿いに存在する店のサブスコアが高くなるようにし、休日に通るルートＲ１周辺に存在する店のサブスコアが低くなるようにする。
"和食屋"に対する精度：発話情報に「あの和食屋さん」という言葉が含まれることから、和食屋に近いもののサブスコアが高くなるようにする。
個人評価：過去に蓄積された車内の中での発言から導かれる評価値である。肯定的な発言である程、サブスコアが高くなる。
以上の設定に基づいて算出されたサブスコアが図１６に示されている。また、サブスコアを加算した値が精度スコアとして算出される。なお、第１の実施の形態と同様に、各サブスコアを重み付け加算することにより精度スコアを算出するようにしても良い。

以上にして算出された精度スコアに基づいて、ユーザに対する候補の報知が行われる。候補の報知は、第１の実施の形態と同様に、パターンＰ１〜Ｐ４の何れかのパターンに基づいて行われる。例えば、検索結果として複数の候補が報知されるパターンＰ３の場合は、少なくとも精度スコアを認識可能にして報知する。第１の実施の形態で説明したように、サブスコアを認識可能にして報知しても良いし、ユーザによって指示されたサブスコアを認識可能にして報知しても良い。

なお、車載装置としてエージェント１Ａを適用した場合には、エージェント１Ａからユーザに対する応答の際に、以下の処理が行われても良い。

車の運転中にユーザがエージェント１Ａに対して問いかけをした場合に、エージェント１Ａの応答（複数の候補の報知を含む）が、車が停止したことを検知してから行われるようにしても良い。映像の場合には車が停止してから映像が表示され、音声の場合も車が停止してからその応答の音声が流れるようにする。これにより、ユーザの運転への集中力の低下を防止することができる。なお、エージェント１Ａは、車が停止したか否かを車速センサにより得られるセンサ情報に基づいて判断することができる。係る構成の場合には、センサ部１１が車速センサを含む。

また、エージェント１Ａが映像や音声による報知中に車が動き出したことを検知した場合には、映像や音声による報知を中断する。また、車速センサのセンサ情報に基づいて、一定以上の車速が一定以上、継続する場合に、車が高速道路を運転中であるとエージェント１Ａが判断する。このように、高速道路運転中など、ユーザからエージェント１Ａに対する問い合わせ後に一定時間以上車が止まらないことが想定される場合には、問い合わせをキャンセルするようにしても良い。キャンセルされた旨やエラーメッセージ等を音声等によりユーザに対して報知しても良い。なお、助手席に着座しているユーザからのエージェント１Ａに対する問いかけに関しては応答可能としても良い。エージェント１Ａが助手席に着座しているユーザからの入力のみを受け付ける可能とすることは、例えば、ビームフォーミングと称される技術を適用することにより実現可能となる。

以上、説明した第２の実施の形態でも、第１の実施の形態と同様の効果を得ることができる。

＜第３の実施の形態＞
次に、第３の実施の形態について説明する。以下の説明において、第１、第２の実施の形態と同一又は同質の構成については、同一の参照符号を付し、重複した説明を省略する。また、第１、第２の実施の形態で説明した事項は、特に断らない限り、第３の実施の形態に適用することができる。第３の実施の形態は、エージェントを白物家電、より具体的には、冷蔵庫に適用した例である。

第３の実施の形態に係るエージェント（以下、エージェント１Ｂと適宜、称する）は、エージェント１の制御部１０と同様の機能を有する、制御部１０Ｂを有している。制御部１０Ｂは、図１７に示すように、その機能として、例えば、スコア算出用データ蓄積部１０Ｂａと、スコア算出部１０Ｂｂと、検索結果出力部１０Ｂｃとを有している。

制御部１０Ｂが、制御部１０とアーキテクチャ的に異なる点は、スコア算出用データ蓄積部１０Ｂａである。エージェント１Ｂは、センサ部１１として、例えば、２系統のセンサを含む。１つのセンサは「ものの認識するためのセンサ」であり、係るセンサとしては、撮像装置や赤外線センサを例示することができる。また、もう１つは「重さをはかるためのセンサ」であり、係るセンサとしては重力センサを例示することができる。これら２系統のセンシング結果を利用して、スコア算出用データ蓄積部１０Ｂａは、冷蔵庫の中に入っている物の種類と重さのデータを蓄積していく。

図１８は、スコア算出用データ蓄積部１０Ｂａにより、データベース１７に蓄積された情報の一例を示す図である。図１８における「物体」は、映像によるセンシングによりセンシングされた冷蔵庫内の「もの」に対応する。「変化日時」は、冷蔵庫内のものの出し入れに伴う変化が発生した日時である。時間情報は、センサ部１１に計時部を含む構成として制御部１０Ｂが当該計時部から時間情報を得るようにしても良いし、制御部１０Ｂが、自身が有するＲＴＣ（Real Time Clock）等から時間情報を得るようにしても良い。

「個数変化／個数」は、上述した変化日時で変化した冷蔵庫内のものの個数と変化後の数である。個数の変化は、例えば撮像装置等によるセンシング結果に基づいて得られる。「重さの変化／重さ」は、上述した変化日時で変化した重さ（量）と変化後の重さとである。なお、個数が変化しない場合でも重さが変化する場合もある。例えば、図１８におけるＩＤ：２４及びＩＤ：３１で示される「リンゴジュース」のように、個数が変化しない場合でも重さが変化する場合もある。これは、リンゴジュースが消費されたことを示している。

ここで、例えば、ユーザが「そろそろ無くなりそうなあの野菜ってなんだっけ？」とエージェント１Ｂと話しかけた場合を想定する。なお、このように必要なものを確認する思考は、外出先の買物中に行われることが多い。従って、外出先の買物中にユーザがスマートホンに話しかけ、発話情報がスマートホンからネットワークを介してエージェント１Ｂに送信されても良い。エージェント１Ｂから、ユーザの問いかけに対する応答がネットワークを介して送信され、ユーザのスマートホンにより表示や音声等により報知される。勿論、近年、インターネット等を利用したショッピングも普及していることから、屋内（家の中）でユーザが必要なものを確認する思考となる場合も想定される。係る場合は、ユーザの問いかけがエージェント１Ｂに直接、入力されても良い。

エージェント１Ｂは、入力されたユーザの発話情報に対して音声認識を行う。発話情報に「あの野菜」との曖昧性のある用語が含まれることから、制御部１０Ｂは、精度スコア及びサブスコアを算出する。

始めに、制御部１０Ｂのスコア算出部１０Ｂｂは、図１８に示したデータベース１７の情報から、それぞれの「物体」の直近（最新）の変化日時及び当該変化日時に生じた個数変化や重さの変化を読み出す。そして、読み出した結果に基づいて、「物体」毎に精度スコア及びサブスコアを算出する。

図１９は、算出された精度スコア及びサブスコアの一例を示している。本実施の形態では、サブスコアとして「物体スコア」及び「重さスコア」を設定している。勿論、第１の実施の形態で説明したように物体の認識精度に応じたスコア等などがあっても良い。

各サブスコアに関する設定について説明する。
物体スコア：発話情報に「あの野菜」との用語が含まれることから、野菜の場合に高スコアが付与されるようにし、果物にも一定のスコアが付与される。図１９に示す例では、例えば、野菜であるニンジン、玉ねぎには高スコアが付与され、キウイフルーツにも一定のスコアが付与される。反対に、野菜でないもの（例えば、卵）に付与されるスコアは低くなる。
重さスコア：直近の変化量と現状の重さとから判断されるスコアを付与する。発話情報に「そろそろ無くなりそう」との用語（文章）が含まれていることから、変化量が「マイナス（−）」であり、変化後の重さが小さいほど高スコアが付与される。例えば、変化量が「マイナス（−）」であり、変化後の重さが小さい玉ねぎに高スコアが付与される。

算出されたサブスコアに基づいて、精度スコアが算出される。図１９に示す例では、各サブスコアを加算することにより、精度スコアが算出される。勿論、各サブスコアを重み付け加算することにより精度スコアが算出されるようにしても良い。

以上、説明した第３の実施の形態でも、第１の実施の形態と同様の効果を得ることができる。

＜変形例＞
以上、本開示の複数の実施の形態について具体的に説明したが、本開示の内容は上述した実施の形態に限定されるものではなく、本開示の技術的思想に基づく各種の変形が可能である。以下、変形例について説明する。

上述した実施の形態に係るエージェントの一部の処理が、サーバ装置で行われても良い。例えば、図２０に示すように、エージェント１とサーバ装置２との間で通信が行われる。サーバ装置２は、例えば、サーバ制御部２１と、サーバ通信部２２と、データベース２３とを有している。

サーバ制御部２１は、サーバ装置２の各部を制御する。例えば、サーバ制御部２１は、上述したスコア算出用データ蓄積部１０ａ及びスコア算出部１０ｂを有している。サーバ通信部２２は、エージェント１と通信を行うための構成であり、通信規格に対応した変復調回路、アンテナ等の構成を有している。データベース２３は、データベース１７と同様の情報を蓄積する。

エージェント１からサーバ装置２に対して、音声データやセンシングデータが送信される。これらの音声データ等が、サーバ通信部２２を介してサーバ制御部２１に供給される。サーバ制御部２１は、制御部１０と同様にしてスコア算出用データをデータベース２３に蓄積する。また、エージェント１から供給される音声データに曖昧性のある用語が含まれる場合は、サーバ制御部２１は、精度スコア等を算出し、ユーザの発話情報に対応する検索結果をエージェント１に送信する。エージェント１は、上述したパターンＰ１〜Ｐ４の何れかのパターンで検索結果をユーザに報知する。なお、報知のパターンがサーバ装置２により指定されても良い。この場合は、サーバ装置２からエージェント１に対して送信されるデータに、指定された報知のパターンが記述される。

その他の変形例について説明する。上述した実施の形態において、エージェントに入力される音声は、エージェントの周囲における会話だけでなく、外出先などで録音した会話、電話での会話等であっても良い。

上述した実施の形態において、精度スコア等が表示される位置は、画像の下に限定されることはなく、画像の上等、適宜、変更することができる。

上述した実施の形態において、発話情報に対応する処理は、店舗の予約に限定されることはなく、物品の購入、チケットの予約等何でも良い。

上述した第３の実施の形態において、センサ部として物体の消費期限を読み取るセンサ（例えば、物体につけられたＲＦＩＤ(Radio Frequency Identifier)を読み取るセンサ）を適用し、消費期限が切れた場合には、重さを０にしても良い。このように、センサ部の構成は適宜、変更することができる。

上述した実施の形態で説明した構成は一例に過ぎず、これに限定されるものではない。本開示の趣旨を逸脱しない範囲で、構成の追加、削除等が行われて良いことは言うまでもない。本開示は、装置、方法、プログラム、システム等の任意の形態で実現することもできる。プログラムは、例えば、制御部が有するメモリや適宜な記録媒体に記憶され得る。

本開示は、以下の構成も採ることができる。
（１）
検索結果の候補として、複数の属性情報が対応付けられた所定の用語に対応する情報が、複数、存在する場合に、それぞれの前記情報を、各用語に対して算出された指標を認識可能にして報知する制御を行う制御部を有する
情報処理装置。
（２）
前記属性情報は、発話情報に基づいて取得された位置情報を含む
（１）に記載の情報処理装置。
（３）
前記制御部は、曖昧性のある用語を含む発話情報が入力された場合に、前記検索結果を報知する
（１）又は（２）に記載の情報処理装置。
（４）
前記指標は、前記属性情報毎に算出されるサブスコアと、複数のサブスコアを統合した統合スコアとを含み、
前記制御部は、少なくとも、前記統合スコアを認識可能に報知する
（１）から（３）までの何れかに記載の情報処理装置。
（５）
前記統合スコアは、前記サブスコアを重み付け加算したものである
（４）に記載の情報処理装置。
（６）
前記制御部は、前記重み付け加算で用いられる重みを発話情報に応じて変化させる
（５）に記載の情報処理装置。
（７）
前記制御部は、少なくとも１個のサブスコアを認識可能に報知する
（４）から（６）までの何れかに記載の情報処理装置。
（８）
前記制御部は、複数の前記情報を、各情報に対応する前記指標に対応付けて表示する
（１）から（７）までの何れかに記載の情報処理装置。
（９）
前記制御部は、各情報に対応する指標に応じて、各情報の表示の大きさ、濃淡及び配列順序の少なくとも一つを異なるように表示する
（８）に記載の情報処理装置。
（１０）
前記指標は、前記属性情報毎に算出されるサブスコアと、複数のサブスコアを統合した統合スコアとを含み、
前記制御部は、所定の入力により指示されたサブスコアを表示する
（８）に記載の情報処理装置。
（１１）
前記制御部は、複数の前記情報を、各情報に対応する前記指標に対応付けて音声により出力する
（１）から（１０）までの何れかに記載の情報処理装置。
（１２）
前記制御部は、所定の前記情報と当該情報に対応する前記指標とを連続的に出力する
（１１）に記載の情報処理装置。
（１３）
前記制御部は、所定の前記情報を、当該情報に対応する前記指標に基づく効果音を付加して出力する
（１１）に記載の情報処理装置。
（１４）
前記属性情報は、移動体の移動中になされた発話による評価に関する情報を含む
（１）から（１３）までの何れかに記載の情報処理装置。
（１５）
制御部が、検索結果の候補として、複数の属性情報が対応付けられた所定の用語に対応する情報が、複数、存在する場合に、それぞれの前記情報を、各用語に対して算出された指標を認識可能にして報知する制御を行う
情報処理方法。
（１６）
制御部が、検索結果の候補として、複数の属性情報が対応付けられた所定の用語に対応する情報が、複数、存在する場合に、それぞれの前記情報を、各用語に対して算出された指標を認識可能にして報知する制御を行う
情報処理方法をコンピュータに実行させるプログラム。

１，１Ａ，１Ｂ・・・エージェント、１０，１０Ａ，１０Ｂ・・・制御部、１１・・・センサ部、１５・・・音声入力部、１６・・・ディスプレイ

Claims

検索結果の候補として、複数の属性情報が対応付けられた所定の用語に対応する情報が、複数、存在する場合に、それぞれの前記情報を、各用語に対して算出された指標を認識可能にして報知する制御を行う制御部を有する
情報処理装置。
前記属性情報は、発話情報に基づいて取得された位置情報を含む
請求項１に記載の情報処理装置。
前記制御部は、曖昧性のある用語を含む発話情報が入力された場合に、前記検索結果を報知する
請求項１に記載の情報処理装置。
前記指標は、前記属性情報毎に算出されるサブスコアと、複数のサブスコアを統合した統合スコアとを含み、
前記制御部は、少なくとも、前記統合スコアを認識可能に報知する
請求項１に記載の情報処理装置。
前記統合スコアは、前記サブスコアを重み付け加算したものである
請求項４に記載の情報処理装置。
前記制御部は、前記重み付け加算で用いられる重みを発話情報に応じて変化させる
請求項５に記載の情報処理装置。
前記制御部は、少なくとも１個のサブスコアを認識可能に報知する
請求項４に記載の情報処理装置。
前記制御部は、複数の前記情報を、各情報に対応する前記指標に対応付けて表示する
請求項１に記載の情報処理装置。
前記制御部は、各情報に対応する指標に応じて、各情報の表示の大きさ、濃淡及び配列順序の少なくとも一つを異なるように表示する
請求項８に記載の情報処理装置。
前記指標は、前記属性情報毎に算出されるサブスコアと、複数のサブスコアを統合した統合スコアとを含み、
前記制御部は、所定の入力により指示されたサブスコアを表示する
請求項８に記載の情報処理装置。
前記制御部は、複数の前記情報を、各情報に対応する前記指標に対応付けて音声により出力する
請求項１に記載の情報処理装置。
前記制御部は、所定の前記情報と当該情報に対応する前記指標とを連続的に出力する
請求項１１に記載の情報処理装置。
前記制御部は、所定の前記情報を、当該情報に対応する前記指標に基づく効果音を付加して出力する
請求項１１に記載の情報処理装置。
前記属性情報は、移動体の移動中になされた発話による評価に関する情報を含む
請求項１に記載の情報処理装置。
制御部が、検索結果の候補として、複数の属性情報が対応付けられた所定の用語に対応する情報が、複数、存在する場合に、それぞれの前記情報を、各用語に対して算出された指標を認識可能にして報知する制御を行う
情報処理方法。
制御部が、検索結果の候補として、複数の属性情報が対応付けられた所定の用語に対応する情報が、複数、存在する場合に、それぞれの前記情報を、各用語に対して算出された指標を認識可能にして報知する制御を行う
情報処理方法をコンピュータに実行させるプログラム。