WO2023163197A1

WO2023163197A1 - コンテンツ評価装置、コンテンツ評価方法、プログラム及び記憶媒体

Info

Publication number: WO2023163197A1
Application number: PCT/JP2023/007203
Authority: WO
Inventors: 高志飯澤; 敬太倉持; 大輝和栗; 圭鈴木
Original assignee: パイオニア株式会社
Priority date: 2022-02-28
Filing date: 2023-02-28
Publication date: 2023-08-31

Abstract

コンテンツ評価装置は、コンテンツ取得部と、出力部と、音声認識部と、評価部と、を有する。コンテンツ取得部は、車両の搭乗者に対して出力するための音声コンテンツを取得する。出力部は、音声コンテンツを出力する。音声認識部は、音声コンテンツが出力された後における搭乗者の発話に含まれる所定の文言を認識するための音声認識処理を行う。評価部は、音声認識処理の結果に基づき、搭乗者に対して出力された音声コンテンツの有効性を評価する。

Description

コンテンツ評価装置、コンテンツ評価方法、プログラム及び記憶媒体

　本発明は、プッシュ型のコンテンツの評価において利用可能な技術に関する。

　センサ等を通じて得られた様々な情報に基づき、ユーザからの要求が無くとも当該情報に対応するコンテンツを当該ユーザに対して出力するような、プッシュ型のコンテンツの出力に係る技術が従来知られている。

　具体的には、例えば、特許文献１には、車両のドアの開閉を検出する振動センサ等を通じて得られた情報に基づき、当該車両の搭乗者の乗車時及び降車時に挨拶音声を出力する技術が開示されている。

特開２００３－２３７４５３号公報

　ここで、プッシュ型のコンテンツの出力によれば、ユーザの反応を示すフィードバックを得ることができないことに起因し、当該ユーザに対して出力されたコンテンツの有効性を評価することができない。

　そのため、例えば、プッシュ型のコンテンツの出力を車両の運転時に適用した場合においては、当該車両の搭乗者に対して出力したコンテンツの有効性を評価することができない、という問題点が生じ得る。

　しかし、特許文献１には、上記の問題点を解消可能な手法について特に開示等されていない。そのため、特許文献１に開示された構成によれば、上記の問題点に応じた課題が依然として存在している。

　本発明は、上記の課題を解決するためになされたものであり、プッシュ型のコンテンツの出力において、車両の搭乗者に対して出力したコンテンツの有効性を評価することが可能なコンテンツ評価装置を提供することを主な目的とする。

　請求項に記載の発明は、コンテンツ評価装置であって、車両の搭乗者に対して出力するための音声コンテンツを取得するコンテンツ取得部と、前記音声コンテンツを出力する出力部と、前記音声コンテンツが出力された後における前記搭乗者の発話に含まれる所定の文言を認識するための音声認識処理を行う音声認識部と、前記音声認識処理の結果に基づき、前記搭乗者に対して出力された前記音声コンテンツの有効性を評価する評価部と、を有する。

　また、請求項に記載の発明は、コンテンツ評価方法であって、車両の搭乗者に対して出力するための音声コンテンツを取得し、前記音声コンテンツを出力し、前記音声コンテンツが出力された後における前記搭乗者の発話に含まれる所定の文言を認識するための音声認識処理を行い、前記音声認識処理の結果に基づき、前記搭乗者に対して出力された前記音声コンテンツの有効性を評価する。

　また、請求項に記載の発明は、コンピュータを備えるコンテンツ評価装置により実行されるプログラムであって、車両の搭乗者に対して出力するための音声コンテンツを取得するコンテンツ取得部、前記音声コンテンツを出力する出力部、前記音声コンテンツが出力された後における前記搭乗者の発話に含まれる所定の文言を認識するための音声認識処理を行う音声認識部、及び、前記音声認識処理の結果に基づき、前記搭乗者に対して出力された前記音声コンテンツの有効性を評価する評価部として前記コンピュータを機能させる。

実施例に係る音声出力システムの構成例を示す図。音声出力装置の概略構成を示すブロック図。サーバ装置の概略構成の一例を示す図。サーバ装置において行われる処理を説明するためのフローチャート。

　本発明の１つの好適な実施形態では、コンテンツ評価装置は、車両の搭乗者に対して出力するための音声コンテンツを取得するコンテンツ取得部と、前記音声コンテンツを出力する出力部と、前記音声コンテンツが出力された後における前記搭乗者の発話に含まれる所定の文言を認識するための音声認識処理を行う音声認識部と、前記音声認識処理の結果に基づき、前記搭乗者に対して出力された前記音声コンテンツの有効性を評価する評価部と、を有する。

　上記のコンテンツ評価装置は、コンテンツ取得部と、出力部と、音声認識部と、評価部と、を有する。コンテンツ取得部は、車両の搭乗者に対して出力するための音声コンテンツを取得する。出力部は、前記音声コンテンツを出力する。音声認識部は、前記音声コンテンツが出力された後における前記搭乗者の発話に含まれる所定の文言を認識するための音声認識処理を行う。評価部は、前記音声認識処理の結果に基づき、前記搭乗者に対して出力された前記音声コンテンツの有効性を評価する。これにより、プッシュ型のコンテンツの出力において、車両の搭乗者に対して出力したコンテンツの有効性を評価することができる。

　上記のコンテンツ評価装置の一態様では、前記評価部は、前記音声コンテンツの有効性を評価するための指標として、前記音声認識処理により前記所定の文言が認識された回数に応じたスコアを取得する。

　上記のコンテンツ評価装置の一態様では、前記音声認識部は、前記音声コンテンツが出力された直後から所定の時間が経過するまでの間において、前記音声認識処理を行う。

　上記のコンテンツ評価装置の一態様では、前記音声認識部は、前記音声コンテンツが出力された後における前記スコアが最後に取得されたタイミングから所定の時間が経過した際に、前記音声認識処理を停止する。

　上記のコンテンツ評価装置の一態様では、前記音声認識部は、前記所定の文言として、前記音声コンテンツに対する感嘆を示す文言、及び、前記音声コンテンツにおけるキーワードのうちの少なくともいずれか一方を認識する。

　本発明の他の実施形態では、コンテンツ評価方法は、車両の搭乗者に対して出力するための音声コンテンツを取得し、前記音声コンテンツを出力し、前記音声コンテンツが出力された後における前記搭乗者の発話に含まれる所定の文言を認識するための音声認識処理を行い、前記音声認識処理の結果に基づき、前記搭乗者に対して出力された前記音声コンテンツの有効性を評価する。これにより、プッシュ型のコンテンツの出力において、車両の搭乗者に対して出力したコンテンツの有効性を評価することができる。

　本発明のさらに他の実施形態では、コンピュータを備えるコンテンツ評価装置により実行されるプログラムは、車両の搭乗者に対して出力するための音声コンテンツを取得するコンテンツ取得部、前記音声コンテンツを出力する出力部、前記音声コンテンツが出力された後における前記搭乗者の発話に含まれる所定の文言を認識するための音声認識処理を行う音声認識部、及び、前記音声認識処理の結果に基づき、前記搭乗者に対して出力された前記音声コンテンツの有効性を評価する評価部として前記コンピュータを機能させる。このプログラムをコンピュータで実行することにより、上記のコンテンツ評価装置を実現することができる。このプログラムは記憶媒体に記憶して使用することができる。

　以下、図面を参照して本発明の好適な実施例について説明する。

　［システム構成］
　（全体構成）
　図１は、実施例に係る音声出力システムの構成例を示す図である。本実施例に係る音声出力システム１は、音声出力装置１００と、サーバ装置２００とを有する。音声出力装置１００は、車両Ｖｅに搭載される。サーバ装置２００は、複数の車両Ｖｅに搭載された複数の音声出力装置１００と通信する。

　音声出力装置１００は、基本的に車両Ｖｅの搭乗者であるユーザに対して、経路探索処理や経路案内処理などを行う。例えば、音声出力装置１００は、ユーザにより目的地等が入力されると、車両Ｖｅの位置情報や指定された目的地に関する情報などを含むアップロード信号Ｓ１をサーバ装置２００に送信する。サーバ装置２００は、地図データを参照して目的地までの経路を算出し、目的地までの経路を示す制御信号Ｓ２を音声出力装置１００へ送信する。音声出力装置１００は、受信した制御信号Ｓ２に基づいて、音声出力によりユーザに対する経路案内を行う。

　また、音声出力装置１００は、ユーザとの対話により各種の情報をユーザに提供する。例えば、音声出力装置１００は、ユーザが情報要求を行うと、その情報要求の内容又は種類を示す情報、及び、車両Ｖｅの走行状態に関する情報などを含むアップロード信号Ｓ１をサーバ装置２００に供給する。サーバ装置２００は、ユーザが要求する情報を取得、生成し、制御信号Ｓ２として音声出力装置１００へ送信する。音声出力装置１００は、受信した情報を、音声出力によりユーザに提供する。

　（音声出力装置）
　音声出力装置１００は、車両Ｖｅと共に移動し、案内経路に沿って車両Ｖｅが走行するように、音声を主とした経路案内を行う。なお、「音声を主とした経路案内」は、案内経路に沿って車両Ｖｅを運転するために必要な情報をユーザが少なくとも音声のみから把握可能な経路案内を指し、音声出力装置１００が現在位置周辺の地図などを補助的に表示することを除外するものではない。本実施例では、音声出力装置１００は、少なくとも、案内が必要な経路上の地点（「案内地点」とも呼ぶ。）など、運転に係る様々な情報を音声により出力する。ここで、案内地点は、例えば車両Ｖｅの右左折を伴う交差点、その他、案内経路に沿って車両Ｖｅが走行するために重要な通過地点が該当する。音声出力装置１００は、例えば、車両Ｖｅから次の案内地点までの距離、当該案内地点での進行方向などの案内地点に関する音声案内を行う。以後では、案内経路に対する案内に関する音声を「経路音声案内」とも呼ぶ。

　音声出力装置１００は、例えば車両Ｖｅのフロントガラスの上部、又は、ダッシュボード上などに取り付けられる。なお、音声出力装置１００は、車両Ｖｅに組み込まれてもよい。

　図２は、音声出力装置１００の概略構成を示すブロック図である。音声出力装置１００は、主に、通信部１１１と、記憶部１１２と、入力部１１３と、制御部１１４と、センサ群１１５と、表示部１１６と、マイク１１７と、スピーカ１１８と、車外カメラ１１９と、車内カメラ１２０と、を有する。音声出力装置１００内の各要素は、バスライン１１０を介して相互に接続されている。

　通信部１１１は、制御部１１４の制御に基づき、サーバ装置２００とのデータ通信を行う。通信部１１１は、例えば、後述する地図ＤＢ（ＤａｔａＢａｓｅ）４を更新するための地図データをサーバ装置２００から受信してもよい。

　記憶部１１２は、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、不揮発性メモリ（ハードディスクドライブ、フラッシュメモリなどを含む）などの各種のメモリにより構成される。記憶部１１２には、音声出力装置１００が所定の処理を実行するためのプログラムが記憶される。上述のプログラムは、経路案内を音声により行うためのアプリケーションプログラム、音楽を再生するためのアプリケーションプログラム、音楽以外のコンテンツ（テレビ等）を出力するためのアプリケーションプログラムなどを含んでもよい。また、記憶部１１２は、制御部１１４の作業メモリとしても使用される。なお、音声出力装置１００が実行するプログラムは、記憶部１２以外の記憶媒体に記憶されてもよい。

　また、記憶部１１２は、地図データベース（以下、データベースを「ＤＢ」と記す。）４を記憶する。地図ＤＢ４には、経路案内に必要な種々のデータが記録されている。地図ＤＢ４は、例えば、道路網をノードとリンクの組合せにより表した道路データ、及び、目的地、立寄地、又はランドマークの候補となる施設を示す施設データなどを記憶している。地図ＤＢ４は、制御部１１４の制御に基づき、通信部１１１が地図管理サーバから受信する地図情報に基づき更新されてもよい。

　入力部１１３は、ユーザが操作するためのボタン、タッチパネル、リモートコントローラ等である。表示部１１６は、制御部１１４の制御に基づき表示を行うディスプレイ等である。マイク１１７は、車両Ｖｅの車内の音声、特に運転手の発話などを集音する。スピーカ１１８は、運転手などに対して、経路案内のための音声を出力する。

　センサ群１１５は、外界センサ１２１と、内界センサ１２２とを含む。外界センサ１２１は、例えば、ライダ、レーダ、超音波センサ、赤外線センサ、ソナーなどの車両Ｖｅの周辺環境を認識するための１又は複数のセンサである。内界センサ１２２は、車両Ｖｅの測位を行うセンサであり、例えば、ＧＮＳＳ（Ｇｌｏｂａｌ　Ｎａｖｉｇａｔｉｏｎ　Ｓａｔｅｌｌｉｔｅ　Ｓｙｓｔｅｍ）受信機、ジャイロセンサ、ＩＭＵ（Ｉｎｅｒｔｉａｌ　Ｍｅａｓｕｒｅｍｅｎｔ　Ｕｎｉｔ）、車速センサ、又はこれらの組合せである。なお、センサ群１１５は、制御部１１４がセンサ群１１５の出力から車両Ｖｅの位置を直接的に又は間接的に（即ち推定処理を行うことによって）導出可能なセンサを有していればよい。

　車外カメラ１１９は、車両Ｖｅの外部を撮影するカメラである。車外カメラ１１９は、車両の前方を撮影するフロントカメラのみでもよく、フロントカメラに加えて車両の後方を撮影するリアカメラを含んでもよく、車両Ｖｅの全周囲を撮影可能な全方位カメラであってもよい。一方、車内カメラ１２０は、車両Ｖｅの車内の様子を撮影するカメラであり、少なくとも運転席周辺を撮影可能な位置に設けられる。

　制御部１１４は、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、ＧＰＵ（Ｇｒａｐｈｉｃｓ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）などを含み、音声出力装置１００の全体を制御する。例えば、制御部１１４は、センサ群１１５の１又は複数のセンサの出力に基づき、車両Ｖｅの位置（進行方向の向きも含む）を推定する。また、制御部１１４は、入力部１１３又はマイク１１７により目的地が指定された場合に、当該目的地までの経路である案内経路を示す経路情報を生成し、当該経路情報と推定した車両Ｖｅの位置情報と地図ＤＢ４とに基づき、経路案内を行う。この場合、制御部１１４は、経路音声案内をスピーカ１１８から出力させる。また、制御部１１４は、表示部１１６を制御することで、再生中の音楽の情報、映像コンテンツ、又は現在位置周辺の地図などの表示を行う。

　なお、制御部１１４が実行する処理は、プログラムによるソフトウェアで実現することに限ることなく、ハードウェア、ファームウェア、及びソフトウェアのうちのいずれかの組み合わせ等により実現してもよい。また、制御部１１４が実行する処理は、例えばＦＰＧＡ（field-programmable gate array）又はマイコン等の、ユーザがプログラミング可能な集積回路を用いて実現してもよい。この場合、この集積回路を用いて、制御部１１４が本実施例において実行するプログラムを実現してもよい。このように、制御部１１４は、プロセッサ以外のハードウェアにより実現されてもよい。

　図２に示す音声出力装置１００の構成は一例であり、図２に示す構成に対して種々の変更がなされてもよい。例えば、地図ＤＢ４を記憶部１１２が記憶する代わりに、制御部１１４が通信部１１１を介して経路案内に必要な情報をサーバ装置２００から受信してもよい。他の例では、音声出力装置１００は、スピーカ１１８を備える代わりに、音声出力装置１００とは別体に構成された音声出力部と電気的に又は公知の通信手段によって接続することで、当該音声出力部から音声を出力させてもよい。この場合、音声出力部は、車両Ｖｅに備えられたスピーカであってもよい。さらに別の例では、音声出力装置１００は、表示部１１６を備えなくともよい。この場合、音声出力装置１００は、表示に関する制御を全く行わなくともよく、有線又は無線により、車両Ｖｅ等に備えられた表示部と電気的に接続することで、当該表示部に所定の表示を実行させてもよい。同様に、音声出力装置１００は、センサ群１１５を備える代わりに、車両Ｖｅに備え付けられたセンサが出力する情報を、車両ＶｅからＣＡＮ（Ｃｏｎｔｒｏｌｌｅｒ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）などの通信プロトコルに基づき取得してもよい。

　（サーバ装置）
　サーバ装置２００は、音声出力装置１００から受信する目的地等を含むアップロード信号Ｓ１に基づき、車両Ｖｅが走行すべき案内経路を示す経路情報を生成する。そして、サーバ装置２００は、その後に音声出力装置１００が送信するアップロード信号Ｓ１が示すユーザの情報要求及び車両Ｖｅの走行状態に基づき、ユーザの情報要求に対する情報出力に関する制御信号Ｓ２を生成する。そして、サーバ装置２００は、生成した制御信号Ｓ２を、音声出力装置１００に送信する。

　さらに、サーバ装置２００は、車両Ｖｅのユーザに対する情報提供やユーザとの対話を行うためのコンテンツを生成し、音声出力装置１００に送信する。ユーザに対する情報提供は、主として車両Ｖｅが所定の運転状況になったことをトリガとしてサーバ装置２００側から開始するプッシュ型の情報提供である。また、ユーザとの対話は、基本的にユーザからの質問や問いかけから開始するプル型の対話である。但し、ユーザとの対話は、プッシュ型のコンテンツ提供から開始する場合もある。

　図３は、サーバ装置２００の概略構成の一例を示す図である。サーバ装置２００は、主に、通信部２１１と、記憶部２１２と、制御部２１４とを有する。サーバ装置２００内の各要素は、バスライン２１０を介して相互に接続されている。

　通信部２１１は、制御部２１４の制御に基づき、音声出力装置１００などの外部装置とのデータ通信を行う。記憶部２１２は、ＲＡＭ、ＲＯＭ、不揮発性メモリ（ハードディスクドライブ、フラッシュメモリなどを含む）などの各種のメモリにより構成される。記憶部２１２は、サーバ装置２００が所定の処理を実行するためのプログラムが記憶される。また、記憶部２１２は、地図ＤＢ４を含んでいる。

　制御部２１４は、ＣＰＵ、ＧＰＵなどを含み、サーバ装置２００の全体を制御する。また、制御部２１４は、記憶部２１２に記憶されたプログラムを実行することで、音声出力装置１００とともに動作し、ユーザに対する経路案内処理や情報提供処理などを実行する。例えば、制御部２１４は、音声出力装置１００から通信部２１１を介して受信するアップロード信号Ｓ１に基づき、案内経路を示す経路情報、又は、ユーザの情報要求に対する情報出力に関する制御信号Ｓ２を生成する。そして、制御部２１４は、生成した制御信号Ｓ２を、通信部２１１により音声出力装置１００に送信する。

　制御部２１４は、通信部２１１を通じて音声出力装置１００から受信した運転状況情報に含まれる音声に基づき、車両Ｖｅの搭乗者による発話内容を認識するための音声認識エンジン２１４ａを有している。また、制御部２１４は、後述の状況において音声認識エンジン２１４ａを起動することにより、車両Ｖｅの搭乗者の発話に含まれる所定の文言を認識するための音声認識処理を行う。また、制御部２１４は、所定の文言を認識した回数に応じたスコアを取得する。

　［プッシュ型のコンテンツ提供］
　次に、プッシュ型のコンテンツ提供について説明する。プッシュ型のコンテンツ提供とは、車両Ｖｅが所定の運転状況になった場合に、音声出力装置１００がユーザに対してその運転状況に関連するコンテンツを音声出力することをいう。具体的に、音声出力装置１００は、前述のようにセンサ群１１５の出力に基づいて車両Ｖｅの運転状況を示す運転状況情報を取得し、サーバ装置２００へ送信する。サーバ装置２００は、プッシュ型のコンテンツ提供を行うためのテーブルデータを記憶部２１２に記憶している。サーバ装置２００は、テーブルデータを参照し、車両Ｖｅに搭載された音声出力装置１００から受信した運転状況情報が、テーブルデータに規定されているトリガ条件と一致した場合、そのトリガ条件に対応するスクリプトを用いて出力用コンテンツを生成し、音声出力装置１００へ送信する。音声出力装置１００は、サーバ装置２００から受信した出力用コンテンツを音声出力する。こうして、車両Ｖｅの運転状況に対応するコンテンツがユーザに対して音声出力される。

　運転状況情報には、例えば、車両Ｖｅの位置、当該車両の方位、当該車両Ｖｅの位置の周辺の交通情報（速度規制及び渋滞情報等を含む）、現在時刻、目的地等のような、音声出力装置１００の各部の機能に基づいて取得可能な少なくとも１つの情報が含まれていればよい。また、運転状況情報には、マイク１１７により得られた音声、車外カメラ１１９により撮影された画像、及び、車内カメラ１２０により撮影された画像のうちのいずれかが含まれていてもよい。また、運転状況情報には、通信部１１１を通じてサーバ装置２００から受信した情報が含まれていてもよい。

　［プッシュ型のコンテンツの評価に係る処理］
　続いて、プッシュ型のコンテンツの評価に係る処理について説明する。

　（具体例）
　サーバ装置２００は、音声出力装置１００から受信した車両Ｖｅの運転状況情報に基づき、当該車両Ｖｅの搭乗者に対して出力するための音声コンテンツＶＣを取得し、当該取得した音声コンテンツＶＣを音声出力装置１００へ出力（送信）する。

　音声コンテンツＶＣには、トリガーコンテンツＶＣＴと、動的コンテンツＶＣＤと、静的コンテンツＶＣＳと、が含まれている。

　トリガーコンテンツＶＣＴは、車両Ｖｅの現在位置等のトリガ条件に紐付けられたコンテンツとして構成されている。具体的には、トリガーコンテンツＶＣＴは、例えば、「川越市から比企郡川島町に入りました。」というスクリプトＳＣＴとして構成されている。

　動的コンテンツＶＣＤは、車両Ｖｅの運転状況に応じて変化する変数部を含むコンテンツとして構成されている。具体的には、動的コンテンツＶＣＤは、例えば、「川越市を走行した時間はＸ分でした。」というスクリプトＳＣＤとして構成されている。スクリプトＳＣＤに含まれる「Ｘ分」は、車両Ｖｅの走行時間に応じて変化する変数部に相当する。

　静的コンテンツＶＣＳは、トリガーコンテンツＶＣＴに紐付けられた少なくとも１つのキーワードを含むコンテンツとして構成されている。具体的には、静的コンテンツＶＣＳは、例えば、「比企郡川島町は、イチゴが特産品です。」というスクリプトＳＣＳとして構成されている。スクリプトＳＣＳに含まれる「イチゴ」は、スクリプトＳＣＴに含まれる「比企郡川島町」に紐付けられたキーワードに相当する。なお、本実施例においては、例えば、１つのトリガーコンテンツＶＣＴに対して複数のキーワードが紐付けられている場合に、当該複数のキーワードの中から、静的コンテンツＶＣＳに組み込む少なくとも１つのキーワードが選択されるようにすればよい。また、本実施例においては、例えば、スクリプトＳＣＳにおける「イチゴ」以外の部分を定型文として設定し、当該定型文に対して「イチゴ」とは異なるキーワードを組み込むことにより、当該スクリプトＳＣＳとは異なるスクリプトを生成することができる。

　ここで、以降においては、スクリプトＳＣＴ、ＳＣＤ及びＳＣＳを含む音声コンテンツＶＣが車両Ｖｅの搭乗者に対して出力された場合を例に挙げて説明する。

　サーバ装置２００は、音声コンテンツＶＣを音声出力装置１００へ出力（送信）した直後から所定時間ＴＰが経過するまでの間において、音声認識エンジン２１４ａを起動することにより、当該音声コンテンツＶＣを出力した後における当該車両Ｖｅの搭乗者の発話に含まれる所定の文言を認識するための音声認識処理を行う。具体的には、サーバ装置２００は、音声認識エンジン２１４ａを用い、音声コンテンツＶＣに対する感嘆を示す文言、及び、当該音声コンテンツＶＣにおけるキーワードのうちの少なくともいずれか一方を所定の文言として認識するための音声認識処理を行う。なお、本実施例においては、車両Ｖｅの運転状況情報に含まれる音声に基づき、当該車両Ｖｅの搭乗者の発話内容を特定するようにすればよい。また、本実施例においては、所定時間ＴＰが、例えば、３０秒間として設定されていればよい。また、所定の文言は、音声コンテンツＶＣに対する車両Ｖｅの搭乗者の反応を示す文言であればよい。また、以降においては、特に言及のない限り、音声コンテンツＶＣに対する感嘆を示す文言、及び、当該音声コンテンツＶＣにおけるキーワードの両方が所定の文言として認識されるものとして説明を行う。

　前述の音声認識処理によれば、音声コンテンツＶＣに対する感嘆を示す文言として、「へぇ～」及び「ふ～ん」等のような感嘆詞を認識することができる。また、前述の音声認識処理によれば、音声コンテンツＶＣにおけるキーワードとして、「イチゴ」を認識することができる。

　サーバ装置２００は、音声認識エンジン２１４ａを用いた音声認識処理により所定の文言を認識した回数に応じたスコアＳＲを取得する。具体的には、サーバ装置２００は、例えば、車両Ｖｅに搭乗している２人の搭乗者により、「へぇ～。この辺ってイチゴがよく取れるんだ。」、「ふ～ん。じゃあイチゴのお土産買っていく？」、及び、「そうだね。じゃあイチゴの直売所があったら寄っていこう！」という会話が行われた場合には、所定の文言を認識した回数（５回）に応じたスコアＳＲとして５点を取得する。また、サーバ装置２００は、例えば、車両Ｖｅに搭乗している２人の搭乗者により、「この辺ってイチゴがよく取れるんだ。」、及び、「そうらしいね。」という会話が行われた場合には、所定の文言を認識した回数（１回）に応じたスコアＳＲとして１点を取得する。

　なお、本実施例によれば、サーバ装置２００は、車両Ｖｅにおける搭乗者の人数に応じてスコアＳＲを変化させるようにしてもよい。具体的には、サーバ装置２００は、例えば、所定の文言を認識した回数がＹ回である場合のスコアＳＲとして、車両Ｖｅの搭乗者が２人以上であればＹ点を取得する一方で、当該車両Ｖｅの搭乗者が１人であればＹ点よりも多いＺ点を取得するようにしてもよい。

　サーバ装置２００は、音声コンテンツＶＣが出力された後におけるスコアＳＲを最後に取得したタイミングから所定時間ＴＰが経過した際に、音声認識エンジン２１４ａによる音声認識処理を停止する。換言すると、サーバ装置２００は、音声コンテンツＶＣを音声出力装置１００へ出力（送信）した直後から所定時間ＴＰが経過するまでの間にスコアＳＲを取得することができた場合には、当該スコアＳＲを最後に取得したタイミングから当該所定時間ＴＰが再度経過するまでの間において音声認識処理を継続する。なお、サーバ装置２００は、音声コンテンツＶＣを音声出力装置１００へ出力（送信）した直後から所定時間ＴＰが経過したタイミングまでの間にスコアＳＲを取得できなかった場合には、当該タイミングにおいて音声認識処理を停止する。

　サーバ装置２００は、音声認識エンジン２１４ａを用いた音声認識処理を開始してから停止するまでの間において取得したスコアＳＲに基づき、車両Ｖｅの搭乗者に対して出力された音声コンテンツＶＣの有効性を評価する。具体的には、サーバ装置２００は、例えば、スコアＳＲが相対的に低いスコアである場合には、車両Ｖｅの搭乗者に対する音声コンテンツＶＣの有効性が低いと評価する。また、サーバ装置２００は、例えば、スコアＳＲが相対的に高いスコアである場合には、車両Ｖｅの搭乗者に対する音声コンテンツＶＣの有効性が高いと評価する。

　以上に述べた処理によれば、音声認識処理により所定の文言が認識された回数と、当該音声認識処理が開始されてから停止するまでに取得されたスコアＳＲと、が対応関係を有している。また、以上に述べた処理によれば、音声認識処理により所定の文言が認識された回数を、当該音声認識処理の結果と言い換えることができる。そのため、本実施例のサーバ装置２００は、車両Ｖｅの搭乗者の発話に含まれる所定の文言を認識するための音声認識処理の結果に基づき、当該搭乗者に対して出力された音声コンテンツＶＣの有効性を評価することができる。また、以上に述べた処理によれば、サーバ装置２００は、車両Ｖｅの搭乗者に対して出力された音声コンテンツＶＣの有効性を評価するための指標として、音声認識処理により所定の文言が認識された回数に応じたスコアを取得することができる。また、以上に述べた処理によれば、例えば、音声コンテンツＶＣの出力に応じて取得されたスコアＳＲに基づき、当該音声コンテンツＶＣが車両Ｖｅの搭乗者の感情に対して影響を及ぼした度合いを定量的に推定することができる。また、以上に述べた処理によれば、車両Ｖｅの搭乗者の発話に含まれる所定の文言のみが音声認識処理により認識されるとともに、当該音声認識処理が所定時間ＴＰに応じた限られた期間内で行われるため、当該搭乗者のプライバシーを保護することができる。

　（処理フロー）
　続いて、サーバ装置２００において行われる処理について説明する。図４は、サーバ装置において行われる処理を説明するためのフローチャートである。

　まず、サーバ装置２００の制御部２１４は、音声出力装置１００から受信した車両Ｖｅの運転状況情報を取得する（ステップＳ１１）。

　次に、制御部２１４は、ステップＳ１１において取得した運転状況情報に応じた音声コンテンツＶＣを取得し、当該取得した音声コンテンツＶＣを音声出力装置１００へ出力（送信）する（ステップＳ１２）。

　制御部２１４は、ステップＳ１２の直後において、車両Ｖｅの運転状況情報に基づいて特定可能な当該車両Ｖｅの搭乗者の発話に含まれる所定の文言を認識するための音声認識処理を開始する。また、制御部２１４は、ステップＳ１２の直後からまたは後述のステップＳ１５の直後から所定時間ＴＰが経過するまでの間において、音声認識処理を実施する（ステップＳ１３）。

　制御部２１４は、ステップＳ１３の音声認識処理により、車両Ｖｅの搭乗者の発話に含まれる所定の文言を認識できたか否かを判定する（ステップＳ１４）。

　制御部２１４は、車両Ｖｅの搭乗者の発話に含まれる所定の文言を認識できた場合（ステップＳ１４：ＹＥＳ）には、スコアＳＲを取得する（ステップＳ１５）。そして、制御部２１４は、ステップＳ１３に戻り、ステップＳ１５の直後から所定時間ＴＰが経過するまでの間において、音声認識処理を実施する。

　制御部２１４は、ステップＳ１３の音声認識処理により、車両Ｖｅの搭乗者の発話に含まれる所定の文言を認識できなかった場合（ステップＳ１４：ＮＯ）には、当該音声認識処理を停止する（ステップＳ１６）。

　制御部２１４は、ステップＳ１２の直後からステップＳ１６の直前までの間において取得したスコアＳＲに基づき、車両Ｖｅの搭乗者に対して出力された音声コンテンツＶＣの有効性を評価する（ステップＳ１７）。

　本実施例によれば、制御部２１４は、コンテンツ取得部、音声認識部、及び、評価部としての機能を有する。また、本実施例によれば、通信部２１１は、出力部としての機能を有する。

　以上に述べたように、本実施例によれば、音声コンテンツＶＣが出力された後における車両Ｖｅの搭乗者の発話に含まれる所定の文言を認識した結果に基づき、当該音声コンテンツＶＣの有効性を評価することができる。すなわち、本実施例によれば、プッシュ型のコンテンツの出力において、車両の搭乗者に対して出力したコンテンツの有効性を評価することができる。

　なお、本実施例によれば、例えば、通信部１１１または制御部１１４がコンテンツ取得部としての機能を有し、制御部１１４が音声認識部及び評価部としての機能を有するとともに、スピーカ１１８が出力部としての機能を有する場合に、図４の一連の処理と略同様の処理を音声出力装置１００において行うことができる。

　上述した実施例において、プログラムは、様々なタイプの非一時的なコンピュータ可読媒体（non-transitory computer readable medium）を用いて格納され、コンピュータである制御部等に供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記憶媒体（tangible storage medium）を含む。非一時的なコンピュータ可読媒体の例は、磁気記憶媒体（例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ）、光磁気記憶媒体（例えば光磁気ディスク）、ＣＤ－ＲＯＭ（Read Only Memory）、ＣＤ－Ｒ、ＣＤ－Ｒ／Ｗ、半導体メモリ（例えば、マスクＲＯＭ、ＰＲＯＭ（Programmable ROM）、ＥＰＲＯＭ（Erasable PROM）、フラッシュＲＯＭ、ＲＡＭ（Random Access Memory））を含む。

　以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。すなわち、本願発明は、請求の範囲を含む全開示、技術的思想にしたがって当業者であればなし得るであろう各種変形、修正を含むことは勿論である。また、引用した上記の特許文献等の各開示は、本書に引用をもって繰り込むものとする。

　１００　音声出力装置
　２００　サーバ装置
　１１１、２１１　通信部
　１１２、２１２　記憶部
　１１３　入力部
　１１４、２１４　制御部
　１１５　センサ群
　１１６　表示部
　１１７　マイク
　１１８　スピーカ
　１１９　車外カメラ
　１２０　車内カメラ

Claims

　車両の搭乗者に対して出力するための音声コンテンツを取得するコンテンツ取得部と、
　前記音声コンテンツを出力する出力部と、
　前記音声コンテンツが出力された後における前記搭乗者の発話に含まれる所定の文言を認識するための音声認識処理を行う音声認識部と、
　前記音声認識処理の結果に基づき、前記搭乗者に対して出力された前記音声コンテンツの有効性を評価する評価部と、
　を有するコンテンツ評価装置。
　前記評価部は、前記音声コンテンツの有効性を評価するための指標として、前記音声認識処理により前記所定の文言が認識された回数に応じたスコアを取得する請求項１に記載のコンテンツ評価装置。
　前記音声認識部は、前記音声コンテンツが出力された直後から所定の時間が経過するまでの間において、前記音声認識処理を行う請求項１または２に記載のコンテンツ評価装置。
　前記音声認識部は、前記音声コンテンツが出力された後における前記スコアが最後に取得されたタイミングから所定の時間が経過した際に、前記音声認識処理を停止する請求項２に記載のコンテンツ評価装置。
　前記音声認識部は、前記所定の文言として、前記音声コンテンツに対する感嘆を示す文言、及び、前記音声コンテンツにおけるキーワードのうちの少なくともいずれか一方を認識する請求項１乃至４のいずれか一項に記載のコンテンツ評価装置。
　車両の搭乗者に対して出力するための音声コンテンツを取得し、
　前記音声コンテンツを出力し、
　前記音声コンテンツが出力された後における前記搭乗者の発話に含まれる所定の文言を認識するための音声認識処理を行い、
　前記音声認識処理の結果に基づき、前記搭乗者に対して出力された前記音声コンテンツの有効性を評価するコンテンツ評価方法。
　コンピュータを備えるコンテンツ評価装置により実行されるプログラムであって、
　車両の搭乗者に対して出力するための音声コンテンツを取得するコンテンツ取得部、
　前記音声コンテンツを出力する出力部、
　前記音声コンテンツが出力された後における前記搭乗者の発話に含まれる所定の文言を認識するための音声認識処理を行う音声認識部、及び、
　前記音声認識処理の結果に基づき、前記搭乗者に対して出力された前記音声コンテンツの有効性を評価する評価部として前記コンピュータを機能させるプログラム。
　請求項７に記載のプログラムを記憶した記憶媒体。