WO2023163047A1

WO2023163047A1 - 端末装置、情報提供システム、情報処理方法、プログラム及び記憶媒体

Info

Publication number: WO2023163047A1
Application number: PCT/JP2023/006490
Authority: WO
Inventors: 高志飯澤; 敬太倉持; 敬介栃原
Original assignee: パイオニア株式会社
Priority date: 2022-02-25
Filing date: 2023-02-22
Publication date: 2023-08-31

Abstract

端末装置は、地物に関するユーザの質問音声を取得し、質問音声に基づいて、地物に関する画像を取得する。そして、端末装置は、質問音声を取得した時点の移動体の位置情報と、取得された画像とを含む質問データを生成し、サーバ装置へ送信する。こうして、端末装置は、地物に関するユーザの質問をサーバ装置へ送信し、回答を求める。

Description

端末装置、情報提供システム、情報処理方法、プログラム及び記憶媒体

　本発明は、コンテンツの出力において利用可能な技術に関する。

　ユーザが所持する情報端末の現在位置を取得し、現在位置の周辺に存在する施設の情報をユーザに提供する技術が知られている（例えば、特許文献１を参照）。

特開２０１８－１８２９９号公報

　例えば、高いビル、有名な川や橋など、特徴的な地物の近くをユーザの車両が通過する場合に、その地物に関する情報を提供することがある。このような場合、特徴的な地物に関するデータは、一般的な観光名所情報などをベースとして用意されていることが多い。このため、実際にその近くを車両で通過してみなければ見ることができない建物など、車両による移動（モビリティ）ならではの特徴的な地物に関する情報を用意し、ユーザに提供することは難しい。

　本発明は、上記の課題を解決するためになされたものであり、特徴的な地物に関する情報を効率的に生成し、ユーザに提供することを主な目的とする。

　請求項に記載の発明は、端末装置であって、地物に関するユーザの質問音声を取得する質問音声取得部と、前記質問音声に基づいて、前記地物に関する画像を取得する画像取得部と、前記質問音声を取得した時点の移動体の位置情報と、取得された画像とを含む質問データを生成し、サーバ装置へ送信する質問データ生成部と、を備える。

　また、請求項に記載の発明は、情報処理方法であって、地物に関するユーザの質問音声を取得し、前記質問音声に基づいて、前記地物に関する画像を取得し、前記質問音声を取得した時点の移動体の位置情報と、取得された画像とを含む質問データを生成し、サーバ装置へ送信する。

　また、請求項に記載の発明は、プログラムであって、地物に関するユーザの質問音声を取得し、前記質問音声に基づいて、前記地物に関する画像を取得し、前記質問音声を取得した時点の移動体の位置情報と、取得された画像とを含む質問データを生成し、サーバ装置へ送信する処理をコンピュータに実行させる。

実施例に係る音声出力システムの構成例を示す図である。音声出力装置の概略構成を示すブロック図である。サーバ装置の概略構成を示すブロック図である。地物情報の例を示す。実施例による地物情報の作成例を示す。公開質問の表示例を示す。地物情報作成処理のフローチャートである。

　本発明の１つの好適な実施形態では、端末装置は、地物に関するユーザの質問音声を取得する質問音声取得部と、前記質問音声に基づいて、前記地物に関する画像を取得する画像取得部と、前記質問音声を取得した時点の移動体の位置情報と、取得された画像とを含む質問データを生成し、サーバ装置へ送信する質問データ生成部と、を備える。

　上記の端末装置は、地物に関するユーザの質問音声を取得し、質問音声に基づいて、地物に関する画像を取得する。そして、端末装置は、質問音声を取得した時点の移動体の位置情報と、取得された画像とを含む質問データを生成し、サーバ装置へ送信する。これにより、端末装置は、地物に関するユーザの質問をサーバ装置へ送信し、回答を求めることができる。

　上記の端末装置の一態様は、前記移動体に搭載され、当該移動体の外部の風景を継続的に撮影する撮影部を備え、前記画像取得部は、前記質問音声に含まれる前記地物の特徴情報に基づいて、前記撮影部が撮影した画像から前記地物を含む画像を取得する。この態様では、ユーザの質問音声に含まれる地物の特徴を含む画像を質問データに含めることができる。

　上記の端末装置の他の一態様では、前記画像取得部は、前記質問音声に含まれるタイミング情報に基づいて、前記撮影部が撮影した画像から当該タイミングに対応する画像を取得する。この態様では、ユーザが質問音声により特定したタイミングに対応する画像を質問データに含めることができる。

　上記の端末装置の他の一態様は、上記の端末装置と、サーバ装置とを備える情報提供システムであって、前記サーバ装置は、前記端末装置から受信した質問データを他の端末装置に閲覧可能な状態で提供する情報提供部と、他の端末装置から前記質問データに対する回答データを受信する受信部と、受信した回答データに基づいて、前記質問データに関連する地物についての情報を生成して記憶する情報記憶部と、を備える。この態様では、サーバ装置は、端末装置から受信した質問データを他の端末装置に閲覧可能な状態で提供し、他の端末装置から質問データに対する回答データを受信し、受信した回答データに基づいて、質問データに関連する地物についての情報を生成して記憶することができる。

　本発明の他の好適な実施形態では、情報処理方法は、地物に関するユーザの質問音声を取得し、前記質問音声に基づいて、前記地物に関する画像を取得し、前記質問音声を取得した時点の移動体の位置情報と、取得された画像とを含む質問データを生成し、サーバ装置へ送信する。これにより、地物に関するユーザの質問をサーバ装置へ送信し、回答を求めることができる。

　本発明の他の好適な実施形態では、プログラムは、地物に関するユーザの質問音声を取得し、前記質問音声に基づいて、前記地物に関する画像を取得し、前記質問音声を取得した時点の移動体の位置情報と、取得された画像とを含む質問データを生成し、サーバ装置へ送信する処理をコンピュータに実行させる。このプログラムをコンピュータで実行することにより、上記のコンテンツ出力装置を実現することができる。このプログラムは記憶媒体に記憶して使用することができる。

　以下、図面を参照して本発明の好適な実施例について説明する。
　＜システム構成＞
　［全体構成］
　図１は、実施例に係る音声出力システムの構成例を示す図である。本実施例に係る音声出力システム１は、音声出力装置１００と、サーバ装置２００とを有する。音声出力装置１００は、車両Ｖｅに搭載される。サーバ装置２００は、複数の車両Ｖｅに搭載された複数の音声出力装置１００と通信する。

　音声出力装置１００は、基本的に車両Ｖｅの搭乗者であるユーザに対して、経路案内処理や情報提供処理などを行う。例えば、音声出力装置１００は、ユーザにより目的地等が入力されると、車両Ｖｅの位置情報や指定された目的地に関する情報などを含むアップロード信号Ｓ１をサーバ装置２００に送信する。サーバ装置２００は、地図データを参照して目的地までの経路を算出し、目的地までの経路を示す制御信号Ｓ２を音声出力装置１００へ送信する。音声出力装置１００は、受信した制御信号Ｓ２に基づいて、音声出力によりユーザに対する経路案内を行う。

　また、音声出力装置１００は、ユーザとの対話により各種の情報をユーザに提供する。例えば、音声出力装置１００は、ユーザが情報要求を行うと、その情報要求の内容又は種類を示す情報、及び、車両Ｖｅの走行状態に関する情報などを含むアップロード信号Ｓ１をサーバ装置２００に供給する。サーバ装置２００は、ユーザが要求する情報を取得、生成し、制御信号Ｓ２として音声出力装置１００へ送信する。音声出力装置１００は、受信した情報を、音声出力によりユーザに提供する。

　［音声出力装置］
　音声出力装置１００は、車両Ｖｅと共に移動し、案内経路に沿って車両Ｖｅが走行するように、音声を主とした経路案内を行う。なお、「音声を主とした経路案内」は、案内経路に沿って車両Ｖｅを運転するために必要な情報をユーザが少なくとも音声のみから把握可能な経路案内を指し、音声出力装置１００が現在位置周辺の地図などを補助的に表示することを除外するものではない。本実施例では、音声出力装置１００は、少なくとも、案内が必要な経路上の地点（「案内地点」とも呼ぶ。）など、運転に係る様々な情報を音声により出力する。ここで、案内地点は、例えば車両Ｖｅの右左折を伴う交差点、その他、案内経路に沿って車両Ｖｅが走行するために重要な通過地点が該当する。音声出力装置１００は、例えば、車両Ｖｅから次の案内地点までの距離、当該案内地点での進行方向などの案内地点に関する音声案内を行う。以後では、案内経路に対する案内に関する音声を「経路音声案内」とも呼ぶ。

　音声出力装置１００は、例えば車両Ｖｅのフロントガラスの上部、又は、ダッシュボード上などに取り付けられる。なお、音声出力装置１００は、車両Ｖｅに組み込まれてもよい。

　図２は、音声出力装置１００の概略構成を示すブロック図である。音声出力装置１００は、主に、通信部１１１と、記憶部１１２と、入力部１１３と、制御部１１４と、センサ群１１５と、表示部１１６と、マイク１１７と、スピーカ１１８と、車外カメラ１１９と、車内カメラ１２０と、を有する。音声出力装置１００内の各要素は、バスライン１１０を介して相互に接続されている。

　通信部１１１は、制御部１１４の制御に基づき、サーバ装置２００とのデータ通信を行う。通信部１１１は、例えば、後述する地図データベース（以下、データベースを「ＤＢ」と記す。）４を更新するための地図データをサーバ装置２００から受信してもよい。

　記憶部１１２は、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、不揮発性メモリ（ハードディスクドライブ、フラッシュメモリなどを含む）などの各種のメモリにより構成される。記憶部１１２には、音声出力装置１００が所定の処理を実行するためのプログラムが記憶される。上述のプログラムは、経路音声案内を行うためのアプリケーションプログラム、音楽を再生するためのアプリケーションプログラム、音楽以外のコンテンツ（テレビ等）を出力するためのアプリケーションプログラムなどを含んでもよい。また、記憶部１１２は、制御部１１４の作業メモリとしても使用される。なお、音声出力装置１００が実行するプログラムは、記憶部１１２以外の記憶媒体に記憶されてもよい。

　また、記憶部１１２は、地図ＤＢ４を記憶する。地図ＤＢ４には、経路案内に必要な種々のデータが記録されている。地図ＤＢ４は、例えば、道路網をノードとリンクの組合せにより表した道路データ、及び、目的地、立寄地、又はランドマークの候補となる地物を示す地物情報などを記憶している。また、地図ＤＢ４は、有名な建物など、その付近をユーザが通過する際にユーザに提供すべき地物情報を記憶している。地図ＤＢ４は、制御部１１４の制御に基づき、通信部１１１が地図管理サーバから受信する地図情報に基づき更新されてもよい。

　入力部１１３は、ユーザが操作するためのボタン、タッチパネル、リモートコントローラ等である。表示部１１６は、制御部１１４の制御に基づき表示を行うディスプレイ等である。マイク１１７は、車両Ｖｅの車内の音声、特に運転手の発話などを集音する。スピーカ１１８は、運転手などに対して、経路案内や情報提供のための音声を出力する。

　センサ群１１５は、外界センサ１２１と、内界センサ１２２とを含む。外界センサ１２１は、例えば、ライダ、レーダ、超音波センサ、赤外線センサ、ソナーなどの車両Ｖｅの周辺環境を認識するための１又は複数のセンサである。内界センサ１２２は、車両Ｖｅの測位を行うセンサであり、例えば、ＧＮＳＳ（Ｇｌｏｂａｌ　Ｎａｖｉｇａｔｉｏｎ　Ｓａｔｅｌｌｉｔｅ　Ｓｙｓｔｅｍ）受信機、ジャイロセンサ、ＩＭＵ（Ｉｎｅｒｔｉａｌ　Ｍｅａｓｕｒｅｍｅｎｔ　Ｕｎｉｔ）、車速センサ、又はこれらの組合せである。なお、センサ群１１５は、制御部１１４がセンサ群１１５の出力から車両Ｖｅの位置を直接的に又は間接的に（即ち推定処理を行うことによって）導出可能なセンサを有していればよい。

　車外カメラ１１９は、車両Ｖｅの外部を撮影するカメラである。車外カメラ１１９は、車両の前方を撮影するフロントカメラのみでもよく、フロントカメラに加えて車両の後方を撮影するリアカメラを含んでもよく、車両Ｖｅの全周囲を撮影可能な全方位カメラであってもよい。一方、車内カメラ１２０は、車両Ｖｅの車内の様子を撮影するカメラであり、少なくとも運転席周辺を撮影可能な位置に設けられる。

　制御部１１４は、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、ＧＰＵ（Ｇｒａｐｈｉｃｓ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）などを含み、音声出力装置１００の全体を制御する。例えば、制御部１１４は、センサ群１１５の１又は複数のセンサの出力に基づき、車両Ｖｅの位置（進行方向の向きも含む）を推定する。また、制御部１１４は、入力部１１３又はマイク１１７により目的地が指定された場合に、当該目的地までの経路である案内経路を示す経路情報を生成し、当該経路情報と推定した車両Ｖｅの位置情報と地図ＤＢ４とに基づき、経路音声案内を行う。この場合、制御部１１４は、案内音声をスピーカ１１８から出力させる。また、制御部１１４は、車両Ｖｅの現在位置の周辺にある地物に関する地物情報をユーザに提供する。また、制御部１１４は、表示部１１６を制御することで、再生中の音楽の情報、映像コンテンツ、又は現在位置周辺の地図などの表示を行う。

　なお、制御部１１４が実行する処理は、プログラムによるソフトウェアで実現することに限ることなく、ハードウェア、ファームウェア、及びソフトウェアのうちのいずれかの組み合わせ等により実現してもよい。また、制御部１１４が実行する処理は、例えばＦＰＧＡ（field-programmable gate array）又はマイコン等の、ユーザがプログラミング可能な集積回路を用いて実現してもよい。この場合、この集積回路を用いて、制御部１１４が本実施例において実行するプログラムを実現してもよい。このように、制御部１１４は、プロセッサ以外のハードウェアにより実現されてもよい。

　以上の構成において、制御部１１４は、質問音声取得部、画像取得部、質問データ生成部の一例であり、車外カメラ１１９は撮影部の一例である。

　図２に示す音声出力装置１００の構成は一例であり、図２に示す構成に対して種々の変更がなされてもよい。例えば、地図ＤＢ４を記憶部１１２が記憶する代わりに、制御部１１４が通信部１１１を介して経路案内に必要な情報をサーバ装置２００から受信してもよい。他の例では、音声出力装置１００は、スピーカ１１８を備える代わりに、音声出力装置１００とは別体に構成された音声出力部と電気的に又は公知の通信手段によって接続することで、当該音声出力部から音声を出力させてもよい。この場合、音声出力部は、車両Ｖｅに備えられたスピーカであってもよい。さらに別の例では、音声出力装置１００は、表示部１１６を備えなくともよい。この場合、音声出力装置１００は、有線又は無線により、車両Ｖｅ等に備えられた表示部、又は、ユーザのスマートフォンなどと電気的に接続することで所定の表示を実行させてもよい。同様に、音声出力装置１００は、センサ群１１５を備える代わりに、車両Ｖｅに備え付けられたセンサが出力する情報を、車両ＶｅからＣＡＮ（Ｃｏｎｔｒｏｌｌｅｒ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）などの通信プロトコルに基づき取得してもよい。

　［サーバ装置］
　サーバ装置２００は、音声出力装置１００から受信する目的地等を含むアップロード信号Ｓ１に基づき、車両Ｖｅが走行すべき案内経路を示す経路情報を生成する。そして、サーバ装置２００は、その後に音声出力装置１００が送信するアップロード信号Ｓ１が示すユーザの情報要求及び車両Ｖｅの走行状態に基づき、ユーザの情報要求に対する情報出力に関する制御信号Ｓ２を生成する。そして、サーバ装置２００は、生成した制御信号Ｓ２を、音声出力装置１００に送信する。

　さらに、サーバ装置２００は、車両Ｖｅのユーザに対する情報提供やユーザとの対話を行うためのコンテンツを生成し、音声出力装置１００に送信する。ユーザに対する情報提供は、主として車両Ｖｅが所定の運転状況になったことをトリガとしてサーバ装置２００側から開始するプッシュ型の情報提供を含む。また、ユーザとの対話は、基本的にユーザからの質問や問いかけから開始するプル型の対話である。但し、ユーザとの対話は、プッシュ型の情報提供から開始する場合もある。

　図３は、サーバ装置２００の概略構成の一例を示す図である。サーバ装置２００は、主に、通信部２１１と、記憶部２１２と、制御部２１４とを有する。サーバ装置２００内の各要素は、バスライン２１０を介して相互に接続されている。

　通信部２１１は、制御部２１４の制御に基づき、音声出力装置１００などの外部装置とのデータ通信を行う。記憶部２１２は、ＲＡＭ、ＲＯＭ、不揮発性メモリ（ハードディスクドライブ、フラッシュメモリなどを含む）などの各種のメモリにより構成される。記憶部２１２は、サーバ装置２００が所定の処理を実行するためのプログラムが記憶される。また、記憶部２１２は、地図ＤＢ４を含んでいる。

　制御部２１４は、ＣＰＵ、ＧＰＵなどを含み、サーバ装置２００の全体を制御する。また、制御部２１４は、記憶部２１２に記憶されたプログラムを実行することで、音声出力装置１００とともに動作し、ユーザに対する経路案内処理や情報提供処理などを実行する。例えば、制御部２１４は、音声出力装置１００から通信部２１１を介して受信するアップロード信号Ｓ１に基づき、案内経路を示す経路情報、又は、ユーザの情報要求に対する情報出力に関する制御信号Ｓ２を生成する。そして、制御部２１４は、生成した制御信号Ｓ２を、通信部２１１により音声出力装置１００に送信する。

　以上の構成において、制御部２１４は、情報提供部及び情報記憶部の一例であり、通信部２１１は受信部の一例である。

　＜プッシュ型の情報提供＞
　次に、プッシュ型の情報提供について説明する。プッシュ型の情報提供とは、車両Ｖｅが所定の運転状況になった場合に、音声出力装置１００がユーザに対してその運転状況に関連する情報を音声出力することをいう。具体的に、音声出力装置１００は、前述のようにセンサ群１１５の出力に基づいて車両Ｖｅの運転状況を示す運転状況情報を取得し、サーバ装置２００へ送信する。サーバ装置２００は、プッシュ型の情報提供を行うためのテーブルデータを記憶部２１２に記憶している。サーバ装置２００は、テーブルデータを参照し、車両Ｖｅに搭載された音声出力装置１００から受信した運転状況情報が、テーブルデータに規定されているトリガ条件と一致した場合、そのトリガ条件に対応するテキストデータを用いて出力用情報を取得し、音声出力装置１００へ送信する。音声出力装置１００は、サーバ装置２００から受信した出力用情報を音声出力する。こうして、車両Ｖｅの運転状況に対応する情報がユーザに対して音声出力される。

　運転状況情報には、例えば、車両Ｖｅの位置、当該車両の方位、当該車両Ｖｅの位置の周辺の交通情報（速度規制及び渋滞情報等を含む）、現在時刻、目的地等のような、音声出力装置１００の各部の機能に基づいて取得可能な少なくとも１つの情報が含まれていればよい。また、運転状況情報には、マイク１１７により得られた音声（ユーザの発話を除く）、車外カメラ１１９により撮影された画像、及び、車内カメラ１２０により撮影された画像のうちのいずれが含まれていてもよい。また、運転状況情報には、通信部１１１を通じてサーバ装置２００から受信した情報が含まれていてもよい。

　＜地物情報の提供＞
　次に、上記のプッシュ型の情報提供の一例として、地物情報の提供について説明する。地物情報の提供とは、車両Ｖｅが走行している経路上又は経路の周辺に存在する地物に関する情報をユーザに提供することを言う。具体的に、本実施例では、サーバ装置２００は、車両Ｖｅの現在位置周辺にある地物に関する情報をプッシュ型の情報提供によりユーザに提供する。

　図４は、地物情報の例を示す。地物情報は、ＰＯＩ（Ｐｏｉｎｔ　Ｏｆ　Ｉｎｔｅｒｅｓｔ）データとも呼ばれる。図４の例では、地物情報は、地物毎に付与された地物ＩＤに対応付けて、位置（緯度、経度）、エリア名、名称、カテゴリー、特徴などを記憶している。

　「位置（緯度、経度）」は、地物の位置情報である。「エリア名」は、地域名など、その地物が属する地理的なエリアを示す情報である。「名称」は、その地物の名称である。「カテゴリー」は、その地物を示す大きなカテゴリー、即ち分類である。「特徴」は、その地物の特徴である。

　サーバ装置２００は、ユーザの車両Ｖｅに搭載された音声出力装置１００からのアップロード信号Ｓ１に基づいて、車両Ｖｅの現在位置を取得し、地図ＤＢ４に含まれる地物情報を参照して、ユーザの車両Ｖｅの現在位置周辺の地物を検索する。具体的に、サーバ装置２００は、地物情報から、車両Ｖｅの現在位置から所定範囲内に存在する地物を選択し、プッシュ型の情報提供により、その地物に関する情報をユーザに提供する。例えば図４の例では、ユーザの車両ＶｅがＢ駅付近にいる場合、サーバ装置２００は、地物ＩＤ「０６０」の地物について、「この近くにＸＸ市役所があります。」などの音声出力を行う。これにより、ユーザは、車両Ｖｅの走行中に、現在位置周辺の有名な地物や特徴的な地物に関する情報を受け取ることができる。

　＜地物情報の作成方法＞
　（概要）
　次に、図４に示すような地物情報の作成方法について説明する。一般的に、観光名所などにある特徴的な地物に関する地物情報は、観光情報に基づいて作成することができる。しかし、観光情報は一般的な観光名所に関する情報しか含まないため、実際に車両などにより近くを通らなければ見ることができないような地物については、地物情報を作成することができない。

　そこで、本実施例では、実際に車両による走行中にユーザが目にした地物について、ユーザがサーバ装置２００へ質問や問合せ（以下、まとめて「質問」と呼ぶ。）を行う。この質問は、その地物の詳細情報を要求する音声出力である。サーバ装置２００は、あるユーザの質問を他のユーザに提示して回答を求め、得られた回答に基づいて地物情報を作成して地図ＤＢ４に記憶する。これにより、一般的な観光情報には含まれていない情報、具体的には実際にその場所に行ってみなければ見ることができない地物などについて地物情報を作成することができる。

　（地物情報の作成例）
　図５は、本実施例による地物情報の作成例を示す。なお、以下では、地物に関する質問を行うユーザＡは音声出力装置１００ａを使用し、ユーザＡの質問に対すて回答するユーザＢは音声出力装置１００ｂを使用するものとする。図示のように、ユーザＡは、車両Ｖｅでの走行中に前方に高いビルを見つけた場合、「あの高いビルは何？」と発話する。音声出力装置１００ａは、この質問の音声を取得し、質問データＤ１を生成してサーバ装置２００へ送信する。

　詳しくは、音声出力装置１００ａは、ユーザＡの質問をマイク１１７で集音し、ユーザＡが質問したときの車両Ｖｅの位置情報を取得する。また、音声出力装置１００ａは、ユーザＡが質問したときの車両前方の撮影画像を車外カメラ１１９から取得する。そして、音声出力装置１００ａは、ユーザＡの質問の音声データと、ユーザＡが質問したときの車両Ｖｅの位置情報と、ユーザＡが質問したときの撮影画像とを含む質問データＤ１をサーバ装置２００へ送信する。

　サーバ装置２００は、音声出力装置１００ａから質問データＤ１を受信すると、質問データＤ１に基づいて公開質問データＤ２を生成し、ユーザＡ以外の複数のユーザの音声出力装置１００へ送信する。この際、サーバ装置２００は、質問データＤ１に含まれる質問の内容を公開質問データＤ２に含める。また、サーバ装置２００は、質問データＤ１に含まれる車両Ｖｅの位置情報に基づいて、質問の対象となっている地物の場所に関する情報を含める。さらに、サーバ装置２００は、質問データＤ１に含まれる撮影画像を公開質問データＤ２に含める。

　サーバ装置２００から公開質問データＤ２を受信した音声出力装置１００は、公開質問を表示部１１６に表示する。図６は、公開質問の表示例を示す。この表示例７０は、地図情報７１と、公開質問７２とを含む。図６の例では、公開質問７２は、地物の場所７２ａと、質問７２ｂと、撮影画像７２ｃとを含む。

　地物の場所７２ａは、公開質問データＤ２に含まれる地物の場所を表示したものである。この例では、サーバ装置２００は、ユーザＡの音声出力装置１００ａからの質問データＤ１に含まれる車両Ｖｅの位置情報に基づいて、質問の対象となっている地物が「Ａ駅」の近くにあると判定し、公開質問データＤ２に含まれる地物の場所を「Ａ駅付近」と設定している。

　質問７２ｂは、公開質問データＤ２に含まれるユーザＡの質問の内容を文字で示したものである。なお、サーバ装置２００は、質問７２ｂを文字で表示することに加えて、ユーザＡの質問の音声データを公開質問データＤ２に含めて音声出力装置１００へ送信してもよい。この場合、音声出力装置１００は、公開質問データＤ２に含まれる音声データを音声出力することができる。撮影画像７２ｃは、公開質問データＤ２に含まれる撮影画像であり、具体的には、ユーザＡが質問を発話したときに音声出力装置１００の車外カメラ１１９が撮影した画像である。

　公開質問を受け取ったユーザＢが質問に対する回答を発話すると、ユーザＢの音声出力装置１００ｂは、回答の音声を取得し、回答データＤ３としてサーバ装置２００へ送信する。図５の例では、ユーザＢは、公開質問の対象となる地物について「Ａシティビルです。」と回答したため、この音声データが回答データＤ３としてサーバ装置２００へ送信される。

　サーバ装置２００は、ユーザＢから回答データＤ３を受信すると、その内容を地物情報として地図ＤＢ４に記憶する。これにより、例えば図４の地物ＩＤ「０９０」のような地物情報が作成され、地図ＤＢ４に記憶される。その後は、サーバ装置２００は、記憶された地物情報を、その地物の近くを通る他のユーザに対して提供することが可能となる。なお、サーバ装置２００は、公開質問に対して回答を提供したユーザに対して何らかのインセンティブを与えることにより、公開質問に対するユーザの回答を促進してもよい。

　また、サーバ装置２００は、ユーザＢからの回答データＤ３を、サーバ装置２００からの回答データＤ４としてユーザＡの音声出力装置１００ａへ送信する。音声出力装置１００ａは、受信した回答データＤ４を再生することにより、ユーザＡに回答を提供することができる。

　このように、あるユーザの質問と、それに対する別のユーザの回答に基づいて地物情報を作成することにより、地物情報を効率的に作成し、サーバ装置２００に記憶されている地物情報を充実させることができる。また、この方法によれば、車両Ｖｅで移動しているユーザからの質問に基づいて地物情報が作成されていくので、実際にその場所に行かなければ目にすることができない地物など、通常の観光情報などからは得られない地物情報を作成することが可能となる。

　（地物情報作成処理）
　図７は、地物情報作成処理のフローチャートである。この処理は、音声出力装置１００の制御部１１４及びサーバ装置２００の制御部２１４が、それぞれ予め用意されたプログラムを実行することにより実現される。なお、以下の説明においても、ユーザＡが音声出力装置１００ａを用いて地物に関して質問し、ユーザＢが音声出力装置１００ｂを用いて質問に対して回答するものとする。

　まず、ユーザＡが地物に関する質問を発話すると、音声出力装置１００ａはその質問を取得する（ステップＳ１１）。具体的には、音声出力装置１００ａは、マイク１１７によりユーザの音声を取得し、その音声が地物に関する質問であることを認識する。例えば、音声出力装置１００ａは、ユーザの音声に含まれる「〇〇は何？」などの語に基づいて、その音声が質問であると認識することができる。そして、音声出力装置１００ａは、ユーザＡが発した質問の音声データと、ユーザＡが質問したときの車両Ｖｅの位置情報と、ユーザＡが質問したときに車外カメラ１１９が撮影していた撮影画像とを含む質問データＤ１を生成し、サーバ装置２００へ送信する（ステップＳ１２）。

　サーバ装置２００は、音声出力装置１００ａから質問データＤ１を取得すると（ステップＳ１３）、質問データＤ１に基づいて公開質問データＤ２を生成し、複数のユーザの音声出力装置１００へ送信する（ステップＳ１４）。前述のように、公開質問データＤ２は、質問の内容と、質問の対象となっている地物の場所と、その地物の撮影画像とを含む。

　サーバ装置２００から送信された公開質問データＤ２は、ユーザＢの音声出力装置１００ｂを含む複数の音声出力装置１００により受信される。ユーザＢの音声出力装置１００ｂは、公開質問データＤ２を受信し、表示部１１６に公開質問を表示する（ステップＳ１５）。これにより、図６に例示するように公開質問が表示される。ユーザＢが、質問の対象となる地物について回答を発話すると、音声出力装置１００ｂはユーザＢによる回答を取得し、回答データＤ３をサーバ装置２００へ送信する（ステップＳ１６）。

　サーバ装置２００は、回答データＤ３を受信し、記憶部２１２の地図ＤＢ４内に地物情報として記憶する（ステップＳ１７）。これにより、ユーザＡが質問した地物に関する地物情報が地図ＤＢ４に追加される。次に、サーバ装置２００は、音声出力装置１００ｂから受信した回答データＤ３を、回答データＤ４として質問者であるユーザＡの音声出力装置１００ａへ送信する（ステップＳ１８）。

　ユーザＡの音声出力装置１００ａは、サーバ装置２００から回答データＤ４を受信し、出力する（ステップＳ１９）。なお、音声出力装置１００ａは、基本的に回答データＤ４を音声出力するが、音声出力に加えて、回答を示す文字や文章などを表示部１１６に表示してもよい。こうして、地物情報作成処理は終了する。

　［変形例］
　以下、上記の実施例の変形例について説明する。以下の変形例は、適宜組み合わせて実施例に適用することができる。
　（変形例１）
　質問者の音声出力装置１００は、ユーザの質問に基づいて質問データＤ１を生成する際、ユーザの質問に含まれる特徴的な語と、撮影画像に含まれる特徴的な物体とをマッチングすることにより、質問の対象となっている地物を特定してもよい。例えば、ユーザの質問が「あの黄色い物体は何？」であった場合、音声出力装置１００は、ユーザの質問中の「黄色い物体」を特徴的な語として抽出し、ユーザが質問したタイミングで撮影された一連の画像から、黄色い物体を含む撮影画像を検出する。そして、音声出力装置１００は、黄色い物体が中央に来るように撮影画像を拡大したり、トリミングしたりして、質問の対象となっている地物にフォーカスした撮影画像を作成して質問データＤ１に含めてもよい。これにより、公開質問に対して回答するユーザは、公開質問に含まれる画像に基づいて、質問の対象となっている地物を容易かつ明確に認識することができる。

　（変形例２）
　上記の実施例では、質問者であるユーザは、その時に見えている地物についてリアルタイムで質問しているが、その代わりに、ユーザが過去に見た地物について質問できるようにしてもよい。この場合、音声出力装置１００は、車外カメラ１１９による撮影画像を所定時間分記憶部１１２に記憶しておく。例えば、車両Ｖｅがあるビルの付近を通過した後で、ユーザが「さっきの高いビルは何？」と質問した場合、音声出力装置１００は、記憶部１１２に記憶されている撮影画像を、ユーザが質問した時刻から遡って検索し、質問の内容と合致する撮影画像、即ち、高いビルが映っている撮影画像を取得して質問データＤ１に含めればよい。これにより、ユーザは運転中にリアルタイムで質問しなくてもよく、例えば、信号待ちで停車している間など、運転に余裕があるときに質問することが可能となる。

　このように過去に見た地物に関して質問を行う場合、ユーザはその地物を見た時間を特定する情報を質問音声に含めることができる。これにより、ユーザがある程度幅を持った時間帯や特定の時間帯に見た地物に関する質問をしても、音声出力装置１００は、過去の撮影画像を参照し、ユーザが特定した時間帯の撮影画像に含まれる地物の画像を用いて質問データＤ１を生成することができる。一例として、ユーザが「５分ぐらい前に見た高いビルは何？」とか、「お昼頃に渡った川は何？」と質問した場合、音声出力装置１００は、「５分ぐらい前」又は「お昼頃」の撮影画像から高いビルを含む撮影画像を検出して質問データＤ１に使用すればよい。他の例として、ユーザが「今日走った長いトンネルは何？」と質問した場合、音声出力装置１００は、その日の車両Ｖｅの走行履歴に基づいて長いトンネルを走った時間帯を特定し、その時間帯の撮影画像を質問データＤ１に使用すればよい。

　（変形例３）
　上述した実施例において、プログラムは、様々なタイプの非一時的なコンピュータ可読媒体（non-transitory computer readable medium）を用いて格納され、コンピュータである制御部等に供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記憶媒体（tangible storage medium）を含む。非一時的なコンピュータ可読媒体の例は、磁気記憶媒体（例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ）、光磁気記憶媒体（例えば光磁気ディスク）、ＣＤ－ＲＯＭ（Read Only Memory）、ＣＤ－Ｒ、ＣＤ－Ｒ／Ｗ、半導体メモリ（例えば、マスクＲＯＭ、ＰＲＯＭ（Programmable ROM）、ＥＰＲＯＭ（Erasable PROM）、フラッシュＲＯＭ、ＲＡＭ（Random Access Memory））を含む。

　以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。すなわち、本願発明は、請求の範囲を含む全開示、技術的思想にしたがって当業者であればなし得るであろう各種変形、修正を含むことは勿論である。また、引用した上記の特許文献等の各開示は、本書に引用をもって繰り込むものとする。

　１００　音声出力装置
　２００　サーバ装置
　１１１、２１１　通信部
　１１２、２１２　記憶部
　１１３　入力部
　１１４、２１４　制御部
　１１５　センサ群
　１１６　表示部
　１１７　マイク
　１１８　スピーカ
　１１９　車外カメラ
　１２０　車内カメラ

Claims

　地物に関するユーザの質問音声を取得する質問音声取得部と、
　前記質問音声に基づいて、前記地物に関する画像を取得する画像取得部と、
　前記質問音声を取得した時点の移動体の位置情報と、取得された画像とを含む質問データを生成し、サーバ装置へ送信する質問データ生成部と、
　を備える端末装置。
　前記移動体に搭載され、当該移動体の外部の風景を継続的に撮影する撮影部を備え、
　前記画像取得部は、前記質問音声に含まれる前記地物の特徴情報に基づいて、前記撮影部が撮影した画像から前記地物を含む画像を取得する請求項１に記載の端末装置。
　前記画像取得部は、前記質問音声に含まれるタイミング情報に基づいて、前記撮影部が撮影した画像から当該タイミングに対応する画像を取得する請求項２に記載の端末装置。
　請求項１乃至３のいずれか一項に記載の端末装置と、前記サーバ装置とを備える情報提供システムであって、
　前記サーバ装置は、
　前記端末装置から受信した質問データを他の端末装置に閲覧可能な状態で提供する情報提供部と、
　他の端末装置から前記質問データに対する回答データを受信する受信部と、
　受信した回答データに基づいて、前記質問データに関連する地物についての情報を生成して記憶する情報記憶部と、を備える情報提供システム。
　地物に関するユーザの質問音声を取得し、
　前記質問音声に基づいて、前記地物に関する画像を取得し、
　前記質問音声を取得した時点の移動体の位置情報と、取得された画像とを含む質問データを生成し、サーバ装置へ送信する情報処理方法。
　地物に関するユーザの質問音声を取得し、
　前記質問音声に基づいて、前記地物に関する画像を取得し、
　前記質問音声を取得した時点の移動体の位置情報と、取得された画像とを含む質問データを生成し、サーバ装置へ送信する処理をコンピュータに実行させるプログラム。
　請求項６に記載のプログラムを記憶した記憶媒体。