この発明は、カメラの撮影方向を制御するカメラ制御装置、カメラ制御方法、カメラ制御プログラムおよび記録媒体に関する。ただし、この発明の利用は、上述したカメラ制御装置、カメラ制御方法、カメラ制御プログラムおよび記録媒体に限られない。
従来、インターネットや電話回線を用いたテレビ会議システムなどでは、音声が発せられた方向にカメラを向けて発言者を撮影し、違和感なく会議を進行できるようにしたものがある。このようなテレビ会議システムでは、たとえば、音声発生方向がカメラの現在の画角内にない場合は、雲台による方向変更により画角内に入るか否か判定し、入ると判定したときは、画角内に入るように雲台を駆動し、画像を表示し、入らないと判定したときは、画角内に入るように、画角を広げ、かつ雲台を駆動し、画像を表示する(たとえば、下記特許文献1参照。)。
しかしながら、上述した従来技術によれば、発言者による発言の内容を考慮した撮影をおこなうことができないという問題点が一例として挙げられる。従来技術において、カメラによって撮影されるのは音声を発している発言者であるが、発話の内容によっては、発言者を撮影対象とするのが必ずしも適切ではない場合がある。たとえば、カメラの撮影可能範囲内に、発言内容に関連する人物がいる場合には、その人物を撮影する方が好ましい場合がある。
また、上述した従来技術によれば、発言者以外を撮影対象としたい場合は、操作者によるマニュアル操作によってカメラの撮影方向を変更する必要があるという問題点が一例として挙げられる。この場合、カメラを操作する操作者が必要となり、撮影が煩雑になってしまうという問題点が一例として挙げられる。
上述した課題を解決し、目的を達成するため、請求項1の発明にかかるカメラ制御装置は、カメラ周辺の音声を取得する取得手段と、前記取得手段によって取得された音声から、前記カメラによる撮影対象を特定する語句(以下、特定語句という)を判別する判別手段と、前記判別手段によって判別された特定語句に基づいて、前記カメラの撮影方向を制御する制御手段と、を備えることを特徴とする。
また、請求項7の発明にかかるカメラ制御方法は、カメラ周辺の音声を取得する取得工程と、前記取得工程によって取得された音声から、前記カメラによる撮影対象を特定する語句(以下、特定語句という)を判別する判別工程と、前記判別工程によって判別された特定語句に基づいて、前記カメラの撮影方向を制御する制御工程と、を含んだことを特徴とする。
また、請求項8の発明にかかるカメラ制御プログラムは、請求項7に記載のカメラ制御方法をコンピュータに実行させることを特徴とする。
また、請求項9の発明にかかる記録媒体は、請求項8に記載のカメラ制御プログラムを記録したコンピュータに読み取り可能なことを特徴とする。
図1は、カメラ制御装置の機能的構成を示すブロック図である。
図2は、カメラ制御装置によるカメラ制御処理の手順を示すフローチャートである。
図3は、ナビゲーション装置が設置された車両のダッシュボード付近を示す説明図である。
図4は、ナビゲーション装置のハードウェア構成を示すブロック図である。
図5は、ナビゲーション装置が作成するデータベースの内容を模式的に示す説明図である。
図6は、ナビゲーション装置の車内撮影処理の手順を示すフローチャートである。
図7は、ナビゲーション装置の車内撮影処理の手順を示すフローチャートである。
図8は、搭乗者予定者情報の入力画面の一例を示す説明図である。
符号の説明
100 カメラ制御装置
101 取得部
102 判別部
103 制御部
104 入力部
105 検出部
110 カメラ
以下に添付図面を参照して、この発明にかかるカメラ制御装置、カメラ制御方法、カメラ制御プログラムおよび記録媒体の好適な実施の形態を詳細に説明する。
(実施の形態)
はじめに、実施の形態にかかるカメラ制御装置100の機能的構成について説明する。図1は、カメラ制御装置の機能的構成を示すブロック図である。カメラ制御装置100は、取得部101、判別部102、制御部103、入力部104、検出部105によって構成される。
取得部101は、カメラ110周辺の音声を取得する。カメラ110周辺の音声とは、たとえば、カメラ110周辺に位置する人物による発話である。取得部101は、たとえば、マイクなどによってカメラ110周辺の音声を取得する。
判別部102は、取得部101によって取得された音声から、カメラ110による撮影対象を特定する語句(以下、特定語句という)を判別する。判別部102は、たとえば、後述する入力部104に入力される撮影対象の候補に関する情報を、特定語句として判別する。
制御部103は、判別部102によって判別された特定語句に基づいて、カメラ110の撮影方向を制御する。制御部103は、たとえば、判別部102によって撮影対象の候補に関する情報と略一致する語句が判別された場合、後述する検出部105によって検出された撮影対象の候補の位置にカメラ110の撮影方向を向ける。略一致する語句とは、撮影対象の候補に関する情報として入力された語句と同一または類似する語句である。
入力部104は、撮影対象の候補に関する情報の入力を受け付ける。撮影対象の候補に関する情報とは、たとえば、撮影対象の候補の名称情報(氏名や愛称など)や属性情報などである。また、入力部104には、撮影対象の候補の画像や音声が入力されてもよい。
検出部105は、撮影対象の候補の位置を検出する。検出部105は、たとえば、入力部104に入力された撮影対象の候補の画像と、カメラ110によって撮影された映像とを照合して、撮影対象の候補の位置を検出する。ここで、撮影対象の位置とは、たとえば、カメラ110が車両に設置されている場合には、撮影対象の着席した座席の位置であり、検出部105は、搭乗者がどの座席に着席したかを検出する。また、撮影対象の位置とは、カメラ110からの相対方向、相対方位などであってもよい。検出部105は、具体的には、たとえば、カメラ110によって撮影された映像中に、撮影対象の候補の画像との類似度が所定値以上の物体が映っていた場合、その物体の位置を撮影対象の候補の位置とする。
また、検出部105は、たとえば、入力部104に入力された撮影対象の候補の音声と、取得部101によって取得された音声とを照合して撮影対象の候補の位置を検出する。具体的には、たとえば、取得部101によって取得された音声中に、撮影対象の候補の音声との類似度が所定値以上の音声が含まれていた場合、その音声が発音されている位置を撮影対象の候補の位置とする。
また、カメラ110は、車両内部に設置されていてもよい。この場合、たとえば、取得部101は、車両の搭乗者の発話を取得し、判別部102は、撮影対象となる搭乗者に関する情報を特定語句として判別し、制御部103は、特定語句によって特定される搭乗者の乗車位置にカメラ110の撮影方向を向ける。また、入力部104には、たとえば、搭乗者に関する情報が入力され、検出部105は、各搭乗者がどの座席に着席したかを検出する。
つぎに、カメラ制御装置100によるカメラ110の制御処理について説明する。図2は、カメラ制御装置によるカメラ制御処理の手順を示すフローチャートである。図2のフローチャートにおいて、まず、入力部104に対して、撮影対象の候補に関する情報の入力がおこなわれる(ステップS201)。また、検出部105によって、撮影対象の候補の位置を検出する(ステップS202)。
つぎに、取得部101によって、カメラ110周辺の音声を取得する(ステップS203)。つづいて、判別部102によって、ステップS203で取得された音声から、特定語句を判別する(ステップS204)。このときの特定語句とは、撮影対象の候補に関する情報である。これにより、撮影対象の候補の中から撮影すべき撮影対象が特定される。そして、制御部103によって、ステップS202で検出した撮影対象の位置にカメラ110の撮影方向を制御して(ステップS205)、本フローチャートによる処理を終了する。
以上説明したように、カメラ制御装置100によれば、カメラ周辺の音声から撮影対象を特定し、撮影対象に向けてカメラの撮影方向を制御する。これにより、カメラ周辺の音声の内容を考慮して、カメラ110の撮影方向を変更することができる。
また、カメラ制御装置100は、あらかじめ入力された撮影対象の候補に関する情報を特定語句として撮影対象を特定するので、より精度良く撮影対象を特定することができる。さらに、撮影対象の候補の画像や音声から撮影対象の位置を検出するので、より精度良くカメラ110の撮影方向を制御することができる。
つぎに、上述した実施の形態にかかるカメラ制御装置100の実施例について説明する。以下の実施例においては、カメラ制御装置100を、車両に搭載されたナビゲーション装置300に適用した場合について説明する。
(ナビゲーション装置300の周辺機器構成)
はじめに、ナビゲーション装置300の周辺機器構成について説明する。図3は、ナビゲーション装置が設置された車両のダッシュボード付近を示す説明図である。ナビゲーション装置300は、車両のダッシュボードに設置されている。ナビゲーション装置300は、本体部Mおよび表示部(ディスプレイ)Dによって構成され、表示部Dには車両の現在地点や地図情報、現在時刻などが表示される。
また、ナビゲーション装置300には、バックミラー周辺に設置された車載用カメラ311、サンバイザーに設置された車載用マイク312が接続されている。車載用カメラ311は、撮影方向を変更可能であり、車外前方および車両内の各部(搭乗者など)を撮影する。以下、車載用カメラ311は、動画および静止画を撮影可能なカメラであるものとするが、静止画のみを撮影可能なカメラであってもよい。
車載用マイク312は、車両内の音声が入力され、ナビゲーション装置300の音声入力による操作や車両内の様子を記録する際などに用いられる。なお、車載用マイク312の位置は、サンバイザーに限ることなく、車両内の音声を効率的に入力できる位置にあればよい。また、車載用カメラ311および車載用マイク312は、車両に複数設置されていてもよいし、さらに、固定式ではなく可動式であってもよい。本実施例では、車載用マイク312は、各搭乗者の座席ごとに設けられているものとする。
ナビゲーション装置300は、目的地点までの経路探索および情報記録をおこなう他、ドライブ中の車両内の様子を記録する車内撮影機能を有している。車内撮影機能は、車載用カメラ311や車載用マイク312で車両内の映像および音声を記録する。車内撮影機能によって記録された映像および音声はナビゲーション装置300の記録媒体(後述する磁気ディスク405、光ディスク407)に記録される。また、記録された映像および音声を外部記録媒体に記録して、自宅のテレビなどで楽しめるようにしてもよい。
(ナビゲーション装置300のハードウェア構成)
つぎに、ナビゲーション装置300のハードウェア構成について説明する。図4は、ナビゲーション装置のハードウェア構成を示すブロック図である。図4において、ナビゲーション装置300は、CPU401と、ROM402と、RAM(メモリ)403と、磁気ディスクドライブ404と、磁気ディスク405と、光ディスクドライブ406と、光ディスク407と、音声I/F(インターフェース)408と、マイク409と、スピーカ410と、入力デバイス411と、映像I/F412と、カメラ413と、ディスプレイ414と、通信I/F415と、GPSユニット416と、各種センサ417と、外部接続用I/F418とを備えている。また、各構成部401〜418はバス420によってそれぞれ接続されている。
まず、CPU401は、ナビゲーション装置300の全体の制御を司る。ROM402は、ブートプログラム、通信プログラム、データベース作成プログラム、データ解析プログラムなどのプログラムを記録している。RAM403は、CPU401のワークエリアとして使用される。
磁気ディスクドライブ404は、CPU401の制御に従って磁気ディスク405に対するデータの読み取り/書き込みを制御する。磁気ディスク405は、磁気ディスクドライブ404の制御で書き込まれたデータを記録する。磁気ディスク405としては、たとえば、HD(ハードディスク)やFD(フレキシブルディスク)を用いることができる。
光ディスクドライブ406は、CPU401の制御に従って光ディスク407に対するデータの読み取り/書き込みを制御する。光ディスク407は、光ディスクドライブ406の制御に従ってデータが読み出される着脱自在な記録媒体である。光ディスク407は、書き込み可能な記録媒体を利用することもできる。また、この着脱可能な記録媒体として、光ディスク407のほか、MO、メモリカードなどであってもよい。
磁気ディスク405または光ディスク407に記録される情報の一例として、経路探索・経路誘導などに用いる地図データが挙げられる。地図データは、建物、河川、地表面などの地物(フィーチャ)を表す背景データと、道路の形状を表す道路形状データとを有しており、ディスプレイ414の表示画面において2次元または3次元に描画される。ナビゲーション装置300が経路誘導中の場合は、地図データと後述するGPSユニット416によって取得された自車の現在地点とが重ねて表示されることとなる。
音声I/F408は、音声入力用のマイク409(たとえば、図3の車載用マイク312)および音声出力用のスピーカ410に接続される。マイク409に受音された音声は、音声I/F408内でA/D変換される。また、スピーカ410からは音声が出力される。なお、マイク409から入力された音声は、音声データとして磁気ディスク405あるいは光ディスク407に記録可能である。
入力デバイス411は、文字、数値、各種指示などの入力のための複数のキーを備えたリモコン、キーボード、マウス、タッチパネルなどが挙げられる。さらに、入力デバイス411は、デジタルカメラや携帯電話端末などの他の情報処理端末を接続し、データの入出力をおこなうことができる。
映像I/F412は、映像入力用のカメラ413(たとえば、図3の車載用カメラ311)および映像出力用のディスプレイ414と接続される。映像I/F412は、具体的には、たとえば、ディスプレイ414全体の制御をおこなうグラフィックコントローラと、即時表示可能な画像情報を一時的に記録するVRAM(Video RAM)などのバッファメモリと、グラフィックコントローラから出力される画像データに基づいて、ディスプレイ414を表示制御する制御ICなどによって構成される。
カメラ413は、車両内外の画像(動画を含む)を撮影し、画像データとして出力する。カメラ413で撮影された画像は、画像データとして磁気ディスク405あるいは光ディスク407に記録することができる。この画像データは、ディスプレイ414で出力する他、記録媒体に記録したり、ネットワークを介して送信するなどして、他の情報処理端末で利用することができる。
ディスプレイ414には、アイコン、カーソル、メニュー、ウインドウ、あるいは文字や画像などの各種データが表示される。このディスプレイ414は、たとえば、CRT、TFT液晶ディスプレイ、プラズマディスプレイなどを採用することができる。
通信I/F415は、無線を介してインターネットなどの通信網に接続され、この通信網とCPU401とのインターフェースとして機能する。通信網には、LAN、WAN、公衆回線網や携帯電話網などがある。
GPSユニット416は、GPS衛星からの電波を受信し、車両の現在地点(ナビゲーション装置300の現在地点)を示す情報を出力する。GPSユニット416の出力情報は、後述する各種センサ417の出力値とともに、CPU401による車両の現在地点の算出に際して利用される。現在地点を示す情報は、たとえば緯度・経度、高度などの、地図データ上の1点を特定する情報である。
各種センサ417は、車速センサや加速度センサ、角速度センサなどの、車両の位置や挙動を判断することが可能な情報を出力する。各種センサ417の出力値は、CPU401による現在地点の算出や、速度や方位の変化量の測定に用いられる。
外部接続用I/F418は、オーディオ装置や車内空調装置など、外部の機器と接続するためのインターフェース類である。外部接続用I/F418は、たとえば、専用の接続ケーブルのポート、赤外線通信用ポートなどによって構成される。
また、実施の形態にかかるカメラ制御装置100の構成のうち、取得部101は音声I/F408、マイク409によって、判別部102、検出部105はCPU401によって、制御部103はCPU401、映像I/F412によって、入力部104は入力デバイス411によって、それぞれの機能を実現する。
(ナビゲーション装置300による車内撮影処理)
つづいて、ナビゲーション装置300による車内撮影処理について説明する。前述のように、ナビゲーション装置300が設置された車両内には、車載用カメラ311および車載用マイク312が設けられており、ドライブ中の車両内の様子を記録することができる。ここで、車両内の様子を撮影する際に、ただ漫然と車両内を撮影するのみでは、コンテンツとしての魅力に乏しく、記録された映像を視聴する機会は低下してしまう。
このため、ナビゲーション装置300は、搭乗者による発話の内容に基づいて撮影対象を特定し、車載用カメラ311の撮影方向を変更する。具体的には、発言者の発話に特定の搭乗者に対応する言葉が含まれる場合に、その搭乗者に車載用カメラ311を向けて撮影する。これにより、話題の中心にいる搭乗者に焦点をあてて車両内の様子を撮影することができ、記録された映像のコンテンツとしての魅力を向上させることができる。
ここで、ナビゲーション装置300では、撮影対象となる搭乗者を特定するため、あらかじめ搭乗者に関する情報を登録しておき、その登録情報に基づいて車載用カメラ311を制御している。具体的には、ナビゲーション装置300は、車両に搭乗する可能性や予定がある人物(以下、「搭乗予定者」という)に関する情報が累積的に蓄積される蓄積型データベース(搭乗予定者データベース)と、車両に搭乗者が乗降するごとに更新される更新型データベース(今回搭乗者データベース)を作成する。
図5は、ナビゲーション装置が作成するデータベースの内容を模式的に示す説明図である。搭乗予定者データベース510には、車両への搭乗者予定者の氏名情報521や愛称情報522、属性情報523、その搭乗予定者に対応するキーワード524などのテキスト情報511と、その搭乗者の顔画像データ512、声紋データ513が登録される。
今回搭乗者データベース530には、今回搭乗した搭乗者に対応したテキスト情報541と、その乗車位置情報542とが登録される。後述するように、ナビゲーション装置300は、搭乗者の画像や声紋から今回搭乗した搭乗者を特定する。そして、搭乗予定者情報データベース510に格納されている、その搭乗者に対応する情報(テキスト情報541)を今回搭乗者データベース530に格納する。
テキスト情報541は、搭乗予定者データベース510と同様に、氏名情報551や愛称情報552、属性情報553、その搭乗予定者に対応するキーワード554などによって構成される。また、乗車位置情報542は、今回搭乗した搭乗者の乗車位置、たとえば、「助手席」や「右後部座席」などの情報である。
乗車位置情報542に関連して、ナビゲーション装置300のROM402には、各座席の位置に対応する車載用カメラ311の制御テーブル560が記録されている。制御テーブル500には、各座席を撮影する際に車載用カメラ311の撮影方向を変更する変更量が定義されている。具体的には、たとえば、基準となる撮影方向(0°方向)をリアウインドーに対して垂直とすると、運転席は基準となる撮影方向から左45°方向、助手席は基準となる撮影方向から右45°方向、右後部座席は基準となる撮影方向から左30°方向、左後部座席は基準となる撮影方向から右30°方向となる。
以上のようなデータベースを用いて、ナビゲーション装置300は、車載用カメラ311の撮影方向を制御する。
図6および図7は、ナビゲーション装置の車内撮影処理の手順を示すフローチャートである。図6のフローチャートにおいて、ナビゲーション装置300は、まず、自装置が搭載された車両の搭乗予定者に、搭乗予定者情報を入力させる(ステップS601)。搭乗予定者情報は、図5のテキスト情報511に対応し、搭乗者の氏名や愛称、属性、キーワードなどの情報である。搭乗者予定者情報の入力は、ナビゲーション装置300の入力デバイス411でおこなう他、各搭乗予定者の自宅のPC(パーソナルコンピュータ)や携帯電話端末などからネットワークを介しておこなうこととしてもよい。
図8は、搭乗者予定者情報の入力画面の一例を示す説明図である。図8は、ナビゲーション装置300の入力デバイス411を用いて搭乗予定者の登録をおこなう場合を例として説明する。図8において、ナビゲーション装置300のディスプレイ414には、搭乗予定者の新規登録画面800が表示されている。新規登録画面800には、搭乗予定者の氏名を入力する氏名入力部811、搭乗予定者の愛称を入力する愛称入力部812、搭乗予定者の属性を入力する属性入力部813、搭乗予定者と関連するキーワードを入力するキーワード入力部814が表示されている。
新規に登録する搭乗予定者は、これらの入力部に自己の情報を入力する。そして、撮影ボタン821を押下して、車載用カメラ311を用いて自己の顔画像を撮影する。また、収音ボタン822押下して、車載用マイク312を用いて自己の音声を収音する。なお、顔画像の撮影と音声の収音は、どちらか一方のみとしてもよい。また、搭乗予定者として登録するのは、人間には限らず、犬や猫などの動物であってもよい。この場合、搭乗予定者情報データベース510への登録は、人間が代わりにおこなう。
なお、上述したように、入力画面に新規登録画面を表示して搭乗予定者情報を文字で入力させる他、たとえば、音声対話によって、搭乗予定者情報を発話させて、音声で入力することとしてもよい。この方法によれば、音声データも同時に取得することができる。また、搭乗予定者の顔画像は、車両のドアの開閉などをトリガーとして、自動的に撮影することとしてもよい。
図6説明に戻り、ナビゲーション装置300は、ステップS601で入力された搭乗者情報を搭乗予定者データベース510に格納する(ステップS602)。具体的には、搭乗予定者の氏名や愛称、属性などのテキスト情報511と、搭乗予定者の顔画像データ512および音声から抽出した声紋データ513(どちらか一方のみでもよい)とを関連付けて、搭乗予定者データベースに格納する。
つぎに、ナビゲーション装置300は、車両に搭乗者が乗車するまで待機する(ステップS603:Noのループ)。搭乗者が乗車したか否かは、たとえば、車両のエンジンが始動したか否かや、車両のドアが開閉したか否かなどによって判断する。搭乗者が乗車すると(ステップS603:Yes)、車載用カメラ311で車両内全体の画像を撮影し、車載用マイク312で各座席に搭乗した搭乗者の音声を収音する(ステップS604)。具体的には、車載用カメラ311の撮影方向を制御して、全座席の搭乗者の顔が位置する範囲を撮影する。また、各座席に設けられている車載用マイク312に向かって発話するよう、搭乗者に指示する。なお、画像の撮影と音声の収音は、一方のみをおこなってもよい。
つぎに、ナビゲーション装置300は、ステップS604で撮影・収音した画像および音声から、今回搭乗した搭乗者の顔画像および声紋を抽出する(ステップS605)。そして、ステップS605で抽出された顔画像および声紋のうち、任意の1つを搭乗予定者データベース510と照合し(ステップS606)、その顔画像および声紋と類似する顔画像データ512および声紋データ513が蓄積されているか否かを判断する(ステップS607)。具体的には、今回搭乗した搭乗者の顔画像や声紋の特徴点と、搭乗予定者データベースに格納されている顔画像データ512や声紋データ513の特徴点とを比較して、類似度が所定値以上の顔画像データ512や声紋データ513が蓄積されているか否かを判断する。
類似した顔画像データ512や声紋データ513が蓄積されている場合は(ステップS607:Yes)、その顔画像データ512や声紋データ513に対応する搭乗予定者のテキスト情報511を、テキスト情報541として今回搭乗者データベース530に格納するとともに、その搭乗者の搭乗位置情報542を今回搭乗者データベースに格納する(ステップS608)。なお、搭乗予定者データベース510に格納されているテキスト情報511も、そのまま保持される。
一方、類似した顔画像データ512や声紋データ513が蓄積されていない場合は(ステップS607:No)、その搭乗者に対して搭乗者予定者情報を入力させる(ステップS609)。そして、入力された情報を搭乗予定者情報として搭乗予定者データベース510に格納する(ステップS610)。そして、ステップS609で入力された搭乗者情報を、テキスト情報541として今回搭乗者データベース530に格納するとともに、その搭乗者の搭乗位置情報542を今回搭乗者データベースに格納する(ステップS611)。
すべての顔画像および声紋について照合をおこなうまでは(ステップS612:No)、ステップS606に戻り、以降の処理を繰り返す。そして、すべての顔画像および声紋について照合をおこなうと(ステップS612:Yes)、図7のステップS613に移行する。ここまでの処理によって、搭乗予定者データベース510および今回搭乗者データベース530が作成される。
なお、走行中に搭乗者の配置が変更する場合もあるため、走行中の所定のタイミング、たとえば、停車後にドアの開閉があった場合など、搭乗者の乗降を検知した際に、今回搭乗者データベース530を更新してもよい。この場合、ナビゲーション装置300は、ステップS604以降の処理をおこなうことによって、今回搭乗者データベース530を更新する。
図7の説明に移り、ナビゲーション装置300は、車両内の音声を監視し(ステップS613)、搭乗者の発話に今回搭乗者データベース530に格納されたテキスト情報541に含まれる語句(特定語句)が含まれているか否かを判断する(ステップS614)。音声の監視は、一般に用いられている音声認識技術を用いておこなう。具体的には、車載用マイク312で収音された音声をテキスト変換し、テキスト情報541に含まれる語句が搭乗者の発話に含まれているか否かを判断する。
テキスト情報541に含まれる語句が発話された場合は(ステップS614:Yes)、今回搭乗者データベース530を照合し、発話された語句に対応する搭乗者の搭乗位置情報542を取得する(ステップS615)。つづいて、ナビゲーション装置300は、優先するカメラ動作があるか否かを判断する(ステップS616)。優先するカメラ動作とは、たとえば、ドライブレコーダ機能や搭乗者認識処理など、車載用カメラ311を利用する処理のうち、搭乗者撮影処理より優先しておこなうべき処理である。たとえば、車両の走行速度が所定速度以上の場合や、車両の現在位置が交差点から所定距離以内の場合は、事故が発生する可能性が通常より高いとして、ドライブレコーダ機能を優先して動作させる。優先するカメラ動作の条件設定は、あらかじめ定められていてもよいし、ユーザによって設定できることとしてもよい。また、このときまで、車載用カメラ311は、停止(電源オフ)状態であってもよい。
優先するカメラ動作がある場合は(ステップS616:Yes)、カメラ動作が終了するまで待機する。優先するカメラ動作がない場合は(ステップS616:No)、ROM402に記録されている制御テーブル560を参照して、発話された語句に対応する搭乗者の搭乗位置に車載用カメラ311の撮影方向を変更し(ステップS617)、搭乗者を撮影する(ステップS618)。一方、テキスト情報541に含まれる語句が発話されない場合は(ステップS614:No)、ステップS613に戻り、音声の監視を継続する。
なお、テキスト情報541に含まれる語句が発話された場合(ステップS614参照)に必ず搭乗者を撮影するのではなく、テキスト情報541に含まれる語句に加えて、特定のキーワード(撮影指示キーワード)が発話された場合にのみ、撮影をおこなってもよい。撮影指示キーワードとは、たとえば、「撮影」や「撮って」など、直接的に撮影を指示する語句の他、「○○さんを見て」「○○さんに向けて」など、間接的に撮影を指示する語句である。撮影指示キーワードは、あらかじめ決められていてもよいし、ユーザによって登録できるようにしてもよい。
また、たとえば、ステップS617で搭乗者に撮影方向を向けた後、撮影指示キーワードが含まれる発話がされた時点で、撮影を開始してもよい。この場合、被撮影者を特定するキーワードが発せられた後、所定時間経過するまで撮影指示キーワードが発話されない場合は、タイムアウトとして車載用カメラ311の撮影方向を、初期状態に戻すようにしてもよい。
また、逆に、撮影指示キーワードが含まれる発話がされた時点で撮影を開始し、撮影中にテキスト情報541に含まれる語句が発話された場合は、発話された語句に対応する搭乗者の方へ向けるようにしてもよい。さらに、撮影指示キーワードが含まれる発話がされた時点では発言者に対して撮影方向を向けておき、その後、テキスト情報541に含まれる語句が発話された時点で、発話された語句に対応する搭乗者の方へ撮影方向を向け、撮影を開始するようにしてもよい。
また、撮影対象となる搭乗者は1人には限らず、たとえば、「全員」「男性」など、複数の搭乗者に共通する属性が発話された場合には、該当する搭乗者を順次撮影する。また、発話の中に、テキスト情報541に含まれる語句が複数発話された場合も、それぞれの語句に対応する搭乗者を順次撮影する。また、各搭乗者の撮影優先順位を決めておいてもよい。
ナビゲーション装置300は、撮影終了の指示があった場合や(ステップS619:Yes)、撮影を開始してから所定時間が経過した場合は(ステップS620:Yes)、搭乗者の撮影を終了する(ステップS621)。ここで、撮影終了の指示とは、たとえば、「ストップ」や「終了」など、直接的に撮影の終了を指示する語句の他、特定のキーワードの発話やボタン操作などである。また、撮影終了の指示がなく(ステップS619:No)、撮影を開始してから所定時間が経過していない間は(ステップS620:No)、ステップS618に戻り、搭乗者の撮影を継続する。
ステップS621で撮影を終了した後は、車載用カメラ311の撮影方向を元の位置に戻す(ステップS622)。車両の走行が終了するまでは(ステップS623:No)、ステップS613に戻り、以降の処理を継続する。そして、車両の走行が終了すると(ステップS623:Yes)、今回搭乗者データベースを消去して(ステップS624)、本フローチャートの処理を終了する。
なお、上述した説明では、搭乗予定者情報データベース510に搭乗予定者情報を蓄積することとしたが、たとえば、搭乗予定者情報データベース510を作成せず、毎回の走行ごとに搭乗者情報を入力させて今回搭乗者データベース530を生成するのみであってもよい。すなわち、毎回の走行ごとに図8に示したような登録画面を表示させ、そのとき搭乗している搭乗者全員に搭乗者情報を入力させ、搭乗位置情報とともに今回搭乗者データベース530に格納する。今回搭乗者データベース530は、走行が終了する度に消去されるため、搭乗者は搭乗するごとに情報の入力が必要となるが、ナビゲーション装置300では、搭乗者情報を保持する必要がない。
また、本実施例では、車両内の様子を撮影することとしたが、たとえば、テレビ会議システムなどでも同様に適用することができる。この場合、本実施例における搭乗予定者は会議出席予定者であり、搭乗位置は会議室における着席位置となる。
以上説明したように、ナビゲーション装置300によれば、車両内の音声から撮影対象を特定し、撮影対象に向けて車載用カメラ311の撮影方向を制御する。これにより、搭乗者の発話の内容を考慮して、車載用カメラ311の撮影方向を変更することができる。たとえば、後部座席に座っている子供に声をかけて、車載用カメラ311の撮影方向を子供に向け、その映像をディスプレイ414に出力させることができる。これにより、運転中においても、後方を振り返ることなく、後部座席の子供の様子を確認することができる。
また、ナビゲーション装置300は、車載用カメラ311によって撮影された映像や車載用マイク312から収音された音声から、搭乗者の位置を抽出する。これにより、搭乗者に乗車位置の入力をおこなわせることなく、搭乗者の乗車位置を特定することができる。さらに、搭乗予定者データベースに搭乗予定者情報を蓄積しているため、その都度搭乗者に関する情報を入力させることなく、搭乗者に煩雑な処理をおこなわせることなく撮影をおこなうことができる。
なお、本実施の形態で説明したカメラ制御方法は、あらかじめ用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータで実行することにより実現することができる。このプログラムは、ハードディスク、フレキシブルディスク、CD−ROM、MO、DVDなどのコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。またこのプログラムは、インターネットなどのネットワークを介して配布することが可能な伝送媒体であってもよい。
この発明は、カメラの撮影方向を制御するカメラ制御装置、カメラ制御方法、カメラ制御プログラムおよび記録媒体に関する。ただし、この発明の利用は、上述したカメラ制御装置、カメラ制御方法、カメラ制御プログラムおよび記録媒体に限られない。
従来、インターネットや電話回線を用いたテレビ会議システムなどでは、音声が発せられた方向にカメラを向けて発言者を撮影し、違和感なく会議を進行できるようにしたものがある。このようなテレビ会議システムでは、たとえば、音声発生方向がカメラの現在の画角内にない場合は、雲台による方向変更により画角内に入るか否か判定し、入ると判定したときは、画角内に入るように雲台を駆動し、画像を表示し、入らないと判定したときは、画角内に入るように、画角を広げ、かつ雲台を駆動し、画像を表示する(たとえば、下記特許文献1参照。)。
しかしながら、上述した従来技術によれば、発言者による発言の内容を考慮した撮影をおこなうことができないという問題点が一例として挙げられる。従来技術において、カメラによって撮影されるのは音声を発している発言者であるが、発話の内容によっては、発言者を撮影対象とするのが必ずしも適切ではない場合がある。たとえば、カメラの撮影可能範囲内に、発言内容に関連する人物がいる場合には、その人物を撮影する方が好ましい場合がある。
また、上述した従来技術によれば、発言者以外を撮影対象としたい場合は、操作者によるマニュアル操作によってカメラの撮影方向を変更する必要があるという問題点が一例として挙げられる。この場合、カメラを操作する操作者が必要となり、撮影が煩雑になってしまうという問題点が一例として挙げられる。
上述した課題を解決し、目的を達成するため、請求項1の発明にかかるカメラ制御装置は、カメラ周辺の音声を取得する取得手段と、前記取得手段によって取得された音声から、前記カメラによる撮影対象を特定する語句(以下、「特定語句」という)を判別する判別手段と、前記判別手段によって判別された特定語句に基づいて、前記カメラの撮影方向を制御する制御手段と、前記撮影対象の候補に関する情報の入力を受け付ける入力手段と、前記撮影対象の候補の位置を検出する検出手段と、を備え、前記判別手段は、前記入力手段に入力された前記撮影対象の候補に関する情報と略一致する語句を前記特定語句として判別し、前記制御手段は、前記判別手段によって前記撮影対象の候補に関する情報と略一致する語句が判別された場合、前記検出手段によって検出された前記撮影対象の候補の位置に前記カメラの撮影方向を向けることを特徴とする。
また、請求項6の発明にかかるカメラ制御方法は、カメラ周辺の音声を取得する取得工程と、前記取得工程によって取得された音声から、前記カメラによる撮影対象を特定する語句(以下、「特定語句」という)を判別する判別工程と、前記判別工程によって判別された特定語句に基づいて、前記カメラの撮影方向を制御する制御工程と、前記撮影対象の候補に関する情報の入力を受け付ける入力工程と、前記撮影対象の候補の位置を検出する検出工程と、を含み、前記判別工程は、前記入力工程に入力された前記撮影対象の候補に関する情報と略一致する語句を前記特定語句として判別し、前記制御工程は、前記判別工程によって前記撮影対象の候補に関する情報と略一致する語句が判別された場合、前記検出工程によって検出された前記撮影対象の候補の位置に前記カメラの撮影方向を向けることを特徴とする。
また、請求項7の発明にかかるカメラ制御プログラムは、請求項6に記載のカメラ制御方法をコンピュータに実行させることを特徴とする。
また、請求項8の発明にかかる記録媒体は、請求項7に記載のカメラ制御プログラムを記録したコンピュータに読み取り可能なことを特徴とする。
以下に添付図面を参照して、この発明にかかるカメラ制御装置、カメラ制御方法、カメラ制御プログラムおよび記録媒体の好適な実施の形態を詳細に説明する。
(実施の形態)
はじめに、実施の形態にかかるカメラ制御装置100の機能的構成について説明する。図1は、カメラ制御装置の機能的構成を示すブロック図である。カメラ制御装置100は、取得部101、判別部102、制御部103、入力部104、検出部105によって構成される。
取得部101は、カメラ110周辺の音声を取得する。カメラ110周辺の音声とは、たとえば、カメラ110周辺に位置する人物による発話である。取得部101は、たとえば、マイクなどによってカメラ110周辺の音声を取得する。
判別部102は、取得部101によって取得された音声から、カメラ110による撮影対象を特定する語句(以下、特定語句という)を判別する。判別部102は、たとえば、後述する入力部104に入力される撮影対象の候補に関する情報を、特定語句として判別する。
制御部103は、判別部102によって判別された特定語句に基づいて、カメラ110の撮影方向を制御する。制御部103は、たとえば、判別部102によって撮影対象の候補に関する情報と略一致する語句が判別された場合、後述する検出部105によって検出された撮影対象の候補の位置にカメラ110の撮影方向を向ける。略一致する語句とは、撮影対象の候補に関する情報として入力された語句と同一または類似する語句である。
入力部104は、撮影対象の候補に関する情報の入力を受け付ける。撮影対象の候補に関する情報とは、たとえば、撮影対象の候補の名称情報(氏名や愛称など)や属性情報などである。また、入力部104には、撮影対象の候補の画像や音声が入力されてもよい。
検出部105は、撮影対象の候補の位置を検出する。検出部105は、たとえば、入力部104に入力された撮影対象の候補の画像と、カメラ110によって撮影された映像とを照合して、撮影対象の候補の位置を検出する。ここで、撮影対象の位置とは、たとえば、カメラ110が車両に設置されている場合には、撮影対象の着席した座席の位置であり、検出部105は、搭乗者がどの座席に着席したかを検出する。また、撮影対象の位置とは、カメラ110からの相対方向、相対方位などであってもよい。検出部105は、具体的には、たとえば、カメラ110によって撮影された映像中に、撮影対象の候補の画像との類似度が所定値以上の物体が映っていた場合、その物体の位置を撮影対象の候補の位置とする。
また、検出部105は、たとえば、入力部104に入力された撮影対象の候補の音声と、取得部101によって取得された音声とを照合して撮影対象の候補の位置を検出する。具体的には、たとえば、取得部101によって取得された音声中に、撮影対象の候補の音声との類似度が所定値以上の音声が含まれていた場合、その音声が発音されている位置を撮影対象の候補の位置とする。
また、カメラ110は、車両内部に設置されていてもよい。この場合、たとえば、取得部101は、車両の搭乗者の発話を取得し、判別部102は、撮影対象となる搭乗者に関する情報を特定語句として判別し、制御部103は、特定語句によって特定される搭乗者の乗車位置にカメラ110の撮影方向を向ける。また、入力部104には、たとえば、搭乗者に関する情報が入力され、検出部105は、各搭乗者がどの座席に着席したかを検出する。
つぎに、カメラ制御装置100によるカメラ110の制御処理について説明する。図2は、カメラ制御装置によるカメラ制御処理の手順を示すフローチャートである。図2のフローチャートにおいて、まず、入力部104に対して、撮影対象の候補に関する情報の入力がおこなわれる(ステップS201)。また、検出部105によって、撮影対象の候補の位置を検出する(ステップS202)。
つぎに、取得部101によって、カメラ110周辺の音声を取得する(ステップS203)。つづいて、判別部102によって、ステップS203で取得された音声から、特定語句を判別する(ステップS204)。このときの特定語句とは、撮影対象の候補に関する情報である。これにより、撮影対象の候補の中から撮影すべき撮影対象が特定される。そして、制御部103によって、ステップS202で検出した撮影対象の位置にカメラ110の撮影方向を制御して(ステップS205)、本フローチャートによる処理を終了する。
以上説明したように、カメラ制御装置100によれば、カメラ周辺の音声から撮影対象を特定し、撮影対象に向けてカメラの撮影方向を制御する。これにより、カメラ周辺の音声の内容を考慮して、カメラ110の撮影方向を変更することができる。
また、カメラ制御装置100は、あらかじめ入力された撮影対象の候補に関する情報を特定語句として撮影対象を特定するので、より精度良く撮影対象を特定することができる。さらに、撮影対象の候補の画像や音声から撮影対象の位置を検出するので、より精度良くカメラ110の撮影方向を制御することができる。
つぎに、上述した実施の形態にかかるカメラ制御装置100の実施例について説明する。以下の実施例においては、カメラ制御装置100を、車両に搭載されたナビゲーション装置300に適用した場合について説明する。
(ナビゲーション装置300の周辺機器構成)
はじめに、ナビゲーション装置300の周辺機器構成について説明する。図3は、ナビゲーション装置が設置された車両のダッシュボード付近を示す説明図である。ナビゲーション装置300は、車両のダッシュボードに設置されている。ナビゲーション装置300は、本体部Mおよび表示部(ディスプレイ)Dによって構成され、表示部Dには車両の現在地点や地図情報、現在時刻などが表示される。
また、ナビゲーション装置300には、バックミラー周辺に設置された車載用カメラ311、サンバイザーに設置された車載用マイク312が接続されている。車載用カメラ311は、撮影方向を変更可能であり、車外前方および車両内の各部(搭乗者など)を撮影する。以下、車載用カメラ311は、動画および静止画を撮影可能なカメラであるものとするが、静止画のみを撮影可能なカメラであってもよい。
車載用マイク312は、車両内の音声が入力され、ナビゲーション装置300の音声入力による操作や車両内の様子を記録する際などに用いられる。なお、車載用マイク312の位置は、サンバイザーに限ることなく、車両内の音声を効率的に入力できる位置にあればよい。また、車載用カメラ311および車載用マイク312は、車両に複数設置されていてもよいし、さらに、固定式ではなく可動式であってもよい。本実施例では、車載用マイク312は、各搭乗者の座席ごとに設けられているものとする。
ナビゲーション装置300は、目的地点までの経路探索および情報記録をおこなう他、ドライブ中の車両内の様子を記録する車内撮影機能を有している。車内撮影機能は、車載用カメラ311や車載用マイク312で車両内の映像および音声を記録する。車内撮影機能によって記録された映像および音声はナビゲーション装置300の記録媒体(後述する磁気ディスク405、光ディスク407)に記録される。また、記録された映像および音声を外部記録媒体に記録して、自宅のテレビなどで楽しめるようにしてもよい。
(ナビゲーション装置300のハードウェア構成)
つぎに、ナビゲーション装置300のハードウェア構成について説明する。図4は、ナビゲーション装置のハードウェア構成を示すブロック図である。図4において、ナビゲーション装置300は、CPU401と、ROM402と、RAM(メモリ)403と、磁気ディスクドライブ404と、磁気ディスク405と、光ディスクドライブ406と、光ディスク407と、音声I/F(インターフェース)408と、マイク409と、スピーカ410と、入力デバイス411と、映像I/F412と、カメラ413と、ディスプレイ414と、通信I/F415と、GPSユニット416と、各種センサ417と、外部接続用I/F418とを備えている。また、各構成部401〜418はバス420によってそれぞれ接続されている。
まず、CPU401は、ナビゲーション装置300の全体の制御を司る。ROM402は、ブートプログラム、通信プログラム、データベース作成プログラム、データ解析プログラムなどのプログラムを記録している。RAM403は、CPU401のワークエリアとして使用される。
磁気ディスクドライブ404は、CPU401の制御に従って磁気ディスク405に対するデータの読み取り/書き込みを制御する。磁気ディスク405は、磁気ディスクドライブ404の制御で書き込まれたデータを記録する。磁気ディスク405としては、たとえば、HD(ハードディスク)やFD(フレキシブルディスク)を用いることができる。
光ディスクドライブ406は、CPU401の制御に従って光ディスク407に対するデータの読み取り/書き込みを制御する。光ディスク407は、光ディスクドライブ406の制御に従ってデータが読み出される着脱自在な記録媒体である。光ディスク407は、書き込み可能な記録媒体を利用することもできる。また、この着脱可能な記録媒体として、光ディスク407のほか、MO、メモリカードなどであってもよい。
磁気ディスク405または光ディスク407に記録される情報の一例として、経路探索・経路誘導などに用いる地図データが挙げられる。地図データは、建物、河川、地表面などの地物(フィーチャ)を表す背景データと、道路の形状を表す道路形状データとを有しており、ディスプレイ414の表示画面において2次元または3次元に描画される。ナビゲーション装置300が経路誘導中の場合は、地図データと後述するGPSユニット416によって取得された自車の現在地点とが重ねて表示されることとなる。
音声I/F408は、音声入力用のマイク409(たとえば、図3の車載用マイク312)および音声出力用のスピーカ410に接続される。マイク409に受音された音声は、音声I/F408内でA/D変換される。また、スピーカ410からは音声が出力される。なお、マイク409から入力された音声は、音声データとして磁気ディスク405あるいは光ディスク407に記録可能である。
入力デバイス411は、文字、数値、各種指示などの入力のための複数のキーを備えたリモコン、キーボード、マウス、タッチパネルなどが挙げられる。さらに、入力デバイス411は、デジタルカメラや携帯電話端末などの他の情報処理端末を接続し、データの入出力をおこなうことができる。
映像I/F412は、映像入力用のカメラ413(たとえば、図3の車載用カメラ311)および映像出力用のディスプレイ414と接続される。映像I/F412は、具体的には、たとえば、ディスプレイ414全体の制御をおこなうグラフィックコントローラと、即時表示可能な画像情報を一時的に記録するVRAM(Video RAM)などのバッファメモリと、グラフィックコントローラから出力される画像データに基づいて、ディスプレイ414を表示制御する制御ICなどによって構成される。
カメラ413は、車両内外の画像(動画を含む)を撮影し、画像データとして出力する。カメラ413で撮影された画像は、画像データとして磁気ディスク405あるいは光ディスク407に記録することができる。この画像データは、ディスプレイ414で出力する他、記録媒体に記録したり、ネットワークを介して送信するなどして、他の情報処理端末で利用することができる。
ディスプレイ414には、アイコン、カーソル、メニュー、ウインドウ、あるいは文字や画像などの各種データが表示される。このディスプレイ414は、たとえば、CRT、TFT液晶ディスプレイ、プラズマディスプレイなどを採用することができる。
通信I/F415は、無線を介してインターネットなどの通信網に接続され、この通信網とCPU401とのインターフェースとして機能する。通信網には、LAN、WAN、公衆回線網や携帯電話網などがある。
GPSユニット416は、GPS衛星からの電波を受信し、車両の現在地点(ナビゲーション装置300の現在地点)を示す情報を出力する。GPSユニット416の出力情報は、後述する各種センサ417の出力値とともに、CPU401による車両の現在地点の算出に際して利用される。現在地点を示す情報は、たとえば緯度・経度、高度などの、地図データ上の1点を特定する情報である。
各種センサ417は、車速センサや加速度センサ、角速度センサなどの、車両の位置や挙動を判断することが可能な情報を出力する。各種センサ417の出力値は、CPU401による現在地点の算出や、速度や方位の変化量の測定に用いられる。
外部接続用I/F418は、オーディオ装置や車内空調装置など、外部の機器と接続するためのインターフェース類である。外部接続用I/F418は、たとえば、専用の接続ケーブルのポート、赤外線通信用ポートなどによって構成される。
また、実施の形態にかかるカメラ制御装置100の構成のうち、取得部101は音声I/F408、マイク409によって、判別部102、検出部105はCPU401によって、制御部103はCPU401、映像I/F412によって、入力部104は入力デバイス411によって、それぞれの機能を実現する。
(ナビゲーション装置300による車内撮影処理)
つづいて、ナビゲーション装置300による車内撮影処理について説明する。前述のように、ナビゲーション装置300が設置された車両内には、車載用カメラ311および車載用マイク312が設けられており、ドライブ中の車両内の様子を記録することができる。ここで、車両内の様子を撮影する際に、ただ漫然と車両内を撮影するのみでは、コンテンツとしての魅力に乏しく、記録された映像を視聴する機会は低下してしまう。
このため、ナビゲーション装置300は、搭乗者による発話の内容に基づいて撮影対象を特定し、車載用カメラ311の撮影方向を変更する。具体的には、発言者の発話に特定の搭乗者に対応する言葉が含まれる場合に、その搭乗者に車載用カメラ311を向けて撮影する。これにより、話題の中心にいる搭乗者に焦点をあてて車両内の様子を撮影することができ、記録された映像のコンテンツとしての魅力を向上させることができる。
ここで、ナビゲーション装置300では、撮影対象となる搭乗者を特定するため、あらかじめ搭乗者に関する情報を登録しておき、その登録情報に基づいて車載用カメラ311を制御している。具体的には、ナビゲーション装置300は、車両に搭乗する可能性や予定がある人物(以下、「搭乗予定者」という)に関する情報が累積的に蓄積される蓄積型データベース(搭乗予定者データベース)と、車両に搭乗者が乗降するごとに更新される更新型データベース(今回搭乗者データベース)を作成する。
図5は、ナビゲーション装置が作成するデータベースの内容を模式的に示す説明図である。搭乗予定者データベース510には、車両への搭乗者予定者の氏名情報521や愛称情報522、属性情報523、その搭乗予定者に対応するキーワード524などのテキスト情報511と、その搭乗者の顔画像データ512、声紋データ513が登録される。
今回搭乗者データベース530には、今回搭乗した搭乗者に対応したテキスト情報541と、その乗車位置情報542とが登録される。後述するように、ナビゲーション装置300は、搭乗者の画像や声紋から今回搭乗した搭乗者を特定する。そして、搭乗予定者情報データベース510に格納されている、その搭乗者に対応する情報(テキスト情報541)を今回搭乗者データベース530に格納する。
テキスト情報541は、搭乗予定者データベース510と同様に、氏名情報551や愛称情報552、属性情報553、その搭乗予定者に対応するキーワード554などによって構成される。また、乗車位置情報542は、今回搭乗した搭乗者の乗車位置、たとえば、「助手席」や「右後部座席」などの情報である。
乗車位置情報542に関連して、ナビゲーション装置300のROM402には、各座席の位置に対応する車載用カメラ311の制御テーブル560が記録されている。制御テーブル500には、各座席を撮影する際に車載用カメラ311の撮影方向を変更する変更量が定義されている。具体的には、たとえば、基準となる撮影方向(0°方向)をリアウインドーに対して垂直とすると、運転席は基準となる撮影方向から左45°方向、助手席は基準となる撮影方向から右45°方向、右後部座席は基準となる撮影方向から左30°方向、左後部座席は基準となる撮影方向から右30°方向となる。
以上のようなデータベースを用いて、ナビゲーション装置300は、車載用カメラ311の撮影方向を制御する。
図6および図7は、ナビゲーション装置の車内撮影処理の手順を示すフローチャートである。図6のフローチャートにおいて、ナビゲーション装置300は、まず、自装置が搭載された車両の搭乗予定者に、搭乗予定者情報を入力させる(ステップS601)。搭乗予定者情報は、図5のテキスト情報511に対応し、搭乗者の氏名や愛称、属性、キーワードなどの情報である。搭乗者予定者情報の入力は、ナビゲーション装置300の入力デバイス411でおこなう他、各搭乗予定者の自宅のPC(パーソナルコンピュータ)や携帯電話端末などからネットワークを介しておこなうこととしてもよい。
図8は、搭乗者予定者情報の入力画面の一例を示す説明図である。図8は、ナビゲーション装置300の入力デバイス411を用いて搭乗予定者の登録をおこなう場合を例として説明する。図8において、ナビゲーション装置300のディスプレイ414には、搭乗予定者の新規登録画面800が表示されている。新規登録画面800には、搭乗予定者の氏名を入力する氏名入力部811、搭乗予定者の愛称を入力する愛称入力部812、搭乗予定者の属性を入力する属性入力部813、搭乗予定者と関連するキーワードを入力するキーワード入力部814が表示されている。
新規に登録する搭乗予定者は、これらの入力部に自己の情報を入力する。そして、撮影ボタン821を押下して、車載用カメラ311を用いて自己の顔画像を撮影する。また、収音ボタン822押下して、車載用マイク312を用いて自己の音声を収音する。なお、顔画像の撮影と音声の収音は、どちらか一方のみとしてもよい。また、搭乗予定者として登録するのは、人間には限らず、犬や猫などの動物であってもよい。この場合、搭乗予定者情報データベース510への登録は、人間が代わりにおこなう。
なお、上述したように、入力画面に新規登録画面を表示して搭乗予定者情報を文字で入力させる他、たとえば、音声対話によって、搭乗予定者情報を発話させて、音声で入力することとしてもよい。この方法によれば、音声データも同時に取得することができる。また、搭乗予定者の顔画像は、車両のドアの開閉などをトリガーとして、自動的に撮影することとしてもよい。
図6説明に戻り、ナビゲーション装置300は、ステップS601で入力された搭乗者情報を搭乗予定者データベース510に格納する(ステップS602)。具体的には、搭乗予定者の氏名や愛称、属性などのテキスト情報511と、搭乗予定者の顔画像データ512および音声から抽出した声紋データ513(どちらか一方のみでもよい)とを関連付けて、搭乗予定者データベースに格納する。
つぎに、ナビゲーション装置300は、車両に搭乗者が乗車するまで待機する(ステップS603:Noのループ)。搭乗者が乗車したか否かは、たとえば、車両のエンジンが始動したか否かや、車両のドアが開閉したか否かなどによって判断する。搭乗者が乗車すると(ステップS603:Yes)、車載用カメラ311で車両内全体の画像を撮影し、車載用マイク312で各座席に搭乗した搭乗者の音声を収音する(ステップS604)。具体的には、車載用カメラ311の撮影方向を制御して、全座席の搭乗者の顔が位置する範囲を撮影する。また、各座席に設けられている車載用マイク312に向かって発話するよう、搭乗者に指示する。なお、画像の撮影と音声の収音は、一方のみをおこなってもよい。
つぎに、ナビゲーション装置300は、ステップS604で撮影・収音した画像および音声から、今回搭乗した搭乗者の顔画像および声紋を抽出する(ステップS605)。そして、ステップS605で抽出された顔画像および声紋のうち、任意の1つを搭乗予定者データベース510と照合し(ステップS606)、その顔画像および声紋と類似する顔画像データ512および声紋データ513が蓄積されているか否かを判断する(ステップS607)。具体的には、今回搭乗した搭乗者の顔画像や声紋の特徴点と、搭乗予定者データベースに格納されている顔画像データ512や声紋データ513の特徴点とを比較して、類似度が所定値以上の顔画像データ512や声紋データ513が蓄積されているか否かを判断する。
類似した顔画像データ512や声紋データ513が蓄積されている場合は(ステップS607:Yes)、その顔画像データ512や声紋データ513に対応する搭乗予定者のテキスト情報511を、テキスト情報541として今回搭乗者データベース530に格納するとともに、その搭乗者の搭乗位置情報542を今回搭乗者データベースに格納する(ステップS608)。なお、搭乗予定者データベース510に格納されているテキスト情報511も、そのまま保持される。
一方、類似した顔画像データ512や声紋データ513が蓄積されていない場合は(ステップS607:No)、その搭乗者に対して搭乗者予定者情報を入力させる(ステップS609)。そして、入力された情報を搭乗予定者情報として搭乗予定者データベース510に格納する(ステップS610)。そして、ステップS609で入力された搭乗者情報を、テキスト情報541として今回搭乗者データベース530に格納するとともに、その搭乗者の搭乗位置情報542を今回搭乗者データベースに格納する(ステップS611)。
すべての顔画像および声紋について照合をおこなうまでは(ステップS612:No)、ステップS606に戻り、以降の処理を繰り返す。そして、すべての顔画像および声紋について照合をおこなうと(ステップS612:Yes)、図7のステップS613に移行する。ここまでの処理によって、搭乗予定者データベース510および今回搭乗者データベース530が作成される。
なお、走行中に搭乗者の配置が変更する場合もあるため、走行中の所定のタイミング、たとえば、停車後にドアの開閉があった場合など、搭乗者の乗降を検知した際に、今回搭乗者データベース530を更新してもよい。この場合、ナビゲーション装置300は、ステップS604以降の処理をおこなうことによって、今回搭乗者データベース530を更新する。
図7の説明に移り、ナビゲーション装置300は、車両内の音声を監視し(ステップS613)、搭乗者の発話に今回搭乗者データベース530に格納されたテキスト情報541に含まれる語句(特定語句)が含まれているか否かを判断する(ステップS614)。音声の監視は、一般に用いられている音声認識技術を用いておこなう。具体的には、車載用マイク312で収音された音声をテキスト変換し、テキスト情報541に含まれる語句が搭乗者の発話に含まれているか否かを判断する。
テキスト情報541に含まれる語句が発話された場合は(ステップS614:Yes)、今回搭乗者データベース530を照合し、発話された語句に対応する搭乗者の搭乗位置情報542を取得する(ステップS615)。つづいて、ナビゲーション装置300は、優先するカメラ動作があるか否かを判断する(ステップS616)。優先するカメラ動作とは、たとえば、ドライブレコーダ機能や搭乗者認識処理など、車載用カメラ311を利用する処理のうち、搭乗者撮影処理より優先しておこなうべき処理である。たとえば、車両の走行速度が所定速度以上の場合や、車両の現在位置が交差点から所定距離以内の場合は、事故が発生する可能性が通常より高いとして、ドライブレコーダ機能を優先して動作させる。優先するカメラ動作の条件設定は、あらかじめ定められていてもよいし、ユーザによって設定できることとしてもよい。また、このときまで、車載用カメラ311は、停止(電源オフ)状態であってもよい。
優先するカメラ動作がある場合は(ステップS616:Yes)、カメラ動作が終了するまで待機する。優先するカメラ動作がない場合は(ステップS616:No)、ROM402に記録されている制御テーブル560を参照して、発話された語句に対応する搭乗者の搭乗位置に車載用カメラ311の撮影方向を変更し(ステップS617)、搭乗者を撮影する(ステップS618)。一方、テキスト情報541に含まれる語句が発話されない場合は(ステップS614:No)、ステップS613に戻り、音声の監視を継続する。
なお、テキスト情報541に含まれる語句が発話された場合(ステップS614参照)に必ず搭乗者を撮影するのではなく、テキスト情報541に含まれる語句に加えて、特定のキーワード(撮影指示キーワード)が発話された場合にのみ、撮影をおこなってもよい。撮影指示キーワードとは、たとえば、「撮影」や「撮って」など、直接的に撮影を指示する語句の他、「○○さんを見て」「○○さんに向けて」など、間接的に撮影を指示する語句である。撮影指示キーワードは、あらかじめ決められていてもよいし、ユーザによって登録できるようにしてもよい。
また、たとえば、ステップS617で搭乗者に撮影方向を向けた後、撮影指示キーワードが含まれる発話がされた時点で、撮影を開始してもよい。この場合、被撮影者を特定するキーワードが発せられた後、所定時間経過するまで撮影指示キーワードが発話されない場合は、タイムアウトとして車載用カメラ311の撮影方向を、初期状態に戻すようにしてもよい。
また、逆に、撮影指示キーワードが含まれる発話がされた時点で撮影を開始し、撮影中にテキスト情報541に含まれる語句が発話された場合は、発話された語句に対応する搭乗者の方へ向けるようにしてもよい。さらに、撮影指示キーワードが含まれる発話がされた時点では発言者に対して撮影方向を向けておき、その後、テキスト情報541に含まれる語句が発話された時点で、発話された語句に対応する搭乗者の方へ撮影方向を向け、撮影を開始するようにしてもよい。
また、撮影対象となる搭乗者は1人には限らず、たとえば、「全員」「男性」など、複数の搭乗者に共通する属性が発話された場合には、該当する搭乗者を順次撮影する。また、発話の中に、テキスト情報541に含まれる語句が複数発話された場合も、それぞれの語句に対応する搭乗者を順次撮影する。また、各搭乗者の撮影優先順位を決めておいてもよい。
ナビゲーション装置300は、撮影終了の指示があった場合や(ステップS619:Yes)、撮影を開始してから所定時間が経過した場合は(ステップS620:Yes)、搭乗者の撮影を終了する(ステップS621)。ここで、撮影終了の指示とは、たとえば、「ストップ」や「終了」など、直接的に撮影の終了を指示する語句の他、特定のキーワードの発話やボタン操作などである。また、撮影終了の指示がなく(ステップS619:No)、撮影を開始してから所定時間が経過していない間は(ステップS620:No)、ステップS618に戻り、搭乗者の撮影を継続する。
ステップS621で撮影を終了した後は、車載用カメラ311の撮影方向を元の位置に戻す(ステップS622)。車両の走行が終了するまでは(ステップS623:No)、ステップS613に戻り、以降の処理を継続する。そして、車両の走行が終了すると(ステップS623:Yes)、今回搭乗者データベースを消去して(ステップS624)、本フローチャートの処理を終了する。
なお、上述した説明では、搭乗予定者情報データベース510に搭乗予定者情報を蓄積することとしたが、たとえば、搭乗予定者情報データベース510を作成せず、毎回の走行ごとに搭乗者情報を入力させて今回搭乗者データベース530を生成するのみであってもよい。すなわち、毎回の走行ごとに図8に示したような登録画面を表示させ、そのとき搭乗している搭乗者全員に搭乗者情報を入力させ、搭乗位置情報とともに今回搭乗者データベース530に格納する。今回搭乗者データベース530は、走行が終了する度に消去されるため、搭乗者は搭乗するごとに情報の入力が必要となるが、ナビゲーション装置300では、搭乗者情報を保持する必要がない。
また、本実施例では、車両内の様子を撮影することとしたが、たとえば、テレビ会議システムなどでも同様に適用することができる。この場合、本実施例における搭乗予定者は会議出席予定者であり、搭乗位置は会議室における着席位置となる。
以上説明したように、ナビゲーション装置300によれば、車両内の音声から撮影対象を特定し、撮影対象に向けて車載用カメラ311の撮影方向を制御する。これにより、搭乗者の発話の内容を考慮して、車載用カメラ311の撮影方向を変更することができる。たとえば、後部座席に座っている子供に声をかけて、車載用カメラ311の撮影方向を子供に向け、その映像をディスプレイ414に出力させることができる。これにより、運転中においても、後方を振り返ることなく、後部座席の子供の様子を確認することができる。
また、ナビゲーション装置300は、車載用カメラ311によって撮影された映像や車載用マイク312から収音された音声から、搭乗者の位置を抽出する。これにより、搭乗者に乗車位置の入力をおこなわせることなく、搭乗者の乗車位置を特定することができる。さらに、搭乗予定者データベースに搭乗予定者情報を蓄積しているため、その都度搭乗者に関する情報を入力させることなく、搭乗者に煩雑な処理をおこなわせることなく撮影をおこなうことができる。
なお、本実施の形態で説明したカメラ制御方法は、あらかじめ用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータで実行することにより実現することができる。このプログラムは、ハードディスク、フレキシブルディスク、CD−ROM、MO、DVDなどのコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。またこのプログラムは、インターネットなどのネットワークを介して配布することが可能な伝送媒体であってもよい。
カメラ制御装置の機能的構成を示すブロック図である。
カメラ制御装置によるカメラ制御処理の手順を示すフローチャートである。
ナビゲーション装置が設置された車両のダッシュボード付近を示す説明図である。
ナビゲーション装置のハードウェア構成を示すブロック図である。
ナビゲーション装置が作成するデータベースの内容を模式的に示す説明図である。
ナビゲーション装置の車内撮影処理の手順を示すフローチャートである。
ナビゲーション装置の車内撮影処理の手順を示すフローチャートである。
搭乗者予定者情報の入力画面の一例を示す説明図である。
符号の説明
100 カメラ制御装置
101 取得部
102 判別部
103 制御部
104 入力部
105 検出部
110 カメラ