JPWO2007145331A1

JPWO2007145331A1 - カメラ制御装置、カメラ制御方法、カメラ制御プログラムおよび記録媒体

Info

Publication number: JPWO2007145331A1
Application number: JP2008521277A
Authority: JP
Inventors: 裕昭柴▲崎▼
Original assignee: Pioneer Corp
Current assignee: Pioneer Corp
Priority date: 2006-06-16
Filing date: 2007-06-15
Publication date: 2009-11-12
Anticipated expiration: 2027-06-15
Also published as: WO2007145331A1; JP4660592B2

Abstract

カメラ制御装置（１００）は、取得部（１０１）、判別部（１０２）、制御部（１０３）、入力部（１０４）、検出部（１０５）によって構成される。取得部（１０１）は、カメラ（１１０）周辺の音声を取得する。判別部（１０２）は、取得部（１０１）によって取得された音声から、カメラ（１１０）による撮影対象を特定する語句（以下、特定語句という）を判別する。制御部（１０３）は、判別部（１０２）によって判別された特定語句に基づいて、カメラ（１１０）の撮影方向を制御する。入力部（１０４）は、撮影対象の候補に関する情報が入力される。検出部（１０５）は、撮影対象の候補の位置を検出する。

Description

この発明は、カメラの撮影方向を制御するカメラ制御装置、カメラ制御方法、カメラ制御プログラムおよび記録媒体に関する。ただし、この発明の利用は、上述したカメラ制御装置、カメラ制御方法、カメラ制御プログラムおよび記録媒体に限られない。

従来、インターネットや電話回線を用いたテレビ会議システムなどでは、音声が発せられた方向にカメラを向けて発言者を撮影し、違和感なく会議を進行できるようにしたものがある。このようなテレビ会議システムでは、たとえば、音声発生方向がカメラの現在の画角内にない場合は、雲台による方向変更により画角内に入るか否か判定し、入ると判定したときは、画角内に入るように雲台を駆動し、画像を表示し、入らないと判定したときは、画角内に入るように、画角を広げ、かつ雲台を駆動し、画像を表示する（たとえば、下記特許文献１参照。）。

特開２０００−２４４８８５号公報

しかしながら、上述した従来技術によれば、発言者による発言の内容を考慮した撮影をおこなうことができないという問題点が一例として挙げられる。従来技術において、カメラによって撮影されるのは音声を発している発言者であるが、発話の内容によっては、発言者を撮影対象とするのが必ずしも適切ではない場合がある。たとえば、カメラの撮影可能範囲内に、発言内容に関連する人物がいる場合には、その人物を撮影する方が好ましい場合がある。

また、上述した従来技術によれば、発言者以外を撮影対象としたい場合は、操作者によるマニュアル操作によってカメラの撮影方向を変更する必要があるという問題点が一例として挙げられる。この場合、カメラを操作する操作者が必要となり、撮影が煩雑になってしまうという問題点が一例として挙げられる。

上述した課題を解決し、目的を達成するため、請求項１の発明にかかるカメラ制御装置は、カメラ周辺の音声を取得する取得手段と、前記取得手段によって取得された音声から、前記カメラによる撮影対象を特定する語句（以下、特定語句という）を判別する判別手段と、前記判別手段によって判別された特定語句に基づいて、前記カメラの撮影方向を制御する制御手段と、を備えることを特徴とする。

また、請求項７の発明にかかるカメラ制御方法は、カメラ周辺の音声を取得する取得工程と、前記取得工程によって取得された音声から、前記カメラによる撮影対象を特定する語句（以下、特定語句という）を判別する判別工程と、前記判別工程によって判別された特定語句に基づいて、前記カメラの撮影方向を制御する制御工程と、を含んだことを特徴とする。

また、請求項８の発明にかかるカメラ制御プログラムは、請求項７に記載のカメラ制御方法をコンピュータに実行させることを特徴とする。

また、請求項９の発明にかかる記録媒体は、請求項８に記載のカメラ制御プログラムを記録したコンピュータに読み取り可能なことを特徴とする。

図１は、カメラ制御装置の機能的構成を示すブロック図である。図２は、カメラ制御装置によるカメラ制御処理の手順を示すフローチャートである。図３は、ナビゲーション装置が設置された車両のダッシュボード付近を示す説明図である。図４は、ナビゲーション装置のハードウェア構成を示すブロック図である。図５は、ナビゲーション装置が作成するデータベースの内容を模式的に示す説明図である。図６は、ナビゲーション装置の車内撮影処理の手順を示すフローチャートである。図７は、ナビゲーション装置の車内撮影処理の手順を示すフローチャートである。図８は、搭乗者予定者情報の入力画面の一例を示す説明図である。

符号の説明

１００カメラ制御装置
１０１取得部
１０２判別部
１０３制御部
１０４入力部
１０５検出部
１１０カメラ

以下に添付図面を参照して、この発明にかかるカメラ制御装置、カメラ制御方法、カメラ制御プログラムおよび記録媒体の好適な実施の形態を詳細に説明する。

（実施の形態）
はじめに、実施の形態にかかるカメラ制御装置１００の機能的構成について説明する。図１は、カメラ制御装置の機能的構成を示すブロック図である。カメラ制御装置１００は、取得部１０１、判別部１０２、制御部１０３、入力部１０４、検出部１０５によって構成される。

取得部１０１は、カメラ１１０周辺の音声を取得する。カメラ１１０周辺の音声とは、たとえば、カメラ１１０周辺に位置する人物による発話である。取得部１０１は、たとえば、マイクなどによってカメラ１１０周辺の音声を取得する。

判別部１０２は、取得部１０１によって取得された音声から、カメラ１１０による撮影対象を特定する語句（以下、特定語句という）を判別する。判別部１０２は、たとえば、後述する入力部１０４に入力される撮影対象の候補に関する情報を、特定語句として判別する。

制御部１０３は、判別部１０２によって判別された特定語句に基づいて、カメラ１１０の撮影方向を制御する。制御部１０３は、たとえば、判別部１０２によって撮影対象の候補に関する情報と略一致する語句が判別された場合、後述する検出部１０５によって検出された撮影対象の候補の位置にカメラ１１０の撮影方向を向ける。略一致する語句とは、撮影対象の候補に関する情報として入力された語句と同一または類似する語句である。

入力部１０４は、撮影対象の候補に関する情報の入力を受け付ける。撮影対象の候補に関する情報とは、たとえば、撮影対象の候補の名称情報（氏名や愛称など）や属性情報などである。また、入力部１０４には、撮影対象の候補の画像や音声が入力されてもよい。

検出部１０５は、撮影対象の候補の位置を検出する。検出部１０５は、たとえば、入力部１０４に入力された撮影対象の候補の画像と、カメラ１１０によって撮影された映像とを照合して、撮影対象の候補の位置を検出する。ここで、撮影対象の位置とは、たとえば、カメラ１１０が車両に設置されている場合には、撮影対象の着席した座席の位置であり、検出部１０５は、搭乗者がどの座席に着席したかを検出する。また、撮影対象の位置とは、カメラ１１０からの相対方向、相対方位などであってもよい。検出部１０５は、具体的には、たとえば、カメラ１１０によって撮影された映像中に、撮影対象の候補の画像との類似度が所定値以上の物体が映っていた場合、その物体の位置を撮影対象の候補の位置とする。

また、検出部１０５は、たとえば、入力部１０４に入力された撮影対象の候補の音声と、取得部１０１によって取得された音声とを照合して撮影対象の候補の位置を検出する。具体的には、たとえば、取得部１０１によって取得された音声中に、撮影対象の候補の音声との類似度が所定値以上の音声が含まれていた場合、その音声が発音されている位置を撮影対象の候補の位置とする。

また、カメラ１１０は、車両内部に設置されていてもよい。この場合、たとえば、取得部１０１は、車両の搭乗者の発話を取得し、判別部１０２は、撮影対象となる搭乗者に関する情報を特定語句として判別し、制御部１０３は、特定語句によって特定される搭乗者の乗車位置にカメラ１１０の撮影方向を向ける。また、入力部１０４には、たとえば、搭乗者に関する情報が入力され、検出部１０５は、各搭乗者がどの座席に着席したかを検出する。

つぎに、カメラ制御装置１００によるカメラ１１０の制御処理について説明する。図２は、カメラ制御装置によるカメラ制御処理の手順を示すフローチャートである。図２のフローチャートにおいて、まず、入力部１０４に対して、撮影対象の候補に関する情報の入力がおこなわれる（ステップＳ２０１）。また、検出部１０５によって、撮影対象の候補の位置を検出する（ステップＳ２０２）。

つぎに、取得部１０１によって、カメラ１１０周辺の音声を取得する（ステップＳ２０３）。つづいて、判別部１０２によって、ステップＳ２０３で取得された音声から、特定語句を判別する（ステップＳ２０４）。このときの特定語句とは、撮影対象の候補に関する情報である。これにより、撮影対象の候補の中から撮影すべき撮影対象が特定される。そして、制御部１０３によって、ステップＳ２０２で検出した撮影対象の位置にカメラ１１０の撮影方向を制御して（ステップＳ２０５）、本フローチャートによる処理を終了する。

以上説明したように、カメラ制御装置１００によれば、カメラ周辺の音声から撮影対象を特定し、撮影対象に向けてカメラの撮影方向を制御する。これにより、カメラ周辺の音声の内容を考慮して、カメラ１１０の撮影方向を変更することができる。

また、カメラ制御装置１００は、あらかじめ入力された撮影対象の候補に関する情報を特定語句として撮影対象を特定するので、より精度良く撮影対象を特定することができる。さらに、撮影対象の候補の画像や音声から撮影対象の位置を検出するので、より精度良くカメラ１１０の撮影方向を制御することができる。

つぎに、上述した実施の形態にかかるカメラ制御装置１００の実施例について説明する。以下の実施例においては、カメラ制御装置１００を、車両に搭載されたナビゲーション装置３００に適用した場合について説明する。

（ナビゲーション装置３００の周辺機器構成）
はじめに、ナビゲーション装置３００の周辺機器構成について説明する。図３は、ナビゲーション装置が設置された車両のダッシュボード付近を示す説明図である。ナビゲーション装置３００は、車両のダッシュボードに設置されている。ナビゲーション装置３００は、本体部Ｍおよび表示部（ディスプレイ）Ｄによって構成され、表示部Ｄには車両の現在地点や地図情報、現在時刻などが表示される。

また、ナビゲーション装置３００には、バックミラー周辺に設置された車載用カメラ３１１、サンバイザーに設置された車載用マイク３１２が接続されている。車載用カメラ３１１は、撮影方向を変更可能であり、車外前方および車両内の各部（搭乗者など）を撮影する。以下、車載用カメラ３１１は、動画および静止画を撮影可能なカメラであるものとするが、静止画のみを撮影可能なカメラであってもよい。

車載用マイク３１２は、車両内の音声が入力され、ナビゲーション装置３００の音声入力による操作や車両内の様子を記録する際などに用いられる。なお、車載用マイク３１２の位置は、サンバイザーに限ることなく、車両内の音声を効率的に入力できる位置にあればよい。また、車載用カメラ３１１および車載用マイク３１２は、車両に複数設置されていてもよいし、さらに、固定式ではなく可動式であってもよい。本実施例では、車載用マイク３１２は、各搭乗者の座席ごとに設けられているものとする。

ナビゲーション装置３００は、目的地点までの経路探索および情報記録をおこなう他、ドライブ中の車両内の様子を記録する車内撮影機能を有している。車内撮影機能は、車載用カメラ３１１や車載用マイク３１２で車両内の映像および音声を記録する。車内撮影機能によって記録された映像および音声はナビゲーション装置３００の記録媒体（後述する磁気ディスク４０５、光ディスク４０７）に記録される。また、記録された映像および音声を外部記録媒体に記録して、自宅のテレビなどで楽しめるようにしてもよい。

（ナビゲーション装置３００のハードウェア構成）
つぎに、ナビゲーション装置３００のハードウェア構成について説明する。図４は、ナビゲーション装置のハードウェア構成を示すブロック図である。図４において、ナビゲーション装置３００は、ＣＰＵ４０１と、ＲＯＭ４０２と、ＲＡＭ（メモリ）４０３と、磁気ディスクドライブ４０４と、磁気ディスク４０５と、光ディスクドライブ４０６と、光ディスク４０７と、音声Ｉ／Ｆ（インターフェース）４０８と、マイク４０９と、スピーカ４１０と、入力デバイス４１１と、映像Ｉ／Ｆ４１２と、カメラ４１３と、ディスプレイ４１４と、通信Ｉ／Ｆ４１５と、ＧＰＳユニット４１６と、各種センサ４１７と、外部接続用Ｉ／Ｆ４１８とを備えている。また、各構成部４０１〜４１８はバス４２０によってそれぞれ接続されている。

まず、ＣＰＵ４０１は、ナビゲーション装置３００の全体の制御を司る。ＲＯＭ４０２は、ブートプログラム、通信プログラム、データベース作成プログラム、データ解析プログラムなどのプログラムを記録している。ＲＡＭ４０３は、ＣＰＵ４０１のワークエリアとして使用される。

磁気ディスクドライブ４０４は、ＣＰＵ４０１の制御に従って磁気ディスク４０５に対するデータの読み取り／書き込みを制御する。磁気ディスク４０５は、磁気ディスクドライブ４０４の制御で書き込まれたデータを記録する。磁気ディスク４０５としては、たとえば、ＨＤ（ハードディスク）やＦＤ（フレキシブルディスク）を用いることができる。

光ディスクドライブ４０６は、ＣＰＵ４０１の制御に従って光ディスク４０７に対するデータの読み取り／書き込みを制御する。光ディスク４０７は、光ディスクドライブ４０６の制御に従ってデータが読み出される着脱自在な記録媒体である。光ディスク４０７は、書き込み可能な記録媒体を利用することもできる。また、この着脱可能な記録媒体として、光ディスク４０７のほか、ＭＯ、メモリカードなどであってもよい。

磁気ディスク４０５または光ディスク４０７に記録される情報の一例として、経路探索・経路誘導などに用いる地図データが挙げられる。地図データは、建物、河川、地表面などの地物（フィーチャ）を表す背景データと、道路の形状を表す道路形状データとを有しており、ディスプレイ４１４の表示画面において２次元または３次元に描画される。ナビゲーション装置３００が経路誘導中の場合は、地図データと後述するＧＰＳユニット４１６によって取得された自車の現在地点とが重ねて表示されることとなる。

音声Ｉ／Ｆ４０８は、音声入力用のマイク４０９（たとえば、図３の車載用マイク３１２）および音声出力用のスピーカ４１０に接続される。マイク４０９に受音された音声は、音声Ｉ／Ｆ４０８内でＡ／Ｄ変換される。また、スピーカ４１０からは音声が出力される。なお、マイク４０９から入力された音声は、音声データとして磁気ディスク４０５あるいは光ディスク４０７に記録可能である。

入力デバイス４１１は、文字、数値、各種指示などの入力のための複数のキーを備えたリモコン、キーボード、マウス、タッチパネルなどが挙げられる。さらに、入力デバイス４１１は、デジタルカメラや携帯電話端末などの他の情報処理端末を接続し、データの入出力をおこなうことができる。

映像Ｉ／Ｆ４１２は、映像入力用のカメラ４１３（たとえば、図３の車載用カメラ３１１）および映像出力用のディスプレイ４１４と接続される。映像Ｉ／Ｆ４１２は、具体的には、たとえば、ディスプレイ４１４全体の制御をおこなうグラフィックコントローラと、即時表示可能な画像情報を一時的に記録するＶＲＡＭ（ＶｉｄｅｏＲＡＭ）などのバッファメモリと、グラフィックコントローラから出力される画像データに基づいて、ディスプレイ４１４を表示制御する制御ＩＣなどによって構成される。

カメラ４１３は、車両内外の画像（動画を含む）を撮影し、画像データとして出力する。カメラ４１３で撮影された画像は、画像データとして磁気ディスク４０５あるいは光ディスク４０７に記録することができる。この画像データは、ディスプレイ４１４で出力する他、記録媒体に記録したり、ネットワークを介して送信するなどして、他の情報処理端末で利用することができる。

ディスプレイ４１４には、アイコン、カーソル、メニュー、ウインドウ、あるいは文字や画像などの各種データが表示される。このディスプレイ４１４は、たとえば、ＣＲＴ、ＴＦＴ液晶ディスプレイ、プラズマディスプレイなどを採用することができる。

通信Ｉ／Ｆ４１５は、無線を介してインターネットなどの通信網に接続され、この通信網とＣＰＵ４０１とのインターフェースとして機能する。通信網には、ＬＡＮ、ＷＡＮ、公衆回線網や携帯電話網などがある。

ＧＰＳユニット４１６は、ＧＰＳ衛星からの電波を受信し、車両の現在地点（ナビゲーション装置３００の現在地点）を示す情報を出力する。ＧＰＳユニット４１６の出力情報は、後述する各種センサ４１７の出力値とともに、ＣＰＵ４０１による車両の現在地点の算出に際して利用される。現在地点を示す情報は、たとえば緯度・経度、高度などの、地図データ上の１点を特定する情報である。

各種センサ４１７は、車速センサや加速度センサ、角速度センサなどの、車両の位置や挙動を判断することが可能な情報を出力する。各種センサ４１７の出力値は、ＣＰＵ４０１による現在地点の算出や、速度や方位の変化量の測定に用いられる。

外部接続用Ｉ／Ｆ４１８は、オーディオ装置や車内空調装置など、外部の機器と接続するためのインターフェース類である。外部接続用Ｉ／Ｆ４１８は、たとえば、専用の接続ケーブルのポート、赤外線通信用ポートなどによって構成される。

また、実施の形態にかかるカメラ制御装置１００の構成のうち、取得部１０１は音声Ｉ／Ｆ４０８、マイク４０９によって、判別部１０２、検出部１０５はＣＰＵ４０１によって、制御部１０３はＣＰＵ４０１、映像Ｉ／Ｆ４１２によって、入力部１０４は入力デバイス４１１によって、それぞれの機能を実現する。

（ナビゲーション装置３００による車内撮影処理）
つづいて、ナビゲーション装置３００による車内撮影処理について説明する。前述のように、ナビゲーション装置３００が設置された車両内には、車載用カメラ３１１および車載用マイク３１２が設けられており、ドライブ中の車両内の様子を記録することができる。ここで、車両内の様子を撮影する際に、ただ漫然と車両内を撮影するのみでは、コンテンツとしての魅力に乏しく、記録された映像を視聴する機会は低下してしまう。

このため、ナビゲーション装置３００は、搭乗者による発話の内容に基づいて撮影対象を特定し、車載用カメラ３１１の撮影方向を変更する。具体的には、発言者の発話に特定の搭乗者に対応する言葉が含まれる場合に、その搭乗者に車載用カメラ３１１を向けて撮影する。これにより、話題の中心にいる搭乗者に焦点をあてて車両内の様子を撮影することができ、記録された映像のコンテンツとしての魅力を向上させることができる。

ここで、ナビゲーション装置３００では、撮影対象となる搭乗者を特定するため、あらかじめ搭乗者に関する情報を登録しておき、その登録情報に基づいて車載用カメラ３１１を制御している。具体的には、ナビゲーション装置３００は、車両に搭乗する可能性や予定がある人物（以下、「搭乗予定者」という）に関する情報が累積的に蓄積される蓄積型データベース（搭乗予定者データベース）と、車両に搭乗者が乗降するごとに更新される更新型データベース（今回搭乗者データベース）を作成する。

図５は、ナビゲーション装置が作成するデータベースの内容を模式的に示す説明図である。搭乗予定者データベース５１０には、車両への搭乗者予定者の氏名情報５２１や愛称情報５２２、属性情報５２３、その搭乗予定者に対応するキーワード５２４などのテキスト情報５１１と、その搭乗者の顔画像データ５１２、声紋データ５１３が登録される。

今回搭乗者データベース５３０には、今回搭乗した搭乗者に対応したテキスト情報５４１と、その乗車位置情報５４２とが登録される。後述するように、ナビゲーション装置３００は、搭乗者の画像や声紋から今回搭乗した搭乗者を特定する。そして、搭乗予定者情報データベース５１０に格納されている、その搭乗者に対応する情報（テキスト情報５４１）を今回搭乗者データベース５３０に格納する。

テキスト情報５４１は、搭乗予定者データベース５１０と同様に、氏名情報５５１や愛称情報５５２、属性情報５５３、その搭乗予定者に対応するキーワード５５４などによって構成される。また、乗車位置情報５４２は、今回搭乗した搭乗者の乗車位置、たとえば、「助手席」や「右後部座席」などの情報である。

乗車位置情報５４２に関連して、ナビゲーション装置３００のＲＯＭ４０２には、各座席の位置に対応する車載用カメラ３１１の制御テーブル５６０が記録されている。制御テーブル５００には、各座席を撮影する際に車載用カメラ３１１の撮影方向を変更する変更量が定義されている。具体的には、たとえば、基準となる撮影方向（０°方向）をリアウインドーに対して垂直とすると、運転席は基準となる撮影方向から左４５°方向、助手席は基準となる撮影方向から右４５°方向、右後部座席は基準となる撮影方向から左３０°方向、左後部座席は基準となる撮影方向から右３０°方向となる。

以上のようなデータベースを用いて、ナビゲーション装置３００は、車載用カメラ３１１の撮影方向を制御する。

図６および図７は、ナビゲーション装置の車内撮影処理の手順を示すフローチャートである。図６のフローチャートにおいて、ナビゲーション装置３００は、まず、自装置が搭載された車両の搭乗予定者に、搭乗予定者情報を入力させる（ステップＳ６０１）。搭乗予定者情報は、図５のテキスト情報５１１に対応し、搭乗者の氏名や愛称、属性、キーワードなどの情報である。搭乗者予定者情報の入力は、ナビゲーション装置３００の入力デバイス４１１でおこなう他、各搭乗予定者の自宅のＰＣ（パーソナルコンピュータ）や携帯電話端末などからネットワークを介しておこなうこととしてもよい。

図８は、搭乗者予定者情報の入力画面の一例を示す説明図である。図８は、ナビゲーション装置３００の入力デバイス４１１を用いて搭乗予定者の登録をおこなう場合を例として説明する。図８において、ナビゲーション装置３００のディスプレイ４１４には、搭乗予定者の新規登録画面８００が表示されている。新規登録画面８００には、搭乗予定者の氏名を入力する氏名入力部８１１、搭乗予定者の愛称を入力する愛称入力部８１２、搭乗予定者の属性を入力する属性入力部８１３、搭乗予定者と関連するキーワードを入力するキーワード入力部８１４が表示されている。

新規に登録する搭乗予定者は、これらの入力部に自己の情報を入力する。そして、撮影ボタン８２１を押下して、車載用カメラ３１１を用いて自己の顔画像を撮影する。また、収音ボタン８２２押下して、車載用マイク３１２を用いて自己の音声を収音する。なお、顔画像の撮影と音声の収音は、どちらか一方のみとしてもよい。また、搭乗予定者として登録するのは、人間には限らず、犬や猫などの動物であってもよい。この場合、搭乗予定者情報データベース５１０への登録は、人間が代わりにおこなう。

なお、上述したように、入力画面に新規登録画面を表示して搭乗予定者情報を文字で入力させる他、たとえば、音声対話によって、搭乗予定者情報を発話させて、音声で入力することとしてもよい。この方法によれば、音声データも同時に取得することができる。また、搭乗予定者の顔画像は、車両のドアの開閉などをトリガーとして、自動的に撮影することとしてもよい。

図６説明に戻り、ナビゲーション装置３００は、ステップＳ６０１で入力された搭乗者情報を搭乗予定者データベース５１０に格納する（ステップＳ６０２）。具体的には、搭乗予定者の氏名や愛称、属性などのテキスト情報５１１と、搭乗予定者の顔画像データ５１２および音声から抽出した声紋データ５１３（どちらか一方のみでもよい）とを関連付けて、搭乗予定者データベースに格納する。

つぎに、ナビゲーション装置３００は、車両に搭乗者が乗車するまで待機する（ステップＳ６０３：Ｎｏのループ）。搭乗者が乗車したか否かは、たとえば、車両のエンジンが始動したか否かや、車両のドアが開閉したか否かなどによって判断する。搭乗者が乗車すると（ステップＳ６０３：Ｙｅｓ）、車載用カメラ３１１で車両内全体の画像を撮影し、車載用マイク３１２で各座席に搭乗した搭乗者の音声を収音する（ステップＳ６０４）。具体的には、車載用カメラ３１１の撮影方向を制御して、全座席の搭乗者の顔が位置する範囲を撮影する。また、各座席に設けられている車載用マイク３１２に向かって発話するよう、搭乗者に指示する。なお、画像の撮影と音声の収音は、一方のみをおこなってもよい。

つぎに、ナビゲーション装置３００は、ステップＳ６０４で撮影・収音した画像および音声から、今回搭乗した搭乗者の顔画像および声紋を抽出する（ステップＳ６０５）。そして、ステップＳ６０５で抽出された顔画像および声紋のうち、任意の１つを搭乗予定者データベース５１０と照合し（ステップＳ６０６）、その顔画像および声紋と類似する顔画像データ５１２および声紋データ５１３が蓄積されているか否かを判断する（ステップＳ６０７）。具体的には、今回搭乗した搭乗者の顔画像や声紋の特徴点と、搭乗予定者データベースに格納されている顔画像データ５１２や声紋データ５１３の特徴点とを比較して、類似度が所定値以上の顔画像データ５１２や声紋データ５１３が蓄積されているか否かを判断する。

類似した顔画像データ５１２や声紋データ５１３が蓄積されている場合は（ステップＳ６０７：Ｙｅｓ）、その顔画像データ５１２や声紋データ５１３に対応する搭乗予定者のテキスト情報５１１を、テキスト情報５４１として今回搭乗者データベース５３０に格納するとともに、その搭乗者の搭乗位置情報５４２を今回搭乗者データベースに格納する（ステップＳ６０８）。なお、搭乗予定者データベース５１０に格納されているテキスト情報５１１も、そのまま保持される。

一方、類似した顔画像データ５１２や声紋データ５１３が蓄積されていない場合は（ステップＳ６０７：Ｎｏ）、その搭乗者に対して搭乗者予定者情報を入力させる（ステップＳ６０９）。そして、入力された情報を搭乗予定者情報として搭乗予定者データベース５１０に格納する（ステップＳ６１０）。そして、ステップＳ６０９で入力された搭乗者情報を、テキスト情報５４１として今回搭乗者データベース５３０に格納するとともに、その搭乗者の搭乗位置情報５４２を今回搭乗者データベースに格納する（ステップＳ６１１）。

すべての顔画像および声紋について照合をおこなうまでは（ステップＳ６１２：Ｎｏ）、ステップＳ６０６に戻り、以降の処理を繰り返す。そして、すべての顔画像および声紋について照合をおこなうと（ステップＳ６１２：Ｙｅｓ）、図７のステップＳ６１３に移行する。ここまでの処理によって、搭乗予定者データベース５１０および今回搭乗者データベース５３０が作成される。

なお、走行中に搭乗者の配置が変更する場合もあるため、走行中の所定のタイミング、たとえば、停車後にドアの開閉があった場合など、搭乗者の乗降を検知した際に、今回搭乗者データベース５３０を更新してもよい。この場合、ナビゲーション装置３００は、ステップＳ６０４以降の処理をおこなうことによって、今回搭乗者データベース５３０を更新する。

図７の説明に移り、ナビゲーション装置３００は、車両内の音声を監視し（ステップＳ６１３）、搭乗者の発話に今回搭乗者データベース５３０に格納されたテキスト情報５４１に含まれる語句（特定語句）が含まれているか否かを判断する（ステップＳ６１４）。音声の監視は、一般に用いられている音声認識技術を用いておこなう。具体的には、車載用マイク３１２で収音された音声をテキスト変換し、テキスト情報５４１に含まれる語句が搭乗者の発話に含まれているか否かを判断する。

テキスト情報５４１に含まれる語句が発話された場合は（ステップＳ６１４：Ｙｅｓ）、今回搭乗者データベース５３０を照合し、発話された語句に対応する搭乗者の搭乗位置情報５４２を取得する（ステップＳ６１５）。つづいて、ナビゲーション装置３００は、優先するカメラ動作があるか否かを判断する（ステップＳ６１６）。優先するカメラ動作とは、たとえば、ドライブレコーダ機能や搭乗者認識処理など、車載用カメラ３１１を利用する処理のうち、搭乗者撮影処理より優先しておこなうべき処理である。たとえば、車両の走行速度が所定速度以上の場合や、車両の現在位置が交差点から所定距離以内の場合は、事故が発生する可能性が通常より高いとして、ドライブレコーダ機能を優先して動作させる。優先するカメラ動作の条件設定は、あらかじめ定められていてもよいし、ユーザによって設定できることとしてもよい。また、このときまで、車載用カメラ３１１は、停止（電源オフ）状態であってもよい。

優先するカメラ動作がある場合は（ステップＳ６１６：Ｙｅｓ）、カメラ動作が終了するまで待機する。優先するカメラ動作がない場合は（ステップＳ６１６：Ｎｏ）、ＲＯＭ４０２に記録されている制御テーブル５６０を参照して、発話された語句に対応する搭乗者の搭乗位置に車載用カメラ３１１の撮影方向を変更し（ステップＳ６１７）、搭乗者を撮影する（ステップＳ６１８）。一方、テキスト情報５４１に含まれる語句が発話されない場合は（ステップＳ６１４：Ｎｏ）、ステップＳ６１３に戻り、音声の監視を継続する。

なお、テキスト情報５４１に含まれる語句が発話された場合（ステップＳ６１４参照）に必ず搭乗者を撮影するのではなく、テキスト情報５４１に含まれる語句に加えて、特定のキーワード（撮影指示キーワード）が発話された場合にのみ、撮影をおこなってもよい。撮影指示キーワードとは、たとえば、「撮影」や「撮って」など、直接的に撮影を指示する語句の他、「○○さんを見て」「○○さんに向けて」など、間接的に撮影を指示する語句である。撮影指示キーワードは、あらかじめ決められていてもよいし、ユーザによって登録できるようにしてもよい。

また、たとえば、ステップＳ６１７で搭乗者に撮影方向を向けた後、撮影指示キーワードが含まれる発話がされた時点で、撮影を開始してもよい。この場合、被撮影者を特定するキーワードが発せられた後、所定時間経過するまで撮影指示キーワードが発話されない場合は、タイムアウトとして車載用カメラ３１１の撮影方向を、初期状態に戻すようにしてもよい。

また、逆に、撮影指示キーワードが含まれる発話がされた時点で撮影を開始し、撮影中にテキスト情報５４１に含まれる語句が発話された場合は、発話された語句に対応する搭乗者の方へ向けるようにしてもよい。さらに、撮影指示キーワードが含まれる発話がされた時点では発言者に対して撮影方向を向けておき、その後、テキスト情報５４１に含まれる語句が発話された時点で、発話された語句に対応する搭乗者の方へ撮影方向を向け、撮影を開始するようにしてもよい。

また、撮影対象となる搭乗者は１人には限らず、たとえば、「全員」「男性」など、複数の搭乗者に共通する属性が発話された場合には、該当する搭乗者を順次撮影する。また、発話の中に、テキスト情報５４１に含まれる語句が複数発話された場合も、それぞれの語句に対応する搭乗者を順次撮影する。また、各搭乗者の撮影優先順位を決めておいてもよい。

ナビゲーション装置３００は、撮影終了の指示があった場合や（ステップＳ６１９：Ｙｅｓ）、撮影を開始してから所定時間が経過した場合は（ステップＳ６２０：Ｙｅｓ）、搭乗者の撮影を終了する（ステップＳ６２１）。ここで、撮影終了の指示とは、たとえば、「ストップ」や「終了」など、直接的に撮影の終了を指示する語句の他、特定のキーワードの発話やボタン操作などである。また、撮影終了の指示がなく（ステップＳ６１９：Ｎｏ）、撮影を開始してから所定時間が経過していない間は（ステップＳ６２０：Ｎｏ）、ステップＳ６１８に戻り、搭乗者の撮影を継続する。

ステップＳ６２１で撮影を終了した後は、車載用カメラ３１１の撮影方向を元の位置に戻す（ステップＳ６２２）。車両の走行が終了するまでは（ステップＳ６２３：Ｎｏ）、ステップＳ６１３に戻り、以降の処理を継続する。そして、車両の走行が終了すると（ステップＳ６２３：Ｙｅｓ）、今回搭乗者データベースを消去して（ステップＳ６２４）、本フローチャートの処理を終了する。

なお、上述した説明では、搭乗予定者情報データベース５１０に搭乗予定者情報を蓄積することとしたが、たとえば、搭乗予定者情報データベース５１０を作成せず、毎回の走行ごとに搭乗者情報を入力させて今回搭乗者データベース５３０を生成するのみであってもよい。すなわち、毎回の走行ごとに図８に示したような登録画面を表示させ、そのとき搭乗している搭乗者全員に搭乗者情報を入力させ、搭乗位置情報とともに今回搭乗者データベース５３０に格納する。今回搭乗者データベース５３０は、走行が終了する度に消去されるため、搭乗者は搭乗するごとに情報の入力が必要となるが、ナビゲーション装置３００では、搭乗者情報を保持する必要がない。

また、本実施例では、車両内の様子を撮影することとしたが、たとえば、テレビ会議システムなどでも同様に適用することができる。この場合、本実施例における搭乗予定者は会議出席予定者であり、搭乗位置は会議室における着席位置となる。

以上説明したように、ナビゲーション装置３００によれば、車両内の音声から撮影対象を特定し、撮影対象に向けて車載用カメラ３１１の撮影方向を制御する。これにより、搭乗者の発話の内容を考慮して、車載用カメラ３１１の撮影方向を変更することができる。たとえば、後部座席に座っている子供に声をかけて、車載用カメラ３１１の撮影方向を子供に向け、その映像をディスプレイ４１４に出力させることができる。これにより、運転中においても、後方を振り返ることなく、後部座席の子供の様子を確認することができる。

また、ナビゲーション装置３００は、車載用カメラ３１１によって撮影された映像や車載用マイク３１２から収音された音声から、搭乗者の位置を抽出する。これにより、搭乗者に乗車位置の入力をおこなわせることなく、搭乗者の乗車位置を特定することができる。さらに、搭乗予定者データベースに搭乗予定者情報を蓄積しているため、その都度搭乗者に関する情報を入力させることなく、搭乗者に煩雑な処理をおこなわせることなく撮影をおこなうことができる。

なお、本実施の形態で説明したカメラ制御方法は、あらかじめ用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータで実行することにより実現することができる。このプログラムは、ハードディスク、フレキシブルディスク、ＣＤ−ＲＯＭ、ＭＯ、ＤＶＤなどのコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。またこのプログラムは、インターネットなどのネットワークを介して配布することが可能な伝送媒体であってもよい。

特開２０００−２４４８８５号公報

上述した課題を解決し、目的を達成するため、請求項１の発明にかかるカメラ制御装置は、カメラ周辺の音声を取得する取得手段と、前記取得手段によって取得された音声から、前記カメラによる撮影対象を特定する語句（以下、「特定語句」という）を判別する判別手段と、前記判別手段によって判別された特定語句に基づいて、前記カメラの撮影方向を制御する制御手段と、前記撮影対象の候補に関する情報の入力を受け付ける入力手段と、前記撮影対象の候補の位置を検出する検出手段と、を備え、前記判別手段は、前記入力手段に入力された前記撮影対象の候補に関する情報と略一致する語句を前記特定語句として判別し、前記制御手段は、前記判別手段によって前記撮影対象の候補に関する情報と略一致する語句が判別された場合、前記検出手段によって検出された前記撮影対象の候補の位置に前記カメラの撮影方向を向けることを特徴とする。

また、請求項６の発明にかかるカメラ制御方法は、カメラ周辺の音声を取得する取得工程と、前記取得工程によって取得された音声から、前記カメラによる撮影対象を特定する語句（以下、「特定語句」という）を判別する判別工程と、前記判別工程によって判別された特定語句に基づいて、前記カメラの撮影方向を制御する制御工程と、前記撮影対象の候補に関する情報の入力を受け付ける入力工程と、前記撮影対象の候補の位置を検出する検出工程と、を含み、前記判別工程は、前記入力工程に入力された前記撮影対象の候補に関する情報と略一致する語句を前記特定語句として判別し、前記制御工程は、前記判別工程によって前記撮影対象の候補に関する情報と略一致する語句が判別された場合、前記検出工程によって検出された前記撮影対象の候補の位置に前記カメラの撮影方向を向けることを特徴とする。

また、請求項７の発明にかかるカメラ制御プログラムは、請求項６に記載のカメラ制御方法をコンピュータに実行させることを特徴とする。

また、請求項８の発明にかかる記録媒体は、請求項７に記載のカメラ制御プログラムを記録したコンピュータに読み取り可能なことを特徴とする。

カメラ制御装置の機能的構成を示すブロック図である。カメラ制御装置によるカメラ制御処理の手順を示すフローチャートである。ナビゲーション装置が設置された車両のダッシュボード付近を示す説明図である。ナビゲーション装置のハードウェア構成を示すブロック図である。ナビゲーション装置が作成するデータベースの内容を模式的に示す説明図である。ナビゲーション装置の車内撮影処理の手順を示すフローチャートである。ナビゲーション装置の車内撮影処理の手順を示すフローチャートである。搭乗者予定者情報の入力画面の一例を示す説明図である。

符号の説明

Claims

カメラ周辺の音声を取得する取得手段と、
前記取得手段によって取得された音声から、前記カメラによる撮影対象を特定する語句（以下、「特定語句」という）を判別する判別手段と、
前記判別手段によって判別された特定語句に基づいて、前記カメラの撮影方向を制御する制御手段と、
を備えることを特徴とするカメラ制御装置。
前記撮影対象の候補に関する情報の入力を受け付ける入力手段と、
前記撮影対象の候補の位置を検出する検出手段と、を備え、
前記判別手段は、
前記入力手段に入力された前記撮影対象の候補に関する情報と略一致する語句を前記特定語句として判別し、
前記制御手段は、
前記判別手段によって前記撮影対象の候補に関する情報と略一致する語句が判別された場合、前記検出手段によって検出された前記撮影対象の候補の位置に前記カメラの撮影方向を向けることを特徴とする請求項１に記載のカメラ制御装置。
前記入力手段は、
前記撮影対象の候補に関する情報として、前記撮影対象の候補の名称情報または前記撮影対象の候補の属性情報のうち、少なくともいずれかが入力されることを特徴とする請求項２に記載のカメラ制御装置。
前記入力手段は、
前記撮影対象の候補の画像が入力され、
前記検出手段は、
前記画像と前記カメラによって撮影された映像とを照合して前記撮影対象の候補の位置を検出することを特徴とする請求項２に記載のカメラ制御装置。
前記入力手段は、
前記撮影対象の候補の音声が入力され、
前記検出手段は、
前記音声と前記取得手段によって取得された音声とを照合して前記撮影対象の候補の位置を検出することを特徴とする請求項２に記載のカメラ制御装置。
前記カメラは、
車両内部に設置されており、
前記取得手段は、
前記車両の搭乗者の発話を取得し、
前記判別手段は、
前記撮影対象となる前記搭乗者に関する情報を特定語句として判別し、
前記制御手段は、
前記特定語句によって特定される前記搭乗者の乗車位置に前記カメラの撮影方向を向けることを特徴とする請求項１〜５のいずれか一つに記載のカメラ制御装置。
カメラ周辺の音声を取得する取得工程と、
前記取得工程によって取得された音声から、前記カメラによる撮影対象を特定する語句（以下、特定語句という）を判別する判別工程と、
前記判別工程によって判別された特定語句に基づいて、前記カメラの撮影方向を制御する制御工程と、
を含んだことを特徴とするカメラ制御方法。
請求項７に記載のカメラ制御方法をコンピュータに実行させることを特徴とするカメラ制御プログラム。
請求項８に記載のカメラ制御プログラムを記録したコンピュータに読み取り可能な記録媒体。