WO2019130909A1

WO2019130909A1 - 撮像装置及びその制御方法及び記録媒体

Info

Publication number: WO2019130909A1
Application number: PCT/JP2018/042696
Authority: WO
Inventors: 悠貴辻本; 飯田　吉信
Original assignee: キヤノン株式会社
Priority date: 2017-12-26
Filing date: 2018-11-19
Publication date: 2019-07-04
Also published as: CN111527446B; CN111527446A

Abstract

本発明は、特別な操作を行わずとも、ユーザの意図したタイミングで意図した構図の画像を撮像する。このため、撮像部と、音声を集音する集音部と、集音部によって集音した音声が所定の音圧より大きいか否かを検出する検出部と、集音部によって集音した音声が、撮像部による撮影を指示する音声であることを認識する認識部と、を有する。そして、集音部によって集音した音声が、検出部によって所定の音圧より大きいと検出され、かつ認識部によって撮像部による撮影を指示する音声であると認識された場合、撮像部による撮影を行う。

Description

撮像装置及びその制御方法及び記録媒体

　本発明は、撮像装置及びその制御方法及び記録媒体に関するものである。

　カメラ等の撮像装置による静止画・動画撮影においては、ユーザがファインダー等を通して撮影対象を決定し、撮影状況を自ら確認して撮影画像のフレーミングを調整することによって、画像を撮影するのが通常である。このような撮像装置では、ユーザの操作ミスを検知してユーザに通知したり、外部環境の検知を行い、撮影に適していない場合にユーザに通知したりする機能が備えられている。また、撮影に適した状態になるようにカメラを制御する仕組みが従来から存在している。

　このようなユーザの操作により撮影を実行する撮像装置に対し、ユーザが撮影指示を与えることなく断続的および継続的に撮影を行うライフログカメラが存在する（特許文献１）。

特表２０１６－５３６８６８号公報

　しかしながら、ユーザの身に着けるタイプの、これまでのライフログカメラでは、定期的に自動撮影を行うものであるので、得られる画像はユーザの意図とは無関係なものとなる場合があった。

　本発明は上記問題に鑑みなされたものであり、特別な操作を行わずとも、ユーザの意図したタイミングでユーザの意図した構図の画像を撮像する技術を提供しようとするものである。

　この課題を解決するため、例えば本発明の撮像装置は以下の構成を備える。すなわち、
　撮像手段と、
　音声を集音する集音手段と、
　前記集音手段によって集音した音声が所定の音圧より大きいか否かを検出する検出手段と、
　前記集音手段によって集音した音声が、前記撮像手段による撮影を指示する音声であることを認識する認識手段と、を有し、
　前記集音手段によって集音した音声が、前記検出手段によって前記所定の音圧より大きいと検出され、かつ前記認識手段によって前記撮像手段による撮影を指示する音声であると認識された場合、前記撮像手段による撮影を行うことを特徴とする。

　本発明によれば、特別な操作を行わずとも、ユーザの意図したタイミングで意図した構図の画像を撮像することが可能になる。

　本発明のその他の特徴及び利点は、添付図面を参照とした以下の説明により明らかになるであろう。なお、添付図面においては、同じ若しくは同様の構成には、同じ参照番号を付す。

　添付図面は明細書に含まれ、その一部を構成し、本発明の実施の形態を示し、その記述と共に本発明の原理を説明するために用いられる。
実施形態に係る撮像装置のブロック図。実施形態に係る音声入力部と音声信号処理部の詳細ブロック図。実施形態に係る撮像装置の正面及び上面図。実施形態における撮像装置の使用例を示す図。実施形態における撮像装置の使用例を示す図。実施形態における撮像装置の使用例を示す図。実施形態における撮像装置の使用例を示す図。実施形態に係る撮像装置のパン動作とチルト動作を示す図。実施形態における中央制御部の処理手順を示すフローチャート。実施形態における中央制御部の処理手順を示すフローチャート。図５Ｂにおける音声コマンド処理の詳細を示すフローチャート。実施形態における音声コマンドの意味と音声コマンドとの関係を示す図。実施形態における起動時から動作撮影開始コマンドに至るまでのタイミングチャート。実施形態に係る音方向検知法を説明するための図。実施形態に係る音方向検知法を説明するための図。実施形態に係る音方向検知法を説明するための図。撮像装置の真上に音源が存在する場合の検出法を説明するための図。撮像装置の真上に音源が存在する場合の検出法を説明するための図。第２の実施形態における中央制御部の処理手順を示すフローチャート。第２の実施形態における中央制御部の処理手順を示すフローチャート。第２の実施形態における撮像装置の動作を説明するための図。

　以下図面に従って本発明に係る実施形態を詳細に説明する。

　［第１の実施形態］
　図１は、第１の実施形態に係る撮像装置１のブロック構成図である。撮像装置１は、光学レンズユニットを含み、撮像する撮像方向（光軸方向）が可変の可動撮像部１００、及び、可動撮像部１００の駆動制御および、撮像装置全体を制御する中央制御部（ＣＰＵ）を含む支持部２００で構成される。

　なお、支持部２００は、圧電素子を含む複数の振動体１１～１３が可動撮像部１００の面に対し接触するように設けられている。これらの振動体１１～１３の振動の制御により、可動撮像部１００がパン、チルト動作を行う。なお、パン、チルト動作はサーボモータ等で実現しても構わない。

　可動撮像部１００は、レンズ部１０１、撮像部１０２、レンズアクチュエータ制御部１０３、及び、音声入力部１０４を有する。

　レンズ部１０１は、ズームレンズ、絞り・シャッタ、および、フォーカレンズなどの撮影光学系で構成される。撮像部１０２は、ＣＭＯＳセンサやＣＣＤセンサなどの撮像素子を含み、レンズ部１０１により結像された光学像を光電変換して電気信号を出力する。レンズアクチュエータ制御部１０３は、モータドライバＩＣを含み、レンズ部１０１のズームレンズ、絞り・シャッタ、および、フォーカスレンズ等の各種アクチュエータを駆動する。各種アクチュエータは、後述する支持部２００内の中央制御部２０１より受信した、アクチュエータ駆動指示データに基づいて駆動される。音声入力部１０４はマイクロフォン（以降マイク）を含む音声入力部であり複数のマイク（本実施形態では４つ）で構成されており、音声を電気信号に変換し、さらに電気信号をデジタル信号（音声データ）に変換して出力する。

　一方、支持部２００は、撮像装置１の全体の制御を行うための中央制御部２０１を有する。この中央制御部２０１は、ＣＰＵと、ＣＰＵが実行するプログラムを格納したＲＯＭ、及び、ＣＰＵのワークエリアとして使用されるＲＡＭで構成される。また、支持部２００は、撮像信号処理部２０２、映像信号処理部２０３、音声信号処理部２０４、操作部２０５、記憶部２０６、表示部２０７を有する。更に、支持部２００は、入出力端子部２０８、音声再生部２０９、電源部２１０、電源制御部２１１、位置検出部２１２、回動制御部２１３、無線通信部２１４、並びに、先に説明した振動体１１～１３を有する。

　撮像信号処理部２０２は、可動撮像部１００の撮像部１０２から出力された電気信号を映像信号へ変換する。映像信号処理部２０３は、撮像信号処理部２０２から出力された映像信号を用途に応じて加工する。映像信号の加工は画像切り出し、及び、回転加工による電子防振動作や、被写体（顔）を検出する被写体検出処理も含まれる。

　音声信号処理部２０４は、音声入力部１０４から出力されたデジタル信号に対して音声処理を行う。音声入力部１０４がアナログ信号を出力するマイクであれば、音声信号処理部２０４において、アナログ信号からデジタル信号に変換する構成が含まれても構わない。なお、音声入力部１０４を含めた音声信号処理部２０４の詳細については図２を用いて後述する。

　操作部２０５は、撮像装置１とユーザとの間のユーザインターフェースとして機能するものであり、各種スイッチ、ボタン等で構成される。記憶部２０６は、撮影により得られた映像情報などの種々のデータを記憶する。表示部２０７は、ＬＣＤなどのディスプレイを備え、映像信号処理部２０３から出力された信号に基づいて、必要に応じて画像表示を行う。また、この表示部２０７は、各種メニュー等を表示することで、ユーザインターフェースの一部として機能する。外部入出力端子部２０８は、外部装置との間で通信信号および映像信号を入出力する。音声再生部２０９はスピーカーを含み、音声データを電気信号に変換し、音声を再生する。電源部２１０は、撮像装置の全体（各要素）の駆動に必要な電力供給源であり、本実施形態では充電可能なバッテリであるものとする。

　電源制御部２１１は、撮像装置１の状態に応じて、上記の各構成要素への電源部２１０からの電力の供給／遮断を制御するものである。撮像装置１の状態によっては、不使用の要素が存在する。電源制御部２１１は、中央制御部２０１の制御下で、撮像装置１の状態によって不使用な要素への電力を遮断して、電力消費量を抑制する機能を果たす。なお、電力供給／遮断については、後述する説明から明らかにする。

　位置検出部２１２はジャイロ、加速度センサ、ＧＰＳ等で構成され、撮像装置１の動きを検出する。この位置検出部２１２は、撮像装置１がユーザに身に着ける場合にも対処するためである。回動制御部２１３は、中央制御部２０１からの指示に従って振動体１１～１３を駆動する信号を生成し、出力する。振動体１１～１３は圧電素子で構成され、回動制御部２１３から印加される駆動信号に応じて振動する。振動体１１～１３は、回動駆動部（パン・チルト駆動部）を構成する。この結果、可動撮像部１００は、中央制御部２０１が指示した方向に、パン動作、チルト動作する。

　無線部２１４はＷｉＦｉ（登録商標）やＢＬＥ（Bluetooth（登録商標） Low Energy）などの無線規格に準拠して画僧データ等のデータ送信を行う。

　次に、本実施形態における音声入力部１０４および音声信号処理部２０４の構成と、音方向検出処理を図２を参照して説明する。同図は、音声入力部１０４および音声信号処理部２０４の構成と、音声信号処理２０４、中央制御部２０１及び電源制御部２１１の接続関係を示している。

　音声入力部１０４は、４つの無指向性のマイク（マイク１０４ａ、マイク１０４ｂ、マイク１０４ｃ、マイク１０４ｄ）で構成される。各マイクはＡ／Ｄコンバータを内蔵しており、予め設定されたサンプリングレート（コマンド検出、方向検出処理：１６ｋＨｚ、動画録音：４８ｋＨｚ）で音声を集音し、内蔵のＡ／Ｄコンバータにより集音した音声信号をデジタルの音声データとして出力する。なお、本実施形態では音声入力部１０４は４つのデジタルマイクで構成されるものとしているが、アナログ出力のマイクで構成されても構わない。アナログマイクの場合、音声信号処理部２０４内に、対応するＡ／Ｄコンバータが設ければよい。また、本実施形態におけるマイクの数は４つとするが、３つ以上であればよい。

　マイク１０４ａは、撮像装置１の電源がＯＮの場合には無条件に電力が供給され、集音可能状態となる。一方、他のマイク１０４ｂ、マイク１０４ｃ、マイク１０４ｄは、中央制御部２０１の制御下での電源制御部２１１による電力供給／遮断の対象となっており、撮像装置１の電源がＯＮとなった初期状態では、電力は遮断されている。

　音声信号処理部２０４は、音圧レベル検出部２０４１、音声用メモリ２０４２、音声コマンド認識部２０４３、音方向検出部２０４４、動画用音声処理部２０４５、及び、コマンドメモリ２０４６で構成される。

　音圧レベル検出部２０４１は、マイク１０４ａから出力された音声データの音圧レベルが予め設定された閾値を超えるとき、音声検出を表す信号を電源制御部２１１及び音声用メモリ２０４２に供給する。

　電源制御部２１１は、音圧レベル検出部２０４１から音声検出を表す信号を受信した場合、音声コマンド認識部２０４３への電力供給を行う。

　音声用メモリ２０４２は、中央制御部２０１の制御下での電源制御部２１１による電力供給／遮断の対象の１つである。また、この音声用メモリ２０４２は、マイク１０４ａから出力された音声データを一時的に記憶するバッファメモリである。マイク１０４ａによるサンプリングレートが１６ｋＨｚであり、１サンプリングにつき２バイト（１６ビット）の音声データを出力し、最長の音声コマンドが仮に５秒であった場合、音声用メモリ２０４２は、約１６０キロバイト（≒５×１６×１０００×２）の容量を有する。また、音声用メモリ２０４２は、マイク１０４ａからの音声データで満たされた場合、古い音声データが新たな音声データで上書きされる。この結果、音声用メモリ２０４２は、直近の所定期間（上記例では約５秒）の音声データが保持される。また、音声用メモリ２０４２は、音圧レベル検出部２０４１から音声検出を示す信号を受信したことをトリガにして、マイク１０４ａからの音声データをサンプリングデータ領域に格納していく。

　コマンドメモリ２０４６は不揮発性のメモリで構成され、本撮像装置が認識する音声コマンドに係る情報を予め記憶（登録）している。詳細は後述するが、コマンドメモリ２０４６に格納される音声コマンドの種類は例えば図８に示す通りであり、「起動コマンド」をはじめとして、複数種類のコマンドの情報がコマンドメモリ２０４６に格納されている。

　音声コマンド認識部２０４３は、中央制御部２０１の制御下での電源制御部２１１による電力供給／遮断の対象の１つである。なお、音声認識そのものは周知技術であるので、ここでの説明は省略する。この音声コマンド認識部２０４３は、コマンドメモリ２０４６を参照し、音声用メモリ２０４２に格納された音声データの認識処理を行う。そして、音声コマンド認識部２０４３は、マイク１０４ａにより集音した音声データが、音声コマンドであるか否か、並びに、コマンドメモリ２０４６に記憶されている音声コマンドに一致するのかの判定を行う。そして、音声コマンド認識部２０４３は、コマンドメモリ２０４６に記憶されたいずれかの音声コマンドに一致する音声データを検出したとき、いずれのコマンドであるかを示す情報、並びに、音声用メモリ２０４２内の、その音声コマンドを決定づけた最初と最後の音声データのアドレス（或いは音声コマンドを受け付けたタイミング）を中央制御部２０１に供給する。

　音方向検出部２０４４は、中央制御部２０１の制御下での電源制御部２１１による電力供給／遮断の対象の１つである。また、音方向検出部２０４４は、４つのマイク１０４ａ乃至１０４ｄからの音声データに基づき、周期的に音源の存在する方向の検出処理を行う。音方向検出部２０４４は、内部にバッファメモリ２０４４ａを有し、検出した音源方向を表す情報をバッファメモリ２０４４ａに格納する。なお、音方向検出部２０４４による音方向検出処理を行う周期（例えば１６ｋＨｚ）は、マイク１０４ａのサンプリング周期に対して十分に長くて構わない。ただし、このバッファメモリ２０４４ａは、音声用メモリ２０４２に格納可能な音声データの期間と同じ期間分の音方向情報を記憶するための容量を有するものとする。

　動画用音声処理部２０４５は、中央制御部２０１の制御下での電源制御部２１１による電力供給／遮断の対象の１つである。動画用音声処理部２０４５は、４つのマイクのうち、マイク１０３ａとマイク１０４ｂの２つの音声データをステレオ音声データとして入力し、各種フィルタ処理、ウィンドカット、ステレオ感強調、駆動音除去、ＡＬＣ（Ａｕｔｏ　Ｌｅｖｅｌ　Ｃｏｎｔｒｏｌ）、圧縮処理といった動画音声用の音声処理を行う。詳細は後述する説明から明らかになるが、本実施形態ではマイク１０４ａはステレオマイクのＬチャネル用マイク、マイク１０４ｂはＲチャネル用マイクとして機能する。

　なお、図２では消費電力や回路構成を考慮し、音声入力部１０４の各マイクと音声信号処理部２０４に含まれる各ブロックとの接続は、４つのマイクにおける必要最低限の接続を示す。しかし、電力および回路構成の許す限り、複数のマイクを音声信号処理部２０４に含まれる各ブロックで共有して使用しても構わない。また、本実施形態ではマイク１０４ａを基準のマイクとして接続しているが、どのマイクを基準としても構わない。

　図３Ａ～３Ｅを参照して、撮像装置１の外観図および使用例を説明する。図３Ａは、本実施形態に係る撮像装置１の外観の上面及び正面図を示している。撮像装置１の可動撮像部１００は、略半球体形であり、底面と平行な面を水平面とし、この面を０度したとき、－２０度から垂直方向を示す９０度の範囲の切欠き窓を有し、図示矢印Ａが示す水平面にて３６０度に亘って回動可能な第１の筐体１５０を有する。また、可動撮像部１００は、この切欠き窓に沿って図示の矢印Ｂが示す水平から垂直の範囲内で、レンズ部１０１及び撮像部１０２と一緒に回動可能な第２の筐体１５１を有する。ここで、第１の筐体１５０の矢印Ａの回動動作はパン動作、第２の筐体１５１の矢印Ｂの回動動作はチルト動作に対応し、これらは振動体１１～１３の駆動によって実現している。なお、本実施形態における撮像装置のチルト可能な範囲は、上記の通り、-２０度から＋９０度の範囲であるものとする。

　マイク１０４ａ、１０４ｂは、第１の筐体１５０の切欠き窓を挟む前面側の位置に配置されている。また、マイク１０４ｃ、１０４ｄは、第１の筐体１５０の後方側に設けられている。図３Ａに示すように、第２筐体１５１を固定にした状態で、第１筐体１５０を矢印Ａに沿ってどの方向にパン動作させたとしても、レンズ部１０１及び撮像部１０２に対する、マイク１０４ａ、１０４ｂの相対的な位置は変わらない。つまり、撮像部１０２の撮像方向に対して左側にマイク１０４ａが常に位置し、右側にマイク１０４ｂが常に位置する。また、マイク１０４ａおよびマイク１０４ｂは撮像部１０２の撮像方向に対して対称に配置されるので、マイク１０４ａはステレオマイクのＬチャネルへの入力を担い、マイク１０４ｂはステレオマイクのＲチャネルへの入力を担う。それ故、撮像部１０２による撮像して得た画像が表す空間と、マイク１０４ａ，１０４ｂによる取得した音場は一定の関係を維持できる。

　なお、本実施形態における４つのマイク１０４ａ、１０４ｂ、１０４ｃ、１０３ｄは、撮像装置１の上面から見て、図３Ａに示すように長方形の各頂点の位置に配置されている。また、これら４つのマイクは、図３Ａにおける１つの水平面上に位置するものとするが、多少のずれがあっても構わない。

　マイク１０４ａとマイク１０４ｂとの距離は、マイク１０４ａとマイク１０４ｃとの距離よりも大きい。なお、隣りあうマイク間の距離は、１０ｍｍ～３０ｍｍ程度が望ましい。また、本実施形態ではマイクの数を４つとしているが、直線上に並ばないという条件を満たせば、マイクの数は３つ以上であれば構わない。また、図３Ａのマイク１０４ａ乃至１０４ｄの配置位置は一例であって、これらの配置方法は、メカ的制約やデザイン制約等の理由によって適宜変更しても構わない。

　図３Ｂ～３Ｅは、本実施形態における撮像装置１の利用形態を示している。図３Ｂは、机などに撮像装置１が載置される場合で、撮影者自身やその周囲の被写体の撮影を目的とした利用形態を説明するための図である。図３Ｃは、撮像装置１を撮影者の首にぶら下げる例であり、主に、撮影者の行動の前方の撮影を目的とした利用形態を説明するための図である。図３Ｄは、撮像装置１を撮影者の肩に固定した使用例であり、撮影者の周囲の前後、及び、右側の撮影を目的とした利用形態を説明するための図である。そして、図３Ｅは、撮像装置１をユーザが持つ棒の端に固定する使用例であり、ユーザが望む所望の撮影位置（高所や手が届かない位置）に撮像装置１を移動させることで、撮影を行うことを目的とした利用形態を説明するための図である。

　図４を参照して、本実施形態の撮像装置１のパン動作、およびチルト動作を更に詳しく説明する。ここでは図３Ｂのように据え置いた使用例で前提として記載するが、そのほかの使用例においても同様である。

　図４の４ａはレンズ部１０１が水平を向いている状態を示している。図４の４ａを初期状態とし、第１筐体１５０を、上方向から見て反時計回りに９０度パン動作させると、図４の４ｂのようになる。一方、図４の４ａの初期状態から、第２筐体１５１の９０度チルト動作をおこなうと、図４の４ｃの様になる。第１筐体１５０、第２筐体１５１の回動は、先に説明したように、回動制御部２１３により駆動される振動体１１～１３による振動にて実現している。

　次に、本実施形態における撮像装置１の中央制御部２０１の処理手順を図５Ａ，５Ｂのフローチャートに従って説明する。同図に係る処理は、撮像装置１のメイン電源がＯＮされた場合の中央制御部２０１の処理を示している。

　中央制御部２０１は、ステップＳ１０１にて、撮像装置１の初期化処理を行う。この初期化処理にて、中央制御部２０１は、現在の可動撮像部１００の撮像部１０２の撮像方向における、水平面内の方向成分をパン動作の基準角度（０度）として決定する。

　これ以降、可動撮像部１００のパン動作を行った後の撮像方向のうち水平面の成分は、この基準角度からの相対的な角度で表されるものとする。また、音方向検出部２０４４が検出する音源方向のうちの水平面の成分も、上記基準角度に対する相対的な角度で表されるものとする。また、詳細は後述するが、音方向検出部２０４４は、撮像装置１の真上の方向（パン動作の回転軸の軸方向）に音源があるか否かの判定も行う。

　なお、この段階で、音声用メモリ２０４２、音方向検出部２０４４、動画用音声処理部２０４５、並び、マイク１０４ｂ乃至１０４ｄへの電力は遮断されている。

　初期化処理を終えると中央制御部２０１は、ステップＳ１０２にて、電源制御部２１１を制御して、音圧レベル検出部２０４１、マイク１０４ａへの電力の供給を開始する。この結果、音圧レベル検出部２０４１は、マイク１０４ａから出力された音声データに基づいて、この音声データに変換される前の音声の音圧レベルの検出処理を実行し、この音声が予め設定された閾値を超える音圧レベルであると判定した場合にその旨を中央制御部２０１に通知する。なお、この閾値は、例えば６０dB SPL（Sound Pressure Level）とするが、撮像装置１が環境等に応じて変更してもよいし、必要な周波数帯域だけに絞るようにしてもよい。

　中央制御部２０１は、ステップＳ１０３にて、音圧レベル検出部２０４１による閾値を超える音圧レベルである音声が検出されるのを待つ。閾値を超える音圧レベルである音声が検出されると、ステップＳ１０４にて、音声メモリ２０４２はマイク１０４ａからの音声データの受信、格納処理を開始する。

　また、ステップＳ１０５にて、中央制御部２０１は、電源制御部２１１を制御し、音声コマンド認識部２０４３への電力供給を開始する。この結果、音声コマンド認識部２０４３は、コマンドメモリ２０４６を参照した音声用メモリ２０４２に格納されていく音声データの認識処理を開始する。そして、音声コマンド認識部２０４３は、音声用メモリ２０４２に格納された音声データの認識処理を行い、コマンドメモリ２０４６内のいずれかの音声コマンドと一致すると音声コマンドを認識した場合、その認識された音声コマンドを特定する情報と、音声用メモリ２０４２内の、認識した音声コマンドを決定づけた最初と最後の音声データのアドレス（或いは音声コマンドを受け付けたタイミング）情報とを含む情報を中央制御部２０１に通知する。

　ステップＳ１０６にて、中央制御部２０１は、音声コマンド認識部２０４３から、音声コマンドが認識されたことを示す情報を受信したか否かを判定する。否の場合、中央制御部２０１は、処理をステップＳ１０８に進め、音声コマンド認識部２０４３を起動させてからの経過時間が、予め設定された閾値を超えたか否かを判定する。そして、経過時間が閾値以内である限り、中央制御部２０１は、音声コマンド認識部２０４３による音声コマンドが認識されるのを待つ。そして、閾値が示す時間が経過しても、音声コマンド認識部２０４３が音声コマンドを認識しなかった場合、中央制御部２０１は処理をステップＳ１０９に進める。このステップＳ１０９にて、中央制御部２０１は、電源制御部２１１を制御して音声コマンド認識部２０４３への電力を遮断する。そして、中央制御部２０１は、処理をステップＳ１０３に戻す。

　一方、中央制御部２０１が、音声コマンド認識部２０４３から、音声コマンドが認識されたことを示す情報を受信した場合、処理をステップＳ１０７に進める。このステップＳ１０７にて、中央制御部２０１は、認識された音声コマンドが、図８に示される起動コマンドに対応するか否かを判定する。そして、認識された音声コマンドが起動コマンド以外のコマンドであると判定した場合、中央制御部２０１は処理をステップＳ１０８に進める。また、認識された音声コマンドが起動コマンドであった場合、中央制御部２０１は処理をステップＳ１０７からステップＳ１１０に進める。

　ステップＳ１１０にて、中央制御部２０１は、電源制御部２１１を制御し、音方向検出部２０４４、マイク１０４ｂ乃至１０４ｄへの電力供給を開始する。この結果、音方向検出部２０４４は、４つのマイク１０４ａ乃至１０４ｄからの同時刻の音声データに基づく、音源方向の検出処理を開始する。音源の方向の検出処理は、所定周期で行われる。そして、音方向検出部２０４４は、検出した音方向を示す音方向情報を、内部のバッファメモリ２０４４ａに格納していく。このとき、音方向検出部２０４４は、音方向情報を決定に利用した音声データのタイミングが、音声メモリ２０４２に格納された音声データのどのタイミングであったのかを対応付くように、バッファメモリ２０４４ａに格納する。典型的には、バッファメモリ２０４４ａに格納するのは、音方向と、音声メモリ２０４２内の音声データのアドレスとすればよい。なお、音方向情報には、水平面における、先に説明した基準角度に対する音源の方向との差を表す角度とする。また、詳細は後述するが、音源が撮像装置１の真上に位置する場合には、真上方向にあることを示す情報が音方向情報にセットされるものとする。

　ステップＳ１１１にて、中央制御部２０１は、電源制御部２１１を制御し、撮像部１０２、及び、レンズアクチュエータ制御部１０３への電力供給を開始する。この結果、可動撮像部１００は、撮像装置としての機能し始める。

　次に、ステップＳ１５１にて、中央制御部２０１は、音声コマンド認識部２０４３から、音声コマンドが認識されたことを示す情報を受信したか否かを判定する。否の場合、中央制御部２０１は、処理をステップＳ１５２に進め、現在、ユーザからの指示に従った実行中のジョブがあるか否かを判定する。詳細は図６のフローチャートの説明から明らかになるが、動画撮影記録や追尾処理等がジョブに相当する。ここでは、そのような実行中のジョブは存在しないものとして説明を続ける。

　ステップＳ１５３にて、前回の音声コマンドを認識してからの経過時間が、予め設定された閾値を超えるか否かを判定する。否の場合、中央制御部２０１は処理をステップＳ１５１に戻し、音声コマンドの認識を待つ。そして、実行中のジョブが無く、且つ、前回の音声コマンドを認識してから閾値を超える時間が経過しても、更なる音声コマンドが認識されない場合、中央制御部２０１は処理をステップＳ１５４に進める。このステップＳ１５４にて、中央制御部２０１は、電源制御部２１１を制御し、撮像部１０２、レンズアクチュエータ１０３への電力を遮断する。そして、中央制御部２０１は、ステップＳ１５５にて、電源制御部２１１を制御し、音方向検出部２０４４への電力も遮断し、処理をステップＳ１０６に戻す。

　さて、中央制御部２０１が音声コマンド認識部２０４３から音声コマンドが認識されたことを示す情報を受信したとする。この場合、音声コマンド認識部２０４３は、処理をステップＳ１５１からステップＳ１５６に進める。

　本実施形態における中央制御部２０１は、認識した音声コマンドに応じたジョブを実行するに先立って、音声コマンドの発生した人物を、可動撮像部１００の撮像部１０２の視野内に入れる処理を行う。そして、撮像部１０２の視野内に人物が入っている状態で、認識した音声コマンドに基づくジョブを実行する。

　上記を実現するため、中央制御部２０１は、ステップＳ１５６にて、音声コマンド認識部２０４３で認識された音声コマンドに同期する音方向情報を、音方向検出部２０４４のバッファメモリ２０４４ａから取得する。音声コマンド認識部２０４３は、音声コマンドを認識したとき、音声用メモリ２０４２内の音声コマンドを表す先頭と終端を表す２つのアドレスを中央制御部２０１に通知する。そこで、中央制御部２０１は、この２つのアドレスが示す期間内で検出した音方向情報をバッファメモリ２０４４ａから取得する。２つのアドレスが示す期間内に複数の音方向情報が存在することもある。その場合、中央制御部２０１はその中の時間的に最も後の音方向情報をバッファメモリ２０４４ａから取得する。時間的に後の音方向情報の方が、その音声コマンドを発した人物の現在の位置を表している蓋然性が高いからである。

　ステップＳ１５７にて、中央制御部２０１は、取得した音情報が表す音源の方向が、撮像装置の真上の方向であるか否かを判定する。なお、音方向が撮像装置の真上であるか否かの判定についての詳細は項後述する。

　音源が撮像装置１の真上の方向にある場合、中央制御部２０１は処理をステップＳ１５８に進める。このステップＳ１５８にて、中央制御部２０１は、回動制御部２１３を制御し、レンズ部１０１及び撮像部１０２の撮像方向を図４の４ｃに示す真上方向になるように、可動撮像部１００の第２筐体１５１を回動させる。撮像部１０２の撮像方向が真上方向になった場合、中央制御部２０１は、ステップＳ１５９にて、映像信号処理部２０３から撮像画像を受信し、撮像画像内に音声発生原となるオブジェクト（人物の顔）が存在するか否かを判定する。否の場合、中央制御部２０１は処理をステップＳ１５１に戻す。一方、撮像画像内にオブジェクトが存在する場合、中央制御部２０１は処理をステップＳ１６４に進め、既に認識した音声コマンドに対応するジョブを実行する。なお、このステップＳ１６４の詳細は図６を用いて後述する。

　ステップＳ１５７にて、中央制御部２０１が、音情報が示す方向が真上以外の方向であると判定した場合、処理をステップＳ１６０に進める。このステップＳ１６０にて、中央制御部２０１は、回動制御部２１３を制御して、可動撮像部１００のパン動作を行い、現在の撮像部１０２の水平面の角度を、音情報が示す水平面の角度に一致させる。そして、ステップＳ１６１にて、中央制御部２０１は、映像信号処理部２０３から撮像画像を受信し、撮像画像内に音声発生原となるオブジェクト（顔）が存在するか否かを判定する。否の場合、中央制御部２０１は処理をステップＳ１６２に進め、回動制御部２１３を制御して、目標とするオブジェクトに向かって可動撮像部１００のチルト動作を行う。そして、ステップＳ１６３にて、中央制御部２０１は、撮像部１０２の撮像方向のチルトの向きの角度が、チルト動作の上限（本実施形態では水平方向に対して９０度）に到達したか否かを判定する。否の場合には、中央制御部２０１は処理をステップＳ１６１に戻す。こうして、中央制御部２０１は、チルト動作を行いながら、映像信号処理部２０３からの撮像画像内に音声発生原となるオブジェクト（顔）が存在するか否かを判定していく。そして、撮像部１０２の撮像方向のチルトの向きの角度がチルト動作の上限に到達してもオブジェクトが検出されない場合、中央制御部２０１は処理をステップＳ１６３からステップＳ１５１に戻す。一方、撮像画像内にオブジェクトが存在した場合、中央制御部２０１は処理をステップＳ１６４に進め、既に認識した音声コマンドに対応するジョブを実行する。

　次に、図６のフローチャート、並びに、図７に示す音声コマンドテーブルに基づいて、ステップＳ１６４の処理の詳細を説明する。図７の音声コマンドテーブルに示される“Hi, Camera"等の音声コマンドに対応する音声パターンデータはコマンドメモリ２０４６に格納されるものである。なお、図７には代表的な音声コマンドを示す。なお音声コマンドはこれに限られない。また、以下の説明における音声コマンドは、図５ＢのステップＳ１５１のタイミングで検出された音声コマンドである点に注意されたい。

　まず、ステップＳ２０１にて、中央制御部２０１は、音声コマンドが、起動コマンドであるか否かを判定する。

　この起動コマンドは、撮像装置１に対し、撮像可能な状態に遷移させるための音声コマンドである。この起動コマンドは、図５ＡのステップＳ１０７で判定されるコマンドであり、撮像に係るジョブを実行させるためのコマンドではない。よって、中央制御部２０１は、認識した音声コマンドが起動コマンドである場合には、そのコマンドについては無視し、処理をステップＳ１５１に戻す。

　ステップＳ２０２にて、中央制御部２０１は、音声コマンドが、停止コマンドであるか否かを判定する。この停止コマンドは、一連の撮像可の状態から、起動コマンドの入力を待つ状態に遷移させるコマンドである。よって、中央制御部２０１は、認識した音声コマンドが停止コマンドである場合には、処理をステップＳ２１１に進める。ステップＳ２１１にて、中央制御部２０１は、電源制御部２１１を制御し、既に起動している撮像部１０２、音方向検出部２０４４、音声コマンド認識部２０４３、動画用音声処理部２０４５、マイク１０４ｂ乃至１０４ｄ等への電力を遮断し、これらを停止する。そして、中央制御部２０１は、処理を起動時のステップＳ１０３に戻す。

　ステップＳ２０３にて、中央制御部２０１は、音声コマンドが静止画撮影コマンドであるか否かを判定する。この静止画撮影コマンドは、撮像装置１に対して１枚の静止画の撮影・記録ジョブの実行の要求を行うコマンドである。よって、中央制御部２０１は、音声コマンドが静止画撮影コマンドであると判定した場合、処理をステップＳ２１２に進める。ステップＳ２１２にて、中央制御部２０１は、撮像部１０２で撮像した１枚の静止画像データを例えばＪＰＥＧファイルとして、記憶部２０６に記録する。なお、この静止画撮影コマンドのジョブが、１枚の静止画撮影記録により完結するので、先に説明した図５ＢのステップＳ１５２で判定する対象のジョブとはならない。

　ステップＳ２０４にて、中央制御部２０１は、音声コマンドが動画撮影コマンドであるか否かを判定する。動画撮影コマンドは、撮像装置１に対して動画像の撮像と記録を要求するコマンドである。中央制御部２０１は、音声コマンドが動画撮影コマンドであると判定した場合、処理をステップＳ２１３に進める。このステップＳ２１３にて、中央制御部２０１は、撮像部１０２を用いて動画像の撮影と記録を開始し、処理をステップＳ１５１に戻す。本実施形態では、撮像した動画像は記憶部２０６に格納されるものとするが、外部入出力端子部２０８を介してネットワーク上のファイルサーバに送信しても構わない。動画撮影コマンドは、動画像の撮像、記録を継続させるコマンドであるので、このコマンドによるジョブは、先に説明したステップＳ１５２で判定する対象のジョブとなる。

　ステップＳ２０５にて、中央制御部２０１は、音声コマンドが動画撮影終了コマンドであるか否かを判定する。中央制御部２０１は、音声コマンドが動画撮影終了コマンドであり、尚且つ、現に動画像の撮像・記録中である場合には、その記録（ジョブ）を終了する。そして、中央制御部２０１は処理をステップＳ１５１に戻す。

　ステップＳ２０６にて、中央制御部２０１は、音声コマンドが追尾コマンドであるか否かを判定する。追尾コマンドは、撮像装置１に対して、撮像部１０２の撮像方向に、ユーザを継続して位置させることを要求するコマンドである。中央制御部２０１は、音声コマンドが追尾コマンドであると判定した場合、処理をステップＳ２１４に進める。そして、ステップＳ２１４にて、中央制御部２０１は、映像信号処理部２０３で得られた映像の中心位置にオブジェクトが位置し続けるように、回動制御部２１３の制御を開始する。そして、中央制御部２０１は処理をステップＳ１５１に戻す。この結果、可動撮像部１００がパン動作、或いはチルト動作を行い、移動するユーザを追尾する。ただし、ユーザを追尾するものの、撮像した画像の記録は行わない。また、追尾している間は、先に説明した図５ＢのステップＳ１５２で判定する対象のジョブとなる。そして、追尾終了コマンドを受信して初めて、中央制御部２０１はこの動画像の撮影記録を終了する。なお、追尾中に、例えば静止画撮影コマンドや動画撮影コマンドのジョブを実行しても構わない。

　ステップＳ２０７にて、中央制御部２０１は、音声コマンドが追尾終了コマンドであるか否かを判定する。中央制御部２０１は、音声コマンドが追尾終了コマンドであり、尚且つ、現に追尾中である場合には、その記録（ジョブ）を終了する。そして、中央制御部２０１は処理をステップＳ１５１に戻す。

　ステップＳ２０８にて、中央制御部２０１は、音声コマンドが自動動画撮影コマンドであるか否かを判定する。中央制御部２０１は、音声コマンドが自動動画撮影コマンドであると判定した場合、処理をステップＳ２１７に進める。このステップＳ２１７にて、中央制御部２０１は、撮像部１０２による動画像の撮影と記録を開始し、処理をステップＳ１５１に戻す。この自動動画撮影コマンドにより実行されるジョブと、先に説明した動画撮影コマンドにより実行されるジョブとの違いは、発声がある度に、その発声の音源の方向にレンズ部１０１の撮像方向を向けつつ動画像を撮影、記録を行う点である。例えば、複数の話者が存在するミーティングの環境下で、発言があるたびにその発言者をレンズ部１０１の画角内に収めるために、パン動作、およびチルト動作を行いながら、動画像を記録する。なお、この場合、この自動動画撮影コマンドのジョブを実行中はジョブを終了させる音声コマンドを受け付けない。このジョブの終了は、操作部２０５に設けられた所定のスイッチ操作によって終了するものとする。また、このジョブを実行中、中央制御部２０１は、音声コマンド認識部２０４３を停止させる。そして、中央制御部２０１は、音圧レベル検出部２０４１により、閾値を超える音圧レベルを検出したタイミングでの、音方向検出部２０４４が検出した音方向情報を参照して、可動撮像部１０４のパン動作、チルト動作を行う。

　なお、図６には示していないが、認識した音声コマンドが拡大コマンドである場合、中央制御部２０１はレンズアクチュエータ制御部１０３を制御し、予め設定された値だけ、現在のズーム倍率を増加させる。また、認識した音声コマンドが拡大コマンドである場合、中央制御部２０１はレンズアクチュエータ制御部１０３を制御し、予め設定された値だけ、現在のズーム倍率を減少させる。なお、レンズ部１０１が既にテレ端、或いは、ワイド端にあるとき、それを超えた拡大率、縮小率は設定できないので、このような音声コマンドがあった場合、中央制御部２０１はその音声コマンドを無視する。

　以上であるが、上記以外の音声コマンドについては、ステップＳ２０７以降で実行されるが、ここでの説明は省略する。

　ここで、本実施形態における撮像装置１におけるメイン電源ＯＮからの処理のシーケンスの一例を図８に示すタイミングチャートに従って説明する。

　撮像装置１のメイン電源がＯＮになると、音圧レベル検出部２０４１はマイク１０１４ａからの音声データの音圧レベルの検出処理を開始する。タイミングＴ６０１にて、ユーザは、起動コマンド“Hi,Camera”の発声を開始したとする。この結果、音圧レベル検出部２０４１が閾値を超える音圧を検出する。そして、これがトリガになって、タイミングＴ６０２にて、音声用メモリ２０４２がマイク１０４ａからの音声データの格納を開始し、音声コマンド認識部２０４３が音声コマンドの認識を開始する。ユーザが起動コマンド“Hi,Camera”の発声を終えると、タイミングＴ６０３にて、音声コマンド認識部２０４３がその音声コマンドを認識し、且つ、認識した音声コマンドが起動コマンドであることを特定する。

　中央制御部２０１は、この起動コマンドが認識されたことをトリガにして、タイミングＴ６０３にて音方向検出部２０４４に電力供給を開始する。また、中央制御部２０１は、タイミングＴ６０４にて撮像部１０２への電力供給も開始する。

　ユーザは、タイミングＴ６０６にて、例えば“Movie start”の発声を開始したとする。この場合、発生の開始のタイミングの音声データは、タイミングＴ６０７から順に音声用メモリ２０４２に格納されていく。そして、タイミングＴ６０８にて、音声コマンド認識部２０４３が、音声データを“Movie start”を表す音声コマンドとして認識する。音声コマンド認識部２０４３は、音声用メモリ２０４２内の“Movie start”を表す音声データの先頭と終端のアドレスと、認識結果を中央制御部２０１に通知する。中央制御部２０１は、受信した先頭と終端のアドレスが表す範囲を有効範囲として決定する。そして、中央制御部２０１は、音方向検出部２０４４のバッファ２０４４ａ内の、有効範囲内から、最新の音方向情報を抽出し、タイミングＴ６０９にて、その抽出した情報に基づいて、駆動制御部２１３を制御して、可動撮像部１００のパン動作、チルト動作を開始する。

　可動撮像部１００のパン動作、チルト動作中に、タイミングＴ６１２にて、撮像信号処理部２０２が、撮像部１０２を用いて生成された画像に被写体（オブジェクト；顔）を検出した場合、中央制御部２０１はパン動作、チルト動作を停止する（タイミングＴ６１３）。また、タイミングＴ６１４にて、中央制御部２０１は、動画用音声処理部２０４５に電力を供給して、マイク１０４ａ、及び、１０４ｂによるステレオ音声の集音状態にする。そして、中央制御部２０１は、タイミングＴ６１５にて、音声付動画像の撮像と記録を開始する。

　次に、本実施形態における音方向検出部２０４４による音源方向の検出処理を説明する。この処理は、図５ＡのステップＳ１１０以降、周期的に、且つ、継続的に行われるものである。

　まず、図９Ａを用いて、マイク１０４ａとマイク１０４ｂの２つのマイクを用いた簡易の音方向検知を説明する。同図は、マイク１０４ａとマイク１０４ｂが平面上（パン動作の回転軸に垂直な平面上）に配置されているとする。マイク１０４ａとマイク１０４ｂの距離をｄ［ａ‐ｂ］と表す。距離ｄ［ａ‐ｂ］に対して、撮像装置１と音源間の距離は十分に大きいと仮定する。この場合、マイク１０４ａとマイク１０４ｂの音声を比較することによって、両者間の音声の遅延時間を特定することができる。

　到達遅延時間に音速（空気中は約３４０ｍ／ｓ）を乗じることで、距離Ｉ［ａ‐ｂ］を特定することができる。その結果、次式で音源方向角度θ［ａ‐ｂ］を特定することができる。
θ［ａ‐ｂ］＝ａｃｏｓ（Ｉ［ａ‐ｂ］／ｄ［ａ‐ｂ］）
　しかしながら、２つのマイクで求めた音方向は、求めた音源方向θ［ａ‐ｂ］とθ［ａ‐ｂ］’（図９Ａ）との区別ができない。つまり、２つの方向のいずれであるのかまでは特定できない。

　そこで、本実施形態における音源の方向の検出方法を以下、図９Ｂ，９Ｃを用いて説明する。具体的には、２つのマイクで推定できる音源方向は２つあるので、それら２つの方向を仮方向として扱う。そして、更なる２つのマイクで音源の方向を求め、仮方向を２つ求める。そして、これらに共通している方向が、求める音源の方向として決定する。なお、図９Ｂ，９Ｃの上方向を可動撮像部１００の撮像方向とする。可動撮像部１００の撮像方向は、レンズ部１０１の光軸方向（主軸方向）とも言い換えられる。

　図９Ｂは３つのマイクで行う方式である。マイク１０４ａ、マイク１０４ｂ、マイク１０４ｃを用いて説明する。図３Ａで示したような配置図であると、マイク１０４ａ、マイク１０４ｂの並ぶ方向に直交する方向がレンズ部１０１の撮像方向となる。

　図９Ａで説明したように、マイク１０４ａ、マイク１０４ｂより、距離ｄ［ａ‐ｂ］は既知であり、音声データより距離Ｉ［ａ‐ｂ］を特定することができれば、θ［ａ‐ｂ］を特定できる。さらにマイク１０４ａ、マイク１０４ｃ間の距離ｄ［ａ‐ｃ］も既知であるので、音声データより距離Ｉ［ａ‐ｃ］も特定することができ、θ［ａ‐ｃ］を特定できる。θ［ａ‐ｂ］及びθ［ａ‐ｃ］が算出できれば、マイク１０４ａ，１０４ｂ、１０４ｃの配置と同一２次元平面上（パン動作の回転軸に垂直な平面上）における、それらに共通な方角が、正確な音声発生方向として決定できる。

　図９Ｃを用いて、４つのマイクで音源方向を決定する方法を説明する。図３Ａに示すマイク１０４ａ、マイク１０４ｂ、マイク１０４ｃ、マイク１０４ｄの配置により、マイク１０４ａ、マイク１０４ｂの並ぶ方向に直交する方向がレンズ部１０１の撮像方向（光軸方向）となる。マイク４つを利用する場合、対角線上に位置するマイク１０４ａと１０４ｄのペアと、マイク１０ｂとマイク１０４ｃのペアの２つのペアを用いると精度よく音源方向を算出できる。

　マイク１０４ａ、マイク１０４ｄ間の距離ｄ［ａ‐ｄ］は既知であるので、音声データから距離Ｉ［ａ‐ｄ］を特定できるので、θ［ａ‐ｄ］も特定できる。

　更にマイク１０４ｂ、マイク１０４ｃ間の距離ｄ［ｂ‐ｃ］も既知であるので、音声データより距離Ｉ［ｂ‐ｃ］を特定できるので、θ［ｂ‐ｃ］を特定できる。

　よって、θ［ａ‐ｄ］及びθ［ｂ‐ｃ］がわかれば、マイクの配置と同一２次元平面上では正確な音声発生方向を検知することが可能である。

　さらに、θ［ａ‐ｂ］、θ［ｃ‐ｄ］と検知角度を増やしていけば、方向検知の角度の精度を高めることも可能である。

　以上のよう処理を行うため、マイク１０４ａとマイク１０４ｂとマイク１０４ｃおよびマイク１０４ｄは図３Ａのように長方形の４つの頂点に配置した。なお、マイクの数が３つであっても、それらが直線状に並ばないのであれば、必ずしも４つである必要はない。

　上記の方法のデメリットとして、同一２次元平面上の音方向しか検知しかできない。そのため、音源が撮像装置１の真上に位置する場合には、その方向を検出できない。そこで、次に、音方向検出部２０４４における、音源の存在する方向として真上であるか否かの判定原理を図１０Ａ，１０Ｂを参照して説明する。

　図１０Ａは３つのマイクで行う方式を説明するための図である。マイク１０４ａ、マイク１０４ｂ、マイク１０４ｃを用いて説明する。図３Ａで示したような配置図であると、マイク１０４ａ、マイク１０４ｂの並び方向に直交する方向がレンズ部１０１の撮像方向（光軸方向）である。マイク１０４ａ、マイク１０４ｂの並び方向とは、マイク１０４ａの中心点とマイク１０４ｂの中心点とを結ぶ直線の方向である。

　音声入力部１０４の配置されている平面に対して、垂直に交わる直線状、すなわち上方向からマイク１０４ａ、マイク１０４ｂ、マイク１０４ｃに音声が入ってきたときについて記載する。

　ここで、撮像装置１の真上に音源が位置する場合、その音源からマイク１０４ａとマイク１０４ｂは等距離にあると見なせる。つまり、音源からこれら２つのマイク１０４ａと１０４ｂに到達する音の時間差は無い。そのため、マイク１０４ａとマイク１０４ｂを結ぶ直線に対して、垂直に交わる方向に音源があると認識される。

　さらに、マイク１０４ａとマイク１０４ｃも同様に音源からは等距離にあると見なせるので、やはり音源からこれら２つのマイク１０４ａと１０４ｃに到達する音の時間差は無い。そのため、マイク１０４ａとマイク１０４ｃを結ぶ直線に対して、垂直に交わる方向に音源があると認識される。

　つまり、マイク１０４ａとマイク１０４ｂで検出した音の時間差の絶対値をΔＴ１とし、マイク１０４ａとマイク１０４ｃで検出した音の時間差の絶対値をΔＴ２とし、予め設定された十分に小さい閾値εとの関係が次の条件を満たす場合、音源が撮像装置１の真上に位置すると判定できる。
条件：ΔＴ１＜ε　かつ　ΔＴ２＜ε

　図１０Ｂを参照し、４つのマイク１０４ａ、マイク１０４ｂ、マイク１０４ｃ、マイク１０４ｄを用いた、撮像装置１の真上に位置する音源の検出法を説明する。図３Ａに示すように、マイク１０４ａ、マイク１０４ｄのペアと、マイク１０４ｂとマイク１０ｃのペアについて考察する。

　撮像装置１の真上に音源が存在する場合、その音源からマイク１０４ａとマイク１０４ｄは等距離になるので、これらマイク１０４ａとマイク１０４ｄで検出する音の時間差の絶対値ΔＴ３はゼロか、非常に小さい値となる。つまり、マイク１０４ａとマイク１０４ｄを結ぶ直線に対して、垂直に交わる方向に音源があると認識となる。

　さらに、マイク１０４ｂとマイク１０４ｃも、音源からは等距離になるため、これらマイク１０４ｂとマイク１０４ｃで検出する音の時間差の絶対値ΔＴ４もゼロか、非常に小さい値となる。つまり、マイク１０４ｂとマイク１０４ｃを結ぶ直線に対して、垂直に交わる方向に音源があると認識となる。故に、次の条件を満たす場合、音源が撮像装置１の真上に位置すると判定できる。
条件：ΔＴ３＜ε　且つ　ΔＴ４＜ε

　以上のように、３つ以上のマイクのうちの２つのペアについて、音の到達時間差の絶対値を求め、それら２つの絶対値が共に十分に小さい閾値未満になった場合に、音源の存在方向を真上であると決定できる。なお、２つのペアを決めるとき、それら２つのペアの向きが互いに非平行となるように決定すれば、どのような組み合わせでもよい。

　以上、第１の実施形態を説明した。上記実施形態によれば、音声コマンドを発声した人物（の顔）以外を誤って被写体とすることを抑制できる。また、音声コマンドを発した人物の意図したジョブを実行することも可能になる。

　更に、上記実施形態で説明したように、マイク１０４ａ乃至１０４ｄ、音声信号処理部２０４を構成する各要素は、実際にそれらが利用する段階でなって初めて中央制御部２０１の制御の下で電力供給が行われるので、全構成要素が可動状態にある場合と比較して、電力消費量を抑制できる。

　［第２の実施形態］
　第２の実施形態を説明する。本第２の実施形態における装置構成は第１の実施形態と同じとする。また、音声コマンド認識部２０４３が音声コマンドとして動画像撮影コマンドを既に認識し、且つ、音方向検出部２０４４がその音声コマンドを発声したユーザの方向も既に検出しているものとして説明する。

　上記第１の実施形態では、撮像装置１は音声コマンドとして動画像撮影コマンドを認識した場合、その音声コマンドの発生源の存在する方向と、レンズ部１０１の撮像方向（光軸方向）とを一致させるべく、可動撮像部１００のパン動作、チルト動作を行った。そして、撮像装置１はこのパン動作、チルト動作にて、被写体検出処理を行った。そして、最終的に、撮像装置１は被写体を撮像部１０２による撮像画像内に被写体が存在することを条件に、動画像の撮影記録を開始した。

　従って、ユーザは、動画像撮影コマンドを発声したとしても、そのジョブが実行されるまで多少の時間だけ待つ必要がある。また、パン動作中は、撮像部１０２から得られる画像は水平方向に流れ、レンズ部１０１によるフォーカシングが難しいという問題もある。

　そこで、本第２の実施形態では、撮像部１０２による上記待ち時間を短くしつつ、いわゆるピンボケの状態でのジョブを開始することを抑制する例を説明する。具体的には、音方向検出部２０４４で検出した音方向（以下、目標方向という）に向かうべく、中央制御部２０１は回動制御部性２１３による高速な第１のパン動作速度でパン動作を行う。この第１のパン動作速度で駆動を行う期間は、例えば、パン動作を開始する直前のレンズ部１０１の撮像方向（光軸方向）と目標方向との角度差の半分になるまでとし、撮像装置１はこの期間（第１のパン動作速度で駆動を行う期間）でのフォーカシング制御は行わない。そして、レンズ部１０１の撮像方向（光軸方向）と目標方向との角度差が、音声を認識した時点の角度の半分の角度になった場合、中央制御部２０１は、第１のパン動作速度よりも遅く、且つ、フォーカシングが可能な第２のパン動作速度となるよう回動制御部２１３の制御を行う。そして、中央制御部２０１は、第２のパン動作速度の期間中に、レンズアクチュエータ１０３を制御して、レンズ部１０１のフォーカシング制御を開始する。そして、中央制御部２０１は次の条件を満たした場合、動画像の撮影記録を開始する。
・条件：撮像部１０２による画像が合焦状態、且つ、レンズ部１０１の撮像方向（光軸方向）と目標方向との角度差が予め設定された閾値α以下。
ここで閾値αは、撮像部１０２が撮像可能な画角の左右端とその中心との成す角度とする。閾値α以下になれば、被写体が撮像部１０２による撮像画像内に入り始めると推定できるからである。ここで、第２のパン動作速度ｖ２は初期速度である第１のパン動作速度ｖ１から所定の加速度で減速する速度である。

　図１１Ａ，１１Ｂは、本第２の実施形態における音声コマンド認識部２０４３による音声コマンド認識をトリガにして開始される処理を示すフローチャートである。このフローチャートに係るプログラムは、中央制御部２０１が有するＲＯＭに格納されているものである。図１２は、本第２の実施形態における音声コマンド認識後の処理のシーケンスを示す図である。以下、これらの図を参照して、第２の実施形態における中央制御部２０１の処理を説明する。また、ここでは音声コマンドとして動画像撮影コマンドが認識されたものとして説明する。

　まず、ステップＳ１００１にて、中央制御部２０１は、音声コマンド認識部２０４３から、認識した音声コマンドの元になった音声データの先頭と終端のアドレスが示す有効期間内（発声期間内でもある）で検出した音方向情報を、音方向検出部２０４４のバッファメモリ２０４４ａから取得する。そして、ステップＳ１００２にて、中央制御部２０１は、取得した音方向情報が示す方向が、現在の可動撮像部１００の撮像部１０２の画角内にあるか否かを判定する。

　音方向情報が示す方向が現在の撮像部１０２の画角内にある場合、中央制御部２０１は、処理をステップＳ１００３に進め、認識した動画像の撮影記録を開始する。

　一方、音方向情報が示す方向が現在の可動撮像部１００の画角外にある場合、中央制御部２０１は、処理をステップＳ１００４に進める。このステップＳ１００４にて、中央制御部２０１は、現在のレンズ部１０１の撮像方向（光軸方向）Ａと、Ｓ１００１で取得した音源方向Ｃとからパン動作を行う角度θを算出し、撮像方向Ａからパン動作を行う角度がその半分の角度（前半の区間）では第１のパン動作速度ｖ１で動作させ、残りの半分の角度（後半の区間）を所定の加速度でパン動作を減速した場合に要する時間（＝ｔ４－ｔ０）を算出する。

　レンズ部１０１は、ＰＩ（Ｐｈｏｔｏ　Ｉｎｔｅｒｒｕｐｔｅｒ）により、発光部からの光を物体が遮るのを受光部で検出することによって、位置を検出する方法を用いていることを前提に説明する。この場合、現在のレンズ部１０１の方向をＡ、目標方向をＣ、レンズ部１０１の方向Ａと目標方向Ｃのなす角度の中間の方向をＢとする。レンズ部１０１の方向Ａと目標方向Ｃのなす角度θに応じてＰＩのステップ数ＰＩＡＣが決まる。このステップ数ＰＩＡＣから、第１のパン動作速度で駆動する前半の区間の距離ＤＡＢおよび第２のパン動作速度で駆動する後半の区間の距離ＤＢＣを中央制御部２０１は算出する。前半の区間を第１のパン動作速度で駆動する期間（ｔ１－ｔ０）は、ＤＡＢ／ｖ１として求めることができる。また、後半の区間を第２のパン動作速度ｖ２で駆動する期間（ｔ４－ｔ１）は、ＤＢＣ／ｖ２（ただし、本実施形態ではＤＢＣ＝ＤＡＢとする）となる。ここで前述したように、第２のパン動作速度ｖ２は初期速度である第１のパン動作速度ｖ１から所定の加速度で減速する速度である。

　ステップＳ１００６にて、中央制御部２０１は、回動制御部２１３を制御し、可動撮像部１００の第１のパン動作速度ｖ１で目標とする方向に向けてパン動作を開始する。そして、ステップＳ１００７にて、中央制御部２０１は、パン動作の時間がＤＡＢ／ｖ１となったと判定されるまで、このパン動作を継続する。

　そして、パン動作を開始してからの時間がＤＡＢ／ｖ１になった場合、中央制御部２０１は、ステップＳ１００８にて、パン動作が終了する時刻ｔ４まで、パン動作速度を第２のパン動作速度ｖ２に設定する。そして、ステップＳ１００９にて、中央制御部２０１は、現在のレンズ部１０１の撮像方向（光軸方向）と目標方向との成す角度が予め設定された閾値α以下であるか否かを判定する。閾値α以下になると、被写体が画角内に入っている可能性があるので、ステップＳ１０１０にて、中央制御部２０１は、フォーカス状態値ＡＦを求める。そして、ステップＳ１０１１にて、中央制御部２０１は、求めたフォーカス状態値ＡＦが所定閾値ＡＦｔｈ以内であるかを判定する。フォーカス状態値ＡＦが所定閾値ＡＦｔｈ以内であるとき、合焦状態である。そのため、中央制御部２０１はパン動作が完了していなくても、認識した動画撮影コマンドに基づくジョブを開始すべく処理をステップＳ１００３に進める。

　一方、フォーカス状態値ＡＦが所定閾値ＡＦｔｈを超える場合、中央制御部２０１は処理をステップＳ１０１２に進め、当初計画したパン動作時間が経過したか否かを判定する。なお、このステップＳ１０１２にて、中央制御部２０１は、レンズ部１０１の撮像方向（光軸方向）が目標方向に到達したか否かを判定しても構わない。そして、ステップＳ１０１２の判定が否（Ｎｏ）の場合、中央制御部２０１は処理をステップＳ１００８に戻す。

　一方、ステップＳ１０１２の判定が是（Ｙｅｓ）の場合、中央制御部２０１は処理をステップＳ１０１３に進める。このステップＳ１０１３にて、中央制御部２０１は、回動制御部２１３を制御し、回動駆動部の駆動をパン動作からチルト動作に切換え、チルト動作を開始する。

　そして、中央制御部２０１は、ステップＳ１０１４にて被写体の検出、もしくは、チルト上限への到達のいずれかが判定されるまで、ステップＳ１０１３のチルト動作を継続する。被写体が検出された場合（タイミングｔ５）、中央制御部２０１は、チルト動作を止め、処理をステップＳ１００３に進める。一方、被写体未検出のまま、チルトの上限まで到達した場合（タイミングｔ６）、中央制御部２０１はエラー処理を行う。このエラーでは、例えば認識した静止画撮影開始コマンドを実行しない、等の処理となる。

　以上であるが、本第２の実施形態に係る処理を、第１の実施形態に適用するのであれば、第１の実施形態におけるステップＳ１６０以降の処理を、第２の実施形態におけるステップＳ１００２以降の処理で置き換えればよい。この場合、第２の実施形態におけるステップＳ１０１５はステップＳ１６３に対応させればよい。

　なお、上記第２の実施形態では、レンズ部１０１の撮像方向（光軸方向）を目標方向に一致させるためのパン動作期間を二分し、前期間では第１のパン動作速度にし、後期間では、それより低速の第２のパン動作速度に切り換える例を説明した。しかし、第１のパン動作速度での駆動期間に到達したとき、目標方向でパン動作速度がゼロとなるように、一定加速度で減速するようにしてもよい。

　以上より、本第２の実施形態によれば、特定の音声の発生位置が、現在の画角Ａの外にあり、パン・チルト駆動で画角を変更して被写体を捉える必要がある場合にも、不要なパン・チルト駆動やフォーカシング後から、動画記録を開始することができる。さらに、パン動作の速度を切り替えることで、フォーカシングを行うことができ、動画記録の開始タイミングを第１の実施形態よりも早めることもできる。

　上記実施形態では、音圧レベル検出部２０４１、音声コマンド認識部２０４３、音方向検出部２０４４、動画用音声処理部２０４５等が、中央制御部２０１とは独立した処理部とする例を説明した。しかしながら、中央制御部２０１が、これらの全部或いは一部を、プログラムを実行することで代替しても構わない。

　（その他の実施例）
　本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

　本発明は上記実施の形態に制限されるものではなく、本発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、本発明の範囲を公にするために、以下の請求項を添付する。

　本願は、２０１７年１２月２６日提出の日本国特許出願特願２０１７－２５０１０６、および、２０１８年１１月２日提出の日本国特許出願特願２０１８－２０７６３３を基礎として優先権を主張するものであり、その記載内容の全てを、ここに援用する。

Claims

　撮像手段と、
　音声を集音する集音手段と、
　前記集音手段によって集音した音声が所定の音圧より大きいか否かを検出する検出手段と、
　前記集音手段によって集音した音声が、前記撮像手段による撮影を指示する音声であることを認識する認識手段と、を有し、
　前記集音手段によって集音した音声が、前記検出手段によって前記所定の音圧より大きいと検出され、かつ前記認識手段によって前記撮像手段による撮影を指示する音声であると認識された場合、前記撮像手段による撮影を行う
　ことを特徴とする撮像装置。
　前記認識手段は、前記検出手段により前記集音手段によって集音した音声が前記所定の音圧より大きいと検出されたことに応じて起動することを特徴とする請求項１に記載の撮像装置。
　さらに制御手段と、
　前記撮像手段をパン動作およびチルト動作させる駆動手段を有し、
　前記集音手段は複数のマイクで構成され、
　前記複数のマイクは前記駆動手段によるパン動作の回転軸に対して垂直な平面に配置される
　ことを特徴とする請求項１または２に記載の撮像装置。
　前記複数のマイクは第一のマイクおよび第二のマイクを含み、
　前記撮像手段の光軸を含む、前記撮像装置の底面に対して垂直な平面で前記撮像装置を二つの領域に分けた場合、一方に前記第一のマイクが配置され、他方に前記第二のマイクが配置される
　ことを特徴とする請求項３に記載の撮像装置。
　前記第一のマイクの配置および第二のマイクの配置は前記撮像手段の光軸に関して対称である
　ことを特徴とする請求項４に記載の撮像装置。
　前記撮像手段は動画像を撮影可能であり、
　前記第一のマイクは前記動画像のＬチャネルの音声を集音し、前記第二のマイクは前記動画像のＲチャネルの音声を集音することを特徴とする請求項４または５に記載の撮像装置。
　さらに、前記複数のマイクは前記第一のマイクおよび前記第二のマイクを結ぶ直線上ではない部分に配置される第三のマイクを含み、
　前記第一のマイクおよび前記第二のマイクを用いて検出した前記音声の音源の方向と、前記第三のマイクおよび前記第三のマイク以外のマイクを用いて検出した前記音源の方向と、に基づいて、前記音声の音源の方向を検出する方向検出手段を有する
　ことを特徴とする請求項４から６のいずれか１項に記載の撮像装置。
　前記方向検出手段は、前記第一のマイクおよび前記第二のマイクで構成される第一のペアを用いて検出した前記音声の音源の方向が前記第一のマイクおよび前記第二のマイクを結ぶ直線に対して垂直であると判断し、かつ前記第三のマイクおよび前記第三のマイク以外のマイクで構成される第二のペアを用いて検出した前記音声の音源の方向が前記第三のマイクおよび前記第三のマイク以外の前記マイクを結ぶ直線に対して垂直であると判断した場合、前記音源は前記回転軸の軸方向にあると判断する
　ことを特徴とする請求項７に記載の撮像装置。
　前記方向検出手段は、前記第一のペアの２つのマイクの前記音声を集音した時間差から求めた前記音声の音源の方向と、前記第二のペアの２つのマイクの前記音声を集音した時間差から求めた前記音声の音源の方向と、から前記回転軸に垂直な面における前記音声の音源の方向を検出する
　ことを特徴とする請求項７または８に記載の撮像装置。
　さらに電力供給手段を有し、
　前記複数のマイクのうちすべてのマイクには電力を供給しない状態において、前記音声が所定の音圧を超えたことを前記検出手段が検出したことに応じて、前記電力供給手段は前記集音手段のすべてのマイクに電力を供給し、
　前記方向検出手段は前記音声の音源の方向を検出することを特徴とする
　請求項７から９のいずれか１項に記載の撮像装置。
　前記制御手段は前記撮像手段の撮像方向を前記方向検出手段によって検出された前記音声の音源の方向となるようパン動作させるよう前記駆動手段を制御し、前記撮像方向が前記方向検出手段によって検出された前記音声の音源の方向となった場合、前記制御手段は前記撮像手段をチルト動作させるよう前記駆動手段を制御し、
　前記撮像手段が被写体を検出した場合、前記制御手段は前記撮像手段のチルト動作を停止するよう前記駆動手段を制御する
　ことを特徴とする請求項７から１０のいずれか１項に記載の撮像装置。
　前記駆動手段によってパン動作する距離を二つの区間に分けた場合、その前半の区間では第一の速度で前記撮像手段をパン動作させ、その後半の区間では前記第一の速度から減速して前記撮像手段をパン動作させるよう、前記制御手段は前記駆動手段を制御し、
　前記撮像手段は、前記前半の期間ではフォーカシングを行わず、前記後半の期間ではフォーカシングを行う
　ことを特徴とする請求項３から１１のいずれか１項に記載の撮像装置。
　前記制御手段は、前記後半の区間では、前記第一の速度から所定の加速度で減速して前記撮像手段を駆動するよう前記駆動手段を制御することを特徴とする請求項１２に記載の撮像装置。
　前記撮像手段による撮影を指示する音声に応じて、前記制御手段は前記撮像手段の撮像方向を被写体に追尾するように前記駆動手段を制御し、
　前記撮像手段は、静止画の撮影及び記録、または音声付の動画像の撮影及び記録する
　ことを特徴とする請求項３から１３のいずれか１項に記載の撮像装置。
　撮像手段を有する撮像装置の制御方法であって、
　音声を集音する集音ステップと、
　前記集音ステップで集音した音声が所定の音圧より大きいか否かを検出する検出ステップと、
　前記集音ステップで集音した音声が、前記撮像手段による撮影を指示する音声であることを認識する認識ステップと、
　前記集音ステップで集音した音声が、前記検出ステップで前記所定の音圧より大きいと検出され、かつ前記認識ステップで前記撮像手段による撮影を指示する音声であると認識された場合、前記撮像手段による撮影を行うステップとを有する
　ことを特徴とする撮像装置の制御方法。
　撮像手段を有する撮像装置に制御方法を実行させるためのプログラムが記録された記録媒体、ここで前記制御方法は以下を含む：
　音声を集音する集音ステップと、
　前記集音ステップで集音した音声が所定の音圧より大きいか否かを検出する検出ステップと、
　前記集音ステップで集音した音声が、前記撮像手段による撮影を指示する音声であることを認識する認識ステップと、
　前記集音ステップで集音した音声が、前記検出ステップで前記所定の音圧より大きいと検出され、かつ前記認識ステップで前記撮像手段による撮影を指示する音声であると認識された場合、前記撮像手段による撮影を行うステップ。