WO2015104780A1

WO2015104780A1 - 映像撮像装置

Info

Publication number: WO2015104780A1
Application number: PCT/JP2014/006452
Authority: WO
Inventors: 森岡　芳宏; 松浦　賢司; 裕之亀澤; 修史守屋; 秀晃畠中; 山内　栄二
Original assignee: パナソニックＩｐマネジメント株式会社
Priority date: 2014-01-07
Filing date: 2014-12-25
Publication date: 2015-07-16
Also published as: US20160172004A1; JPWO2015104780A1

Abstract

撮像部（３０１）と、撮影された映像の時間情報を生成する生成部（３１１）と、撮影された映像から所定の映像特徴を検出する検出部（３１０）と、撮影された映像と時間情報と映像特徴とを関連付けて記憶する記憶部（３１５）と、映像特徴の評価値が所定値よりも大きい映像、または、変化値が所定値よりも大きい映像に対し、タグ情報を付与する付与部（３１６）と、撮影された映像を出力するとき、撮影された映像のうちタグ情報が付与された映像を優先的に出力する出力部（３２４）と、を備える。これにより、動的な映像をダイジェスト再生可能な撮像装置を提供できる。

Description

映像撮像装置

　本開示は、映像を撮影し出力する映像撮像装置に関し、特にダイジェスト再生可能な映像撮像装置に関する。

　従来、撮影した映像を再生する際に、撮影した映像のメタデータに基づいて映像を評価し、自動的にダイジェスト再生を行なう映像撮像装置が知られている。

　このような映像撮像装置では、通常、人物の顔、人の声、ズームインあるいは静止した状態のカメラワークなどのメタデータを有する映像領域が高く評価され、ダイジェスト再生の際にも優先的に出力される（例えば、特許文献１）。

再公表ＷＯ２０１０／１１６７１５号公報

　本開示の映像撮像装置は、撮影部と、撮影部で撮影された映像における時間的な位置を特定可能な時間情報を生成する生成部と、時間情報に基づいて、撮影部で撮影された映像を所定の時間単位の映像領域に区分し、映像領域毎に、自装置の姿勢情報を含む所定の映像特徴に関する属性情報を検出する検出部と、映像領域毎に、属性情報と、時間情報を関連づけて記憶する記憶部と、映像領域のうち、所定の姿勢情報に関する属性情報の評価値が所定の値よりも大きい映像領域、または所定の姿勢情報に関する属性情報の変化値が所定の値よりも大きい映像領域に対して、映像特徴を有する映像領域であることを示すタグ情報を付与する付与部と、を備える。

　この構成により、動的な映像をダイジェスト再生可能な映像撮像装置を提供できる。

図１は、本開示に係るビデオカメラの外観斜視図である。図２は、本開示に係るビデオカメラ内部のハードウェア構成を示した概略図である。図３は、本開示に係るビデオカメラの機能構成について示した機能構成図である。図４は、本開示に係る生成部にて生成される属性情報の一例を説明する模式図である。図５は、本開示に係る所定の映像特徴に関する属性情報の評価値リストの一例を示す説明図である。図６は、本開示に係る所定の映像特徴に関する属性情報の評価値リストの他の例を示す説明図である。図７は、本開示に係る他のモードのときの所定の映像特徴に関する属性情報の評価値リストの一例を示す説明図である。

　以下、適宜図面を参照しながら、実施の形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。

　なお、発明者らは、当業者が本開示を十分に理解するために添付図面および以下の説明を提供するのであって、これらによって特許請求の範囲に記載の主題を限定することを意図するものではない。

　（実施の形態１）
　［１－１．構成］
　本開示に係る映像撮像装置の具体例として、ビデオカメラ１００の構成について図１を用いて説明する。図１は、ビデオカメラ１００の外観斜視図である。詳細は後述するが、ビデオカメラ１００は、バッテリ１０１と、グリップベルト１０２と、映像を撮影する撮像部３０１（不図示）と、撮像部３０１により撮影された映像を表示する表示部３１８などを有する。撮像部３０１は、レンズ部３００から入射した光を映像信号に変換するＣ－ＭＯＳセンサ（不図示）などから構成される。表示部３１８は、タッチパネル式の液晶ディスプレイから構成される。

　［１－１．ハードウェア構成］
　図２は、ビデオカメラ１００内部のハードウェア構成の概略を示した図である。ビデオカメラ１００は、レンズ群２００と、撮像素子２０１と、映像ＡＤＣ（Ａｎａｌｏｇ　ｔｏ　Ｄｉｇｉｔａｌ　Ｃｏｎｖｅｒｔｅｒ）２０２と、映像信号変換回路２０３と、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）２０４と、クロック２０５と、レンズ制御モジュール２０６と、姿勢検出センサ２０７と、入力ボタン２０８と、ディスプレイ２０９と、スピーカー２１０と、出力Ｉ／Ｆ（Ｉｎｔｅｒｆａｃｅ）２１１と、圧縮伸張回路２１２と、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）２１３と、ＲＡＭ（Ｒａｎｄａｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）２１４と、ＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）２１５と、音声ＡＤＣ（Ａｎａｌｏ　ｔｏ　Ｄｉｇｉｔａｌ　Ｃｏｎｖｅｒｔｅｒ）２１６と、ステレオマイク２１７とを構成要素として備える。

　レンズ群２００は、撮像素子２０１上で被写体像を形成するために、被写体から入射する光を調整する。具体的には、レンズ群２００は、焦点距離およびズーム（映像の拡大倍率）を、様々な特性を持つ複数のレンズ間の距離を変化させることで調整する。これらの調整は、ビデオカメラ１００の撮影者が手動で調整するものでも、後述するレンズ制御モジュール２０６を通じてＣＰＵ２０４等からの制御により自動的に調整するものであってもよい。

　撮像素子２０１は、レンズ群２００を通して入射する光を電気信号に変換する。撮像素子２０１には、ＣＣＤ（Ｃｈａｒｇｅ　Ｃｏｕｐｌｅｄ　Ｄｅｖｉｃｅ）あるいはＣ－ＭＯＳ（Ｃｏｍｐｌｅｍｅｎｔａｒｙ　Ｍｅｔａｌ　Ｏｘｉｄｅ　Ｓｅｍｉｃｏｎｄｕｃｔｏｒ）等のイメージセンサを利用することが可能である。

　映像ＡＤＣ２０２は、撮像素子２０１から出力されたアナログの電気信号をデジタルの電気信号に変換する。映像ＡＤＣ２０２で変換されたデジタル信号は、映像信号変換回路２０３へ出力される。

　映像信号変換回路２０３は、映像ＡＤＣ２０２が出力するデジタル信号を、ＮＴＳＣ（Ｎａｔｉｏｎａｌ　Ｔｅｌｅｖｉｓｉｏｎ　Ｓｙｓｔｅｍ　Ｃｏｍｍｉｔｔｅｅ）またはＰＡＬ（Ｐｈａｓｅ　Ａｌｔｅｒｎａｔｉｎｇ　Ｌｉｎｅ）と言った所定の方式の映像信号（映像信号）に変換する。

　ＣＰＵ２０４は、ビデオカメラ１００全体を制御する。制御の種類としては、例えば、レンズ制御モジュール２０６を介して上述のレンズの焦点距離およびズームの制御を行うことで、撮像素子２０１への入射光を制御するレンズ制御がある。また、入力ボタン２０８および姿勢検出センサ２０７等からの外部入力に対する入力制御、あるいは、圧縮伸張回路２１２の動作制御等がある。ＣＰＵ２０４は、これらの制御アルゴリズムをソフトウェア等で実行する。

　クロック２０５は、ビデオカメラ１００内で動作するＣＰＵ２０４等の回路に、処理動作の基準となるクロック信号を出力する。なお、クロック２０５は、利用する集積回路及び扱うデータによって、単一または複数のクロックを用いることも可能である。また、ひとつの発振子のクロック信号を任意の倍数に乗じて使用してもよい。

　レンズ制御モジュール２０６は、レンズ群２００の状態を検出し、ＣＰＵ２０４からの制御に基づいて、レンズ群２００に含まれる各レンズを動作させる。レンズ制御モジュール２０６は、レンズ制御用モータ２０６ａと、レンズ位置センサ２０６ｂとを備える。

　レンズ位置センサ２０６ｂは、レンズ群２００を構成する複数のレンズ間の距離または位置関係等を検出する。レンズ位置センサ２０６ｂが検出した複数のレンズ間の位置情報等は、ＣＰＵ２０４に送信される。ＣＰＵ２０４は、レンズ位置センサ２０６ｂからの情報、および撮像素子２０１等の他の構成要素からの情報に基づいて、複数のレンズを適正に配置させるための制御信号を、レンズ制御用モータ２０６ａに送信する。

　レンズ制御用モータ２０６ａは、ＣＰＵ２０４から送信された制御信号に基づいて、レンズを駆動させるモータである。この結果、レンズ群２００の複数のレンズ間の相対的な位置関係が変更され、レンズの焦点距離、およびズームを調整することができる。これにより、レンズ群２００を通過した入射光は、撮像素子２０１上で、目的とする被写体像を結ぶ。

　なお、ＣＰＵ２０４は、上記以外にも、ビデオカメラ１００で映像撮影時の手振れをレンズ位置センサ２０６ｂおよび後述する姿勢検出センサ２０７等で検出し、レンズ制御用モータ２０６ａを駆動する制御を行ってもよい。これにより、ＣＰＵ２０４は、手振れ防止の動作を、レンズ制御モジュール２０６を介して実行させることも可能である。

　姿勢検出センサ２０７は、ビデオカメラ１００の姿勢の状態を検出する。姿勢検出センサ２０７は、加速度センサ２０７ａと、角速度センサ２０７ｂと、仰角・俯角センサ２０７ｃとを備える。これらの各種センサにより、ＣＰＵ２０４は、ビデオカメラ１００がどのような状態で撮影を行っているかを検出する。なお、これらのセンサは、好ましくはビデオカメラ１００の姿勢を詳細に検出するために、３軸方向（垂直方向、水平方向等）についてそれぞれ検出できることが望ましい。

　入力ボタン２０８は、ビデオカメラ１００の撮影者が使用する入力インタフェースの一つである。入力ボタン２０８により、撮影者が撮影の開始または終了、ビデオ撮影中の映像にマーキングを挿入する等、各種要求をビデオカメラ１００に伝えることが可能となる。また、後述するディスプレイ２０９がタッチパネルとなっており、入力ボタン２０８の一部を構成してもよい。

　ディスプレイ２０９は、撮影者がビデオカメラ１００の撮影時に映像を見るため、あるいは、記憶された映像を見るため等に設けられている。ディスプレイ２０９により、撮影者は、撮影した映像をその場で確認することが可能となる。また、上記以外にも、ビデオカメラ１００の各種情報を表示することで、撮影情報および機器情報等のより詳細な情報を撮影者に伝えることが可能となる。

　スピーカー２１０は、撮影した映像を再生する際の音声出力に使用される。それ以外にも、スピーカー２１０は、ビデオカメラ１００が出力する警告を音で撮影者へ伝えることも可能である。

　出力Ｉ／Ｆ２１１は、ビデオカメラ１００が撮影した映像を外部機器へ出力したり、後述する雲台５００の動作を制御する制御信号を出力したりするために用いられる。具体的には、出力Ｉ／Ｆ２１１は、外部機器とケーブルで接続する場合のケーブルインタフェース、および撮影した映像を可搬可能なメモリカード２１８に記録する場合のメモリカードインタフェース等である。出力Ｉ／Ｆ２１１を介して撮影した映像を出力することにより、撮影した映像をビデオカメラ１００に備え付けのディスプレイ２０９よりも大きな外部のディスプレイを用いて視聴等することが可能となる。

　圧縮伸張回路２１２は、撮影した映像および音声を、所定のデジタルデータ形式（符号化処理）にする。具体的には、圧縮伸張回路２１２は、撮影した映像データおよび音声データに対して、ＭＰＥＧ（Ｍｏｖｉｎｇ　Ｐｉｃｔｕｒｅ　Ｅｘｐｏｅｒｔｓ　Ｇｒｏｕｐ）またはＨ．２６４等の符号化処理を行い、所定のデータ方式に変換（圧縮）する。また、圧縮伸張回路２１２は、撮影したデータの再生時に、所定のデータ形式の映像データを伸張して、ディスプレイ２０９等に表示するデータ処理を行う。なお、圧縮伸張回路２１２は、静止画像についても、映像と同様に、圧縮伸張する機能を備えるものであっても良い。

　ＲＯＭ２１３は、ＣＰＵ２０４が処理するソフトウェアのプログラムおよびプログラムを動作させるための各種データを記憶する。

　ＲＡＭ２１４は、ＣＰＵ２０４が処理するソフトウェアのプログラム実行時に使用するメモリ領域等として使用される。また、圧縮伸張回路２１２と共用でこのＲＡＭ２１４を使用してもよい。

　ＨＤＤ２１５は、圧縮伸張回路２１２が符号化した映像データおよび静止画像データを蓄積等する目的で利用される。なお、記憶されるデータは、上記以外にも、後述する再生情報のデータ等を記憶することも可能である。また、本説明では、記憶媒体としてＨＤＤ２１５を代表の記憶媒体として説明しているが、これ以外にも半導体記憶素子を用いるものであっても良い。

　音声ＡＤＣ２１６は、ステレオマイク２１７から入力される音声を、アナログ電気信号からデジタル電気信号に変換処理する。

　ステレオマイク２１７は、ビデオカメラ１００外部の音声を電気信号に変換して出力する。

　上記の通り、ビデオカメラ１００のハードウェア構成を示したが、本発明では上記の構成に限定されるものではない。例えば、映像ＡＤＣ２０２及び映像信号変換回路２０３等を単一の集積回路として実現することも可能であるし、ＣＰＵ２０４が実行するソフトウェアプログラムの一部を別途、ＦＰＧＡ（Ｆｉｅｌｄ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）を用いてハードウェアとして実現することも可能である。

　［１－１－２．機能構成］
　図３は、図１のビデオカメラ１００の機能構成について説明する詳細な機能構成図である。

　ビデオカメラ１００は、図３に示すように、機能的な構成要素として、レンズ部３００と、撮像部３０１と、映像ＡＤ変換部３０２と、映像信号処理部３０３と、映像信号圧縮部３０４と、撮像制御部３０５と、映像解析部３０６と、レンズ制御部３０７と、姿勢検出部３０８と、属性情報生成部３０９と、検出部３１０と、生成部３１１と、音声解析部３１２と、音声信号圧縮部３１３と、多重化部３１４と、記憶部３１５と、付与部３１６と、映像信号伸張部３１７と、表示部３１８と、音声信号伸張部３１９と、音声出力部３２０と、音声ＡＤ変換部３２１と、マイク部３２２と、外部入力部３２３と、出力部３２４とを備える。

　レンズ部３００は、被写体から入射した光の焦点距離およびズーム倍率（映像の拡大倍率）等を調整する。これらはレンズ制御部３０７からの制御により行われる。レンズ部３００は、図２のレンズ群２００に相当する。

　撮像部３０１は、レンズ部３００を透過した光を電気信号に変換する。撮像部３０１は、撮像制御部３０５の制御により、撮像素子上の任意の範囲のデータを出力する。また映像データ以外にも、３原色点の色度空間情報、白色の座標および３原色のうち少なくとも２つのゲイン情報、色温度情報、Δｕｖ（デルタｕｖ）、および、３原色または輝度信号のガンマ情報等の情報も出力することが可能である。これらの情報は、属性情報生成部３０９へ出力される。撮像部３０１は、図２の撮像素子２０１に相当する。

　映像ＡＤ変換部３０２は、撮像部３０１からの電気信号を、所定の処理内容にしたがってアナログの電気信号からデジタルの電気信号に変換する。映像ＡＤ変換部３０２は、図２の映像ＡＤＣ２０２に相当する。

　映像信号処理部３０３は、映像ＡＤ変換部３０２から出力されたデジタル信号を、所定の映像信号フォーマットに変換する。例えば、ＮＴＳＣで規定された水平線の数、走査線の数およびフレームレートに準拠した映像信号に変換する。映像信号処理部３０３は、図２の映像信号変換回路２０３に相当する。

　映像信号圧縮部３０４は、映像信号処理部３０３によって処理されたデジタル信号に対して所定の符号化変換を行い、データ量を圧縮等する。具体的には、ＭＰＥＧ２、ＭＰＥＧ４、Ｈ．２６４等の符号化方式がある。映像信号圧縮部３０４は、図２の圧縮伸張回路２１２の圧縮機能に相当する。

　撮像制御部３０５は、撮像部３０１の動作を制御する。具体的には、撮像制御部３０５は、撮像部３０１に対して、撮影時の露出量、撮影速度および感度等を制御する。また、これらの制御情報は、属性情報生成部３０９へも併せて出力される。撮像制御部３０５は、図２のＣＰＵ２０４で処理される制御アルゴリズムの一つによって実現される。

　映像解析部３０６は、撮影された映像信号から映像の特徴を抽出する。

　映像はオブジェクトおよび背景により構成されている。オブジェクトの例として、人やペットなどの動物、また、家具、生活用具、衣類、家屋、車、自転車、バイクなどがあげられる。映像の変化とは、映像内のオブジェクトまたは背景の変化であり、映像内で人やものの形状やテクスチャー（模様）や位置が変化したり、映像内で背景の形状やテクスチャーや位置が変化したりすることである。また、映像の特徴とは、映像に含まれるオブジェクトや背景の形状やテクスチャー（色を含んだ模様）、大きさなどの特徴、また、映像に含まれるオブジェクトや背景の時間的変化に関する特徴である。映像の変化の検出は、機器内の映像解析部３０６で検出するだけでなく、クラウドネットワーク上のサーバーでも検出することができる。

　本実施の形態では、映像に含まれる輝度情報や色情報（例えば、映像の１画面を横３２、縦１８の合計５７６個のブロックに分割し、各ブロックに含まれる色や輝度の分布を算出する）、動きベクトル、ホワイトバランス、さらに映像に人物の顔が含まれている場合には、当該人物の顔検出を行う等、映像信号を解析することで、映像の特徴を抽出する。また、動きベクトルは、複数フレーム間での特徴量の差分を算出することで実現可能である。また、顔検出は、顔の特徴を表す特徴量の学習により、特徴量のパターンマッチング等により実現可能である。映像解析部３０６は、図２のＣＰＵ２０４でソフトウェア処理されるアルゴリズムの一つによって実現される。人物検出や物体検出も同様のパターン学習とパターンマッチングにより実現できる。

　レンズ制御部３０７は、レンズ部３００のズーム、フォーカスなどの動作を制御する。レンズ制御部３０７は、ズーム制御部３０７ａ、フォーカス制御部３０７ｂ、及び手振れ補正制御部３０７ｃ等を備える。

　ズーム制御部３０７ａは、レンズ部３００のズームレンズを制御することで、被写体からの入射光を所望の拡大倍率にして撮像部３０１に入力させる。フォーカス制御部３０７ｂは、レンズ部３００のフォーカスレンズを制御することで、被写体と撮像部３０１との焦点距離を設定する。手振れ補正制御部３０７ｃは、映像等の撮影時の該装置の揺れを抑制する。レンズ制御部３０７は、レンズ部３００を制御するとともに、これらの制御情報を属性情報生成部３０９へ出力する。レンズ制御部３０７は、図２のレンズ制御モジュール２０６に相当する。

　姿勢検出部３０８は、ビデオカメラ１００の加速度、角速度、及び仰角・俯角等を検出する。姿勢検出部３０８は、加速度センサ３０８ａ、角速度センサ３０８ｂ、及び仰角・俯角センサ３０８ｃを備える。これらのセンサは、ビデオカメラ１００の姿勢及びその変化状況を検出する目的等に用いられる。加速度及び角速度については、垂直・水平（２方向）の３方向について検出できることが望ましい。姿勢検出部３０８は、図２の姿勢検出センサ２０７に相当する。

　マイク部３２２は、周囲の音を電気信号に変換して音声信号として出力する。マイク部３２２は、図２のステレオマイク２１７に相当する。

　音声ＡＤ変換部３２１は、マイク部３２２から入力されたアナログの電気信号をデジタルの電気信号に変換する。音声ＡＤ変換部３２１は、図２の音声ＡＤＣ２１６に相当する。

　音声解析部３１２は、デジタルの電気信号に変換された音声データから特徴のある音を抽出する。ここで特徴のある音とは、例えば、撮影者の声、特定の単語の発音、歓声、及び銃声等がある。これらの音は、これらの音（音声）が持つ特有の周波数を予め登録しておき、それとの比較結果で判別する方法等を用いることで、抽出が可能である。また、上記以外にも、音声解析部３１２は、マイク部３２２が捕捉した音の入力レベル等の特徴も検出する。音声解析部３１２は、図２のＣＰＵ２０４でソフトウェア処理されるアルゴリズムの一つによって実現される。

　音声信号圧縮部３１３は、音声ＡＤ変換部３２１から出力された音声データを、所定の符号化アルゴリズムで変換する。符号化には、ＭＰ３（ＭＰＥＧ　Ａｕｄｉｏ　Ｌａｙｅｒ－３）及びＡＡＣ（Ａｄｖａｎｃｅｄ　Ａｕｄｉｏ　Ｃｏｄｉｎｇ）等の方法がある。音声信号圧縮部３１３は、図２の圧縮伸張回路２１２の圧縮機能の一つによって実現される。

　多重化部３１４は、映像信号圧縮部３０４から出力される符号化映像データおよび音声信号圧縮部３１３から出力される符号化音声データを多重化して出力する。多重化部３１４は、図２のＣＰＵ２０４で実行されるソフトウェアであってもよいし、圧縮伸張回路２１２で、ハードウェア処理されるものであってもよい。

　外部入力部３２３は、映像撮影時に外部から受信した各種の情報、例えば、撮影者によるボタン入力、または外部から通信経由で受信した撮影インデックス情報等を出力する。なお、撮影インデックス情報とは、例えば、映画撮影時における撮影場面を識別する番号または撮影回数を示す番号等、それぞれの撮影を識別するために用いられる識別番号などである。外部入力部３２３は、図２の入力ボタン２０８等に相当する。

　属性情報生成部３０９は、所定の時間単位（例えば、２秒間）の映像領域に対し、映像並びに静止画像の撮影時における撮影情報、外部入力情報およびその他の情報を属性情報として生成する。属性情報に含まれる情報の一例として以下のような情報がある。

　・　焦点距離
　・　ズーム倍率
　・　露出
　・　撮影速度（フレームレート、シャッタースピード）
　・　感度
　・　３原色点の色空間情報
　・　ホワイトバランス
　・　３原色のうち少なくとも２つのゲイン情報
　・　色温度情報
　・　Δｕｖ（デルタｕｖ）
　・　３原色または輝度信号のガンマ情報
　・　色分布
　・　動きベクトル
　・　人物（顔認識、顔による個人認証、人認識、歩き方やしぐさから個人の歩容認証）
　・　カメラ姿勢（加速度、角速度、仰角・俯角、方位、ＧＰＳによる測位値等）
　・　撮影時刻（撮影開始時刻、終了時刻）
　・　撮影インデックス情報（たとえば、カメラの撮影モードのセットアップ値）
　・　ユーザ入力
　・　フレームレート
　・　サンプリング周波数
　・　構図の変化量
　属性情報には、上記の情報から算出した映像領域を特徴づける情報（撮影時の各種情報を組み合わせ、それらを分析等することで得られる情報）も含まれる。また、映像領域に対し、複数の属性情報が含まれている。なお、映像領域とは、期間と同義の時間的な領域のことである。

　具体的には、カメラ姿勢（加速度、角速度、仰角・俯角等）の情報からビデオカメラ１００の撮影時におけるパン、チルト等のカメラワークの情報を得ることが可能となる。また、焦点距離およびズーム倍率の情報は、そのままでも属性情報として用いることが可能である。属性情報生成部３０９は、撮影時の各種情報から映像領域の評価に有用な情報を抽出、あるいは算出等して、顔や人物の位置情報、動体の位置情報、音の位置情報などの属性情報を生成する。

　検出部３１０は、映像領域毎に、属性情報生成部３０９で生成された属性情報に基づいて、ダイジェスト再生に有用な映像特徴に関する属性情報を検出する。ダイジェスト再生に有用な映像特徴としては、ズームイン、ズームアウト、パン、チルトあるいは静止などのカメラワーク、顔検出や動きベクトルなどによる人物（動体）の有無、特定の色（例えば、指の色、手袋の色など）の有無、人の声などの音声、動きベクトルの大きさあるいは動きベクトルの変化量の大きさなどが挙げられる。属性情報生成部３０９および検出部３１０は、図２のＣＰＵ２０４でソフトウェア処理されるアルゴリズムの一つである。

　生成部３１１は、撮影中の映像に同期して時間情報を生成する。生成部３１１によって生成される時間情報によって、撮影された映像の各映像領域において、時間的な位置を特定することが可能である。また、この時間情報に基づいて、属性情報生成部３０９は、撮像部３０１で撮像された映像を所定の時間単位の映像領域に区分し、各映像領域に対して属性情報を生成する。生成部３１１は、図２のクロック２０５に相当する。

　付与部３１６は、検出部３１０によって検出された映像特徴を有する映像領域のうち、所定の映像特徴の評価値および／または変化値が所定の閾値よりも大きい映像領域に対し、映像特徴を有する映像領域であることを示すタグ情報を付与する。タグ情報は、ダイジェスト再生する際の目印となる。詳細は後述するが、図５に示すような所定の映像特徴の評価値に基づいて、各映像領域の評価値を算出し、評価値および／または変化値の高い映像領域に対し、タグ情報を付与する。ここで変化値とは、映像（動画像）を構成する少なくとも２フレームの画像（静止画像）の評価値の差分である。付与部３１６は、図２のＣＰＵ２０４で実行されるソフトウェア処理のアルゴリズムの一つである。

　記憶部３１５は、映像領域毎に、多重化部３１４から出力された符号化映像データならびに符号化音声データ、生成部３１１から出力された時間情報および検出部３１０から出力された映像特徴に関する属性情報を関連付けて一時保持または長期保持する。加えて、付与部３１６から出力されたタグ情報も保持するとなおよい。記憶部３１５は、図２のＨＤＤ２１５、ＲＡＭ２１４およびメモリカード２１８等に相当する。

　出力部３２４は、撮像部３０１で撮影された映像のうち、付与部３１６によってタグ情報を付与された映像領域を優先的に出力する。ダイジェスト再生の機能は、ユーザの指示に基づいて実行されてもよく、自動的に実行されてもよい。

　［１－２．動作］
　［１－２－１．動作モード］
　ユーザの指示による場合は、例えば、アクションの大きな映像を中心に出力するアクションモード（第１モード）と、ゆっくりとしたカメラワークを中心に出力するスタティックモード（第２モード）とを選択可能に構成してもよい。この場合、ユーザの指示に合わせて、タグ情報を付与する際に参照する所定の映像特徴に関する属性情報の評価値を変更することにより、モードを選択的に構成可能である。

　アクションモードでは、出力部３２４は、スポーツの競技者からの視点や、突然起こるハプニング的な要因などによる撮影者の動きである、アクションが大きな映像を中心に出力することができる。一方、スタティックモードでは、出力部３２４は、特定の人物などのオブジェクトを追跡するようなゆっくりとしたカメラワークの映像を中心に出力することができる。

　自動的にモードを選択して出力する場合は、例えば、付与部３１６において、撮影した映像全体について、アクションモードで評価した場合の属性情報の評価値とスタティックモードで評価した場合の属性情報の評価値とを比較し、高い評価値のばらつきが少ない方のモードを選択するアルゴリズム等を搭載することで実現可能である。

　出力部３２４は、図２のＣＰＵ２０４で実行されるソフトウェア処理のアルゴリズムの一つである。

　［１－２－２．アクションモード］
　アクションモードについて、詳細に説明する。アクションモードは、撮影した映像を全て再生するのではなく、スポーツの競技者からの視点や撮影者のアクシデントといったアクションの大きな映像を中心に抽出して出力するモードである。

　図４は、属性情報生成部３０９から出力される所定の映像特徴に関する属性情報の一例である。属性情報生成部３０９は、所定の時間単位の映像領域に含まれる、所定の映像特徴に関する属性情報を検出する。映像特徴等が複数ある場合には、複数の映像特徴に関する属性情報が各々検出される。

　図４は、所定の時間単位が２秒間である場合、撮影開始から２０秒間の映像が１０個の映像領域（Ａ）～（Ｊ）で構成され、各映像領域で属性情報が検出されていることを示す。また、映像領域（Ｆ）、（Ｊ）には、所定の映像特徴に関する映像情報が検出され、タグが付与されている。

　上述の通り、検出部３１０は、属性情報生成部３０９で生成された属性情報に基づいて、ダイジェスト再生に有用なズームイン、ズームアウト、パン、チルトあるいは静止などのカメラワーク、顔検出や動きベクトルなどによる人物（動体）の有無、特定の色（例えば、指の色、手袋の色など）の有無、人の声などの音声、動きベクトルの大きさあるいは動きベクトルの変化量の大きさなどの所定の映像特徴に関する属性情報を検出する。アクションモードでは、動きベクトルの大きさあるいは動きベクトルの変化量の大きさが重要となる。図４においては、動きベクトルが大きい映像特徴に関する属性情報「動き（大）」が検出された映像領域（Ｆ）、（Ｊ）にタグが付与されている。

　また、カメラワークの変化パターン、映像の変化パターンとそれらの組み合わせを検出して、予め登録しておいたカメラワークの変化パターン、映像の変化パターンと比較することにより、アクション検出をすることができる。たとえば、カメラワークの変化パターンや、映像の変化パターンは、評価数が多い方が精度向上できるが、その時点よりも過去の３～５個のパターンを比較することで、演算量が小さく実用的なアクション検出が実現できる。例えば、変化パターンの例として、（１）カメラワークが３秒間の静止状態、（２）１秒間の急な動き状態、（３）３秒間の静止状態といったパターンの変化を検出した場合、（２）がアクションとして検出される。さらに、この変化パターンの期間における映像や音声を解析し、予め決めておいた映像や音声のパターンと一致した場合のみにアクション判定が正しいという処理を追加することにより、アクション検出の精度を向上させることができる。

　付与部３１６は、検出部３１０で検出された所定の映像特徴に関する属性情報を評価する。図５は、アクションモードでの所定の映像特徴に関する属性情報の評価値リストの一例である。図５に示すように、評価値リストは、属性情報とその評価値で構成されている。評価値は、着目する映像特徴には大きい評価値が与えられる。図５においては、動きベクトル（大）に最も大きい評価値１００が付与されているので、動きに特徴がある映像領域を高く評価することが分かる。

　付与部３１６は、評価値リストに基づいて、各映像領域を各映像領域で検出された属性情報の評価値を用いて評価する。複数の属性情報が検出されている場合は、基本的には、複数の属性情報のうちの最大の評価値で評価するが、複数の属性情報の評価値の総和で評価してもよく、複数の属性情報の評価値の平均値を用いてもよい。

　付与部３１６は、評価された値が高い映像領域に対し、タグ情報を付与する。また、隣接する映像領域間で評価された値の変化が大きい２つの映像領域については、両映像領域に対し、タグ情報を付与する。

　ダイジェスト再生する場合、出力部３２４は、タグ情報が付与された映像領域を優先的に出力する。このとき、出力部３２４は、タグ情報が付与された映像領域よりも所定の時間（例えば、３秒間）遡った時点から出力してもよい。具体的には、図４の（Ｆ）の映像領域にタグ情報が付与されている場合、Ｔ＝１０より３秒間遡ったＴ＝７であるａの時点から出力する。

　また、タグ情報が付与された映像領域よりも前の映像領域に人物に関する属性情報や人の声などの音声に関する属性情報がある場合には、出力部３２４は、人物または音声に関する属性情報を有する映像領域が始まる時点からを出力してもよい。具体的には、図４に示すように、タグ情報が付与されている映像領域（Ｊ）の１つ前の映像領域（Ｉ）が、人物および音声に関する属性情報を有するので、映像領域（Ｉ）の先頭のｂの時点（Ｔ＝１６）から出力する。

　これにより、突然アクションの大きな映像が出力されるのではなく、間を取ることができ、大きなアクションが発生する経緯なども視聴することができる。

　［１－３．効果など］
　実施の形態１のビデオカメラ１００は、映像領域のうち、属性情報の評価値が所定の値よりも大きい映像領域、または時間的に連続する複数の映像領域のうち、属性情報の変化値が所定の値よりも大きい複数の映像領域を優先的に出力する第１モードと、映像領域のうち、人物、特定のカメラワーク、特定の音声または特定の色に関する映像特徴を有する属性情報と関連付けて記憶された映像領域を優先的に出力する第２モードとを有する。付与部３１６は選択されたモードにおいて、優先して出力する映像領域にタグ情報を付与する。

　これにより、例えば、アクションの大きな映像を中心に出力するアクションモード（第１モード）と、ゆっくりとしたカメラワークを中心に出力するスタティックモード（第２モード）とを選択可能に構成することができる。また、出力部３２４は映像を出力する時に、タグ情報を付与された映像領域を優先的に出力する。

　従って、映像特徴のある映像領域を優先して出力することができる。すなわち、動的な映像のダイジェスト再生が可能となる。

　また、出力部３２４は、優先的に出力する映像領域が始まる時間的な位置よりも所定の時間遡った時間情報を有する映像領域から出力する。

　また、出力部３２４は、優先的に出力する映像領域が始まる時間的な位置より前に、人物または音声に関する映像特徴を有する映像領域がある場合、当該人物または音声に関する映像特徴を有する映像が始まる映像領域から出力する。

　これにより、突然アクションの大きな映像が出力されるのではなく、間を取ることができる。また、大きなアクションが発生する経緯なども視聴することができる。

　（実施の形態２）
　［２－１．動作］
　本実施形態では、姿勢検出部３０８からの姿勢情報も活用したアクションモードの機能について説明する。本実施の形態のビデオカメラ１の構成は実施の形態１と同様であり、実施形態１と重複する部分は説明を省略する。

　検出部３１０は、属性情報生成部３０９で生成された属性情報に基づいて、ズームイン、ズームアウト、パン、チルトあるいは静止などのカメラワーク、顔検出や動きベクトルなどによる人物（動体）の有無、特定の色（例えば、指の色、手袋の色など）の有無、人の声などの音声、動きベクトルの大きさあるいは動きベクトルの変化量の大きさ、に加え、水平姿勢を基準としたときの仰角・俯角の大きさ、仰角・俯角の変化量の大きさあるいは加速度・角速度の大きさなどの所定の映像特徴に関する属性情報を検出する。付与部３１６では、検出部３１０で検出された属性情報を評価する。

　図６は、姿勢情報も加えたアクションモードにおける所定の映像特徴に関する属性情報の評価値リストの一例である。図６において、例えば、加速度（大）～仰角（小）が姿勢情報において、所定の映像特徴に関する属性情報である。

　付与部３１６は、実施の形態１と同様の評価を行い、評価された値が高い映像領域に対し、タグ情報を付与する。また、映像領域間での変化が大きい２つの映像領域については、両映像領域に対し、タグ情報を付与する。

　ダイジェスト再生する場合、出力部３２４は、タグ情報が付与された映像領域を優先的に出力する。このとき、実施形態１と同様に、出力部３２４は、タグ情報が付与された映像領域よりも所定の時間遡った時点から出力してもよい。また、タグ情報が付与された映像領域よりも前の映像領域に人物に関する属性情報や人の声などの音声に関する属性情報がある場合には、出力部３２４は、人物または音声に関する属性情報を有する映像領域が始まる時点から出力してもよい。

　これにより、突然アクションの大きな映像が出力されるのではなく、間を取ることができ、撮影者のアクシデントの経緯なども確認することができる。

　［２－２．効果など］
　実施の形態２のビデオカメラ１００において、所定の映像特徴は自装置の姿勢情報を含み、付与部３１６は、映像領域のうち、所定の姿勢情報に関する属性情報の評価値が所定の値よりも大きい映像領域、または所定の姿勢情報に関する属性情報の変化値が所定の値よりも大きい映像領域に対して、情報を付与する。

　これにより、ビデオカメラ１００の姿勢情報を用いて、動きが大きな映像領域の検出が可能となる。

　従って、動的な映像のダイジェスト再生が可能となる。

　（その他の実施形態）
　以上のように、本出願において開示する技術の例示として、実施形態１～２を説明した。しかしながら、本開示における技術は、これに限定されず、適宜、変更、置き換え、付加、省略などを行った実施の形態にも適用可能である。また、上記実施形態１～２で説明した各構成要素を組み合わせて、新たな実施の形態とすることも可能である。

　そこで、以下、他の実施の形態を例示する。

　（Ａ）上述の実施形態では、手持ちタイプのビデオカメラ１００を用いて説明したが、これに限定されるものではなく、装着タイプの、所謂ウェアラブルカメラにも適用可能である。

　（Ｂ）上述の実施形態では、アクションモードにおける映像特徴の評価値リストの一例を示したが、スタティックモードでは、図７に示すような評価値リストを用いるとよい。図７は、評価値リストに人物が含まれ、人物の評価値は他の映像特徴の中で高い評価値が設定されている。これにより、特定の人物を追跡するようなゆっくりとしたカメラワークの映像を中心に出力することができる。また、他のモードに合わせた評価値リストをさらに保持してもよい。

　（Ｃ）映像領域と時間情報と属性情報とタグ情報とを紐付けた情報を、映像の検索に用いてもよい。この時、紐付けた情報をネットワーク経由で、別の機器に出力してもよい。

　（Ｄ）上述の実施形態では、属性情報をダイジェスト再生のための映像領域の抽出のために用いたが、別の用途に用いてもよい。例えば、カメラに適用し、映像に動きがない場合に、シャッターを切るとしてもよい。この場合、動きのない映像領域にタグ情報を付与することで実現できる。

　以上のように、本開示における技術の例示として、実施の形態を説明した。そのために、添付図面および詳細な説明を提供した。

　したがって、添付図面および詳細な説明に記載された構成要素の中には、課題解決のために必須な構成要素だけでなく、上記技術を例示するために、課題解決のためには必須でない構成要素も含まれ得る。そのため、それらの必須ではない構成要素が添付図面や詳細な説明に記載されていることをもって、直ちに、それらの必須ではない構成要素が必須であるとの認定をするべきではない。

　また、上述の実施の形態は、本開示における技術を例示するためのものであるから、特許請求の範囲、またはその均等の範囲において種々の変更、置き換え、付加、省略などを行うことができる。

　本開示は、スポーツの競技者からの視点映像を撮影可能なウェアラブルカメラや、一般的なビデオカメラでもアクションの大きな映像を中心に出力する際に適用できる。

　１００　　ビデオカメラ
　２００　　レンズ群
　２０１　　撮像素子
　２０２　　映像ＡＤＣ
　２０３　　映像信号変換回路
　２０４　　ＣＰＵ
　２０５　　クロック
　２０６　　レンズ制御モジュール
　２０６ａ　　レンズ制御用モータ
　２０６ｂ　　レンズ位置センサ
　２０７　　姿勢検出センサ
　２０７ａ　　加速度センサ
　２０７ｂ　　角速度センサ
　２０７ｃ　　仰角・俯角センサ
　２０８　　入力ボタン
　２０９　　ディスプレイ
　２１０　　スピーカー
　２１１　　出力Ｉ／Ｆ
　２１２　　圧縮伸張回路
　２１３　　ＲＯＭ
　２１４　　ＲＡＭ
　２１５　　ＨＤＤ
　２１６　　音声ＡＤＣ
　２１７　　ステレオマイク
　３００　　レンズ部
　３０１　　撮像部
　３０２　　映像ＡＤ変換部
　３０３　　映像信号処理部
　３０４　　映像信号圧縮部
　３０５　　撮像制御部
　３０６　　映像解析部
　３０７　　レンズ制御部
　３０７ａ　　ズーム制御部
　３０７ｂ　　フォーカス制御部
　３０７ｃ　　手振れ補正制御部
　３０８　　姿勢検出部
　３０８ａ　　加速度センサ
　３０８ｂ　　角速度センサ
　３０８ｃ　　仰角・俯角センサ
　３０９　　属性情報生成部
　３１０　　検出部
　３１１　　生成部
　３１２　　音声解析部
　３１３　　音声信号圧縮部
　３１４　　多重化部
　３１５　　記憶部
　３１６　　付与部
　３１７　　映像信号伸張部
　３１８　　表示部
　３１９　　音声信号伸張部
　３２０　　音声出力部
　３２１　　音声ＡＤ変換部
　３２２　　マイク部
　３２３　　外部入力部
　３２４　　出力部

Claims

撮影部と、
前記撮影部で撮影された映像における時間的な位置を特定可能な時間情報を生成する生成部と、
前記時間情報に基づいて、前記撮影部で撮影された映像を所定の時間単位の映像領域に区分し、前記映像領域毎に、自装置の姿勢情報を含む所定の映像特徴に関する属性情報を検出する検出部と、
前記映像領域毎に、前記属性情報と、前記時間情報を関連づけて記憶する記憶部と、
　前記映像領域のうち、前記所定の姿勢情報に関する属性情報の評価値が所定の値よりも大きい映像領域、または前記所定の姿勢情報に関する属性情報の変化値が所定の値よりも大きい映像領域に対して、映像特徴を有する映像領域であることを示すタグ情報を付与する付与部と、
を備えた映像撮像装置。
撮影部と、
前記撮影部で撮影された映像における時間的な位置を特定可能な時間情報を生成する生成部と、
前記時間情報に基づいて、前記撮影部で撮影された映像を所定の時間単位の映像領域に区分し、前記映像領域毎に所定の映像特徴に関する属性情報を検出する検出部と、
前記映像領域毎に、前記属性情報と、前記時間情報を関連づけて記憶する記憶部と、
　前記映像領域のうち、前記属性情報の評価値が所定の値よりも大きい映像領域、または時間的に連続する複数の映像領域のうち、前記属性情報の変化値が所定の値よりも大きい複数の映像領域に、映像特徴を有する映像領域であることを示すタグ情報を付与する第１モードと、
　前記映像領域のうち、人物、特定のカメラワーク、特定の音声または特定の色に関する映像特徴を有する属性情報と関連付けて記憶された映像領域に前記タグ情報を付与する第２モードとを有する付与部と
を備えた映像撮像装置。
前記付与部は、前記映像領域のうち、前記属性情報の評価値が所定の値よりも大きい映像領域、または時間的に連続する複数の映像領域のうち、前記属性情報の変化値が所定の値よりも大きい複数の映像領域に、前記タグ情報を付与する請求項１記載の映像撮像装置。
　前記付与部は、前記第１モードで前記所定の映像特徴を評価した評価値と、前記第２モードで前記映像特徴を評価した評価値とを比較して、高い評価値のばらつきが少ない方のモードを選択して、前記タグ情報を付与する請求項２記載の映像撮像装置。
　前記撮影部で撮影された映像を出力する時、前記タグ情報が付与された映像領域を優先的に出力する出力部を備えた請求項１ないし４記載の映像撮像装置。
前記出力部は、前記優先的に出力する映像領域が始まる時間的な位置よりも所定の時間遡った時間情報を有する映像領域から出力する請求項５記載の映像撮像装置。
前記出力部は、前記優先的に出力する映像領域が始まる時間的な位置より前に、人物または音声に関する映像特徴を有する映像領域がある場合、当該人物または音声に関する映像特徴を有する映像が始まる映像領域から出力する請求項５記載の映像撮像装置。