WO2019082318A1

WO2019082318A1 - 動画像処理装置、動画像処理システム、及び動画像処理方法

Info

Publication number: WO2019082318A1
Application number: PCT/JP2017/038582
Authority: WO
Inventors: 祐也田上; 康裕脇本
Original assignee: 株式会社ソシオネクスト
Priority date: 2017-10-25
Filing date: 2017-10-25
Publication date: 2019-05-02
Also published as: JPWO2019082318A1; US20200252637A1; CN111279388A

Abstract

動画像処理装置は、動画像を符号化する符号化部と、前記符号化部による前記動画像が圧縮されて符号化される処理に用いられるデータを取得する取得部と、前記取得部により取得されたデータに基づいて、前記動画像の特徴を示す特徴データを前記動画像から検出する検出部と、前記符号化部により前記動画像が符号化されたデータと、前記検出部により検出された前記特徴データとを出力する出力部と、を有する。

Description

動画像処理装置、動画像処理システム、及び動画像処理方法

　本発明は、動画像処理装置、動画像処理システム、及び動画像処理方法に関する。

　従来、監視カメラ、テレビ放送用のカメラ、スマートフォン等のカメラ等で撮影した動画像（映像）から、人物等を検出する技術が知られている（例えば、特許文献１－５を参照）。この検出処理は、ソフトウェア、または専用のハードウェアを用いて実行される。

　また、カメラで撮影された動画像から、人の顔や行動等を検出する技術が知られている。

特開２００９－１４０５１３号公報特開２００７－３０４８５７号公報特開２０１２－１８１２０９号公報特開２０１７－０６８６２７号公報国際公開第２０１５／１２９３１８号

　しかしながら、従来技術では、所定の検出対象に関するデータを動画像から検出する処理を行う場合、処理に比較的時間がかかるという問題がある。

　そこで、一側面では、所定の検出対象に関するデータを動画像から検出する処理を、比較的高速に行うことができる技術を提供することを目的とする。

　一つの案では、動画像を符号化する符号化部と、前記符号化部による前記動画像が圧縮されて符号化される処理に用いられるデータを取得する取得部と、前記取得部により取得されたデータに基づいて、前記動画像の特徴を示す特徴データを前記動画像から検出する検出部と、前記符号化部により前記動画像が符号化されたデータと、前記検出部により検出された前記特徴データとを出力する出力部と、を有する動画像処理装置が提供される。

　一側面によれば、所定の検出対象に関するデータを動画像から検出する処理を、比較的高速に行うことができる。

実施形態に係る通信システムの構成例を示す図である。実施形態に係る動画像処理装置のハードウェア構成例を示す図である。実施形態に係る端末、及びサーバのハードウェア構成例を示す図である。実施形態に係る動画像処理装置の機能ブロック図の一例を示す図である。実施形態に係るサーバの機能ブロック図の一例を示す図である。動画像処理装置の特徴データを検出する処理の一例を示すフローチャートである。ＣＴＵの一例について説明する図である。ＨＥＶＣにおける動きベクトルについて説明する図である。ＨＥＶＣにおける動きベクトルについて説明する図である。サーバにおける特徴データに基づく表示処理の一例を示すフローチャートである。サーバにおける特徴データに基づく表示処理の一例について説明する図である。サーバにおける特徴データに基づく表示処理の一例について説明する図である。第２の実施形態に係る動画像処理装置の処理の一例を示すフローチャートである。

　［第１の実施形態］
　以下、図面に基づいて本発明の実施形態を説明する。

　＜システム構成＞
　図１は、実施形態に係る通信システム１（「動画像処理システム」）の構成例を示す図である。図１において、通信システム１は、端末１０－１、１０－２、・・・（以下で、それぞれを区別する必要がない場合は、単に「端末１０」と称する。）、動画像処理装置２０、及びサーバ３０を有する。なお、端末１０の数は２つに限定されない。

　端末１０と動画像処理装置２０、及び動画像処理装置２０とサーバ３０は、それぞれ、例えば、インターネット、携帯電話網、無線ＬＡＮ（Local Area Network）、またはＬＡＮ等のネットワーク４０、及びネットワーク５０により、通信可能な状態で接続されている。

　端末１０は、例えば、監視カメラ、ビデオカメラ、スマートフォン、または動画像（映像）ファイルサーバ等の情報処理装置（コンピュータ）である。端末１０は、カメラにより撮像された動画像と、マイクにより集音された音声とを、所定の方式（「第１の方式」）で符号化する。そして、端末１０は、符号化した動画像及び音声を、ストリーミング配信等によりリアルタイムで動画像処理装置２０に配信する。または、端末１０は、符号化した動画像及び音声をファイルとして蓄積し、所定のタイミングで当該ファイルを動画像処理装置２０にアップロードする。

　動画像処理装置２０は、例えば、端末１０により撮像されて符号化された動画像を、復号し、所定の方式（「第２の方式」）により符号化するトランスコーダである。動画像処理装置２０は、端末１０から受信した動画像及び音声を復号、及び符号化し、符号化した動画像及び音声を、ストリーミング配信等によりリアルタイムでサーバ３０に配信する。または、動画像処理装置２０は、符号化した動画像及び音声をファイルとして蓄積し、所定のタイミングで当該ファイルをサーバ３０にアップロードする。これにより、端末１０から受信した、各種の符号化方式により符号化された動画像を、所定の符号化方式に変換してサーバ３０に蓄積させることができる。

　また、動画像処理装置２０は、動画像を符号化する際に、動画像の特徴を示す特徴データを検出し、検出した特徴データを動画像に付加してサーバ３０にアップロードする。特徴データには、物体の位置、物体の移動方向、移動速度など画像処理や推論処理によって得られるデータ、輝度、色、音の変化、音量等が含まれてもよい。

　サーバ３０は、例えば、動画像処理装置２０から受信した動画像及び特徴データを用いて、ＡＩ（Artificial Intelligence）等により、不審者の監視、来客の管理、店舗等のマーケティング、動画像配信、動画像分析等のサービスを提供する。サーバ３０は、動画像処理装置２０から受信した動画像及び音声を、リアルタイムでユーザの情報処理端末に配信してもよい。

　＜ハードウェア構成＞
　≪動画像処理装置≫
　図２は、実施形態に係る動画像処理装置２０のハードウェア構成例を示す図である。図２の動画像処理装置２０は、それぞれバスＢで相互に接続されているドライブ装置２００、補助記憶装置２０２、メモリ装置２０３、ＣＰＵ（Central Processing Unit）２０４、インタフェース装置２０５、復号回路２０６、符号化回路２０７、及びメモリ２０８等を有する。

　動画像処理装置２０での処理を実現する動画像処理プログラムは、記録媒体２０１によって提供される。動画像処理プログラムを記録した記録媒体２０１がドライブ装置２００にセットされると、動画像処理プログラムが記録媒体２０１からドライブ装置２００を介して補助記憶装置２０２にインストールされる。但し、動画像処理プログラムのインストールは必ずしも記録媒体２０１より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置２０２は、インストールされた動画像処理プログラムを格納すると共に、必要なファイルやデータ等を格納する。

　メモリ装置２０３は、プログラムの起動指示があった場合に、補助記憶装置２０２からプログラムを読み出して格納する。ＣＰＵ２０４は、メモリ装置２０３に格納されたプログラムに従って動画像処理装置２０に係る機能を実現する。インタフェース装置２０５は、ネットワークに接続するためのインタフェースとして用いられる。

　復号回路２０６、及び符号化回路２０７は、それぞれ、例えば、ＬＳＩ（Ｌａｒｇｅ　Ｓｃａｌｅ　Ｉｎｔｅｇｒａｔｉｏｎ）等による回路であり、動画像の復号、及び符号化を行う専用の回路である。符号化回路２０７は、動画像を符号化する際、符号化のために使用する所定のデータの作成が完了すると、ＤＭＡ（Direct Memory Access）等の方式により、符号化回路２０７の内部メモリからメモリ２０８に当該データを転送して記憶させる。ＣＰＵ２０４は、メモリ２０８に記憶されている当該データを用いて、後述する特徴データを生成する。

　なお、記録媒体２０１の一例としては、ＣＤ－ＲＯＭ、ＤＶＤディスク、又はＵＳＢメモリ等の可搬型の記録媒体が挙げられる。また、補助記憶装置２０２の一例としては、ＨＤＤ（Hard Disk Drive）又はフラッシュメモリ等が挙げられる。記録媒体２０１及び補助記憶装置２０２のいずれについても、コンピュータ読み取り可能な記録媒体に相当する。メモリ２０８は、メモリ装置２０３の一部を用いてもよい。

　≪端末、サーバ≫
　図３は、実施形態に係る端末１０、及びサーバ３０のハードウェア構成例を示す図である。以下では、サーバ３０を例に説明する。図３のサーバ３０は、それぞれバスＢで相互に接続されているドライブ装置１００、補助記憶装置１０２、メモリ装置１０３、ＣＰＵ１０４、インタフェース装置１０５等を有する。

　サーバ３０での処理を実現する動画像処理プログラムは、記録媒体１０１によって提供される。動画像処理プログラムを記録した記録媒体１０１がドライブ装置１００にセットされると、動画像処理プログラムが記録媒体１０１からドライブ装置１００を介して補助記憶装置１０２にインストールされる。但し、動画像処理プログラムのインストールは必ずしも記録媒体１０１より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置１０２は、インストールされた動画像処理プログラムを格納すると共に、必要なファイルやデータ等を格納する。

　メモリ装置１０３は、プログラムの起動指示があった場合に、補助記憶装置１０２からプログラムを読み出して格納する。ＣＰＵ１０４は、メモリ装置１０３に格納されたプログラムに従ってサーバ３０に係る機能を実現する。インタフェース装置１０５は、ネットワークに接続するためのインタフェースとして用いられる。

　なお、記録媒体１０１の一例としては、ＣＤ－ＲＯＭ、ＤＶＤディスク、又はＵＳＢメモリ等の可搬型の記録媒体が挙げられる。また、補助記憶装置１０２の一例としては、ＨＤＤ（Hard Disk Drive）又はフラッシュメモリ等が挙げられる。記録媒体１０１及び補助記憶装置１０２のいずれについても、コンピュータ読み取り可能な記録媒体に相当する。

　端末１０のハードウェア構成は、サーバ３０と同様でもよい。なお、端末１０は、図３に示すハードウェア構成に加えて、動画像を撮影するカメラ（撮像装置）を有する。

　＜構成＞
　≪動画像処理装置≫
　次に、図４を参照し、動画像処理装置２０の構成について説明する。図４は、実施形態に係る動画像処理装置２０の一例を示す図である。動画像処理装置２０は、復号部２１、符号化部２２、取得部２３、検出部２４、出力部２５、及び制御部２６を有する。

　復号部２１は、図２に示す復号回路２０６、または動画像処理装置２０にインストールされた１以上のプログラムが、動画像処理装置２０のＣＰＵ２０４に実行させる処理により実現される。なお、復号部２１をＣＰＵ２０４により実現する場合は、図２に示す復号回路２０６を備えない構成としてもよい。この場合、ＣＰＵ２０４をマルチコアのプロセッサとし、復号部２１による復号処理と、検出部２４による特徴データ（メタデータ）を検出する処理とを異なるコアを用いて並列に処理するようにしてもよい。

　また、動画像処理装置２０が、ビデオケーブル等を介して、符号化されていないＲＡＷデータの動画像を端末１０から受信する場合は、復号部２１を有しないようにしてもよい。

　符号化部２２は、図２に示す符号化回路２０７を用いて実現される。取得部２３は、図２に示すメモリ２０８を用いて実現される。

　検出部２４、出力部２５、及び制御部２６は、動画像処理装置２０にインストールされた１以上のプログラムが、動画像処理装置２０のＣＰＵ２０４に実行させる処理により実現される。なお、検出部２４、出力部２５、制御部２６を実現する回路を備えてもよい。

　復号部２１は、端末１０から受信した動画像を復号する。

　符号化部２２は、ＨＥＶＣ（High Efficiency Video Coding）／Ｈ．２６５（以下で「ＨＥＶＣ」と称する。）、またはＡＶＣ（Advanced Video Coding）／Ｈ．２６４等の動画像の圧縮規格を用いて、復号部２１により復号された動画像を圧縮して符号化する。

　取得部２３は、符号化部２２により動画像が圧縮されて符号化される処理に用いられているデータを取得する。

　検出部２４は、取得部２３により取得されたデータに基づいて、端末１０から受信した動画像の特徴を示す特徴データを当該動画像から検出する。

　出力部２５は、符号化部２２により動画像が符号化されたデータと、検出部２４により検出された特徴データとをサーバ３０に送信する。出力部２５からサーバ３０への動画像が符号化されたデータと特徴データとの送信は、動画像のフレーム毎に送信してもよいし、複数フレーム分を纏めて送信してもよい。

　制御部２６は、動画像処理装置２０の全体の制御を行う。

　≪サーバ≫
　次に、図５を参照し、サーバ３０の機能構成について説明する。図５は、実施形態に係るサーバ３０の機能ブロック図の一例を示す図である。サーバ３０は、復号部３１、データ処理部３２、及び表示制御部３３を有する。

　復号部３１、データ処理部３２、及び表示制御部３３は、サーバ３０にインストールされた１以上のプログラムが、サーバ３０のＣＰＵ１０４に実行させる処理により実現される。

　復号部３１は、動画像処理装置２０から受信した動画像、及び音声を復号する。

　データ処理部３２は、動画像処理装置２０から受信した特徴データ、及び復号部３１により復号された動画像を用いて、所定のデータ処理を行う。データ処理部３２は、所定のデータ処理として、例えば、より高負荷の画像処理、音声処理、及び推論処理等を行う。

　表示制御部３３は、特徴データまたはデータ処理の結果を、復号した動画像に重畳または付加して表示する。

　＜処理＞
　（特徴データを検出する処理）
　次に、図６を参照し、動画像処理装置２０における特徴データを検出する処理について説明する。図６は、動画像処理装置２０の特徴データを検出する処理の一例を示すフローチャートである。なお、以下の処理は、動画像中の各フレームに対して行われる。

　まず、ステップＳ１において、符号化部２２は、動画像を圧縮して符号化する処理を行う。

　続いて、符号化部２２は、当該符号化処理に用いられるデータを、メモリ２０８に出力する（ステップＳ２）。ここで、図２に示す符号化回路２０７から、メモリ２０８に、符号化処理に用いられるデータが記憶される。これにより、ＣＰＵ２０４が、メモリ２０８に記憶された符号化処理に用いられるデータを参照することができる。

　なお、符号化部２２によるステップＳ１の符号化処理と、検出部２４による検出処理は、並列に実行される。符号化回路２０７による符号化処理は、専用のハードウェアによる処理のため、例えば、端末１０からリアルタイムの動画像をストリーミングで受信した場合に、リアルタイム受信にかかる時間の１／１０程度の時間で各フレームに対する処理を完了できる。

　続いて、検出部２４は、メモリ２０８に記憶されたデータを用いて、端末１０から受信した動画像の特徴を示す特徴データを当該動画像から検出する（ステップＳ３）。このように、符号化処理に用いられるデータを利用することで、特徴データを検出する処理の負荷を大きく削減することができる。

　また、ステップＳ２の処理は符号化処理の途中で行われる。検出部２４による検出処理を、動画像のリアルタイム受信にかかる時間内で完了できる程度の処理負荷にすれば、符号化回路２０７の処理性能が損なわれることなく、特徴データをリアルタイムで検出することができる。

　続いて、出力部２５は、符号化部２２により動画像が符号化されたデータと、検出部２４により検出された特徴データとをサーバ３０に送信する（ステップＳ４）。

　出力部２５は、特徴データに、日時等の前提条件、処理条件やアルゴリズムなど特徴データを抽出したときの情報及び全シーン数などの情報を含む。また、各シーン単位、各ＧＯＰ（Group of Picture）単位、各フレーム単位で抽出した情報を含める。

　ここで、シーンとは、キーとなるフレーム、及び連続する複数フレーム（ＧＯＰ）を有し、動画像処理装置２０及びサーバ３０にて動画像の解析処理を開始する単位である。各シーンの情報には、ＧＯＰ数、キーフレームの数、及びキーフレームの開始位置等の情報が含まれる。各ＧＯＰ単位の情報には、フレーム数等のデータ構成を示す情報、符号化部２２による符号化処理で抽出した情報、及び検出部２４により検出した情報等が含まれる。各フレームの情報には、符号化部２２による符号化処理で各フレームから抽出した情報、及び検出部２４により各フレームから検出した情報等が含まれる。全シーン数には、検出部２４により全シーンに基づいて検出した情報が含まれる。

　出力部２５は、特徴データを、符号化された動画像のストリーミングとは異なる通信プロトコルで送信してもよいし、同じ通信プロトコルで送信してもよい。

　また、特徴データのみを送信してもよい。これにより、送信するデータ量を削減することができる。

　＜複数のカメラで撮影された動画像を用いる場合の変形例＞
　検出部２４は、メモリ２０８に記憶されたデータを用いて、複数の端末１０から受信した各動画像の特徴を示す特徴データを当該各動画像からそれぞれ検出してもよい。この場合、複数の端末１０からの動画像を統合して、特徴データを検出してもよい。例えば、各端末１０の時刻が同期されていない場合、検出部２４は、予め設定されている、各端末１０の撮影範囲が重なる部分の動画像に基づいて、各端末１０からの動画像の時刻を同期させた後、出力部２５からそれぞれ送信されるようにしてもよい。

　＜特徴データの検出処理の例＞
　以下で、特徴データを検出する処理の例について説明する。なお、以下の各例は、適宜組み合わせて実施することができる。

　≪特徴データの検出処理の例１≫
　特徴データの検出処理の例１として、ＨＥＶＣ等の符号化処理中に得られるＣＴＵ（Coding Tree Unit）（「符号化部２２により符号化処理が行われる単位であるブロック」の一例。）を用いて、背景以外の構造物、または背景に関する特徴データを比較的高速に検出する例について説明する。

　符号化部２２は、ＨＥＶＣ等を用いて、動画像中の各フレーム（ピクチャ）の符号化処理を、ＣＴＵと称される正方画素ブロックの単位で行う。ＨＥＶＣ等において、フレーム中の各ブロックの大きさは、フレーム画像中の輪郭の存在、及び輪郭の複雑さに応じて決定される。

　図７は、ＣＴＵの一例について説明する図である。図７に示すように、平坦な背景部分は、比較的大きいブロック（ＣＢ:Coding Block）５０１により分割される。また、物体の輪郭は、比較的小さいブロック５０２により分割される。

　符号化部２２は、ＣＴＵを決定するブロック分割処理が完了すると、ＣＴＵのデータを、メモリ２０８に格納する。メモリ２０８に格納されたＣＴＵのデータには、構成する各色成分信号のブロックである各ＣＴＢ（Coding Tree Block）の階層構造とＣＢサイズ、及び隣接するＣＴＢ等のデータが含まれる。

　検出部２４は、メモリ２０８に格納されたＣＴＵのデータを、特徴データとしてもよい。これにより、例えば、ＣＴＵのデータである特徴データを用いて、空や壁等の背景と、人や建物等の構造を有する物体とを区別したり、蓄積されているデータから、構図が類似しているデータを抽出したりすることができる。

　また、検出部２４は、当該ＣＴＵのデータを用いて、例えば、画像中の検出対象の領域等を検出し、検出した領域のデータを特徴データとしてもよい。この場合、検出部２４は、例えば、人物等を検出対象とする場合、ＣＢのサイズが所定値以下の領域を優先的に検索し、顔を検出する処理を実行してもよい。これにより、例えば、リアルタイムで動画像を解析する場合に、人物等の物体を検出する処理の精度をより向上させるとともに、当該処理をより高速化できる。この場合、人物等を検出するアルゴリズムとしては、公知のアルゴリズムを用いてもよい。また、ＣＴＵのデータを用いてＣＢのサイズが所定値（例えば、１６×１６）以下の領域のみを検索範囲としてもよい。これにより、従来の画像全体を探索範囲する方法と比較して、より高速に検出できる。

　また、検出部２４は、例えば、空や道路等の背景を検出対象とする場合、ＣＢのサイズが所定値（例えば、３２×３２）以上の領域を探索範囲として、背景を検出する処理を実行してもよい。

　≪特徴データの検出処理の例２≫
　特徴データの検出処理の例２として、符号化処理中に得られる縮小画像を用いて、物体の動きに関する特徴データを比較的高速に検出する例について説明する。

　ＨＥＶＣやＡＶＣ等において、動き補償のために、各フレームの縮小画像（予測画像）が生成される。符号化部２２は、動き補償のための縮小画像を生成すると、生成した縮小画像のデータを、メモリ２０８に格納する。

　検出部２４は、メモリ２０８に格納された縮小画像のデータを、特徴データとしてもよい。これにより、サーバ３０にて、当該特徴データを、例えば、動き探索等に利用できる。

　また、検出部２４は、当該縮小画像のデータを用いて、例えば、画像中の検出対象の動き等を検出し、検出した動きのデータを特徴データとしてもよい。この場合、検出部２４は、例えば、複数の探索起点領域の候補を求め、複数の候補のなかから類似度の高い探索起点領域を選出し、選出した起点領域を特徴データとする。サーバ３０において、特徴データに含まれる探索起点及びその周囲を、等倍画像を用いて細かく探索することができる。

　≪特徴データの検出処理の例３≫
　特徴データの検出処理の例３として、符号化処理中に得られる、連続する複数のフレーム間の変化を示すデータを用いて、物体の動きに関する特徴データを比較的高速に検出する例について説明する。

　ＨＥＶＣやＡＶＣ等において、動き補償等のために、連続する複数のフレーム間の変化を示すデータが生成される。各フレーム間の変化を示すデータには、例えば、差分、及び動きベクトル等が含まれる。

　差分は、今回のフレームに含まれる所定の範囲の各画素の輝度と色差の値と、前回のフレームに含まれる当該所定の範囲の各画素の輝度と色差の値との差分絶対値和（ＳＡＤ:Sum of Absolute Difference）、差分二乗和（ＳＳＤ:Sum of Squared Difference）、絶対値変換差分和（ＳＡＴＤ:Sum of Absolute Transformed Difference）等である。動きベクトルは、連続する各フレーム間において予測された符号化対象ブロックの移動方向を示すデータである。

　また、ＨＥＶＣやＡＶＣ等では、予測ブロック（ＰＵ: Prediction Unit）ごとに動き補償予測が行われる。

　図８Ａ、及び図８Ｂは、ＨＥＶＣにおける動き情報について説明する図である。隣接し合う各予測ブロックは、似たような動きを有すると考えられるため、ＨＥＶＣでは、予測ブロック毎に別々の動きベクトルを符号化するのではなく、隣接し合う各予測ブロックの動きベクトルを統合して符号化する。図８Ａの例では、予測ブロック毎の動きベクトルが矢印８０１等により示されている。図８Ｂの例では、隣接し合う各予測ブロックにて統合された動きベクトルが矢印８０２等により示されている。

　符号化部２２は、動き補償のための当該各データを生成すると、生成した各データを、メモリ２０８に格納する。

　検出部２４は、メモリ２０８に格納された各データを、特徴データとしてもよい。これにより、サーバ３０にて、当該特徴データを、例えば、動き探索等に利用できる。

　また、検出部２４は、当該各データを用いて、例えば、画像中の検出対象の動き等を検出し、検出した動きのデータを特徴データとしてもよい。この場合、検出部２４は、所定数以上の予測ブロックの集合であって、各予測ブロックのサイズが所定値以下である予測ブロックの集合の動きが符号化部２２により統合されている場合に、当該集合に含まれる各予測ブロックの領域を優先的に検索するようにしてもよい。これにより、例えば、リアルタイムで動画像を解析する場合に、動いている物体を検出する処理の精度をより向上させるとともに、当該処理をより高速化できる。

　≪特徴データの検出処理の例４≫
　特徴データの検出処理の例４として、符号化処理中に得られる、フレームの複雑度を示すデータを用いて、複雑度に関する特徴データを比較的高速に検出する例について説明する。

　ＨＥＶＣやＡＶＣ等のイントラ予測において、１つのフレーム内の輝度、色差のＳＡＤ（差分絶対値和）、及びＳＡＴＤ（絶対値変換差分和）等の各データが算出される。

　符号化部２２は、イントラ予測における当該各データを生成すると、生成した各データを、メモリ２０８に格納する。検出部２４は、メモリ２０８に格納された各データを、特徴データとしてもよい。

　上述した特徴データの検出処理によれば、例えば、監視カメラからの動画像及び音声を監視する監視カメラシステムにおいて、画像中の顔の位置及びサイズ、撮影された人物の認識、人物の年齢や性別の推定情報、人物の服の色やメガネ、帽子、鞄といった所有物等に関する特徴データを検出できる。

　また、カメラの設置位置や向き、レンズの画角、歪、特性等が既知である場合や、所定のマーカ等で事前にカメラのキャリブレーションが行われている場合は、撮影された人物の大きさや、カメラからの距離に関する特徴データを検出できる。

　また、認識した人や物の動きを追跡し、どのような動きを行ったかという行動または動作に関する特徴データを検出できる。この場合、特徴データには、例えば、顔や体、足の向き、手や足の動き、各関節の位置、（顔の表情）等の情報と、これらを含めて推定した行動や動作などの情報が含まれてもよい。なお、当該情報は、数フレームや数秒毎に検出されるようにしてもよい。

　また、複数のカメラによりそれぞれ撮影された動画像により、比較的広範囲における行動を検出し、検出した行動の範囲を特徴データとしてもよい。これにより、人物や物が移動した軌跡をユーザの端末に表示させることができる。

　（特徴データに基づく表示処理）
　次に、図９、図１０Ａ及び図１０Ｂを参照し、サーバ３０における特徴データに基づく表示処理について説明する。図９は、サーバ３０における特徴データに基づく表示処理の一例を示すフローチャートである。図１０Ａ及び図１０Ｂは、サーバ３０における特徴データに基づく表示処理の一例について説明する図である。

　ステップＳ１０１において、復号部３１は、動画像処理装置２０から受信した動画像、及び音声を復号する。

　続いて、データ処理部３２は、動画像処理装置２０から受信した特徴データ、及び復号部３１により復号された動画像を用いて、所定のデータ処理を行う（ステップＳ１０２）。なお、ステップＳ１０１の処理とステップＳ１０２の処理は、並列処理により同時に実行されるようにしてもよい。

　続いて、表示制御部３３は、特徴データまたはデータ処理の結果を、復号した動画像に重畳または付加して表示する（ステップＳ１０３）。図１０Ａの例では、動画像処理装置２０から受信した特徴データに含まれる２人の顔の領域が、枠１００１、及び枠１００２により、動画像に重畳して表示されている。ここで、例えば、枠１００２内を押下する操作等により、図１０Ｂの画面が表示される。図１０Ｂの例では、枠１００２内の画像と、枠１００２内の人物の名前、性別等の情報が付加されて表示されている。なお、枠１００２内の人物の名前、性別等は、動画像処理装置２０あるいはデータ処理部３２で、枠１００２内の画像と、予め登録されている顔画像とを照合し、類似度が所定値以上で最も高い人物に対応付けられた名前、性別等が表示されてもよい。

　［第２の実施形態］
　第１の実施形態では、動画像処理プログラムが、専用のハードウェアである符号化回路２０７により符号化のために生成されたデータを用いて、ＣＰＵ２０４の処理により特徴データを検出する例について説明した。第２の実施形態では、端末１０から受信した動画像のデータサイズ、または検出対象の特徴データの種別に応じて、当該動画像を、専用の回路である符号化回路２０７により符号化するか、動画像処理プログラムがＣＰＵ２０４の処理により符号化するか等を切り替える例について説明する。

　例えば、符号化回路２０７が、フレームの解像度が比較的高い高精細な動画像に特化した回路であり、解像度が低い動画像に対しては、符号化回路２０７で処理するよりも、ＣＰＵ２０４を用いてプログラムで処理した方が速い場合であるとする。または、例えば、検出対象の特徴データの種別が、符号化回路２０７の実装によって生成されないデータを用いる必要があり、ＣＰＵ２０４を用いてプログラムによって符号化する場合は当該データが生成される場合であるとする。これらのような場合においても、第２の実施形態によれば、符号化のために生成されたデータを用いて、所定の検出対象に関するデータを動画像から検出する処理を行うため、当該処理を比較的高速に行うことができる。

　なお、第２の実施形態は一部を除いて第１の実施形態と同様であるため、適宜説明を省略する。以下では、第１の実施形態と共通する部分については説明を省略し、異なる部分についてのみ説明する。なお、第２の実施形態に記載の内容は、第１の実施形態にも適用可能である。

　＜処理＞
　次に、図１１を参照し、第２の実施形態に係る動画像処理装置２０の処理について説明する。図１１は、第２の実施形態に係る動画像処理装置２０の処理の一例を示すフローチャートである。

　ステップＳ２１において、制御部２６は、端末１０から受信した動画像のデータサイズ（フレームの解像度）が第１の閾値以下であるか否かを判定する。

　第１の閾値以下である場合（ステップＳ２１でＹＥＳ）、復号部２１は、ＣＰＵ２０４を用いた動画像処理プログラムの処理により、端末１０から受信した動画像を復号し（ステップＳ２２）、後述するステップＳ２４の処理に進む。

　第１の閾値以下でない場合（ステップＳ２１でＮＯ）、復号部２１は、復号回路２０６の処理により、端末１０から受信した動画像を復号する（ステップＳ２３）。

　続いて、制御部２６は、端末１０から受信した動画像のデータサイズが第２の閾値以下であるか否かを判定する（ステップＳ２４）。

　第２の閾値以下である場合（ステップＳ２４でＹＥＳ）、符号化部２２は、ＣＰＵ２０４を用いた動画像処理プログラムの処理により、端末１０から受信して復号部２１により復号された動画像を符号化し（ステップＳ２５）、処理を終了する。

　第２の閾値以下でない場合（ステップＳ２４でＮＯ）、符号化部２２は、符号化回路２０７の処理により、端末１０から受信して復号部２１により復号された動画像を符号化し（ステップＳ２６）、処理を終了する。

　＜変形例＞
　上述した例では、ステップＳ２１、及びステップＳ２４において、端末１０から受信した動画像のデータサイズに基づいて判定を行う例について説明したが、ステップＳ２１、及びステップＳ２４の少なくとも一方において、検出対象の特徴データの種別に応じて当該判定を行うようにしてもよい。

　＜その他＞
　従来、専用のハードウェアにより動画像からの検出処理を行う場合、検出のロジック等を後から変更できないという問題がある。上述した実施形態によれば、トランスコーダである動画像処理装置２０が、ソフトウェアの処理により動画像からの検出処理を行うため、検出のロジック等を変更することができる。

　上述した実施形態は、画像から人を認識する監視カメラシステム、店舗において顧客が商品を手に取ったか、当該商品を購入したか等を分析するデジタルマーケティングシステム、ＩＰ配信システム、被写体の情報を動画像に重畳して表示するＡＲ／ＶＲシステム等にも適用できる。

　以上、本発明の実施例について詳述したが、本発明は斯かる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。

　動画像処理装置２０の各機能部は、例えば１以上のコンピュータにより構成されるクラウドコンピューティングにより実現されていてもよい。また、動画像処理装置２０、及びサーバ３０を一体の装置として構成してもよい。動画像処理装置２０、及び端末１０を一体の装置として構成してもよい。この場合、動画像処理装置２０は、動画像の復号処理をしなくともよい。端末１０またはサーバ３０の各機能部のうち少なくとも一部を、動画像処理装置２０が有するようにしてもよい。

　なお、サーバ３０は、「情報処理装置」の一例である。

１　通信システム
１０　端末
２０　動画像処理装置
２１　復号部
２２　符号化部
２３　取得部
２４　検出部
２５　出力部
２６　制御部
２０２　補助記憶装置
２０３　メモリ装置
２０４　ＣＰＵ
２０５　インタフェース装置
２０６　復号回路
２０７　符号化回路
２０８　メモリ
３０　サーバ
３１　復号部
３２　データ処理部
３３　表示制御部

Claims

　動画像を符号化する符号化部と、
　前記符号化部による前記動画像が圧縮されて符号化される処理に用いられるデータを取得する取得部と、
　前記取得部により取得されたデータに基づいて、前記動画像の特徴を示す特徴データを前記動画像から検出する検出部と、
　前記符号化部により前記動画像が符号化されたデータと、前記検出部により検出された前記特徴データとを出力する出力部と、
を有する動画像処理装置。
　前記動画像処理装置は、第１の方式で符号化されている前記動画像を復号する復号部を有し、
　前記符号化部は、前記第１の方式とは異なる第２の方式により、前記復号部により復号された前記動画像を符号化する、
請求項１に記載の動画像処理装置。
　前記取得部は、符号化部により符号化処理が行われる単位であるブロックのデータ、または前記動画像に含まれるフレームの縮小画像を取得する、
請求項１または２に記載の動画像処理装置。
　前記符号化部により前記動画像が圧縮されて符号化される処理に用いられるデータは、符号化部により符号化処理が行われる単位であるブロックのデータ、前記動画像に含まれるフレームの縮小画像、及び前記動画像において連続する複数のフレーム間の変化を示すデータの少なくとも一つを含む、
請求項１乃至３のいずれか一項に記載の動画像処理装置。
　前記検出部は、前記ブロックのサイズが所定値以下の領域、及び連続する複数のフレーム間で変化した領域の少なくとも一つを検索し、前記特徴データを検出する、
請求項４に記載の動画像処理装置。
　前記特徴データは、検出対象の物体の領域、及び前記物体の動きの少なくとも一つを含む、
請求項１乃至５のいずれか一項に記載の動画像処理装置。
　前記出力部は、前記符号化部により符号化された前記動画像のフレームに対応付けて、前記動画像において当該フレームに対応する画像から前記検出部により検出された前記特徴データを出力する、
請求項１乃至６のいずれか一項に記載の動画像処理装置。
　前記符号化部は、前記動画像が圧縮されて符号化される処理に用いられるデータをメモリに転送し、
　前記検出部は、前記メモリに記憶されたデータに基づいて、前記動画像の特徴を示す特徴データを前記動画像から検出する、
請求項１乃至７のいずれか一項に記載の動画像処理装置。
　前記動画像処理装置は、
　符号化する前記動画像のフレームの解像度、及び検出対象の特徴データの種別に応じて、ＣＰＵ（Central Processing Unit）で前記動画像を符号化するか、専用の回路で前記動画像を符号化するかを切り替える、
請求項１乃至８のいずれか一項に記載の動画像処理装置。
　動画像処理装置と、情報処理装置とを有し、
　前記動画像処理装置は、
　動画像を符号化する符号化部と、
　前記符号化部による前記動画像が圧縮されて符号化される処理に用いられるデータを取得する取得部と、
　前記取得部により取得されたデータに基づいて、前記動画像の特徴を示す特徴データを前記動画像から検出する検出部と、
　前記符号化部により前記動画像が符号化されたデータと、前記検出部により検出された前記特徴データとを前記情報処理装置に出力する出力部と、
を有し、
　前記情報処理装置は、
　前記動画像処理装置から受信した前記動画像を復号する復号部と、
　前記動画像に、前記特徴データに応じた情報を重畳または付加させて表示させる表示制御部と、
を有する動画像処理システム。
　動画像処理装置が、
　動画像を符号化するステップと、
　前記動画像が圧縮されて符号化される処理に用いられるデータを取得するステップと、
　取得されたデータに基づいて、前記動画像の特徴を示す特徴データを前記動画像から検出するステップと、
　前記動画像が符号化されたデータと、検出された前記特徴データとを出力するステップと、
を実行する動画像処理方法。