JPWO2019135270A1

JPWO2019135270A1 - 動画像解析装置、動画像解析システム、動画像解析方法、及びプログラム

Info

Publication number: JPWO2019135270A1
Application number: JP2019563721A
Authority: JP
Inventors: 泰夫西口; 康裕脇本; 祐也田上
Original assignee: Socionext Inc
Current assignee: Socionext Inc
Priority date: 2018-01-04
Filing date: 2018-01-04
Publication date: 2021-01-07
Anticipated expiration: 2038-01-04
Also published as: CN111542858B; US20200327332A1; US11495023B2; WO2019135270A1; JP7211373B2; CN111542858A

Abstract

動画像解析装置は、動画像を符号化する符号化部と、前記動画像に含まれる第１フレーム、及び第２フレームに対し、前記符号化部による前記動画像が圧縮されて符号化される処理に用いられる第１データ、及び第２データをそれぞれ取得する取得部と、前記第１フレームと前記第１データとに基づいて、前記動画像の特徴を示す第１特徴データを検出し、前記第２フレームと前記第２データとに基づいて、前記動画像の特徴を示す第２特徴データを検出する第１検出部と、前記第１特徴データと、前記第２特徴データとに基づき、前記第１フレームに含まれるオブジェクトを検出する第２検出部と、を有する。

Description

本発明は、動画像解析装置、動画像解析システム、動画像解析方法、及びプログラムに関する。

従来、監視カメラ、テレビ放送用のカメラ、スマートフォン等のカメラ等で撮影した動画像（映像）から、配信に不適切等のオブジェクトを検出する技術が知られている（例えば、特許文献１、２を参照）。

特開２００９−０４９９４９号公報国際公開第２０１６／０８８５８３号

しかしながら、従来技術では、オブジェクトを動画像から検出する処理を行う場合、処理に比較的時間がかかるという問題がある。

そこで、一側面では、オブジェクトを動画像から検出する処理を、比較的高速に行うことができる技術を提供することを目的とする。

一つの案では、動画像を符号化する符号化部と、前記動画像に含まれる第１フレーム、及び第２フレームに対し、前記符号化部による前記動画像が圧縮されて符号化される処理に用いられる第１データ、及び第２データをそれぞれ取得する取得部と、前記第１フレームと前記第１データとに基づいて、前記動画像の特徴を示す第１特徴データを検出し、前記第２フレームと前記第２データとに基づいて、前記動画像の特徴を示す第２特徴データを検出する第１検出部と、前記第１特徴データと、前記第２特徴データとに基づき、前記第１フレームに含まれるオブジェクトを検出する第２検出部と、を有する動画像解析装置が提供される。

一側面によれば、オブジェクトを動画像から検出する処理を、比較的高速に行うことができる。

実施形態に係る通信システムの構成例を示す図である。実施形態に係る動画像解析装置のハードウェア構成例を示す図である。実施形態に係る撮像端末、動画像配信装置、及び表示端末のハードウェア構成例を示す図である。実施形態に係る動画像解析装置の構成ブロック図の一例を示す図である。実施形態に係る動画像配信装置の機能ブロック図の一例を示す図である。動画像解析装置のオブジェクトを検出する処理の一例を示すフローチャートである。ＣＴＵの一例について説明する図である。ＨＥＶＣにおける動きベクトルについて説明する図である。ＨＥＶＣにおける動きベクトルについて説明する図である。シーンデータの一例について説明する図である。オブジェクトデータの一例について説明する図である。

以下、図面に基づいて本発明の実施形態を説明する。

＜システム構成＞
図１は、実施形態に係る通信システム１（「動画像処理システム」）の構成例を示す図である。図１において、通信システム１は、撮像端末１０−１、１０−２、・・・（以下で、それぞれを区別する必要がない場合は、単に「撮像端末１０」と称する。）、動画像解析装置２０、動画像配信装置３０、及び表示端末４０−１、４０−２、・・・（以下で、それぞれを区別する必要がない場合は、単に「表示端末４０」と称する。）を有する。

撮像端末１０と動画像解析装置２０、動画像解析装置２０と動画像配信装置３０、及び動画像配信装置３０と表示端末４０は、それぞれ、例えば、インターネット、携帯電話網、無線ＬＡＮ（Local Area Network）、またはＬＡＮ等のネットワーク５０、ネットワーク６０、及びネットワーク７０により、通信可能な状態で接続されている。

撮像端末１０は、例えば、監視カメラ、ビデオカメラ、スマートフォン、または動画像（映像）ファイルサーバ等の情報処理装置（コンピュータ）である。撮像端末１０は、カメラにより撮像された動画像と、マイクにより集音された音声とを、所定の方式（「第１の方式」）で符号化する。そして、撮像端末１０は、符号化した動画像及び音声を、ストリーミング配信等によりリアルタイムで動画像解析装置２０に配信する。または、撮像端末１０は、符号化した動画像及び音声をファイルとして蓄積し、所定のタイミングで当該ファイルを動画像解析装置２０にアップロードする。

動画像解析装置２０は、動画像処理装置２１、及び解析装置２２を有する。

動画像処理装置２１は、例えば、撮像端末１０により撮像されて符号化された動画像を、復号し、所定の方式（「第２の方式」）により符号化するトランスコーダである。動画像処理装置２１は、撮像端末１０から受信した動画像及び音声を復号、及び符号化し、符号化した動画像及び音声を、ストリーミング配信等によりリアルタイムで動画像配信装置３０に出力する。または、動画像処理装置２１は、符号化した動画像及び音声をファイルとして蓄積し、所定のタイミングで当該ファイルを動画像配信装置３０にアップロードする。これにより、撮像端末１０から受信した、各種の符号化方式により符号化された動画像を、所定の符号化方式に変換して動画像配信装置３０に出力することができる。

また、動画像処理装置２１は、動画像を符号化する際に、動画像の特徴を示す特徴データを検出する。なお、特徴データには、物体の位置、物体の移動方向、移動速度など画像処理や推論処理によって得られるデータ、輝度、色、音の変化、音量等が含まれてもよい。

そして、動画像処理装置２１は、当該特徴データに基づき、解析装置２２にオブジェクトを検出させ、検出させたオブジェクトのデータと、特徴データとを動画像に付加して動画像配信装置３０に出力する。

動画像配信装置３０は、例えば、動画像処理装置２１から受信した動画像及びオブジェクトのデータを用いたＡＩ（Artificial Intelligence）等により、動画像配信、不審者の監視、来客の管理、店舗等のマーケティング、動画像分析等のサービスを提供する。動画像配信装置３０は、動画像処理装置２１から受信した動画像及び音声を、リアルタイムで表示端末４０に配信してもよい。また、動画像配信装置３０は、解析装置２２により所定のオブジェクトが検出された場合に、当該配信を停止してもよい。

表示端末４０は、例えば、スマートフォン、タブレット端末、またはパーソナルコンピュータ等の情報処理装置（コンピュータ）である。表示端末４０は、動画像配信装置３０から配信された動画像を画面に表示させる。

＜ハードウェア構成＞
≪動画像解析装置２０≫
図２は、実施形態に係る動画像解析装置２０のハードウェア構成例を示す図である。図２の動画像解析装置２０は、動画像処理装置２１、及び解析装置２２を有する。

≪動画像処理装置２１≫
動画像処理装置２１は、それぞれバスＢで相互に接続されているドライブ装置２００、補助記憶装置２０２、メモリ装置２０３、ＣＰＵ（Central Processing Unit）２０４、インタフェース装置２０５、復号回路２０６、符号化回路２０７、及びメモリ２０８等を有する。

動画像処理装置２１での処理を実現する動画像処理プログラムは、記録媒体２０１によって提供される。動画像処理プログラムを記録した記録媒体２０１がドライブ装置２００にセットされると、動画像処理プログラムが記録媒体２０１からドライブ装置２００を介して補助記憶装置２０２にインストールされる。但し、動画像処理プログラムのインストールは必ずしも記録媒体２０１より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置２０２は、インストールされた動画像処理プログラムを格納すると共に、必要なファイルやデータ等を格納する。

メモリ装置２０３は、プログラムの起動指示があった場合に、補助記憶装置２０２からプログラムを読み出して格納する。ＣＰＵ２０４は、メモリ装置２０３に格納されたプログラムに従って動画像処理装置２１に係る機能を実現する。インタフェース装置２０５は、ネットワーク、及び解析装置２２に接続するためのインタフェースとして用いられる。

復号回路２０６、及び符号化回路２０７は、それぞれ、例えば、ＬＳＩ（ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｉｏｎ）等による回路であり、動画像の復号、及び符号化を行う専用の回路である。符号化回路２０７は、動画像を符号化する際、符号化のために使用する所定のデータの作成が完了すると、ＤＭＡ（Direct Memory Access）等の方式により、符号化回路２０７の内部メモリからメモリ２０８に当該データを転送して記憶させる。ＣＰＵ２０４は、メモリ２０８に記憶されている当該データを用いて、後述する特徴データを生成する。

なお、記録媒体２０１の一例としては、ＣＤ−ＲＯＭ、ＤＶＤディスク、又はＵＳＢメモリ等の可搬型の記録媒体が挙げられる。また、補助記憶装置２０２の一例としては、ＨＤＤ（Hard Disk Drive）又はフラッシュメモリ等が挙げられる。記録媒体２０１及び補助記憶装置２０２のいずれについても、コンピュータ読み取り可能な記録媒体に相当する。メモリ２０８は、メモリ装置２０３の一部を用いてもよい。

≪解析装置２２≫
解析装置２２は、例えば、アクセラレータ用のボード（カード）であり、ＣＰＵ２２０１、メモリ装置２２０２、補助記憶装置２２０３及びインタフェース装置２２０４等を有する。解析装置２２は、PCI Express等のインタフェース規格により、インタフェース装置２０５を介して動画像処理装置２１に接続される。解析装置２２を動画像処理装置２１に後付け可能な構成とすることにより、例えば、動画像処理装置２１による１次解析処理の結果を改善する２次解析処理機能を、後から追加、変更することができる。

≪撮像端末１０、動画像配信装置３０≫
図３は、実施形態に係る撮像端末１０、動画像配信装置３０、及び表示端末４０のハードウェア構成例を示す図である。以下では、動画像配信装置３０を例に説明する。図３の動画像配信装置３０は、それぞれバスＢで相互に接続されているドライブ装置１００、補助記憶装置１０２、メモリ装置１０３、ＣＰＵ１０４、インタフェース装置１０５等を有する。

動画像配信装置３０での処理を実現する動画像処理プログラムは、記録媒体１０１によって提供される。動画像処理プログラムを記録した記録媒体１０１がドライブ装置１００にセットされると、動画像処理プログラムが記録媒体１０１からドライブ装置１００を介して補助記憶装置１０２にインストールされる。但し、動画像処理プログラムのインストールは必ずしも記録媒体１０１より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置１０２は、インストールされた動画像処理プログラムを格納すると共に、必要なファイルやデータ等を格納する。

メモリ装置１０３は、プログラムの起動指示があった場合に、補助記憶装置１０２からプログラムを読み出して格納する。ＣＰＵ１０４は、メモリ装置１０３に格納されたプログラムに従って動画像配信装置３０に係る機能を実現する。インタフェース装置１０５は、ネットワークに接続するためのインタフェースとして用いられる。

なお、記録媒体１０１の一例としては、ＣＤ−ＲＯＭ、ＤＶＤディスク、又はＵＳＢメモリ等の可搬型の記録媒体が挙げられる。また、補助記憶装置１０２の一例としては、ＨＤＤ（Hard Disk Drive）又はフラッシュメモリ等が挙げられる。記録媒体１０１及び補助記憶装置１０２のいずれについても、コンピュータ読み取り可能な記録媒体に相当する。

撮像端末１０及び表示端末４０のハードウェア構成は、動画像配信装置３０と同様でもよい。なお、撮像端末１０は、図３に示すハードウェア構成に加えて、動画像を撮影するカメラ（撮像装置）を有する。

＜構成＞
≪動画像解析装置≫
次に、図４を参照し、動画像解析装置２０の構成について説明する。図４は、実施形態に係る動画像解析装置２０の構成の一例を示す図である。動画像解析装置２０は、復号部２１１、符号化部２１２、取得部２１３、検出部２１４、出力部２１５、及び制御部２１６を有する。また、解析装置２２は、解析部２２１を有する。

復号部２１１は、図２に示す復号回路２０６、または動画像処理装置２１にインストールされた１以上のプログラムが、動画像処理装置２１のＣＰＵ２０４に実行させる処理により実現される。なお、復号部２１１をＣＰＵ２０４により実現する場合は、図２に示す復号回路２０６を備えない構成としてもよい。この場合、ＣＰＵ２０４をマルチコアのプロセッサとし、復号部２１１による復号処理と、検出部２１４による特徴データ（メタデータ）を検出する処理とを異なるコアを用いて並列に処理するようにしてもよい。

また、動画像解析装置２０が、ビデオケーブル等を介して、符号化されていないＲＡＷデータの動画像を撮像端末１０から受信する場合は、復号部２１１を有しないようにしてもよい。

符号化部２１２は、図２に示す符号化回路２０７を用いて実現される。取得部２１３は、図２に示すメモリ２０８を用いて実現される。

検出部２１４、出力部２１５、及び制御部２１６は、動画像処理装置２１にインストールされた１以上のプログラムが、動画像処理装置２１のＣＰＵ２０４に実行させる処理により実現される。また、解析部２２１は、解析装置２２にインストールされた１以上のプログラムが、解析装置２２のＣＰＵ２２０１に実行させる処理により実現される。

なお、動画像解析装置２０は、検出部２１４、出力部２１５、制御部２１６、または解析部２２１を実現する回路を備えてもよい。

復号部２１１は、撮像端末１０から受信した動画像を復号する。

符号化部２１２は、ＨＥＶＣ（High Efficiency Video Coding）／Ｈ．２６５（以下で「ＨＥＶＣ」と称する。）、またはＡＶＣ（Advanced Video Coding）／Ｈ．２６４等の動画像の圧縮規格を用いて、復号部２１１により復号された動画像の各フレームを圧縮して符号化する。

取得部２１３は、符号化部２１２により動画像の各フレームが圧縮されて符号化される処理に用いられているデータをそれぞれ取得する。

検出部２１４は、動画像の各フレームと、取得部２１３により取得されたデータに基づいて、撮像端末１０から受信した動画像の各フレームの特徴を示す特徴データをそれぞれ検出する。特徴データには、静止物、移動物、人、顔、または車両等の処理対象フレームに含まれる各オブジェクトの種別を示すラベル情報、当該各オブジェクトの領域（輪郭）を示す情報、当該各オブジェクトの動きを示す情報、及び認識された背景の情報等が含まれてもよい。

解析部２２１は、検出部２１４により複数のフレームの各々に対して検出された各特徴データと、当該複数のフレームに含まれる第２フレーム（代表フレーム）とに基づいて、第１フレームに含まれるオブジェクトを検出し、検出されたオブジェクトのデータと検出に用いた特徴データとを出力する。

出力部２１５は、符号化部２１２により動画像が符号化されたデータと、解析部２２１により検出されたオブジェクトのデータと、特徴データとを動画像配信装置３０に出力する。出力部２１５から動画像配信装置３０への動画像が符号化されたデータとオブジェクトのデータと特徴データの出力は、動画像のフレーム毎に出力してもよいし、複数フレーム分を纏めて出力してもよい。

制御部２１６は、動画像解析装置２０の全体の制御を行う。

≪動画像配信装置≫
次に、図５を参照し、動画像配信装置３０の機能構成について説明する。図５は、実施形態に係る動画像配信装置３０の機能ブロック図の一例を示す図である。動画像配信装置３０は、復号部３１、データ処理部３２、及び配信制御部３３を有する。

復号部３１、データ処理部３２、及び配信制御部３３は、動画像配信装置３０にインストールされた１以上のプログラムが、動画像配信装置３０のＣＰＵ１０４に実行させる処理により実現される。

復号部３１は、必要に応じて動画像処理装置２１から受信した動画像、及び音声を復号する。

データ処理部３２は、動画像処理装置２１から受信したオブジェクトのデータと特徴データ、及び復号部３１により復号された動画像を用いて、所定のデータ処理を行う。データ処理部３２は、所定のデータ処理として、例えば、より高負荷の画像処理、音声処理、及び推論処理等を行って動画像中のシーンを抽出し、抽出されたシーンや受信したオブジェクトに基づき動画像の配信可否を判断し、判断結果を配信制御部３３へ出力する。配信可否の判断においては、オブジェクトの確からしさのスコアが閾値以上の場合に、動画像の配信を停止してもよいし、抽出されたシーンや受信したオブジェクトがあらかじめ設定された配信停止対象に該当する場合に、動画像の配信を停止してもよい。

配信制御部３３は、表示端末４０に動画像を配信し、表示端末４０の画面における動画像の表示を制御する。

なお、データ処理部３２による配信可否の判断結果に基づき一部のシーンやオブジェクトにぼかし処理やマスク処理を行い、その後ＣＰＵ１０４に符号化処理を実行させた後で配信制御部へ出力することもできる。

＜処理＞
（オブジェクトを検出する処理）
次に、図６を参照し、動画像解析装置２０におけるオブジェクトを検出する処理について説明する。図６は、動画像解析装置２０のオブジェクトを検出する処理の一例を示すフローチャートである。なお、以下の処理は、動画像中の各フレームに対して行われる。以下では、動画像中の任意の一フレームを、処理対象フレームと称する。

まず、ステップＳ１において、動画像処理装置２１の符号化部２１２は、処理対象フレームを圧縮して符号化する処理を行う。

続いて、動画像処理装置２１の符号化部２１２は、当該符号化の処理に用いられるデータを、メモリ２０８に出力する（ステップＳ２）。ここで、図２に示す符号化回路２０７から、メモリ２０８に、符号化処理に用いられるデータが記憶される。これにより、ＣＰＵ２０４が、メモリ２０８に記憶された符号化処理に用いられるデータを参照することができる。符号化処理に用いられるデータには、例えば、符号化処理が行われる単位である各ブロック（ＣＴＵ（Coding Tree Unit））のデータ、フレームの縮小画像、動画像において連続する複数のフレーム間の変化を示すデータ（当該各ブロックの動きを示すデータ）、同色の領域を示すデータ、及び当該各ブロックの輪郭のデータ等が含まれてもよい。

なお、符号化部２１２によるステップＳ１の符号化処理と、検出部２１４による検出処理は、並列に実行される。符号化回路２０７による符号化処理は、専用のハードウェアによる処理のため、例えば、撮像端末１０からリアルタイムの動画像をストリーミングで受信した場合に、リアルタイム受信にかかる時間の１／１０程度の時間で処理対象フレームに対する処理を完了できる。

続いて、動画像解析装置２０の検出部２１４は、メモリ２０８に記憶されたデータを用いて、処理対象フレームに対する、動画像の特徴を示す特徴データを検出する（ステップＳ３）。検出部２１４は、例えば、ディープラーニング等の機械学習を用いたＡＩにより、特徴データを検出してもよい。このように、符号化処理に用いられるデータを利用することで、処理対象フレーム毎の特徴データを検出する処理の負荷を大きく削減することができる。

また、ステップＳ２の処理は符号化処理の途中で行われる。検出部２１４による検出処理を、動画像のリアルタイム受信にかかる時間内で完了できる程度の処理負荷にすれば、符号化回路２０７の処理性能が損なわれることなく、特徴データをリアルタイムで検出することができる。

続いて、解析装置２２の解析部２２１は、動画像処理装置２１の検出部２１４により検出された、処理対象フレーム以前の複数のフレームの各々に対する各特徴データに基づいて、オブジェクトを検出する（ステップＳ４）。なお、解析装置２２の解析部２２１は、当該各特徴データと、当該複数のフレームに含まれる一のフレームとに基づいて、オブジェクトを検出してもよい。この場合、当該一のフレームは、検出部２１４のＡＩにより、オブジェクトの種別に関する認識結果のスコアが比較的高く算出されたフレームでもよい。

解析装置２２の解析部２２１は、例えば、ディープラーニング等の機械学習を用いたＡＩにより、オブジェクトを検出してもよい。または、解析装置２２の解析部２２１は、例えば、複数のフレームの各々に対する各特徴データから、２以上の人物が対面し、一方の人物が他方の人物に対して手を所定の閾値以上の速さで繰り出しており、かつ周囲に観客がいない等の条件を満たす場合に、少なくとも当該一方の人物を、所定のオブジェクト（暴力を振るっている人物）と認識してもよい。解析装置２２の解析部２２１は、所定のオブジェクトらしさの度合いを示すスコアを算出し、算出したスコアを、当該所定のオブジェクトのデータとして出力部２１５から出力させてもよい。

特徴データに基づいた解析を行うことにより、動画像中の複数のフレームに基づいてオブジェクトを検出する場合と比較して、より高速にオブジェクトを検出できる。

なお、解析装置２２の解析部２２１は、特徴データに加えて、動画像に含まれる各フレームの一部または全部にも基づいて、オブジェクトを検出してもよい。これにより、動画像に含まれる各フレームのみに基づいてオブジェクトを検出する場合と比較して、検出の精度を向上させることができる。

続いて、解析装置２２の解析部２２１は、オブジェクトの領域を示す情報を、動画像処理装置２１の符号化部２１２に出力する（ステップＳ５）。符号化部２１２は、以降のフレームの符号化を行う際、当該オブジェクトの領域を、あらかじめ設定した処理あるいは解析部２２１の指示する処理、例えば、当該フレームの背景等の画像に置換して符号化を行うようにしてもよい。または、当該オブジェクトの領域にぼかし（モザイク）処理を施して符号化を行うようにしてもよい。これにより、当該オブジェクトが写るフレームを出力しないようにすることができる。

続いて、動画像解析装置２０の出力部２１５は、符号化部２１２により動画像が符号化されたデータと、動画像解析装置２０の検出部２１４により検出された特徴データと、解析部２２１により検出されたオブジェクトのデータとを動画像配信装置３０に出力する（ステップＳ６）。

なお、ステップＳ４の処理において、オブジェクトが検出されなかった場合は、出力部２１５により動画像が符号化されたデータが出力され、処理対象フレームに対する処理が終了する。

＜複数のカメラで撮影された動画像を用いる場合の変形例１＞
解析装置２２の解析部２２１は、複数の撮像端末１０から受信した各動画像の特徴を示す各特徴データ等に基づいて、オブジェクトを検出してもよい。例えば、あらかじめ複数の撮像端末１０の各々の位置や取り付け角度が分かっており、撮像端末１０−１で撮影された動画像のフレームと特徴データとに基づいてオブジェクトを検出した場合、同時刻に撮像端末１０−２で撮影されたフレームにおいても当該オブジェクトを検出したと判定してもよい。

例えば、解析装置２２の解析部２２１が、オブジェクトに比較的近い位置に設置された第１カメラからの特徴データ等に基づいて、当該オブジェクトを検出した場合であるとする。この場合、解析装置２２の解析部２２１は、当該オブジェクトに比較的遠い位置に設置された第２カメラから検出した特徴データ等からは、当該オブジェクトである可能性を示すスコアが比較的低い値が算出されたとしても、当該オブジェクトであると判定する。

＜複数のカメラで撮影された動画像を用いる場合の変形例２＞
解析装置２２の解析部２２１は、撮像端末１０−１で撮影された動画像のフレームと特徴データとに基づいてオブジェクトを検出した場合、以降は、撮像端末１０−２で撮影されたフレームを符号化部２１２でぼかし等の加工した後に符号化させるようにしてもよい。

＜特徴データの検出処理の例＞
以下で、特徴データを検出する処理の例について説明する。なお、以下の各例は、適宜組み合わせて実施することができる。

≪特徴データの検出処理の例１≫
特徴データの検出処理の例１として、ＨＥＶＣ等の符号化処理中に得られるＣＴＵ（Coding Tree Unit）（「符号化される処理に用いられるデータ」、及び「ブロック」の一例。）を用いて、背景以外の構造物、または背景に関する特徴データを比較的高速に検出する例について説明する。

符号化部２１２は、ＨＥＶＣ等を用いて、動画像中の各フレーム（ピクチャ）の符号化処理を、ＣＴＵと称される正方画素ブロックの単位で行う。ＨＥＶＣ等において、フレーム中の各ブロックの大きさは、フレーム画像中の輪郭の存在、及び輪郭の複雑さに応じて決定される。

図７は、ＣＴＵの一例について説明する図である。図７に示すように、平坦な背景部分は、比較的大きいブロック（ＣＢ:Coding Block）５０１により分割される。また、物体の輪郭は、比較的小さいブロック５０２により分割される。

符号化部２１２は、ＣＴＵを決定するブロック分割処理が完了すると、ＣＴＵのデータを、メモリ２０８に格納する。メモリ２０８に格納されたＣＴＵのデータには、構成する各色成分信号のブロックである各ＣＴＢ（Coding Tree Block）の階層構造とＣＢサイズ、及び隣接するＣＴＢ等のデータが含まれる。

検出部２１４は、メモリ２０８に格納されたＣＴＵのデータを、特徴データとしてもよい。これにより、例えば、ＣＴＵのデータである特徴データを用いて、空や壁等の背景と、人や建物等の構造を有する物体とを区別したり、蓄積されているデータから、構図が類似しているデータを抽出したりすることができる。

また、検出部２１４は、当該ＣＴＵのデータを用いて、例えば、画像中の各オブジェクトの領域等を検出し、検出した領域のデータを特徴データとしてもよい。この場合、検出部２１４は、例えば、人物等を検出対象とする場合、ＣＢのサイズが所定値以下の領域を優先的に検索し、顔を検出する処理を実行してもよい。これにより、例えば、リアルタイムで動画像を解析する場合に、人物等の物体を検出する処理の精度をより向上させるとともに、当該処理をより高速化できる。この場合、人物等を検出するアルゴリズムとしては、公知のアルゴリズムを用いてもよい。また、ＣＴＵのデータを用いてＣＢのサイズが所定値（例えば、１６×１６）以下の領域のみを検索範囲としてもよい。これにより、従来の画像全体を探索範囲する方法と比較して、より高速に検出できる。

また、検出部２１４は、例えば、空や道路等の背景を検出対象とする場合、ＣＢのサイズが所定値（例えば、３２×３２）以上の領域を探索範囲として、背景を検出する処理を実行してもよい。

≪特徴データの検出処理の例２≫
特徴データの検出処理の例２として、符号化処理中に得られる縮小画像（「符号化される処理に用いられるデータ」の一例。）を用いて、物体の動きに関する特徴データを比較的高速に検出する例について説明する。

ＨＥＶＣやＡＶＣ等において、動き補償のために、各フレームの縮小画像（予測画像）が生成される。符号化部２１２は、動き補償のための縮小画像を生成すると、生成した縮小画像のデータを、メモリ２０８に格納する。

検出部２１４は、メモリ２０８に格納された縮小画像のデータを、特徴データとしてもよい。これにより、動画像配信装置３０にて、当該特徴データを、例えば、動き探索等に利用できる。

また、検出部２１４は、当該縮小画像のデータを用いて、例えば、画像中の各オブジェクトの動き等を検出し、検出した動きのデータを特徴データとしてもよい。この場合、検出部２１４は、例えば、複数の探索起点領域の候補を求め、複数の候補のなかから類似度の高い探索起点領域を選出し、選出した起点領域を特徴データとする。動画像配信装置３０において、特徴データに含まれる探索起点及びその周囲を、等倍画像を用いて細かく探索することができる。

≪特徴データの検出処理の例３≫
特徴データの検出処理の例３として、符号化処理中に得られる、連続する複数のフレーム間の変化を示すデータ（ブロックの動きを示すデータ。「符号化される処理に用いられるデータ」の一例。）を用いて、物体の動きに関する特徴データを比較的高速に検出する例について説明する。

ＨＥＶＣやＡＶＣ等において、動き補償等のために、連続する複数のフレーム間の変化を示すデータが生成される。各フレーム間の変化を示すデータには、例えば、差分、及び動きベクトル等が含まれる。

差分は、今回のフレームに含まれる所定の範囲の各画素の輝度と色差の値と、前回のフレームに含まれる当該所定の範囲の各画素の輝度と色差の値との差分絶対値和（ＳＡＤ:Sum of Absolute Difference）、差分二乗和（ＳＳＤ:Sum of Squared Difference）、絶対値変換差分和（ＳＡＴＤ:Sum of Absolute Transformed Difference）等である。動きベクトルは、連続する各フレーム間において予測された符号化対象ブロックの移動方向を示すデータである。

また、ＨＥＶＣやＡＶＣ等では、予測ブロック（ＰＵ: Prediction Unit）ごとに動き補償予測が行われる。

図８Ａ、及び図８Ｂは、ＨＥＶＣにおける動き情報について説明する図である。隣接し合う各予測ブロックは、似たような動きを有すると考えられるため、ＨＥＶＣでは、予測ブロック毎に別々の動きベクトルを符号化するのではなく、隣接し合う各予測ブロックの動きベクトルを統合して符号化する。図８Ａの例では、予測ブロック毎の動きベクトルが矢印８０１等により示されている。図８Ｂの例では、隣接し合う各予測ブロックにて統合された動きベクトルが矢印８０２等により示されている。

符号化部２１２は、動き補償のための当該各データを生成すると、生成した各データを、メモリ２０８に格納する。

検出部２１４は、メモリ２０８に格納された各データを、特徴データとしてもよい。これにより、動画像配信装置３０にて、当該特徴データを、例えば、動き探索等に利用できる。

また、検出部２１４は、当該各データを用いて、例えば、画像中の各オブジェクトの動き等を検出し、検出した動きのデータを特徴データとしてもよい。この場合、検出部２１４は、所定数以上の予測ブロックの集合であって、各予測ブロックのサイズが所定値以下である予測ブロックの集合の動きが符号化部２１２により統合されている場合に、当該集合に含まれる各予測ブロックの領域を優先的に検索するようにしてもよい。これにより、例えば、リアルタイムで動画像を解析する場合に、動いている物体を検出する処理の精度をより向上させるとともに、当該処理をより高速化できる。

≪特徴データの検出処理の例４≫
特徴データの検出処理の例４として、符号化処理中に得られる、フレームの複雑度を示すデータ（「符号化される処理に用いられるデータ」の一例。）を用いて、複雑度に関する特徴データを比較的高速に検出する例について説明する。

ＨＥＶＣやＡＶＣ等のイントラ予測において、１つのフレーム内の輝度、色差のＳＡＤ（差分絶対値和）、及びＳＡＴＤ（絶対値変換差分和）等の各データが算出される。

符号化部２１２は、イントラ予測における当該各データを生成すると、生成した各データを、メモリ２０８に格納する。検出部２１４は、メモリ２０８に格納された各データを、特徴データとしてもよい。

上述した特徴データの検出処理によれば、例えば、監視カメラからの動画像及び音声を監視する監視カメラシステムにおいて、画像中の顔の位置及びサイズ、撮影された人物の認識、人物の年齢や性別の推定情報、人物の服の色やメガネ、帽子、鞄といった所有物等に関する特徴データを検出できる。

また、カメラの設置位置や向き、レンズの画角、歪、特性等が既知である場合や、所定のマーカ等で事前にカメラのキャリブレーションが行われている場合は、撮影された人物の大きさや、カメラからの距離に関する特徴データを検出できる。

また、認識した人や物の動きを追跡し、どのような動きを行ったかという行動または動作に関する特徴データを検出できる。この場合、特徴データには、例えば、顔や体、足の向き、手や足の動き、各関節の位置、（顔の表情）等の情報と、これらを含めて推定した行動や動作などの情報が含まれてもよい。なお、当該情報は、数フレームや数秒毎に検出されるようにしてもよい。

また、複数のカメラによりそれぞれ撮影された動画像により、比較的広範囲における行動を検出し、検出した行動の範囲を特徴データとしてもよい。これにより、人物や物が移動した軌跡をユーザの端末に表示させることができる。

＜変形例１＞
符号化部２１２は、図２に示す符号化回路２０７を用いて実現される代わりに、動画像処理装置２１にインストールされた１以上のプログラムが、動画像処理装置２１のＣＰＵ２０４に実行させる処理により実現されるようにしてもよい。

＜変形例２＞
上述した例では、ステップＳ５の処理において、動画像解析装置２０が、ぼかし等の処理を行って符号化する例について説明した。これに代えて、表示端末４０が、動画像を復号した後、ぼかし等の処理を行ってから画面に表示させるようにしてもよい。この場合、例えば、動画像配信装置３０が、動画像解析装置２０から受信した、動画像が符号化されたデータと、オブジェクトのデータとを表示端末４０に配信し、表示端末４０が、当該オブジェクトの領域をぼかす等の画像処理を行うようにしてもよい。

＜変形例３＞
動画像処理装置２１の検出部２１４、及び解析装置２２の解析部２２１は、例えば、表示端末４０のユーザによる判断結果に基づいて、機械学習を行うようにしてもよい。この場合、検出部２１４、及び解析部２２１は、例えば、動画像配信装置３０から、表示端末４０のユーザによる判断結果を教師有り学習の学習データとして取得し、ディープラーニング等の機械学習を行う。

＜変形例４＞
動画像配信装置３０は、動画像の各フレームに対応付けて、解析装置２２の解析部２２１により検出されたオブジェクト等の情報を記憶してもよい。

図９Ａは、シーンデータ９０１の一例について説明する図である。図９Ｂは、オブジェクトデータ９０２の一例について説明する図である。動画像配信装置３０で記憶されるシーンデータ９０１、及びオブジェクトデータ９０２には、解析装置２２の解析部２２１により検出された、動画像の各フレームに対応付けられたオブジェクト等のデータが記憶される。

図９Ａの例では、シーンデータ９０１には、フレームの区間に対応付けて、オブジェクト等のデータとして、シーン、オブジェクトＩＤ、場所、行動、感情等が記憶されている。シーンは、動画像の内容を示す単位であり、当該区間内のオブジェクトの行動、及び各フレーム内の環境の変化に応じて、各シーンに分けられている。オブジェクトＩＤは、当該区間内のオブジェクトの識別情報である。場所は、当該区間内で撮影されている場所を示す情報である。行動は、当該区間内のオブジェクトの行動を示す情報である。感情は、当該区間内のオブジェクトの感情を示す情報である。

図９Ｂの例では、オブジェクトデータ９０２には、オブジェクトＩＤに対応付けて、名前、年齢、性別等のデータが記憶される。名前は、オブジェクトの名前である。年齢は、オブジェクトの年齢である。性別は、オブジェクトの性別である。なお、オブジェクトには人物だけでは無く、物体も含まれる。解析装置２２の解析部２２１により検出されたオブジェクト等の情報を記憶しておくことにより、例えば、投稿された動画像の分類、及び検索等が容易となる。

＜その他＞
従来、リアルタイムでユーザから配信される動画に、著作権を侵害するオブジェクト、公序良俗に反するオブジェクト、または暴力を振るっている人物等の不適切なオブジェクトが写っている場合、監視者が目視で確認し、動画の配信を停止していた。

上述した実施形態によれば、動画像が圧縮されて符号化される処理に用いられるデータを用いて、オブジェクトを検出する。これにより、オブジェクトを動画像から検出する処理を、比較的高速に行うことができる。このため、例えば、動画をリアルタイムで配信する場合に、配信に不適切なオブジェクトが写っていることをより高速ないし高精度で検出できる。

上述した実施形態は、画像から人を認識する監視カメラシステム、店舗において顧客が商品を手に取ったか、当該商品を購入したか等を分析するデジタルマーケティングシステム、ＩＰ配信システム、被写体の情報を動画像に重畳して表示するＡＲ／ＶＲシステム等にも適用できる。

以上、本発明の実施例について詳述したが、本発明は斯かる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。

動画像解析装置２０の各機能部は、例えば１以上のコンピュータにより構成されるクラウドコンピューティングにより実現されていてもよい。また、動画像解析装置２０、及び動画像配信装置３０を一体の装置として構成してもよい。動画像解析装置２０、及び撮像端末１０を一体の装置として構成してもよい。この場合、動画像処理装置２１は、動画像の復号処理をしなくともよい。撮像端末１０または動画像配信装置３０の各機能部のうち少なくとも一部を、動画像解析装置２０が有するようにしてもよい。

例えば、解析装置２２は、動画像処理装置２１と同一の筐体に含まれる構成に代えて、独立した装置としてもよいし、動画像配信装置３０と同一の筐体に含まれる構成としてもよい。

なお、動画像配信装置３０は、「情報処理装置」の一例である。検出部２１４は、「第１検出部」の一例である。解析部２２１は、「第２検出部」の一例である。

１通信システム
１０撮像端末
２０動画像解析装置
２１動画像処理装置
２０７符号化回路
２０８メモリ
２１１復号部
２１２符号化部
２１３取得部
２１４検出部
２１５出力部
２１６制御部
２２解析装置
２２１解析部
３０動画像配信装置
３１復号部
３２データ処理部
３３配信制御部
４０表示端末

Claims

動画像を符号化する符号化部と、
前記動画像に含まれる第１フレーム、及び第２フレームに対し、前記符号化部による前記動画像が圧縮されて符号化される処理に用いられる第１データ、及び第２データをそれぞれ取得する取得部と、
前記第１フレームと前記第１データとに基づいて、前記動画像の特徴を示す第１特徴データを検出し、前記第２フレームと前記第２データとに基づいて、前記動画像の特徴を示す第２特徴データを検出する第１検出部と、
前記第１特徴データと、前記第２特徴データとに基づき、前記第１フレームに含まれるオブジェクトを検出する第２検出部と、
を有する動画像解析装置。
前記第２検出部は、機械学習を用いて、前記オブジェクトを検出する、
請求項１に記載の動画像解析装置。
前記符号化部は、前記動画像に含まれる第３フレームにおいて、前記オブジェクトの領域の少なくとも一部を、他の画像に置換して符号化する、またはぼかして符号化する、
請求項１または２に記載の動画像解析装置。
前記第１データ、及び前記第２データは、前記符号化部により符号化処理が行われる単位であるブロックのデータ、前記動画像に含まれるフレームの縮小画像、及び前記動画像において連続する複数のフレーム間の変化を示すデータの少なくとも一つを含む、
請求項１乃至３のいずれか一項に記載の動画像解析装置。
前記第１特徴データ及び前記第２特徴データは、前記オブジェクトの領域、前記オブジェクトの動き、及び前記オブジェクトの種別を示すデータの少なくとも一つを含む、
請求項１乃至４のいずれか一項に記載の動画像解析装置。
動画像処理装置、及び解析装置を有する動画像解析システムであって、
前記動画像処理装置は、
動画像を符号化する符号化部と、
前記動画像に含まれる第１フレーム、及び第２フレームに対し、前記符号化部による前記動画像が圧縮されて符号化される処理に用いられる第１データ、及び第２データをそれぞれ取得する取得部と、
前記第１フレームと前記第１データとに基づいて、前記動画像の特徴を示す第１特徴データを検出し、前記第２フレームと前記第２データとに基づいて、前記動画像の特徴を示す第２特徴データを検出する第１検出部と、を有し、
前記解析装置は、
前記第１特徴データと、前記第２特徴データとに基づき、前記第１フレームに含まれるオブジェクトを検出する第２検出部を有する、
動画像解析システム。
動画像解析装置が、
動画像を符号化する処理と、
前記動画像に含まれる第１フレーム、及び第２フレームに対し、前記符号化する処理による前記動画像が圧縮されて符号化される処理に用いられる第１データ、及び第２データをそれぞれ取得する処理と、
前記第１フレームと前記第１データとに基づいて、前記動画像の特徴を示す第１特徴データを検出し、前記第２フレームと前記第２データとに基づいて、前記動画像の特徴を示す第２特徴データを検出する処理と、
前記第１特徴データと、前記第２特徴データとに基づき、前記第１フレームに含まれるオブジェクトを検出する処理と、
を実行する、動画像解析方法。
動画像解析装置に、
動画像を符号化する処理と、
前記動画像に含まれる第１フレーム、及び第２フレームに対し、前記符号化する処理による前記動画像が圧縮されて符号化される処理に用いられる第１データ、及び第２データをそれぞれ取得する処理と、
前記第１フレームと前記第１データとに基づいて、前記動画像の特徴を示す第１特徴データを検出し、前記第２フレームと前記第２データとに基づいて、前記動画像の特徴を示す第２特徴データを検出する処理と、
前記第１特徴データと、前記第２特徴データとに基づき、前記第１フレームに含まれるオブジェクトを検出する処理と、
を実行させる、プログラム。