WO2018173947A1

WO2018173947A1 - 画像検索装置

Info

Publication number: WO2018173947A1
Application number: PCT/JP2018/010441
Authority: WO
Inventors: 浩司桝田; 佐々　敦
Original assignee: 株式会社日立国際電気
Priority date: 2017-03-22
Filing date: 2018-03-16
Publication date: 2018-09-27
Also published as: JPWO2018173947A1; JP6683889B2

Abstract

顔領域の切り出しのアルゴリズムにマッチしていないと、そもそも顔が映っている領域が顔領域として認識されず、その結果として検索漏れが生じる可能性がある。　映像データから顔領域を切り出す顔領域切り出しプログラムを有する画像検索装置において、顔領域切り出しプログラムは、映像データから第１のアルゴリズムにより顔領域を抽出し（Ｓ４０２）、映像データから第２のアルゴリズムにより頭部領域を抽出し（Ｓ４０５）、頭部領域として抽出されたが、顔領域として抽出されなかった領域に対して、画質を変更させながら顔検出を行い（Ｓ４０７）、顔画像が検出された頭部領域を顔領域として抽出する。

Description

画像検索装置

　本発明は画像検索装置に関する。

　従来から、セキュリティ意識の高まりや警備の省力化といったニーズを背景として、監視カメラを用いた映像監視システムが広範に使用されるようになってきている。空港や駅といった屋内公共施設、デパートや銀行のような屋内商業施設、発電所のようなプラント、市街地のような屋外に監視カメラを配置し、管理室等にいる監視者がリアルタイムに監視カメラからの映像をモニターで目視したり、あるいは監視カメラからの映像を蓄積しておき、異状が生じたときに遡って過去の映像を確認したりすることを可能にしている。

　しかしながら、目視によるリアルタイムの監視では見落としなどのヒューマンエラーの発生をなくすことは困難である。また、蓄積された監視カメラの映像を遡って確認する場合においても、監視システムの大規模化、広域化に伴い、膨大かつ必ずしも鮮明ではない過去の映像から目的の画像の有無を見分けることは難しく、かつ負荷も高い。

　このため、映像監視システムでは画像処理技術を用いて自動的に同一画像、または類似画像を検索することにより、監視精度の向上や監視の省力化を図ることが期待されている。例えば、特許文献１ではキー画像を使用して、記録画像からキー画像に類似の画像を検索する検索方法を開示する。

特開２０１１－４８６６８号公報

　人の検索、特に顔画像の検索精度向上は、映像監視システムにおいて重要な課題である。顔画像の検索ではまず、監視カメラの映像から顔が映っていると判定される領域（顔領域）の切り出しを行う。顔領域切り出しのアルゴリズムはいくつか考えられるが、顔画像に特徴的な輝度分布や輪郭線を抽出することにより、当該領域に顔が映っていると判定するといった手法が一般的である。しかしながら、監視カメラの映像ではマスクをしていたり、帽子を目深にかぶっていたりすることにより、顔画像としての特徴が失われてしまい、そもそも顔領域として判定されない場合がある。また、映像内の人物が、眼鏡やサングラスをかけていたり、あるいはヘルメット、帽子をかぶっていたりすると、特に日光により強いコントラストが生じる環境下での映像では、顔領域として判断しても、例えば眼鏡の大きさを目の大きさとして誤判定してしまうなど、その後の特徴量の抽出段階で誤認識が生じる可能性が高くなる。このように様々な環境下で撮影された監視カメラからの映像を監視する映像監視システムにおいては、顔領域の切り出しのアルゴリズムにマッチしていないと、そもそも顔が映っている領域が顔領域として認識されず、その結果として検索漏れが生じる可能性がある。さらに、顔領域として認識されても後段の処理で誤認識を生じやすいものになっている可能性がある。

　さらに、顔画像の検索においては、その用途から大きく「顔画像照合」と「類似顔画像検索」とに分けられる。ここで、「顔画像照合」とは検索対象とする顔画像をあらかじめ登録しておき、監視カメラからの映像に写っている顔画像とあらかじめ登録されている顔画像とをリアルタイムに照合し、一致する顔画像を抽出するものをいう。一方、「類似顔画像検索」とは、蓄積した映像に対して検索したい顔画像を指定し、指定した顔画像と類似する顔画像が映っている映像部分を抽出するものをいう。類似顔画像検索では、画像検索速度を高速化するため、映像とともにその映像に含まれる顔画像についての特徴量情報を蓄積している。また、指定した顔画像との一致までは要求せず、類似画像（候補画像）を抽出することが一般的である。

　このため、高い照合精度を要求される顔画像照合と、照合は一定の確度で十分であるが高速性が要求される類似顔画像検索とでは顔画像の照合アルゴリズムは異なり、照合に用いる特徴量も異なるのが通常である。しかしながら、先に述べた顔領域の切り出し処理などは両者で共通する前処理といえる。そのため、監視カメラからの映像を顔画像照合によりリアルタイムな検索に使用するとともに、映像を蓄積し、事後の類似顔画像検索にも利用できるようにするには、顔領域の切り出し処理のような共通処理部分については一元化して行うことで映像監視システムとしての画像処理の効率を全体として向上させることができる。

　プロセッサ部と、映像データが読み込まれる主記憶部と、プロセッサ部により実行され、主記憶部に読み込まれた映像データから顔領域を切り出す顔領域切り出しプログラムとを有する画像検索装置であって、顔領域切り出しプログラムは、映像データから第１のアルゴリズムにより顔領域を抽出し、映像データから第２のアルゴリズムにより頭部領域を抽出し、頭部領域として抽出されたが、顔領域として抽出されなかった領域に対して、画質を変更させながら顔検出を行い、顔画像が検出された頭部領域を顔領域として抽出する。

　本発明のその他の特徴については発明を実施する形態として詳細に説明する。

　顔領域の切り出し段階での精度を高めて検索精度を高めることができる。

映像検索システムのシステム構成図である。映像検索装置のブロック図である。補助記憶部に格納されるプログラム、データを示す図である。顔領域切り出し部のフローチャートである。画像特徴量データのデータ構造である。

　図１に映像検索システムのシステム構成図を示す。映像検索システムは、撮像装置１０１－１～１０１－ｎ（ｎ：整数）と、映像記録装置１０２と、映像検索装置１０３とが、ネットワーク１００にて接続されて構成されている。ネットワーク１００は各装置を結ぶデータ通信可能な回線である。専用線、イントラネット、インターネット等のＩＰネットワーク等、回線の種類は問わない。

　撮像装置１０１は、ネットワーク１００を介して、ＣＣＤ（Charge Coupled Device）やＣＭＯＳイメージセンサ等を用いて撮像した映像データを送信可能な、いわゆるＩＰカメラやネットワークカメラ等の撮像装置である。撮像装置１０１は、撮像開始トリガを検出するための人感センサ、動きセンサやマイク等を備えていてもよい。あるいは、撮像装置１０１に通常のテレビジョンカメラを用い、映像記録装置１０２に直接接続し、映像記録装置１０２の画像・音声エンコーダを用いて映像デジタルデータに変換するように構成してもよい。

　映像記録装置１０２は、撮像装置１０１－１～１０１－ｎからの映像をネットワーク１００経由で記録するネットワークデジタルレコーダ等の装置である。映像記録装置１０２は、ＣＰＵ等の制御部や演算部と、内蔵のＤＲＡＭやフラッシュメモリ等の記憶部とを備えている。また、映像記録装置１０２は、ネットワーク１００を介して撮像装置１０１－１～１０１－ｎより入力された画像データを、ＨＤＤ（Hard Disc Drive）等の記録媒体に記録する。映像検索システムにおいて、映像検索装置１０３が映像記録装置１０２から画像を読み出す場合、映像記録装置１０２に対して撮像装置１０１のＩＤと時刻情報とを指定することで、該当する映像を読み出すことができる。

　映像検索装置１０３は、ネットワーク１００を介して映像記録装置１０２から取得した映像データを、フラットパネルディスプレイやＣＲＴ等のディスプレイに表示し、映像検索を行う端末装置である。映像検索装置１０３のブロック図を図２に示す。

　映像検索装置１０３は、プロセッサ部２０１、主記憶部２０２、補助記憶部２０３、入出力インタフェース２０４、表示インタフェース２０５、ネットワークインタフェース２０６を含み、これらはバス２０７により結合されている。入出力インタフェース２０４は、キーボードやマウス等のユーザ入力部２１１に接続され、映像記録装置１０２に記録された映像の再生操作、人物に関する画像検索の実行操作を行うユーザインタフェースを提供する。表示インタフェース２０５は、ディスプレイ２１０に接続され、映像記録装置１０２からの映像や、人物に関する画像検索結果を表示する。ディスプレイ２１０とユーザ入力部２１１とが一体化されたタッチパネルディスプレイも適用可能である。ネットワークインタフェース２０６は映像検索装置１０３とネットワーク１００とを接続するためのインタフェースである。

　プロセッサ部２０１は、ＣＰＵ、ＭＰＵ、ＤＳＰ（デジタル・シグナル・プロセッサ）、ＧＰＵ（グラフィック・プロセッシング・ユニット）、画像検索専用プロセッサ等で構成され、画像検索等の処理を行うプログラムを実行する。主記憶部２０２はＲＡＭで構成され、プロセッサ部２０１が実行する画像検索等の処理を行うプログラムや、プログラムの実行に必要な映像データ、属性データ等を一時的に記憶する。補助記憶部２０３は通常、ＨＤＤやフラッシュメモリなどの不揮発性メモリで構成され、映像検索装置１０３が実行するプログラムやプログラムが処理対象とする映像データ等を記憶する。

　図３に、補助記憶部２０３に格納されるプログラム、データを示す。プログラム３０１～３０４は、映像検索装置１０３の主記憶部２０２にロードされ、プロセッサ部２０１により実行されるプログラムである。なお、プログラムの実装は、映像検索装置１０３にＯＳ（オペレーティングシステム）をインストールして、補助記憶部２０３に格納されるプログラムを実行するのみならず、プロセッサ部２０１のハードウェア資源を使用して実行されるプログラムとして実装されていてもよい。この場合は、プロセッサ部２０１にＲＯＭやフラッシュメモリで実現される不揮発記憶部を設けて、記憶していてもよい。このようなプログラムとして、顔領域切り出しプログラム３０１、画像特徴量抽出プログラム３０２、顔画像照合プログラム３０３、類似画像検索プログラム３０４が含まれる。また、補助記憶部２０３には、映像記録装置１０２から読みだした映像データ３０５、画像特徴量抽出プログラム３０２により抽出した画像特徴量である画像特徴量データが格納されている。

　図４に顔領域切り出しプログラム３０１のフローチャートを示す。まず、顔領域の切り出し処理を行う映像データを取得する（Ｓ４０１）。本実施例では、取得した映像データから第１のアルゴリズムで顔検出を実施する（Ｓ４０２）。顔検出のアルゴリズムには公知の顔検出技術が適用でき、映像データ中の顔の存在の有無判定をし、顔が存在する場合にはその領域の座標算出を行う。次に切り出された顔領域の属性として装着物の有無を判定する（Ｓ４０３）。顔に関連する主な装着物は眼鏡、サングラス、マスク、帽子・ヘルメットといったものが挙げられる。顔領域からの装着物の有無の判定は、顔検出と同様に輝度分布や輪郭線の抽出により行うことができる。したがって、顔検出（Ｓ４０２）と属性付与（Ｓ４０３）は同時に実行してもよい。また、眼鏡やサングラスの場合は、その抽出アルゴリズムによっては、眼鏡を目と誤認識して顔検出する可能性もある。このような場合は、検出した目の大きさにあらかじめ上限を設けておき、検出した目の大きさがその上限を上回る場合には、眼鏡等を装着していると判断するようにしてもよい。

　本実施例では、取得した映像データから第２のアルゴリズムで顔検出を実施する。顔に眼鏡、マスク、帽子・ヘルメットなどを装着することにより、そもそも顔として検出されない可能性があるため、補完的に実施するものである。図４の例では、取得した映像データからまず人体検出を実施する（Ｓ４０４）。人体検出のアルゴリズムも公知の人体検出技術が適用でき、例えば、映像データ中の輪郭線の共起性から人体が映っている領域を特定できる。検出された人体から頭部領域を顔領域候補として切り出す（Ｓ４０５）。人体検出（Ｓ４０４）も、頭部検出（Ｓ４０５）も例えば輪郭線抽出により可能であるので、同時に実行してもよい。

　次に２つのアルゴリズムで検出された顔領域候補に対して、顔領域画像の再検討要否について判定する（Ｓ４０６）。再検討要とするものは２種類あり、（１）属性付与された顔領域と、（２）頭部領域として抽出されたが、顔領域として抽出されていない頭部領域である。

　（１）については、ここでは属性のうち、眼鏡またはサングラスを装着した顔領域を再検討対象とする。（２）については頭部領域の座標と顔領域の座標とを比較し、頭部領域と同一対象として判定される顔領域が存在しない頭部領域を再検討対象とする。再検討不要であれば、次の顔領域または頭部領域の有無を確認し（Ｓ４０９）、全件再検討要否判定済みとなれば、顔領域の切り出し処理は終了する（Ｓ４１０）。

　顔領域または頭部領域が、再検討要と判断された場合の処理について説明する。（１）の顔領域はすでに顔領域として抽出されているので、（２）の頭部領域に対して顔検出を実施する（Ｓ４０７）。この場合、顔が映っているにも関わらず、顔として検出されなかったとすれば、日差しが強く顔が陰に隠れてしまったため、あるいは装着物により顔の一部が隠れてしまうことにより、顔全体としての特徴が失われたため、といった理由が考えられる。このため、画像のコントラスト等の画質を変更させながら、顔の特徴的な部位（目、鼻、口など）を検出し、それらの位置関係から顔画像か否かを判定することによって検出する。このとき、例えば口が映っていなくても、目と鼻とが所定の位置関係にあればマスクをかけているものとして顔画像であると判定する。本ステップにおいても顔画像として判定できない画像については顔が映っていないものとして以降の処理は行わない。顔画像として判定された領域に対しては、顔領域の属性として装着物の有無を判定する（Ｓ４０８）。Ｓ４０３と同様の処理を行うことで属性付与が行える。

　加えて、（１）の眼鏡またはサングラスを装着した顔画像の場合には、眼鏡またはサングラスを外した画像に補正する。例えば、眼鏡（サングラス）の輪郭線は排除し、目以外の領域の色合いを眼鏡のない部分の色合いに合わせる画像補正を行う。これにより、その後の検索のための特徴量抽出の際に誤認識が発生することを抑えることができる。

　顔領域の切り出しが終了すると、画像特徴量抽出プログラム３０２により、顔領域に対する画像特徴量が抽出される。映像データを顔画像照合プログラム３０３で使用する場合には、顔画像照合プログラム３０３に必要な画像特徴量を、映像データを類似画像検索プログラム３０４で使用する場合には、類似画像検索プログラム３０４に必要な画像特徴量を抽出する。少なくとも類似画像検索プログラム３０４に必要な画像特徴量は画像特徴量データ３０６として、補助記憶部２０３に格納される。

　図５に画像特徴量データ３０６のデータ構造を示す。登録ＩＤ５０１は画像特徴量のデータを識別するＩＤであり、図４のフローチャートで検出した顔領域のそれぞれに対して与えられる。撮像装置ＩＤ５０２は映像を撮影した撮像装置１０１－１～ｎを特定するＩＤである。時刻５０３は画像フレームが撮像または記録された時刻を標準時またはフレーム数等により表したデータである。顔領域が映っている期間として記録されてもよい。座標５０４は画像フレームにおける出現位置を示すデータである。属性５０５は装着物の有無、さらに装着物ありの場合はその装着物の内容（例えば、眼鏡、サングラス、マスク、帽子、ヘルメットなど）を記録する。類似画像検索プログラム３０４にて検索を行う場合にこのような属性を利用することで、顔情報のない画像部分を画像のマッチングに使用することを回避できる、例えばマスクをしている場合は、口や鼻の周囲のマッチングは行わないようにできるため、誤認識を低減できるようになる。画像特徴量５０６は画像特徴量抽出プログラム３０２が抽出した画像特徴量データである。縮小画像データ５０７は、画像の縮小データを記憶する。この縮小データは元の画像フレームから生成することができる。画像記録場所５０８は、元の映像の記録場所を特定するものであって、映像記録装置１０２のＩＰアドレスや補助記憶部２０３のアドレスなどを記憶している。

　以上、実施例に基づき本発明を説明したが、実施例として説明した内容に限定されることなく、種々の変形が可能なものである。

１００：ネットワーク、１０１：撮像装置、１０２：映像記録装置、１０３：映像検索装置、２０１：プロセッサ部、２０２：主記憶部、２０３：補助記憶部、２０４：入出力インタフェース、２０５：表示インタフェース、２０６：ネットワークインタフェース、２１０：ディスプレイ、２１１：ユーザ入力部。

Claims

　プロセッサ部と、
　映像データが読み込まれる主記憶部と、
　前記プロセッサ部により実行され、前記主記憶部に読み込まれた前記映像データから顔領域を切り出す顔領域切り出しプログラムとを有し、
　前記顔領域切り出しプログラムは、前記映像データから第１のアルゴリズムにより顔領域を抽出し、前記映像データから第２のアルゴリズムにより頭部領域を抽出し、頭部領域として抽出されたが顔領域として抽出されなかった領域に対して、画質を変更させながら顔検出を行い、顔画像が検出された頭部領域を顔領域として抽出する画像検索装置。
　請求項１において、
　前記顔領域切り出しプログラムは、顔領域の属性として顔に関連する装着物の有無を判定し、
　前記属性として判定する装着物には、少なくとも眼鏡、サングラス、マスク、帽子、ヘルメットを含む画像検索装置。
　請求項２において、
　前記顔領域切り出しプログラムは、顔領域の属性として眼鏡またはサングラスの装着を有する顔領域に対して、眼鏡またはサングラスを除去する画像補正を行う画像検索装置。
　請求項１において、
　前記顔領域切り出しプログラムにより切り出された顔領域に対して、画像特徴量を抽出する画像特徴量抽出プログラムとを有し、
　画像特徴量データとして、顔領域と当該顔領域の属性及び当該顔領域の画像特徴量を記憶する画像検索装置。
請求項２において、
　前記顔領域切り出しプログラムにより切り出された顔領域に対して、画像特徴量を抽出する画像特徴量抽出プログラムとを有し、
　画像特徴量データとして、顔領域と当該顔領域の属性及び当該顔領域の画像特徴量を記憶する画像検索装置。
請求項３において、
　前記顔領域切り出しプログラムにより切り出された顔領域に対して、画像特徴量を抽出する画像特徴量抽出プログラムとを有し、
　画像特徴量データとして、顔領域と当該顔領域の属性及び当該顔領域の画像特徴量を記憶する画像検索装置。