WO2020071472A1

WO2020071472A1 - 差異検出装置及び差異検出プログラム

Info

Publication number: WO2020071472A1
Application number: PCT/JP2019/039074
Authority: WO
Inventors: 基宏高木; 和也早瀬; 清水　淳
Original assignee: 日本電信電話株式会社
Priority date: 2018-10-04
Filing date: 2019-10-03
Publication date: 2020-04-09
Also published as: JP2020061596A; US20210375006A1; JP7244738B2; US11967121B2

Abstract

差異検出装置は、異なる時刻に撮影されたほぼ同一空間を表す第１の画像及び第２の画像と、第１の画像の符号化情報及び第２の画像の符号化情報との関連付けに基づいて、異なる時刻に撮影されたほぼ同一空間を表す第３の画像及び第４の画像の間の差異を検出する差異検出部を備え、符号化情報は、符号化された第１の画像を含むデータと符号化された第２の画像を含むデータとから、第１の画像及び第２の画像に対して実行された各復号処理において逆変換処理が実行される前に取得された情報である。

Description

差異検出装置及び差異検出プログラム

　本発明は、差異検出装置及び差異検出プログラムに関する。

　近年、異なる時刻に撮影された同一空間を表す画像間の差異を検出する技術が注目されている。例えば、地上に新規の建造物や道路が造られた場合、人工衛星等から撮影された新規の建造物等の画像は、画像間の差異（変化領域）として検出される。撮影された地上の画像に基づいて地図が更新される場合、撮影された地上の大量の画像群を人が比較し、地上に造られた新規の建造物等の画像を人が検出する場合がある。

　しかしながら、大量の画像間の差異を人が検出する場合、時間及び人件費に関して高いコストが必要となる。そこで、画像間の差異を差異検出装置がニューラルネットワークを用いて検出する技術が提案されている（非特許文献１参照）。

　非特許文献１に提案された方法では、異なる時刻に撮影された同一空間を表す２枚の画像における、建造物、植生及び道路の画像を、建造物クラス、植生クラス及び道路クラスのそれぞれに差異検出装置が分類する。差異検出装置は、建造物クラスに分類された画像に基づいて、建造物のマスク画像を生成する。差異検出装置は、撮影された２枚の画像における建造物のマスク画像の差分を検出することによって、新規の建造物の画像を検出する。

　このように、差異検出装置は、撮影された２枚の画像に対してセグメンテーション処理を実行することによって、撮影された画像ごとにマスク画像を生成する。差異検出装置は、撮影された２枚の画像におけるマスク画像の差分に基づいて、画像間の差異（変化領域）を検出する。

田代、外６名、「植生・道路領域除去による空撮画像間の変化検出の精度向上」、電子情報通信学会　総合大会、D-11-37、2018.

　しかしながら、従来の差異検出装置は、撮影された画像のみをニューラルネットワークに入力しており、ニューラルネットワークから出力された画像特徴以外の情報を、差異を検出する処理に使用していない。言い換えると、学習データとして用いられる画像群ごとにどのような特徴を抽出するよう学習されるかは不明である。このため、従来の差異検出装置は、画像間の差異を検出する精度を向上させることができないという問題があった。

　上記事情に鑑み、本発明は、画像間の差異を検出する精度を向上させることが可能である差異検出装置及び差異検出プログラムを提供することを目的としている。

　本発明の一態様は、異なる時刻に撮影されたほぼ同一空間を表す第１の画像及び第２の画像と、前記第１の画像の符号化情報及び前記第２の画像の符号化情報との関連付けに基づいて、異なる時刻に撮影されたほぼ同一空間を表す第３の画像及び第４の画像の間の差異を検出する差異検出部を備え、前記符号化情報は、符号化された前記第１の画像を含むデータと符号化された前記第２の画像を含むデータとから、前記第１の画像及び前記第２の画像に対して実行された各復号処理において逆変換処理が実行される前に取得された情報である、差異検出装置である。

　本発明の一態様は、上記の差異検出装置であって、前記第３の画像及び前記第４の画像は、画像に関するフレームを分割するブロックであり、前記差異検出部は、前記フレームについて、前記第３の画像及び前記第４の画像の間の差異を前記ブロックごとに検出する。

　本発明の一態様は、上記の差異検出装置であって、前記関連付けは、前記第１の画像と前記第２の画像と前記符号化情報とのいずれかに基づいて学習が実行された前段の各ニューラルネットワークの出力値の関連付けである。

　本発明の一態様は、上記の差異検出装置であって、前記第１の画像及び前記第２の画像の間に差異があると判定された場合に前記出力値が第１の値に近づき、前記第１の画像及び前記第２の画像の間に差異がないと判定された場合に前記出力値が第２の値に近づくように学習が実行された後段のニューラルネットワークを更に備える。

　本発明の一態様は、上記の差異検出装置であって、前記符号化情報は、符号量と、イントラ予測モードと、変換係数と、画像に関する特徴とのいずれかの情報である。

　本発明の一態様は、上記の差異検出装置であって、前記符号化情報を画像形式に変換する変換部を更に備え、前記差異検出部は、画像形式に変換された前記符号化情報に基づいて、前記第３の画像及び前記第４の画像の間の差異を検出する。

　本発明の一態様は、異なる時刻に撮影されたほぼ同一空間を表す第１の画像及び第２の画像と、前記第１の画像の符号化情報及び前記第２の画像の符号化情報との関連付けに基づいて、異なる時刻に撮影されたほぼ同一空間を表す第３の画像及び第４の画像の間の差異を検出する差異検出部を備え、前記符号化情報は、符号中の前記第１の画像を含むデータと符号化中の前記第２の画像を含むデータとから、前記第１の画像及び前記第２の画像に対して実行された符号化処理において変換処理が実行された後に取得された情報である、差異検出装置である。

　本発明の一態様は、上記の差異検出装置としてコンピュータを機能させるための差異検出プログラムである。

　本発明により、画像間の差異を検出する精度を向上させることが可能である。

第１実施形態における、差異検出装置の構成例を示す図である。第１実施形態における、深層学習等の機械学習のモデルの構成例を示す図である。第１実施形態における、学習部の動作例を示すフローチャートである。第１実施形態における、検出部の動作例を示すフローチャートである。第１実施形態における、画像復号部の動作例を示すフローチャートである。第１実施形態における、画像分割部の動作例を示すフローチャートである。第１実施形態における、画像特徴生成部の動作例を示すフローチャートである。第１実施形態における、符号化特徴生成部の動作例を示すフローチャートである。第１実施形態における、パラメータ学習部の動作例を示すフローチャートである。第１実施形態における、差異検出部の動作例を示すフローチャートである。第２実施形態における、差異検出装置の構成例を示す図である。第２実施形態における、符号化特徴画像化部の動作例を示すフローチャートである。

　本発明の実施形態について、図面を参照して詳細に説明する。
　（第１実施形態）
　図１は、差異検出装置１ａの構成例を示す図である。差異検出装置１ａは、画像間の差異を検出する情報処理装置である。画像は、例えば、人工衛星等によって上空から撮影された地上を表す画像である。画像間の差異は、例えば、異なる時刻に撮影されたほぼ同一空間を表す画像間の差異（変化領域）である。

　差異検出装置１ａは、学習部１０と、検出部１１とを備える。差異検出装置１ａは、記憶部を更に備えてもよい。学習部１０及び検出部１１の一部又は全部は、ＣＰＵ（Central Processing Unit）等のプロセッサが、記憶部に記憶されたプログラムを実行することにより実現される。学習部１０及び検出部１１の各機能部のうち一部又は全部は、例えば、ＬＳＩ（Large Scale Integration）やＡＳＩＣ（Application Specific Integrated Circuit）等のハードウェアを用いて実現されてもよい。

　記憶部は、例えばフラッシュメモリ、ＨＤＤ（Hard Disk Drive）などの不揮発性の記録媒体（非一時的な記録媒体）が好ましい。記憶部は、ＲＡＭ（Random Access Memory）などの揮発性の記録媒体を備えてもよい。記憶部は、例えば、深層学習等の機械学習のモデルのデータ、プログラムを記憶する。

　学習部１０は、深層学習等の機械学習によってモデルのパラメータを学習する。学習部１０は、画像復号部１０１と、画像分割部１０２と、画像特徴生成部１０３と、符号化特徴生成部１０４と、パラメータ学習部１０５とを備える。

　画像復号部１０１は、学習対象の複数の画像ストリームを取得する。画像ストリームは、動画像のストリームである。画像復号部１０１は、画像フレーム群を画像ストリームから復号する。画像復号部１０１は、画像フレーム群を画像分割部１０２に出力する。

　画像ストリームは、符号化された画像群を含むデータであり、例えば、異なる時刻の同一空間が撮影された画像群のストリームである。画像ストリームは、例えば、Ｈ.２６５／ＨＥＶＣ（High Efficiency Video Coding）、ＪＰＥＧ（Joint Photographic Experts Group）等のアルゴリズムを用いて符号化された画像のストリームである。以下、画像ストリームは、一例として、Ｈ.２６５／ＨＥＶＣのアルゴリズムを用いて符号化された画像のストリームである。

　画像復号部１０１は、１以上の符号化情報（符号化情報の集合）を、学習対象の画像ストリームごとに、学習対象の画像ストリームから取得する。例えば、画像復号部１０１は、１以上の符号化情報を、学習対象の画像ストリームのヘッダから取得する。画像復号部１０１は、１以上の符号化情報を、学習対象の画像ストリームごとに符号化特徴生成部１０４に出力する。

　符号化情報は、画像ストリームの符号化に関する情報であり、例えば、画像の符号量の情報、画像フレームの符号化モード（例えば、イントラ予測モード）の情報、変換係数の情報と、変換係数のうちの有意な係数の個数の情報と、画像に関する特徴情報（例えば、空間周波数）の情報である。

　上空から撮影された過去の画像において更地であった領域の符号量は、未来の画像においてその領域に建造物等が存在した場合、その領域の符号量は建造物等のエッジやテクスチャに応じて過去の画像と比較して増加する場合がある。このため、新規の建造物の画像（変化領域）を差異検出部１１５が検出する場合、符号化情報は、例えば符号量の情報である。

　太陽光パネルの画像は、特定の模様パターン（太陽光パネルの模様の繰り返し）で表される。地上の草の画像は、特定の模様パターンでは表されないことが多い。このため、地上に造られた太陽光パネルに生えた草の画像（変化領域）を差異検出部１１５が検出する場合、符号化情報は、イントラ予測モード等の符号化モードの情報である。なお、これらは一例である。符号化情報は、複数の種類の情報の組み合わせでもよい。例えば、符号化情報は、符号量の情報と符号化モードの情報との組み合わせでもよい。なお、符号化情報は、画像の特徴を表す情報（以下「画像特徴情報」という。）を含んでもよい。

　画像分割部１０２は、画像フレーム群を画像復号部１０１から取得する。画像分割部１０２は、画像フレームを（Ｎ×Ｎ）のサイズの画像ブロックに分割することによって、画像ブロック群を生成する。Ｎは、２以上の整数（画素数）であり、例えば２５６である。
画像分割部１０２は、画像ブロックが互いに重ならないように、画像フレームを画像ブロックに分割する。画像分割部１０２は、画像特徴生成部１０３及びパラメータ学習部１０５に、画像ブロック群を出力する。

　画像ブロック群は、撮影された時刻の情報と、撮影された地上等の位置の情報を含む。
これによって、複数の画像ストリームは、時刻の情報と位置の情報とに基づいて、互いに対応付けられる。

　画像特徴生成部１０３は、画像ブロック群を画像分割部１０２から取得する。画像特徴生成部１０３は、画像特徴情報を画像ブロックごとに生成する。画像の特徴は、例えば、画像ブロックの各画素値（各電力値）が離散コサイン変換（変換処理）された結果である周波数、画像ブロックごとのローカル・バイナリ・パターン（LBP: Local Binary Pattern）等の特徴ベクトルである。画像特徴生成部１０３は、画像特徴情報を画像ブロックごとに、パラメータ学習部１０５に出力する。

　画像特徴情報は、撮影された時刻の情報と、撮影された地上等の位置の情報を含む。複数の画像ストリームの各画像特徴情報は、時刻の情報と位置の情報とに基づいて、互いに対応付けられる。

　符号化特徴生成部１０４は、１以上の符号化情報を、画像復号部１０１から取得する。
以下、１以上の符号化情報の特徴を表す情報を「符号化特徴情報」という。符号化特徴生成部１０４は、符号化特徴情報を画像ブロックごとに生成（画像ブロックに集約）する。
例えば、（Ｎ×Ｎ）（＝２５６×２５６）のサイズの画像ブロックに対して、１２８×１２８のサイズごとに符号化特徴情報が生成される場合、画像ブロックごとの符号化特徴情報は、４個の符号化情報（例えば、符号量の情報）を含む特徴ベクトル（４次元の特徴ベクトル）である。画像ブロックごとの符号化特徴情報は、４個の符号量の平均値の情報（１次元の特徴ベクトル）でもよい。符号化特徴生成部１０４は、符号化特徴情報を画像ブロックごとに、パラメータ学習部１０５に出力する。

　パラメータ学習部１０５は、学習対象の複数の画像ストリームにおける、画像ブロックと、その画像ブロックの画像特徴情報及び符号化特徴情報とを、異なる時刻に撮影された同一空間を表す画像ブロックごとに取得する。

　パラメータ学習部１０５は、変化領域（差異）であるか否かを表すラベルデータを、異なる時刻に撮影された同一空間を表す画像ブロックごとに外部装置等から取得する。例えば、ラベルデータ「１」は変化領域であることを表す。ラベルデータ「０」は変化領域でないことを表す。パラメータ学習部１０５は、画像ブロックと、その画像ブロックの画像特徴情報及び符号化特徴情報とを、機械学習のモデルに入力する。

　図２は、深層学習等の機械学習のモデル２の構成例を示す図である。モデル２は、ディープニューラルネットワーク（Deep Neural Network）等の機械学習のモデルであり、図２では、一例として、畳み込みニューラルネットワーク（CNN: Convolutional Neural Network）である。モデル２は、変化領域の推定に使用される。モデル２は、例えば、差異検出装置１ａの記憶部に記憶される。この記憶部は、例えば、パラメータ学習部１０５に備えられる。

　モデル２は、第１ネットワーク２０と、第２ネットワーク２１と、第３ネットワーク２２と、第４ネットワーク２３と、第５ネットワーク２４とを備える。第１ネットワーク２０は、畳み込み層（Covolution Layer）とプーリング層（Pooling Layer）との重ね合わせを有する。パラメータ学習部１０５は、時刻「Ａ」に撮影された空間を表す画像ブロックを、第１ネットワーク２０に入力する。第１ネットワーク２０は、時刻「Ａ」に撮影された画像ブロックに対して、畳み込み層とプーリング層とを用いた学習を繰り返し実行する。

　第２ネットワーク２１は、畳み込み層とプーリング層との重ね合わせを有する。パラメータ学習部１０５は、時刻「Ｂ」に撮影された同一空間を表す画像ブロックを、第２ネットワーク２１に入力する。第２ネットワーク２１は、時刻「Ｂ」に撮影された同一空間を表す画像ブロックに対して、畳み込み層とプーリング層とを用いた学習（例えば、畳み込み演算）を繰り返し実行する。

　第３ネットワーク２２は、畳み込み層とプーリング層との重ね合わせを有する。パラメータ学習部１０５は、時刻「Ａ」に撮影された空間を表す画像ブロックの画像特徴情報と、時刻「Ｂ」に撮影された同一空間を表す画像ブロックの画像特徴情報とを、第３ネットワーク２２に入力する。第３ネットワーク２２は、時刻「Ａ」に撮影された空間を表す画像ブロックの画像特徴情報と、時刻「Ｂ」に撮影された同一空間を表す画像ブロックの画像特徴情報とに対して、畳み込み層とプーリング層とを用いた学習を繰り返し実行する。

　第４ネットワーク２３は、畳み込み層とプーリング層との重ね合わせを有する。パラメータ学習部１０５は、時刻「Ａ」に撮影された空間を表す画像ブロックの符号化特徴情報と、時刻「Ｂ」に撮影された同一空間を表す画像ブロックの符号化特徴情報とを、第４ネットワーク２３に入力する。第４ネットワーク２３は、時刻「Ａ」に撮影された空間を表す画像ブロックの符号化特徴情報と、時刻「Ｂ」に撮影された同一空間を表す画像ブロックの符号化特徴情報とに対して、畳み込み層とプーリング層とを用いた学習を繰り返し実行する。

　このようにして、パラメータ学習部１０５は、第１ネットワーク２０の出力と、第２ネットワーク２１の出力と、第３ネットワーク２２の出力と、第４ネットワーク２３の出力とを関連付ける。言い換えると、時刻Ａ、Ｂにおける差異の有無に応じた画像の特徴の差異と符号化情報の差異とを関連付けることを狙う。

　第５ネットワーク２４（後段のニューラルネットワーク）は、第１ネットワーク２０、第２ネットワーク２１、第３ネットワーク２２及び第４ネットワーク２３の各出力の結合層（全結合層）である。第５ネットワーク２４は、前段のニューラルネットワークである第１ネットワーク２０、第２ネットワーク２１、第３ネットワーク２２及び第４ネットワーク２３の各出力に基づいて、０から１までの範囲の推定値を、パラメータ学習部１０５に取得させる。推定値「１」（第１の値）は変化領域であることを表す。推定値「０」（第２の値）は変化領域でないことを表す。これらの対応関係は一例である。

　パラメータ学習部１０５は、機械学習のモデル２から出力された推定値を取得する。パラメータ学習部１０５は、変化領域であるか否かを表すラベルデータと推定値との誤差を導出する。パラメータ学習部１０５は、推定値とラベルデータとの比較結果（推定誤差）に基づいて、機械学習のモデル２のパラメータを学習（更新）する。パラメータ学習部１０５は、導出された誤差に基づいて、モデル２のパラメータを更新する。例えば、パラメータ学習部１０５は、誤差逆伝播法（バック・プロパゲーション：Back Propagation）等でパラメータを更新する。パラメータ学習部１０５は、パラメータが学習済であるモデル２を、検出部１１に出力する。

　なお、パラメータ学習部１０５は、モデル２の出力である推定値と閾値との比較結果に基づいて、画像ブロックが変化領域（差異）であるか否かを画像ブロックごとに判定してもよい。パラメータ学習部１０５は、推定値が閾値以上である場合、画像ブロックが変化領域であると判定する。パラメータ学習部１０５は、推定値が閾値未満である場合、画像ブロックが変化領域でないと判定する。パラメータ学習部１０５は、推定値を使用する代わりに判定結果を使用して、画像ブロックが変化領域であるか否かを表す判定結果とラベルデータとの誤差に基づいて、機械学習のモデル２のパラメータを更新してもよい。すなわち、パラメータ学習部１０５は、画像ブロックが変化領域であるか否かを表す判定結果とラベルデータとが異なった場合、機械学習のモデル２のパラメータを更新してもよい。

　パラメータ学習部１０５は、モデル２に入力された符号化特徴情報に基づいてモデル２のパラメータを更新することによって、モデル２のパラメータの学習が画像特徴情報（画像特性）に依存する度合いを減少させることができる。例えば、第１の画像特徴情報を有する画像ブロック群を用いてパラメータが学習されたモデル２に、第２の画像特徴情報を有する画像ブロック群が入力され、モデル２が推定値を画像ブロックごとに出力する場合、モデル２に入力された符号化情報特徴が第２の画像特徴情報（画像特性）を保持していれば、パラメータ学習部１０５は、モデル２のパラメータの学習が第１の画像特徴情報に依存する度合いを減少させることができる。これによって、差異検出装置１ａは、第１の画像特徴情報を有する画像と第２の画像特徴情報を有する画像との間の差異を検出する精度を向上させることが可能である。

　図１に戻り、差異検出装置１ａの構成例の説明を続ける。検出部１１は、学習済であるモデルを用いて、異なる時刻に撮影された同一空間を表す画像間の差異（変化領域）を検出する。検出部１１は、画像復号部１１１と、画像分割部１１２と、画像特徴生成部１１３と、符号化特徴生成部１１４と、差異検出部１１５とを備える。

　画像復号部１１１の構成は、画像復号部１０１の構成と同様である。画像復号部１１１は、検出対象の複数の画像ストリーム（符号化された画像を含むデータ）を取得する。複数の画像ストリームは、第１時間帯に撮影された空間を表す画像のストリームと、第２時間帯に撮影された同一空間を表す画像のストリームとである。画像復号部１１１は、画像フレーム群を画像ストリームから復号する。画像復号部１１１は、画像フレーム群を画像分割部１１２に出力する。

　画像分割部１１２の構成は、画像分割部１０２の構成と同様である。画像分割部１１２は、画像フレーム群を画像復号部１１１から取得する。画像分割部１１２は、画像フレームを（Ｎ×Ｎ）のサイズの画像ブロックに分割することによって、画像ブロック群を生成する。画像分割部１１２は、画像特徴生成部１１３及び差異検出部１１５に、画像ブロック群を出力する。

　画像特徴生成部１１３の構成は、画像特徴生成部１０３の構成と同様である。画像特徴生成部１１３は、画像ブロック群を画像分割部１１２から取得する。画像特徴生成部１１３は、画像特徴情報を画像ブロックごとに生成する。画像特徴生成部１１３は、画像特徴情報を画像ブロックごとに、差異検出部１１５に出力する。

　符号化特徴生成部１１４の構成は、符号化特徴生成部１０４の構成と同様である。符号化特徴生成部１１４は、１以上の符号化情報を、画像復号部１１１から取得する。符号化特徴生成部１１４は、符号化特徴情報を画像ブロックごとに生成（画像ブロックに集約）する。符号化特徴生成部１１４は、符号化特徴情報を画像ブロックごとに、差異検出部１１５に出力する。

　差異検出部１１５は、学習済であるモデルを、パラメータ学習部１０５から取得する。
差異検出部１１５は、検出対象の複数の画像ストリームにおける、画像ブロックと、その画像ブロックの画像特徴情報及び符号化特徴情報とを、異なる時刻に撮影された同一空間を表す画像ブロックごとに取得する。

　差異検出部１１５は、画像ブロックと、その画像ブロックの画像特徴情報及び符号化特徴情報とを、機械学習のモデル２に入力する。差異検出部１１５は、機械学習のモデル２から出力された推定値（出力値）を取得する。差異検出部１１５は、その画像ブロックが変化領域であるか否かを、機械学習のモデル２から出力された推定値と閾値とに基づいて判定する。差異検出部１１５は、画像ブロックが画像間の変化領域であるか否かを表す判定結果を、所定の外部装置に出力する。

　次に、差異検出装置１ａの動作例を説明する。
　図３は、学習部１０の動作例を示すフローチャートである。図３に示されたフローチャートは、学習済であるモデル２を学習部１０が検出部１１に出力する動作例を示す。

　画像復号部１０１は、学習対象の複数の画像ストリームを取得する（ステップＳ１０１）。画像復号部１０１は、画像フレーム群を画像ストリームから復号し、画像フレーム群を画像分割部１０２に出力する（ステップＳ１０２）。画像復号部１０１は、符号化情報を画像ストリームから取得し、学習対象の画像ストリームごとに符号化特徴生成部１０４に出力する（ステップＳ１０３）。画像分割部１０２は、画像フレームを（Ｎ×Ｎ）のサイズの画像ブロックに分割する（ステップＳ１０４）。画像特徴生成部１０３は、画像特徴情報を画像ブロックごとに生成する（ステップＳ１０５）。

　符号化特徴生成部１０４は、符号化特徴情報を（Ｎ×Ｎ）のサイズの画像ブロックごとに生成する（ステップＳ１０６）。パラメータ学習部１０５は、画像ブロックと、その画像ブロックの画像特徴情報及び符号化特徴情報とを、画像ブロックごとにモデル２に入力する（ステップＳ１０７）。パラメータ学習部１０５は、画像ブロックと、その画像ブロックのラベルデータ、画像特徴情報及び符号化特徴情報とに基づいて、モデル２のパラメータを更新する（ステップＳ１０８）。

　パラメータ学習部１０５は、モデル２のパラメータが学習済になったか否か（学習済の条件を満たすか否か）を判定する。例えば、パラメータ学習部１０５は、所定枚数以上の画像を用いてモデル２がパラメータを学習した場合において、モデル２の出力である推定値とラベルデータとの誤差（推定誤差）が所定範囲内である回数が一定回数以上となった場合、モデル２のパラメータが学習済になったと判定する。パラメータ学習部１０５は、モデル２のパラメータが学習済になったと判定された場合、モデル２のパラメータの更新を終了する（ステップＳ１０９）。パラメータ学習部１０５は、学習済であるモデル２を差異検出部１１５に出力する（ステップＳ１１０）。

　図４は、検出部１１の動作例を示すフローチャートである。図４に示されたフローチャートは、検出部１１に推定値を出力する動作例を示す。

　画像復号部１１１は、検出対象の複数の画像ストリームを取得する（ステップＳ２０１）。画像復号部１１１は、画像フレーム群を画像ストリームから復号し、画像フレーム群を画像分割部１１２に出力する（ステップＳ２０２）。画像復号部１１１は、符号化情報を画像ストリームから取得し、学習対象の画像ストリームごとに符号化特徴生成部１１４に出力する（ステップＳ２０３）。画像分割部１１２は、画像フレームを（Ｎ×Ｎ）のサイズの画像ブロックに分割する（ステップＳ２０４）。画像特徴生成部１１３は、画像特徴情報を画像ブロックごとに生成する（ステップＳ２０５）。

　符号化特徴生成部１１４は、符号化特徴情報を（Ｎ×Ｎ）のサイズの画像ブロックごとに生成する（ステップＳ２０６）。差異検出部１１５は、画像ブロックと、その画像ブロックの画像特徴情報及び符号化特徴情報とを、画像ブロックごとにモデル２に入力する（ステップＳ２０７）。

　差異検出部１１５は、０から１までの範囲の推定値（出力値）を、モデル２から取得する（ステップＳ２０８）。差異検出部１１５は、推定値に基づいて変化領域を検出する。
すなわち、差異検出部１１５は、画像ブロックが変化領域（差異）であるか否かを、モデル２の出力である推定値と閾値との比較結果に基づいて、画像ブロックごとに判定する。
例えば、差異検出部１１５は、推定値が閾値「０．５」以上である場合、画像ブロックが変化領域であると判定する。差異検出部１１５は、推定値が閾値「０．５」未満である場合、画像ブロックが変化領域でないと判定する（ステップＳ２０９）。

　次に、学習部１０の動作例の詳細を説明する。
　図５は、画像復号部１０１の動作例を示すフローチャートである。画像復号部１０１は、学習対象の複数の画像ストリームを取得する（ステップＳ３０１）。画像復号部１０１は、画像フレーム群を画像ストリームから復号する（ステップＳ３０２）。画像復号部１０１は、画像フレーム群を画像分割部１０２に出力する（ステップＳ３０３）。画像復号部１０１は、１以上の符号化情報を、学習対象の画像ストリームごとに符号化特徴生成部１０４に出力する（ステップＳ３０４）。

　図６は、画像分割部１０２の動作例を示すフローチャートである。画像分割部１０２は、画像フレーム群を画像復号部１０１から取得する（ステップＳ４０１）。画像分割部１０２は、画像フレームを（Ｎ×Ｎ）のサイズの画像ブロックに分割することによって、画像ブロック群を生成する（ステップＳ４０２）。画像分割部１０２は、画像特徴生成部１０３及びパラメータ学習部１０５に、画像ブロック群を出力する（ステップＳ４０３）。

　図７は、画像特徴生成部１０３の動作例を示すフローチャートである。画像特徴生成部１０３は、画像ブロック群を画像分割部１０２から取得する（ステップＳ５０１）。画像特徴生成部１０３は、１以上の画像特徴情報を、画像ブロックごとに生成する。例えば、画像特徴生成部１０３は、１２８×１２８のサイズの４個の画像特徴情報を、２５６×２５６のサイズの画像ブロックごとに生成する（ステップＳ５０２）。画像特徴生成部１０３は、１以上の画像特徴情報を画像ブロックごとに、パラメータ学習部１０５に出力する（ステップＳ５０３）。

　図８は、符号化特徴生成部１０４の動作例を示すフローチャートである。符号化特徴生成部１０４は、１以上の符号化情報を、画像復号部１０１から取得する（ステップＳ６０１）。符号化特徴生成部１０４は、１以上の符号化特徴情報を、画像ブロックごとに生成する。例えば、符号化特徴生成部１０４は、１２８×１２８のサイズの４個の符号化特徴情報を、２５６×２５６のサイズの画像ブロックごとに生成する（ステップＳ６０２）。
符号化特徴生成部１０４は、１以上の符号化特徴情報を画像ブロックごとに、パラメータ学習部１０５に出力する（ステップＳ６０３）。

　図９は、パラメータ学習部１０５の動作例を示すフローチャートである。パラメータ学習部１０５は、学習対象の複数の画像ストリームにおける、画像ブロックと、その画像ブロックの画像特徴情報及び符号化特徴情報とを、異なる時刻に撮影された同一空間を表す画像ブロックごとに取得する（ステップＳ７０１）。パラメータ学習部１０５は、変化領域（差異）であるか否かを表すラベルデータを、異なる時刻に撮影された同一空間を表す画像ブロックごとに外部装置等から取得する（ステップＳ７０２）。

　パラメータ学習部１０５は、画像ブロックと、その画像ブロックの画像特徴情報及び符号化特徴情報とを、機械学習のモデル２に入力する（ステップＳ７０３）。パラメータ学習部１０５は、機械学習のモデル２から出力された推定値を取得する（ステップＳ７０４）。パラメータ学習部１０５は、その画像ブロックが変化領域であるか否かを、推定値及び閾値に基づいて判定する（ステップＳ７０５）。パラメータ学習部１０５は、ラベルデータと判定結果又は推定値との誤差を導出する（ステップＳ７０６）。パラメータ学習部１０５は、モデル２のパラメータを、導出された誤差に基づいて更新する（ステップＳ７０７）。

　パラメータ学習部１０５は、モデル２のパラメータが学習済になったか否か（学習済の条件を満たすか否か）を判定する（ステップＳ７０８）。モデル２のパラメータが学習済になっていない場合（ステップＳ７０８：ＮＯ）、パラメータ学習部１０５は、ステップＳ７０３に処理を戻す。モデル２のパラメータが学習済になった場合（ステップＳ７０８：ＹＥＳ）、パラメータ学習部１０５は、学習済であるモデル２を差異検出部１１５に出力する（ステップＳ７０９）。

　次に、検出部１１の動作例の詳細を説明する。
　図１０は、差異検出部１１５の動作例を示すフローチャートである。差異検出部１１５は、検出対象の複数の画像ストリームにおける、画像ブロックと、その画像ブロックの画像特徴情報及び符号化特徴情報とを、異なる時刻に撮影された同一空間を表す画像ブロックごとに取得する（ステップＳ８０１）。

　差異検出部１１５は、画像ブロックと、その画像ブロックの画像特徴情報及び符号化特徴情報とを、学習済であるモデル２に入力する（ステップＳ８０２）。差異検出部１１５は、学習済であるモデル２から出力された推定値（出力値）を取得する（ステップＳ８０３）。差異検出部１１５は、その画像ブロックが変化領域であるか否かを、学習済であるモデル２から出力された推定値と閾値とに基づいて判定する（ステップＳ８０４）。

　以上のように、第１実施形態の差異検出装置１ａは、差異検出部１１５を備える。差異検出部１１５は、異なる時刻に撮影されたほぼ同一空間を表す第１の画像ブロック及び第２の画像ブロック（学習対象の各画像ブロック）と、第１の画像ブロックの符号化情報及び第２の画像ブロックの符号化情報との関連付けに基づいて、異なる時刻に撮影されたほぼ同一空間を表す第３の画像ブロック及び第４の画像ブロック（検出対象の各画像ブロック）の間の差異を検出する。符号化情報は、符号化された第１の画像ブロックを含むデータ（第１の画像ストリーム）と、符号化された第２の画像ブロックを含むデータ（第２の画像ストリーム）とから、第１の画像ブロック及び第２の画像ブロックに対して実行された各復号処理において逆変換処理（逆離散コサイン変換等）が実行される前に取得された情報である。この各復号処理は、例えば、ヘッダ情報等である符号化情報を画像ストリームから取得する処理と、逆量子化処理と、逆変換処理との順に実行される。符号化情報は、画像特徴情報を含んでもよい。符号化情報は、符号化中の第１の画像ブロックを含むデータ（第１の画像ストリーム）と、符号化中の第２の画像ブロックを含むデータ（第２の画像ストリーム）とから、第１の画像ブロック及び第２の画像ブロックに対して実行された各符号化処理において変換処理（離散コサイン変換等）が実行された後に取得された情報でもよい。この各符号化処理は、例えば、変換処理と、ヘッダ情報等である符号化情報を取得する処理との順に実行される。このように、差異の検出に使用される符号化情報は、符号化処理が実行される際（符号化中）に取得されてもよい。

　これによって、第１実施形態の差異検出装置１ａは、画像間の差異を検出する精度を向上させることが可能である。

　各実施形態では、符号化された画像に対して実行される処理は、例えば、画像特徴情報（画像の特徴量）を抽出する処理（関数）の一種である。符号化特徴情報は、画像特徴情報を含んでもよい。つまり、差異検出装置１ａは、画像データを学習データとして用いるだけでなく、符号化情報も学習データとして用いる。差異検出装置１ａは、機械学習において失われる場合がある符号化特徴情報が機械学習において失われないように、符号化情報も学習データとして確実に用いる。

　マスク画像の差分が変化領域であるか否かの判定に使用される従来の閾値は、予め調整されている必要がある。従来の閾値は、撮影された画像ごとに異なる可能性がある。このため、従来の閾値には、高い調整コストが必要である。これに対して、差異検出装置１ａが使用する閾値は、一定値（例えば、０．５）に予め定められる。このため、差異検出装置１ａが使用する閾値には、調整コストが不要である。

　第３の画像ブロック及び第４の画像ブロックは、画像フレーム（画像に関するフレーム）が分割されたことによって生成された画像ブロックである。差異検出部１１５は、画像フレームについて、第３の画像ブロック及び第４の画像ブロックの間の差異を、画像ブロックごとに検出する。関連付けは、第１の画像ブロックと第２の画像ブロックと符号化情報とに基づいて学習が実行された第１ネットワーク２０から第４ネットワーク２３までの出力値の関連付けである。

　第１実施形態の差異検出装置１ａは、第５ネットワーク２４を更に備える。第５ネットワーク２４は、第１の画像ブロック及び第２の画像ブロックの間に差異があると判定された場合に出力値が第１の値（例えば、１）に近づき、第１の画像及び第２の画像の間に差異がないと判定された場合に出力値が第２の値（例えば、０）に近づくように学習が実行された後段のニューラルネットワークである。

　（第２実施形態）
　第２実施形態では、符号化特徴情報が画像化される点が、第１実施形態と相違する。第２実施形態では、第１実施形態との相違点を説明する。

　図１１は、差異検出装置１ｂの構成例を示す図である。差異検出装置１ｂは、画像間の差異を検出する情報処理装置である。差異検出装置１ｂは、学習部１０と、検出部１１とを備える。差異検出装置１ｂは、記憶部を更に備えてもよい。学習部１０は、画像復号部１０１と、画像分割部１０２と、画像特徴生成部１０３と、パラメータ学習部１０５と、符号化特徴画像化部１０６とを備える。符号化特徴画像化部１０６は、符号化特徴生成部１０４と、符号化情報又は符号化特徴情報を画像形式に変換する変換部とを備える。

　符号化特徴画像化部１０６は、１以上の符号化情報を、（Ｎ×Ｎ）のサイズの画像ブロックごとに画像復号部１０１から取得する。符号化特徴画像化部１０６は、符号化特徴情報を、（Ｎ×Ｎ）のサイズの画像ブロックごとに生成（画像ブロックに集約）する。符号化特徴画像化部１０６は、符号化特徴情報を画像化（画像の形式に変換）する。例えば、（Ｎ×Ｎ）（＝２５６×２５６）のサイズの画像ブロックに対して、１２８×１２８のサイズごとに符号化特徴情報が生成される場合、符号化特徴画像化部１０６は、１２８×１２８のサイズごとに符号化特徴情報を画像化する。すなわち、符号化特徴画像化部１０６は、１２８×１２８のサイズの画像を、符号化特徴情報に基づいて生成する。この場合、符号化特徴画像化部１０６は、１２８×１２８のサイズの４枚の画像を、４個の符号化特徴情報に基づいて、（Ｎ×Ｎ）のサイズの画像ブロックごとに生成する。符号化特徴画像化部１０６は、画像化された符号化特徴情報（以下「符号化特徴画像」という。）を、画像ブロックごとにパラメータ学習部１０５に出力する。

　パラメータ学習部１０５は、学習対象の複数の画像ストリームにおける、画像ブロックと、その画像ブロックの画像特徴情報及び符号化特徴画像とを、異なる時刻に撮影された同一空間を表す画像ブロックごとに取得する。パラメータ学習部１０５は、画像ブロックと、その画像ブロックの画像特徴情報及び符号化特徴画像とを、機械学習のモデル２に入力する。例えば、パラメータ学習部１０５は、時刻「Ａ」に撮影された空間を表す画像ブロックの符号化特徴画像と、時刻「Ｂ」に撮影された同一空間を表す画像ブロックの符号化特徴画像とを、第４ネットワーク２３に入力する。

　検出部１１は、画像復号部１１１と、画像分割部１１２と、画像特徴生成部１１３と、差異検出部１１５と、符号化特徴画像化部１１６とを備える。符号化特徴画像化部１１６は、符号化特徴生成部１１４と、符号化情報又は符号化特徴情報を画像形式に変換する変換部とを備える。

　符号化特徴画像化部１１６は、１以上の符号化情報を、（Ｎ×Ｎ）のサイズの画像ブロックごとに画像復号部１１１から取得する。符号化特徴画像化部１１６は、符号化特徴情報を、（Ｎ×Ｎ）のサイズの画像ブロックごとに生成（画像ブロックに集約）する。符号化特徴画像化部１１６は、符号化特徴情報を画像化する。符号化特徴画像化部１１６は、符号化特徴画像を画像ブロックごとに差異検出部１１５に出力する。

　差異検出部１１５は、検出対象の複数の画像ストリームにおける、画像ブロックと、その画像ブロックの画像特徴情報及び符号化特徴画像とを、異なる時刻に撮影された同一空間を表す画像ブロックごとに取得する。差異検出部１１５は、画像ブロックと、その画像ブロックの画像特徴情報及び符号化特徴画像とを、機械学習のモデル２に入力する。例えば、差異検出部１１５は、時刻「Ａ」に撮影された空間を表す画像ブロックの符号化特徴画像と、時刻「Ｂ」に撮影された同一空間を表す画像ブロックの符号化特徴画像とを、第４ネットワーク２３に入力する。

　次に、学習部１０及び検出部１１の動作例の詳細を説明する。
　図１２は、符号化特徴画像化部１０６の動作例を示すフローチャートである。符号化特徴画像化部１０６は、１以上の符号化情報を、画像復号部１０１から取得する（ステップＳ９０１）。符号化特徴画像化部１０６は、１以上の符号化特徴画像を、画像ブロックごとに生成する。例えば、符号化特徴生成部１０４は、１２８×１２８のサイズの４個の符号化特徴画像を、２５６×２５６のサイズの画像ブロックごとに生成する（ステップＳ９０２）。符号化特徴画像化部１０６は、１以上の符号化特徴画像を画像ブロックごとに、パラメータ学習部１０５に出力する（ステップＳ９０３）。

　符号化特徴画像化部１１６の動作例は、符号化特徴画像化部１０６の動作例と同様である。符号化特徴画像化部１１６は、１以上の符号化特徴画像を画像ブロックごとに、差異検出部１１５に出力する。

　以上のように、第２実施形態の差異検出装置１ｂは、符号化情報を画像形式に変換する変換部を更に備える。差異検出部１１５は、画像形式に変換された符号化情報又は符号化特徴情報に基づいて、第３の画像ブロック及び第４の画像ブロックの間の差異を検出する。

　これによって、第２実施形態の差異検出装置１ｂは、符号化情報から生成された画像情報を畳み込みニューラルネットワークに入力するので、符号化情報の空間的な相関を考慮した差異の検出が可能となり、画像間の差異を検出する精度を更に向上させることが可能である。

　以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

　例えば、上記の各実施形態では、異なる時刻に撮影された同一空間を表す画像間の差異を差異検出装置が検出しているが、差異検出装置は、異なる時刻に撮影された同一空間を表す画像以外の複数の画像を取得してもよい。差異検出装置は、複数の画像の撮影時刻及び撮影位置に関係なく、画像間の差異を検出してもよい。画像は、静止画像でもよい。

　上述した実施形態における差異検出装置をコンピュータで実現するようにしてもよい。
その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、ＦＰＧＡ（Field Programmable Gate Array）等のプログラマブルロジックデバイスを用いて実現されるものであってもよい。

　本発明は、画像処理システムに適用可能である。

　１ａ，１ｂ…差異検出装置、２…モデル、１１…検出部、２０…第１ネットワーク、２１…第２ネットワーク、２２…第３ネットワーク、２３…第４ネットワーク、２４…第５ネットワーク、１０１…画像復号部、１０２…画像分割部、１０３…画像特徴生成部、１０４…符号化特徴生成部、１０５…パラメータ学習部、１０６…符号化特徴画像化部、１１１…画像復号部、１１２…画像分割部、１１３…画像特徴生成部、１１４…符号化特徴生成部、１１５…差異検出部、１１６…符号化特徴画像化部

Claims

　異なる時刻に撮影されたほぼ同一空間を表す第１の画像及び第２の画像と、前記第１の画像の符号化情報及び前記第２の画像の符号化情報との関連付けに基づいて、異なる時刻に撮影されたほぼ同一空間を表す第３の画像及び第４の画像の間の差異を検出する差異検出部を備え、
　前記符号化情報は、符号化された前記第１の画像を含むデータと符号化された前記第２の画像を含むデータとから、前記第１の画像及び前記第２の画像に対して実行された各復号処理において逆変換処理が実行される前に取得された情報である、
　差異検出装置。
　前記第３の画像及び前記第４の画像は、画像に関するフレームを分割するブロックであり、
　前記差異検出部は、前記フレームについて、前記第３の画像及び前記第４の画像の間の差異を前記ブロックごとに検出する、
　請求項１に記載の差異検出装置。
　前記関連付けは、前記第１の画像と前記第２の画像と前記符号化情報とのいずれかに基づいて学習が実行された前段の各ニューラルネットワークの出力値の関連付けである、
　請求項２に記載の差異検出装置。
　前記第１の画像及び前記第２の画像の間に差異があると判定された場合に前記出力値が第１の値に近づき、前記第１の画像及び前記第２の画像の間に差異がないと判定された場合に前記出力値が第２の値に近づくように学習が実行された後段のニューラルネットワークを更に備える、
　請求項３に記載の差異検出装置。
　前記符号化情報は、符号量と、イントラ予測モードと、変換係数と、画像に関する特徴とのいずれかの情報である、
　請求項１から請求項４のいずれか一項に記載の差異検出装置。
　前記符号化情報を画像形式に変換する変換部を更に備え、
　前記差異検出部は、画像形式に変換された前記符号化情報に基づいて、前記第３の画像及び前記第４の画像の間の差異を検出する、
　請求項１又は請求項２に記載の差異検出装置。
　異なる時刻に撮影されたほぼ同一空間を表す第１の画像及び第２の画像と、前記第１の画像の符号化情報及び前記第２の画像の符号化情報との関連付けに基づいて、異なる時刻に撮影されたほぼ同一空間を表す第３の画像及び第４の画像の間の差異を検出する差異検出部を備え、
　前記符号化情報は、符号化中の前記第１の画像を含むデータと符号中の前記第２の画像を含むデータとから、前記第１の画像及び前記第２の画像に対して実行された符号化処理において変換処理が実行された後に取得された情報である、
　差異検出装置。
　請求項１から請求項７のいずれか一項に記載の差異検出装置としてコンピュータを機能させるための差異検出プログラム。