JPWO2010041447A1 - 異常検知システム、異常検知方法及び異常検知プログラム記録媒体 - Google Patents

異常検知システム、異常検知方法及び異常検知プログラム記録媒体 Download PDF

Info

Publication number
JPWO2010041447A1
JPWO2010041447A1 JP2010532820A JP2010532820A JPWO2010041447A1 JP WO2010041447 A1 JPWO2010041447 A1 JP WO2010041447A1 JP 2010532820 A JP2010532820 A JP 2010532820A JP 2010532820 A JP2010532820 A JP 2010532820A JP WO2010041447 A1 JPWO2010041447 A1 JP WO2010041447A1
Authority
JP
Japan
Prior art keywords
data
dissimilarity
feature amount
abnormality detection
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010532820A
Other languages
English (en)
Other versions
JP5408139B2 (ja
Inventor
啓 門田
啓 門田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2010532820A priority Critical patent/JP5408139B2/ja
Publication of JPWO2010041447A1 publication Critical patent/JPWO2010041447A1/ja
Application granted granted Critical
Publication of JP5408139B2 publication Critical patent/JP5408139B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0004Industrial image inspection
    • G06T7/001Industrial image inspection using an image reference approach
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30108Industrial image inspection
    • G06T2207/30141Printed circuit board [PCB]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

特徴量に欠損や外れ値があるデータであっても、特徴量の欠損や外れ値による影響を抑えて、精度の良い異常検知を行い、しかも、特徴の次元が高いデータにも対応し、安定性の高い異常検知を行う。多次元特徴のデータからなるデータ列の中から異常データを検知する異常検知システムであって、前記データの特徴量の生起分布と、正常データを表す参照データとを記憶又は生成し、前記生起分布から仮想的に特徴量を発生させた場合に、前記データ列の各データ毎に、各データの特徴量よりも参照データに近い特徴量となる確率を求め、前記確率を各データの参照データとの1次元の非類似度として異常データの判定を行う。

Description

本発明は、多次元特徴のデータからなるデータ列の中から異常データを検知する異常検知システム、異常検知方法及び異常検知プログラム記録媒体に関する。
多数のデータ列の中から他のデータとは異なった性質を持つデータを、異常なデータとして検出する異常検知技術は、欠陥検出、画像認識、データマイニングなど、幅広い分野に応用される技術である。
例えば、プリント基板は、同じパターンが連続して並ぶことが多いため、周辺のパターンと異なったパターンを検出することで、基板の欠陥を検出することができる。
また、海上の画像から周辺画素とは異なる画素を検出することで、溺れた人などを検出し、海難救助に応用することも可能である。
更に、行動パターンから通常と異なる行動を抽出するといった行動マイニングなどへも応用が可能である。
この種の異常検知技術を開示する特許文献は、数多く存在する。
例えば、特許文献1に記載されるパターン検査装置では、被検査画像と参照画像との差分画像を求めるとともに、差分画像の画素値から欠陥の度合いを示すエラー確率を求め、これを所定の閾値と比較して欠陥を判定している。
特許文献2に記載される画像処理アルゴリズム評価装置では、擬似欠陥群と真欠陥群の特徴量分布にもとづいて両者の分離度を算出し、この分離度を評価値として画像処理アルゴリズムのパラメータを調整している。
また、特許文献3に記載される異常領域検出装置では、画像データの画素毎に高次局所自己相関によって正常領域との距離を測り、所定の距離以上離れている画素を異常と判定している。
特開2004−101214号公報 特開2006−085616号公報 特開2007−334766号公報
しかしながら、特許文献1〜3に記載されるものでは、各データの特徴量の距離(基準値との差分など)にもとづいて異常データを判定しているので、以下に示すような問題点がある。
第1の問題点は、特徴量に欠損や外れ値があると対応できないことである。
例えば、特許文献1記載の異常領域検出装置で用いる距離では、二つのデータが似たデータであっても、特徴量の一部に欠損や外れ値があり、一部の特徴量の差が大きくなると、データ間の距離が大きくなる。そのため、本来異常ではないデータが、特徴量の欠損や外れ値によって異常と判定されてしまう。
第2の問題点は、データの特徴の次元が高くなると対応できないことである。
つまり、通常の距離を用いる場合、次元が高くなると、通常の距離尺度ではデータの近さの判定が不安定となる。その理由は、通常の距離尺度では、高次元パターンの各成分のうち、距離が小さい成分の寄与が、距離が大きい成分の寄与に比べてはるかに小さくなるからである。そのため、距離が小さい成分の寄与よりも、外れ値のような距離が大きい成分の影響の方が大きくなり、近さの判定の不安定性を引き起こしている。
本発明の目的は、上述した課題である、特徴量に欠損や外れ値があるデータであっても、特徴量の欠損や外れ値による影響を抑えて、精度の良い異常検知を行うことができる異常検知システム、異常検知方法及び異常検知プログラム記録媒体の提供を目的とする。
また、本発明は、特徴の次元が高いデータにも対応し、安定性の高い異常検知を行うことができる異常検知システム、異常検知方法及び異常検知プログラム記録媒体の提供を目的とする。
上記目的を達成するため本発明の異常検知システムは、入力が想定される所定のデータの特徴量の生起分布を記憶し、又は実際に入力されたデータにより当該データの特徴量の生起分布を生成する生起分布記憶手段と、入力されるデータのデータ列から正常データを表す参照データを生成し、又は予め所定のデータを参照データとして記憶する参照データ生成手段と、前記生起分布から仮想的に特徴量を発生させた場合に、前記データ列の各データ毎に、各データの特徴量よりも参照データに近い特徴量となる確率を求めて、各データの参照データとの非類似度とする非類似度計算手段と、前記非類似度にもとづいて異常データの判定を行う異常判定手段と、を備える構成としてある。
また、上記目的を達成するため本発明の異常検知方法は、入力が想定される所定のデータの特徴量の生起分布を記憶し、又は実際に入力されたデータにより当該データの特徴量の生起分布を生成するステップと、入力されるデータのデータ列から正常データを表す参照データを生成し、又は予め所定のデータを参照データとして記憶するステップと、前記生起分布から仮想的に特徴量を発生させた場合に、前記データ列の各データ毎に、各データの特徴量よりも参照データに近い特徴量となる確率を求めて、各データの参照データとの非類似度とするステップと、前記非類似度にもとづいて異常データの判定を行うステップと、を有する方法としてある。
また、上記目的を達成するため本発明の異常検知プログラム記録媒体は、多次元特徴のデータからなるデータ列の中から異常データを検知するためのコンピュータを入力が想定される所定のデータの特徴量の生起分布を記憶し、又は実際に入力されたデータにより当該データの特徴量の生起分布を生成する生起分布記憶手段、入力されるデータのデータ列から正常データを表す参照データを生成し、又は予め所定のデータを参照データとして記憶する参照データ生成手段、前記生起分布から仮想的に特徴量を発生させた場合に、前記データ列の各データ毎に、各データの特徴量よりも参照データに近い特徴量となる確率を求めて、各データの参照データとの1次元の非類似度とする非類似度計算手段、前記非類似度にもとづいて異常データの判定を行う異常判定手段、として機能させるプログラムを記録したコンピュータにより読み取り可能な記録媒体として構成してある。
本発明によれば、特徴量に欠損や外れ値があるデータであっても、特徴量の欠損や外れ値による影響を抑えて、精度の良い異常検知を行うことができる。しかも、特徴の次元が高いデータにも対応し、安定性の高い異常検知を行うことができる。
本発明の第一実施形態に係る異常検知システムの構成を示すブロック図である。 本発明の第一実施形態に係る異常検知システムの全体的な動作を示すフローチャートである。 処理対象の一例を示す説明図である。 特徴量の一例を示す説明図である。 異常出力の一例を示す説明図である。 異常出力の一例を示す説明図である。 異常出力の一例を示す説明図である。 本発明の第二実施形態に係る異常検知システムの構成を示すブロック図である。 本発明の第二実施形態に係る異常検知システムの全体的な動作を示すフローチャートである。 処理対象の一例を示す説明図である。 クラスタリング結果の一例を示す説明図である。 部分画像毎の参照データの一例を示す説明図である。 本発明の第三実施形態に係る異常検知システムの構成を示すブロック図である。 本発明の第三実施形態に係る異常検知システムの全体的な動作を示すフローチャートである。 処理対象の一例を示す説明図である。
以下、本発明の異常検知システム、異常検知方法及び異常検知プログラム記録媒体の実施形態について、図面を参照して説明する。
ここで、以下に示す本発明の異常検知システムで実行される処理動作(異常検知方法)は、プログラム(ソフトウェア)の命令によりコンピュータで実行される処理,手段,機能によって実現される。
プログラムは、コンピュータの各構成要素に指令を送り、以下に示すような本発明の所定の処理、例えば、多次元特徴のデータからなるデータ列の中から異常データを検知するにあたって、データの特徴量の生起分布と、正常データを表す参照データとを記憶又は生成する処理、生起分布から仮想的に特徴量を発生させた場合に、データ列の各データ毎に、各データの特徴量よりも参照データに近い特徴量となる確率を求める処理、求められた確率を各データの参照データとの1次元の非類似度として異常データの判定を行う処理、求められた確率を各データの参照データとの1次元の非類似度とし、各データの参照データとの非類似度から非類似度の生起分布を求める処理、求められた非類似度の生起分布にもとづいて、各データより非類似度が大きくなる確率を求め、非類似度が大きくなる確率が所定の確率よりも小さいデータを異常データと判定する処理等の各処理・手順を行わせる。
このように、本発明における各処理や手段は、プログラムとコンピュータとが協働した具体的手段によって実現される。
そして、プログラムの全部又は一部は、例えば、磁気ディスク,光ディスク,半導体メモリ,その他任意のコンピュータにより読取り可能な記録媒体により提供され、記録媒体から読み出されたプログラムがコンピュータにインストールされて実行される。
また、プログラムは、記録媒体を介さず、通信回線を通じて直接にコンピュータにロードし実行することもできる。
[第一実施形態]
まず、本発明の第一実施形態に係る異常検知システム(異常検知方法及び異常検知プログラムを含む。)について、図1〜図7を参照して説明する。
図1は、本発明の第一実施形態に係る異常検知システムの構成を示すブロック図である。
この図に示すように、本発明の第一実施形態に係る異常検知システムは、生起分布記憶手段1と、入力手段2と、参照データ生成手段3と、非類似度計算手段4と、非類似度分布推定手段5と、異常判定手段6と、出力手段7とから構成されている。
生起分布記憶手段1は、入力が想定されるデータの特徴量の生起分布を記憶している。
ここで、生起分布記憶手段1は、予め入力が想定される所定のデータの特徴量の生起分布を記憶する場合の他、実際に入力されたデータにより当該データの特徴量の生起分布を生成することもできる。
入力手段2は、多次元データからなるデータ列を読みこむ。
参照データ生成手段3は、入力手段2で入力されたデータ列から正常データの代表的なデータである参照データを生成する。
ここで、参照データ生成手段3は、入力されたデータ列に基づいて参照データを生成する他、又は予め所定のデータを参照データとして記憶しておくこともできる。
非類似度計算手段4は、入力手段2で入力された各多次元データに対して、生起分布記憶手段1で記憶している生起分布を基に仮想的にパターン(特徴量)を発生させた場合に、各データの特徴量よりも参照データに近いパターンとなる確率を求め、各データの参照データとの1次元の非類似度とする。
非類似度分布推定手段5は、非類似度計算手段4で求めた各データに対する非類似度から、非類似度の分布を求める。
異常判定手段6は、非類似度分布推定手段5で求めた非類似度の分布から、各データの特徴量より非類似度が大きくなる確率を求め、非類似度が大きくなる確率が所定の確率よりも小さいデータを異常データと判定する。すなわち、異常判定手段6は、非類似度の生起分布にもとづいて、各データの非類似度が観測される確率を求め、非類似度が観測される確率が所定の確率よりも小さいデータを異常データと判定する。
出力手段7は、異常判定手段6で異常データと判定したデータを出力する。
つぎに、本発明の第一実施形態に係る異常検知システムの全体的な動作について、図2を参照して説明する。
図2は、本発明の第一実施形態に係る異常検知システムの全体的な動作を示すフローチャートである。
この図に示すように、本発明の第一実施形態に係る異常検知システムは、異常検知を行う際、まず、入力手段2が、多次元データからなるデータ列を読みこむ(図2のステップA1)。
つぎに、参照データ生成手段3が、入力手段2で入力されたデータ列から正常データの代表的なデータである参照データを生成する(図2のステップA2)。
つぎに、非類似度計算手段4が、入力手段2で入力された各多次元データに対して、生起分布記憶手段1で記憶している生起分布を元に仮想的にパターンを発生させた場合に、各データの特徴量よりも参照データに近いパターンとなる確率を求め、各データの非類似度とする(図2のステップA3)。
つぎに、非類似度分布推定手段5が、非類似度計算手段4で求めた各データに対する非類似度から、非類似度の分布を求める(図2のステップA4)。
つぎに、異常判定手段6、非類似度分布推定手段5で求めた非類似度の分布から、各データの特徴量より非類似度が大きくなる確率を求め、非類似度が大きくなる確率が所定の確率よりも小さいデータを異常データと判定する(図2のステップA5)。
そして最後に、出力手段7が、異常判定手段6で異常データと判定したデータを出力する(図2のステップA6)。
つぎに、本発明の第一実施形態に係る異常検知システムの具体的な異常検知処理内容について、図3〜図7を参照して説明する。
図3は、処理対象の一例を示す説明図であり、図4は、特徴量の一例を示す説明図、図5は、異常出力の一例を示す説明図、図6は、異常出力の一例を示す説明図、図7は、異常出力の一例を示す説明図である。
本発明の第一実施形態に係る異常検知システムは、例えば、ハイパースペクトルカメラで取得した海上の画像から、海の画素を正常データ(正常画素)とし、海ではない画素を正常データではない異常データ(異常画素)として検出し、溺者などの要救助者を探す海難救助システムに適用することができる。
ハイパースペクトルカメラとは、高い波長分解能により対象物のスペクトルを細かく計測する機能を持つカメラであり、各画素に対して、数nm〜数十nmのバンド幅、数十〜数百バンドのバンド数でスペクトル強度を計測することができる。
各画素の情報は、バンド数をDとすると、D個のスペクトル強度からなるD次元ベクトルのデータとして表現できる。画像の画素数をNとすると、全画像の情報は、D次元ベクトルのN個のデータの集まり(データ列)として表現できる。
本実施形態では、N個のデータ列の中から、他のデータとは性質の異なるデータを異常データとして検知することで、海の画像から海ではない画素を検出し、溺者などの要救助者を検出する。
例えば、図3で示すように、対象画像のほとんどが海の領域であり、その中に溺者がいる場合、画像のほとんどを占める海の特徴ベクトルを参照データとし、参照データとは異なる画素を見つけることで溺者を検出し、救助活動の助けとすることができる。
そして、本実施形態の異常検知システムは、入力手段2として機能するハイパースペクトルカメラと、出力手段7として機能するディスプレイと、生起分布記憶手段1、参照データ生成手段3、非類似度計算手段4、非類似度分布推定手段5及び異常判定手段6として機能するコンピュータとから構成される。
異常検知システムは、入力手段2であるハイパースペクトルカメラから、画像の情報を入力する。画像は2次元であり、画素iの情報をIiとする。各画素の情報は、スペクトル強度を特徴量とし、D個の特徴量からなるD次元ベクトルとして、Ii=(vi (1),vi (2),…,vi (D))と表現される。
生起分布記憶手段1は、各データIiの生起分布Q(X)=(q(1)(x),q(2)(x),…,q(D)(x))、
つまり、各特徴量vi (j)の生起分布q(j)(x)を記憶している。
例えば、第j成分の特徴量は、平均がm(j)、分散がσ(j)の正規分布や[min(j),max(j)]の間の一様分布等といった分布を記憶しており、特徴量vi (j)はこの分布に従って生起するものとする。
この分布は、撮影対象の事前知識から、平均や分散等のパラメータを含めて事前に与えることもできるし、分布の形状だけを事前に与えておき、平均や分散等のパラメータを実際に入力されたデータから求めることもできる。
事前知識が得られない場合や、事前知識から定められない場合、一様分布を仮定し、一様分布の最大値max(j)、最小値min(j)は、実際に入力された全画像のデータの第j成分の最大値、最小値から定めることもできる。
このようにすると、非類似度計算に用いる生起分布が容易に得られる。
参照データ生成手段3は、正常なデータの代表値である参照データIRを生成する。
本実施形態では、海の領域が正常な画素であり、海の代表的なスペクトルデータを参照データとして生成する。
生成方法は、画像のほとんどが海の領域であるということを仮定し、平均をとっても海でない画素の影響は無視できるくらい小さいとして、全画素の平均を用いることができる。
他の参照データの生成方法としては、他の画素との非類似度の和や積が最小となる画素を全画素の中から選択することもできる。ここで、参照データの選択基準となる非類似度は、データの特徴量の生起分布から仮想的に特徴量を発生させた場合に、発生させた特徴量が二つのデータの間となる確率から求められる非類似度とする。
これらの生成方法によれば、適正な参照データを容易に生成することができる。
画素Iaと画素Ibの非類似度としては、[数1]で表されるL2距離(一般的に使われる距離)や、[数2]で表されるL1距離を用いることができる。
Figure 2010041447
Figure 2010041447
また、非類似度として生起分布記憶手段1で記憶している生起分布Q(x)を用いて、仮想的に生成した値がIaとIbの間の値となる確率P(Ia,Ib)として定義することもできる。
第j成分の生起分布がq(j)(x)であるので、Iaの第j成分va (j)とIbの第j成分vb (j)の間の値となる確率p(va (j),Ib (j))は[数3]となる。
よって、仮想的に生成した値がIaとIbの間の値となる確率P(Ia,Ib)は、各成分の生起分布が独立であるとすると、[数4]となる。
通常、非類似度は、値が大きいほど二つのデータが異なっており、値が小さいほど二つのデータが近いことを表す。
[数4]で定義した確率も、値が小さいということは、二つのデータの間の事象がめったに起こらない、つまり二つのデータの間が短く、二つのデータが近いことを表し、値が大きいということは、二つのデータの間の事象がめずらしくない、つまり二つのデータの間が長く、二つのデータが遠いことを表す。
Figure 2010041447
Figure 2010041447
ここで示した非類似度の値は、そのまま使うこともできるし、なんらかの変換式に代入してから用いることもできる。
ここで用いる非類似度としては、[数1]や[数2]で示される距離ではなく、[数4]で表される確率を用いると、あとで説明する非類似度計算手段4と同様の理由により、欠損や外れ値に強くなり、データが高次元になっても安定して非類似度を判定することができるため、[数4]で表される確率、或いは、確率の対数をとるなど、確率を変換した値を用いることが望ましい。
参照データは、実際に入力されたデータから生成することもできるが、事前に海の代表的なデータを与えて参照データとすることもできる。
また、事前に海や砂浜、森といった入力される可能性のある対象の代表的なデータを複数登録しておき、実際に入力されたデータから、登録されているデータのうち最も適当なものを選択するようにすることもできる。
非類似度計算手段4では、各画素のデータIiに対して、生起分布Q(x)を元に仮想的にパターンを発生させた場合に、各データの特徴量よりも参照データIRに近いパターンとなる確率を求め、各データの非類似度とする。
各データの特徴量よりも参照データIRに近いパターンとは、IiとIRの間の特徴量を持つデータのことであるから、生起分布Q(x)を元に仮想的にパターンを発生させた場合に、各データの特徴量よりも参照データIRに近いパターンとなる確率は、[数4]を用いてP(Ii,IR)と求めることができる。
また、IiとIRの非類似度D(Ii,IR)として、この確率の対数をとることで、[数5]のようにすることもできる。logは単調増加関数であるため、対数をとっても非類似度としての性質に変化はない。
Figure 2010041447
ここで、図4を参照しつつ、[数1]や[数2]で表される一般的な距離を非類似度として用いる場合と比較して、本発明の第1の効果について説明する。
例えば、第d成分に相当するセンサに欠損が生じたり、ノイズの影響で外れ値をとったりすることで、本来Iiと参照ベクトルIRは似たデータであるにもかかわらず、第d成分の差(vi (d)-vR (d))が大きな値になったとする。
図4の横軸が第n成分を示し、第n成分の特徴量の値を縦軸に示す。
IS(図4の実線)は、参照ベクトルIR(図4の破線)と同じ対象の特徴ベクトルであるが、ISの第d成分にノイズが入り、特徴量vS (d)が外れ値となっている。
一方、IT(図4の一点鎖線)は、IRとは別の対象の特徴ベクトルであり、IRとは全体的に異なる特徴量となっている。
しかしながら、vS (d)が外れ値なため、(vS (d)-vR (d))2が非常に大きな値となり、第d成分以外の特徴量がほぼ同じ値であるにもかかわらず、非類似度L2(IS,IR)は大きな値となり、ISとIRは似ていないと判定されてしまう。
一方、ITとIRは全体的に少しずつ異なるが、大きな差のある成分がないため、非類似度L2(IT,IR)はそれほど大きくならず、ITとIRは、ISとIRより似ていると判断されてしまう。
一方、本実施形態で用いる[数5]で示される非類似度の場合、第d成分の寄与は、外れ値のため、vS (d)とvR (d)の差が大きくなると、p(vS (d),vR (d))が1に近くなり、[数5]の第d成分log(p(vS (d),vR (d)))は0に近くなる。そのため、外れ値を含む第d成分の全体への寄与は小さくなる。
それ以外の外れ値を含まない第i成分(i≠d)は、vS (i)とvR (i)の差が小さく、p(vS (i),vR (i))は0に近くなり、[数5]の第i成分log(p(vS (i),vR (i)))は小さな値(絶対値が大きなマイナスの値)となる。
外れ値を含む第d成分が0で、外れ値を含まない成分が絶対値の大きなマイナスの値であるため、その合計D(IS,IR)は絶対値の大きなマイナスの値となり、非類似度が小さな値となるため、ISとIRは似ていると判断される。
一方、ITとIRは全体的に異なるため、全ての成分についてp(vT (i),vR (i))が1に近い値となり、[数5]の各成分log(p(vT (i),vR (i)))は0に近くなる。0に近い値を加えてもやはり0に近い値となるため、D(IT,IR)は0に近い値となる。
[数5]で表される非類似度は、0が最大値であり、ITとIRの非類似度は大きな値となる。[数5]で示す非類似度の持つこの性質により、特徴量の一部に欠損や外れ値がある場合にも対応できる。
同様に、[数5]で示す非類似度は、差が大きな成分の全体に対する寄与が小さいという性質により、特徴の次元が高い場合にも対応できるという効果も持つ。
通常の距離を用いる場合、次元が高くなると、通常の距離尺度ではデータの近さの判定が不安定となる。その理由は、通常の距離尺度では、D次元パターンの各成分のうち、距離が小さい成分の寄与が、距離が大きい成分の寄与に比べてはるかに小さいからである。
このため、距離が小さい成分の寄与よりも、外れ値のような距離が大きい成分の微小変化の影響の方が大きくなり、近さの判定の不安定性を引き起こしている。
次元Dが大きくなると、距離が大きい成分が現れる確率が高くなるため、高次元パターンではこのような近傍判定の不安定性が生じる確率が高くなる。
一方、任意パターンの特徴量の生起分布から仮想的にパターンを発生させた場合に、各データ毎に、各データの特徴量よりも正常データに近いパターンとなる確率は、特徴量の差の大きな成分については1に近くなり、他の成分への影響が小さくなるため、他の成分が似ていれば二つのパターン間の非類似度は小さくなる。そのため、次元が高くなっても非類似度が不安定となることはない。
非類似度分布推定手段5では、各画素毎の参照データとの非類似度データの分布から、非類似度の生起分布を推定する。
例えば、正規分布、カイ二乗分布等のモデル分布を持ち、データの分布と最もあうモデル分布とパラメータを選択することで、非類似度の生起分布を推定する。
モデル分布は、観測対象の事前知識から一つのモデル分布を仮定することもできるし、複数のモデル分布から最もデータの分布と合うモデル分布を選択することもできる。
異常判定手段6では、非類似度分布推定手段5で推定した非類似度の生起分布から、各画素に対して、各画素の非類似度が観測される確率を求め、この確率が所定の値よりも小さい場合、通常見られない異常な画素である、つまり海の領域ではない画素であると判定する。
所定の値は、どの程度めったに起こらない事象を異常と判定するかを予め定めておき、それに応じた確率値として事前に与えておく。
本実施形態は、異常の度合いを表す確率値で判定するため、対象や入力データに依存せず、定めることができるという効果も持つ。
例えば、晴れた日の海と、曇や雨の日の海の画像では、入力されるデータの特徴量の絶対値が異なる。
特徴量が明るさに対応する場合、晴れた日の特徴量は大きく、曇や雨の日は小さくなる。
また、カメラを変更したり、オートゲインコントロールなどで特徴量の絶対値が変わるような場合もある。
異常データか否かを参照データと各データの[数1]などで表される距離が所定の閾値よりも大きいか小さいかで判定する場合、このように、特徴量の絶対値が場合により異なるような入力データには対応できない。
しかしながら、本実施形態のように確率に変換して判定する場合、入力データによらず、同一条件で判定することができる。
出力手段7であるディスプレイでは、例えば、図5に示すように、異常判定手段6で判定した異常画素の色を変えて強調することで、異常画素がどこにあるかわかるように表示する。
また、異常画素を色を変えて強調表示するだけでなく、図6に示すように、異常画素にマーカを付ける表示方法や、図7に示すように、文字で位置座標を示す表示方法を用いることができる。
また、異常画素を表示するだけではなく、音声で通知する方法や、ネットワークを通して電子的に他の装置へ通知する方法を用いることができ、更には、ハードディスク、USBメモリなどの記録媒体へ記録するなど、任意の出力方法を用いることができる。
なお、本実施形態では、入力手段2としてハイパースペクトルカメラを用い、コンピュータに直接画像データを入力したが、カメラとコンピュータはネットワークにつながれた別の場所、例えば航空機にカメラを積み、データは無線ネットワークを介して地上の官制基地のコンピュータへ入力し、地上で異常検知処理を行うように構成することもできる。
また、直接カメラからその場の画像を入力してリアルタイムで処理を行うように構成することもできるし、データを保存しておき、例えば問題発生後の事後調査のように、データ採取と異常検知を別のタイミングで行うこともできる。
また、本実施形態では、海上の画像から溺者を検出するシステムとして説明したが、土砂災害現場の画像から、土砂ではないものを検出するシステムや、砂漠の画像からオアシスを検出するシステムへも同様に応用することができる。
また、用いるデータとしては、本実施形態で用いたハイパースペクトル画像のスペクトルデータだけではなく、任意の多次元ベクトルを用いることができる。
例えば、移動速度、滞在時間などの行動を表現する複数の特徴量を用いて行動を表現し、一連の行動履歴から異常な行動を検知し、障害発生などを検出する障害検知システムなどに応用することができる。
更に、一語の発話音声を多次元ベクトルとして表現し、一連の会話から、通常会話ではない発話を検出して、犯罪捜査などに応用することもできる。
[第二実施形態]
つぎに、本発明の第二実施形態に係る異常検知システムについて、図8〜図12を参照して説明する。
ただし、前記実施形態と共通の構成については、前記実施形態と同じ符号を付けることにより、前記実施形態の説明を援用する。
図8は、本発明の第二実施形態に係る異常検知システムの構成を示すブロック図、図9は、本発明の第二実施形態に係る異常検知システムの全体的な動作を示すフローチャート、図10は、処理対象の一例を示す説明図、図11は、クラスタリング結果の一例を示す説明図、図12は、部分画像毎の参照データの一例を示す説明図である。
これらの図に示すように、本発明の第二実施形態に係る異常検知システムは、第一実施形態の構成に加えて、データ列を特徴量の似ている部分データ列に分割するクラスタリング手段8(B1)を備える点が第一実施形態と相違している。
クラスタリング手段8は、入力データ列を特徴量の似通った部分データ列に分割する。そして、分割された各部分データ列に対しては、第一実施形態と同様の異常検知処理が行われる。
具体的に説明すると、クラスタリング手段8は、処理対象の画像が、例えば図10に示すように、海の領域と砂浜の領域からなる場合、入力画像全体をクラスタリング処理し、図11のように海の領域からなる部分画像と、砂浜の領域からなる部分画像に分割する。
なお、クラスタリングには、k-meansなど任意の方法を用いることができる。
クラスタリングは、単純に似通った特徴を持つ複数の部分画像に分割することもできるが、単純に似通った特徴を持つ複数の部分画像に分割した上で、空間的な連続性を用いて修正することもできる。
例えば、図10の画像を単純にクラスタリングした結果、海と砂浜の二つの領域に分割され、海の領域に特徴的には砂浜に相当する部分があった場合、空間的に海の領域との連続性から海としてまとめ、図11のように単純な二つの領域に分割する。このように修正することで、空間的に続いている一様な領域を抽出する精度が向上する。
クラスタリングした後は、分割した各部分画像に対して、第一実施形態と同様の異常検知処理を行う。
これは、各部分画像に対して参照データを求め、各部分画像の画素に対して参照データとの非類似度を求め、各部分画像毎に異常画素を検出することにより行われる(図12参照)。
このような大事実施形態によれば、入力画像を特徴量の似通った部分画像に分割し、各部分画像に対して異常検知を行うことで、入力画像がいくつかの異なった性質を持つ複数の領域からなる場合にも対応できる。
[第三実施形態]
つぎに、本発明の第三実施形態に係る異常検知システムについて、図13〜図15を参照して説明する。
ただし、前記実施形態と共通の構成については、前記実施形態と同じ符号を付けることにより、前記実施形態の説明を援用する。
図13は、本発明の第三実施形態に係る異常検知システムの構成を示すブロック図、図14は、本発明の第三実施形態に係る異常検知システムの全体的な動作を示すフローチャート、図15は、処理対象の一例を示す説明図である。
これらの図に示すように、本発明の第三実施形態に係る異常検知システムは、第一実施形態の構成に加えて、複数の入力データの特徴を統合し、特徴の次元を高くする入力高次元化手段9(C1)を備える点が第一実施形態と相違している。
入力高次元化手段9は、入力データ列の各データに対して、周辺データの情報を取りこむことで、より高次元のデータとする。そして、高次元データとしたデータ列に対しては、第一実施形態と同様の異常検知処理が行われる。
このようにすると、データの高次元化により、異常検知の精度を向上させることができる。しかも、本発明で用いる非類似度は、通常の距離を用いる場合と異なり、次元が高くなると近さの判定が不安定になるという問題がないため、データを更に高次元化し、識別能力を高くすることができる。
具体的に説明すると、入力高次元化手段9は、例えば、図15に示すように、入力データが、元の画素がRGBの輝度値からなるカラー画像であった場合、周辺5×5画素の情報を用いて中心1画素のデータとすることで、5×5×3=75次元の特徴とすることができる。そして、高次元データとしたデータ列に対して、第一実施形態と同様の異常検知処理を行う。
また、本実施形態は、プリント基板の欠陥検査などにも好適に用いることができる。例えば、複数の同じパターンが連続して配置されているプリント基板の欠陥検査に本実施形態を適用する場合、プリント基板のデータのある画素の情報はプリントパターンが存在するか(1)、存在しないか(0)の2値である。同じパターンとなるはずのものが、例えば30画素×40画素の画像パターンであったとすると、30画素×40画素のパターンを一つの特徴データとすることで、1200次元の2値特徴ベクトルとすることができる。
なお、本実施形態は、第一実施形態に入力高次元手段9を追加したものであるが、同じように第二実施形態に入力高次元手段9を追加することも可能である。
以上、実施形態を参照して本発明を説明したが、本発明は上記実施形態に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
この出願は、2008年10月9日に出願された日本出願特願2008−263096を基礎とする優先権を主張し、その開示の全てをここに取り込む。
本発明は、画像、音声、スペクトルパターンなどの異常検知に好適に用いることができる。また、データマイニングなどのように、通常と異なるデータを抽出する分野にも適用することができる。

Claims (14)

  1. 入力が想定される所定のデータの特徴量の生起分布を記憶し、又は実際に入力されたデータにより当該データの特徴量の生起分布を生成する生起分布記憶手段と、
    入力されるデータのデータ列から正常データを表す参照データを生成し、又は予め所定のデータを参照データとして記憶する参照データ生成手段と、
    前記生起分布から仮想的に特徴量を発生させた場合に、前記データ列の各データ毎に、各データの特徴量よりも参照データに近い特徴量となる確率を求めて、各データの参照データとの非類似度とする非類似度計算手段と、
    前記非類似度にもとづいて異常データの判定を行う異常判定手段と、を備える
    ことを特徴とする異常検知システム。
  2. 前記非類似度計算手段が求めた各データの参照データとの非類似度から非類似度の生起分布を求める非類似度分布推定手段を更に備え、
    前記異常判定手段は、前記非類似度分布推定手段が求めた非類似度の生起分布にもとづいて、各データの非類似度が観測される確率を求め、非類似度が観測される確率が所定の確率よりも小さいデータを異常データと判定する
    ことを特徴とする請求項1記載の異常検知システム。
  3. 前記データ列を特徴量の似ている部分データ列に分割するクラスタリング手段を更に備え、分割された各部分データ列に対して異常検知処理を行うことを特徴とする請求項1又は2記載の異常検知システム。
  4. 前記クラスタリング手段は、データ列を特徴量の似ている部分データ列に分割した後、空間的な連続性を用いて各部分データ列を修正することを特徴とする請求項3記載の異常検知システム。
  5. 複数の入力データの特徴を統合し、特徴の次元を高くする入力高次元化手段を更に備えることを特徴とする請求項1〜4のいずれかに記載の異常検知システム。
  6. 前記参照データは、全データ列或いは部分データ列の平均とすることを特徴とする請求項1〜5のいずれかに記載の異常検知システム。
  7. 前記参照データは、全データ列或いは部分データ列において、他のデータとの非類似度の和又は積が最小となるデータとすることを特徴とする請求項1〜5のいずれかに記載の異常検知システム。
  8. 前記参照データの選択基準となる非類似度は、前記データの特徴量の生起分布から仮想的に特徴量を発生させた場合に、発生させた特徴量が二つのデータの間となる確率とすることを特徴とする請求項7記載の異常検知システム。
  9. 前記データの特徴量の生起分布は、入力データの最大値と最小値の間の一様分布であることを特徴とする請求項1〜8のいずれかに記載の異常検知システム。
  10. 前記データ列は、一つのプリント基板パターンデータを多次元データとしたものであることを特徴とする請求項1〜9のいずれかに記載の異常検知システム。
  11. 入力が想定される所定のデータの特徴量の生起分布を記憶し、又は実際に入力されたデータにより当該データの特徴量の生起分布を生成するステップと、
    入力されるデータのデータ列から正常データを表す参照データを生成し、又は予め所定のデータを参照データとして記憶するステップと、
    前記生起分布から仮想的に特徴量を発生させた場合に、前記データ列の各データ毎に、各データの特徴量よりも参照データに近い特徴量となる確率を求めて、各データの参照データとの非類似度とするステップと、
    前記非類似度にもとづいて異常データの判定を行うステップと、を有する
    ことを特徴とする異常検知方法。
  12. 前記求められた各データの参照データとの非類似度から非類似度の生起分布を求めるステップを更に備え、
    前記異常データの判定を行うステップが、前記求められた非類似度の生起分布にもとづいて、各データの非類似度が観測される確率を求め、非類似度が観測される確率が所定の確率よりも小さいデータを異常データと判定する
    ことを特徴とする請求項11記載の異常検知方法。
  13. 多次元特徴のデータからなるデータ列の中から異常データを検知するためのコンピュータを
    入力が想定される所定のデータの特徴量の生起分布を記憶し、又は実際に入力されたデータにより当該データの特徴量の生起分布を生成する生起分布記憶手段、
    入力されるデータのデータ列から正常データを表す参照データを生成し、又は予め所定のデータを参照データとして記憶する参照データ生成手段、
    前記生起分布から仮想的に特徴量を発生させた場合に、前記データ列の各データ毎に、各データの特徴量よりも参照データに近い特徴量となる確率を求めて、各データの参照データとの1次元の非類似度とする非類似度計算手段、
    前記非類似度にもとづいて異常データの判定を行う異常判定手段、
    として機能させることを特徴とする異常検知プログラムを記録したコンピュータに読み取り可能な記録媒体。
  14. 前記コンピュータを、
    前記非類似度計算手段が求めた各データの参照データとの非類似度から非類似度の生起分布を求める非類似度分布推定手段、として機能させ、
    前記異常判定手段が、前記非類似度分布推定手段が求めた非類似度の生起分布にもとづいて、各データの非類似度が観測される確率を求め、非類似度が観測される確率が所定の確率よりも小さいデータを異常データと判定する
    ことを特徴とする請求項13記載の異常検知プログラムを記録したコンピュータにより読み取り可能な記録媒体。
JP2010532820A 2008-10-09 2009-10-07 異常検知システム、異常検知方法及び異常検知プログラム Active JP5408139B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010532820A JP5408139B2 (ja) 2008-10-09 2009-10-07 異常検知システム、異常検知方法及び異常検知プログラム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2008263096 2008-10-09
JP2008263096 2008-10-09
PCT/JP2009/005228 WO2010041447A1 (ja) 2008-10-09 2009-10-07 異常検知システム、異常検知方法及び異常検知プログラム記録媒体
JP2010532820A JP5408139B2 (ja) 2008-10-09 2009-10-07 異常検知システム、異常検知方法及び異常検知プログラム

Publications (2)

Publication Number Publication Date
JPWO2010041447A1 true JPWO2010041447A1 (ja) 2012-03-08
JP5408139B2 JP5408139B2 (ja) 2014-02-05

Family

ID=42100408

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010532820A Active JP5408139B2 (ja) 2008-10-09 2009-10-07 異常検知システム、異常検知方法及び異常検知プログラム

Country Status (3)

Country Link
US (1) US8584000B2 (ja)
JP (1) JP5408139B2 (ja)
WO (1) WO2010041447A1 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8891870B2 (en) * 2012-11-09 2014-11-18 Ge Aviation Systems Llc Substance subtraction in a scene based on hyperspectral characteristics
US20160037138A1 (en) * 2014-08-04 2016-02-04 Danny UDLER Dynamic System and Method for Detecting Drowning
US9541507B2 (en) * 2014-08-26 2017-01-10 Northrop Grumman Systems Corporation Color-based foreign object detection system
US10620618B2 (en) * 2016-12-20 2020-04-14 Palantir Technologies Inc. Systems and methods for determining relationships between defects
JP6943067B2 (ja) * 2017-08-15 2021-09-29 日本電信電話株式会社 異常音検知装置、異常検知装置、プログラム
CN109408268B (zh) * 2018-10-09 2021-11-19 浪潮软件股份有限公司 一种基于云pos机的新零售扫码数据异常检测方法
CN113157684B (zh) * 2021-05-13 2021-12-10 中山大学 一种水利海量数据的查错方法
CN114253953A (zh) * 2021-11-18 2022-03-29 国电南京自动化股份有限公司 基于聚类分析的配电网多维数据处理方法及系统
CN117522872B (zh) * 2024-01-04 2024-03-22 长峡数字能源科技(湖北)有限公司 一种光伏电站的实时异常检测方法及装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03210679A (ja) * 1990-01-12 1991-09-13 Hiyuutec:Kk パターンマッチング方法および装置
IL102659A (en) * 1992-07-27 1997-07-13 Orbot Instr Ltd Apparatus and method for comparing and aligning two digital representations of an image
US6298149B1 (en) * 1996-03-21 2001-10-02 Cognex Corporation Semiconductor device image inspection with contrast enhancement
US6154567A (en) * 1998-07-01 2000-11-28 Cognex Corporation Pattern similarity metric for image search, registration, and comparison
JP3709803B2 (ja) * 2001-03-28 2005-10-26 日本電気株式会社 パターン照合装置とそのパターン照合方法、及びパターン照合プログラム
JP4017148B2 (ja) 2002-09-05 2007-12-05 大日本スクリーン製造株式会社 パターン検査装置、歩留管理システム、パターン検査方法、基板製造方法およびプログラム
JP4788106B2 (ja) * 2004-04-12 2011-10-05 富士ゼロックス株式会社 画像辞書作成装置、符号化装置、画像辞書作成方法及びそのプログラム
JP3756507B1 (ja) 2004-09-17 2006-03-15 シャープ株式会社 画像処理アルゴリズム評価方法および装置、画像処理アルゴリズム生成方法および装置、プログラムならびにプログラム記録媒体
JP4603512B2 (ja) * 2006-06-16 2010-12-22 独立行政法人産業技術総合研究所 異常領域検出装置および異常領域検出方法
JP4270254B2 (ja) * 2006-09-20 2009-05-27 ソニー株式会社 画像信号処理装置及び画像処理方法
TWI384879B (zh) * 2006-08-31 2013-02-01 Sony Corp 影像處理裝置,影像處理方法及影像處理程式

Also Published As

Publication number Publication date
WO2010041447A1 (ja) 2010-04-15
US8584000B2 (en) 2013-11-12
JP5408139B2 (ja) 2014-02-05
US20110197113A1 (en) 2011-08-11

Similar Documents

Publication Publication Date Title
JP5408139B2 (ja) 異常検知システム、異常検知方法及び異常検知プログラム
US6961466B2 (en) Method and apparatus for object recognition
JP5333589B2 (ja) 代表特徴抽出システムおよび方法
EP3258425B1 (en) Information processing apparatus, information processing method, and storage medium
JP4603512B2 (ja) 異常領域検出装置および異常領域検出方法
JP2017062713A (ja) 識別器作成装置、識別器作成方法、およびプログラム
US20070165951A1 (en) Face detection method, device and program
CN115797670A (zh) 基于卷积神经网络的斗轮性能监测方法及其系统
JP2007156655A (ja) 変動領域検出装置及びその方法
US11410300B2 (en) Defect inspection device, defect inspection method, and storage medium
Alaei et al. Blind document image quality prediction based on modification of quality aware clustering method integrating a patch selection strategy
CN116912674A (zh) 基于改进的YOLOv5s网络模型复杂水环境下目标检测方法及系统
CN108710881B (zh) 神经网络模型、候选目标区域生成方法、模型训练方法
CN114445410A (zh) 基于图像识别的电路板检测方法、计算机及可读存储介质
US10580127B2 (en) Model generation apparatus, evaluation apparatus, model generation method, evaluation method, and storage medium
JP5027201B2 (ja) テロップ文字領域検出方法,テロップ文字領域検出装置およびテロップ文字領域検出プログラム
CN111291712B (zh) 基于插值的cn和胶囊网络的森林火灾识别方法及装置
Zou et al. Statistical analysis of signal-dependent noise: application in blind localization of image splicing forgery
CN116543333A (zh) 电力系统的目标识别方法、训练方法、装置、设备和介质
JP2021111228A (ja) 学習装置、学習方法、及びプログラム
KR101966750B1 (ko) 이미지 데이터로부터 기계학습에 의한 시정거리 예측 장치, 시스템, 및 방법
JP5391876B2 (ja) 代表特徴抽出システム、方法およびプログラム
JP5625196B2 (ja) 特徴点検出装置、特徴点検出方法、特徴点検出プログラム及び記録媒体
Suryawanshi et al. Detection of contrast enhancement forgery in previously and post compressed jpeg images
CN112418244A (zh) 目标检测方法、装置和电子系统

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120914

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120921

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131008

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131021

R150 Certificate of patent or registration of utility model

Ref document number: 5408139

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150