WO2024009412A1

WO2024009412A1 - 判定装置、判定方法、および、判定プログラム

Info

Publication number: WO2024009412A1
Application number: PCT/JP2022/026770
Authority: WO
Inventors: 美尋内田
Original assignee: 日本電信電話株式会社
Priority date: 2022-07-05
Filing date: 2022-07-05
Publication date: 2024-01-11

Abstract

判定装置は、認識対象とする物体の画像を学習データとして用いて、入力データを符号化する符号化部と、符号化されたデータの復号を行う復号部と、符号化されたデータを用いて入力データのラベルを予測するラベル予測部とを学習する。学習後、判定装置は入力データを復号し、入力データの画像とその復号データの画像との誤差（復号誤差）が所定の閾値を超える場合、当該入力データは認識対象の画像のデータではないと判定する。ここで、判定装置は、べクトル量子化を用いて符号化されたデータの限定的な特徴のみを復号し、フーリエ空間において定性的に復号誤差の出やすい高周波に注目して、復号データの画像と元データの画像との誤差を評価する。

Description

判定装置、判定方法、および、判定プログラム

　本発明は、入力データが認識対象の画像のデータか否かを判定するための、判定装置、判定方法、および、判定プログラムに関する。

　画像認識等において、入力されたデータが認識対象の画像のデータか否かを判定することが重要である。例えば、人間の表情の認識を行う認識器に、人間以外の動物の画像のデータが入力された場合、誤った認識結果を出力してしまうおそれがある。

　例えば、図１に示すように、入力データの顔部分の表情認識の結果を用いて会議の解析を行うシステムを考える。このシステムに、本来、表情認識の対象ではない犬の顔の画像が入力されると、システムは、犬の顔の画像に対し表情認識を行い、「参加者はポジティブな感情なので、今はいい会議です」という認識結果を出力してしまうおそれがある。つまり、犬は会議の参加者ではないため、上記の出力は意味のない出力となる。

　ここで従来、入力データが認識対象の画像のデータか否かの判定を行うため、オートエンコーダ（自己符号化器）を用いる技術が提案されている。オートエンコーダは、ニューラルネットワークを使用した次元圧縮のためのアルゴリズムである。

　オートエンコーダが学習した対象物の画像は低次元のデータ空間から復号できる一方で、学習していない対象物の画像は低次元のデータ空間から復号できないと仮定すると、オートエンコーダを認識対象の画像のデータのみで学習すれば、認識対象外の画像のデータは復号できないはずである。

　例えば、図２に示す、認識対象外の画像も表現できる28×28次元のデータ空間（ピクセル空間）と、認識対象の画像のみを表現できる低次元のデータ空間（潜在空間）とを考える。この場合、オートエンコーダが学習した対象物（認識対象の物体）の画像は低次元のデータ空間から復号できる一方で、オートエンコーダが学習しなかった対象物（認識対象外の物体）の画像は低次元のデータ空間から復号できない。

　よって、オートエンコーダに上記の学習を行うことで、入力データが認識対象の画像のデータか否かを判定できると考えられる。

　ここでオートエンコーダ単体では、上記の入力データの画像の認識処理（例えば、入力データの画像のカテゴリラベルの予測）を行うことができないので、上記のオートエンコーダにカテゴリラベルの予測機能を付加することを考える。例えば、オートエンコーダの符号化機能（入力データを低次元のデータ空間のデータに変換する機能）から出力されたデータに基づき、入力データの画像のカテゴリラベルの予測を行う機能を付加することを考える。

Paul　Bergmann,　et　al.　"　MVTec　AD　-　A　Comprehensive　Real-World　Dataset　for　Unsupervised　Anomaly　Detection"　Proceedings　of　the　IEEE/CVF　conference　on　computer　vision　and　pattern　recognition.　2019. Aaron　Van　Den　Oord,　et　al.　"Neural　Discrete　Representation　Learning"　Advances　in　neural　information　processing　systems　30　(2017).

　上記のようにエンコーダに、入力データの画像のカテゴリラベルの予測機能を付加する場合、入力データが認識対象の画像のデータか否かの判定とカテゴリラベルの予測（分類）とを同時に学習する必要がある。このため、エンコーダが扱う低次元のデータ空間が離散的になってしまう。よって、エンコーダがその隙間に落ちる認識対象外の画像のデータを復号すると、入力データと近いものになってしまうことがある。その結果、上記の技術では、入力データが認識対象の画像のデータか否かを精度よく判定できない場合があるという問題があった。

　そこで、本発明は、前記した問題を解決し、入力データが認識対象の画像のデータか否かの判定精度を向上させることを課題とする。

　前記した課題を解決するため、本発明は、入力データを前記入力データよりも低次元のデータに変換する符号化部と、前記符号化部により変換されたデータを、ベクトル量子化により、離散化して表現したデータに変換するベクトル量子化部と、前記ベクトル量子化部により変換されたデータを、元の次元のデータに復号する復号部とを含むオートエンコーダと、前記入力データの画像の認識を行う認識部と、認識対象の物体の画像を学習データとして用いて、前記復号部により復号されたデータが前記データの元となった入力データに近づくよう、前記オートエンコーダの前記符号化部および前記復号部を学習し、前記入力データの画像の認識結果が正解データに近づくよう、前記認識部を学習する学習部と、学習後の前記符号化部により変換された後、前記ベクトル量子化部により変換され、学習後の前記復号部により復号されたデータの画像と、前記データの元となった入力データの画像とのフーリエ空間における誤差を評価する誤差評価部と、評価した前記誤差が所定の閾値よりも大きい場合、前記入力データは、認識対象の画像のデータではないと判定する判定処理部と、前記判定の結果を出力する出力処理部と、を備えることを特徴とする。

　本発明によれば、入力データが認識対象の画像のデータか否かの判定精度を向上させることができる。

図１は、表情認識を活用した会議解析システムの例を示す図である。図２は、データ空間（ピクセル空間）と、低次元のデータ空間（潜在空間）の例を説明する図である。図３は、オートエンコーダの入力データとその復号データの例を示す図である。図４は、ベクトル量子化を説明するための図である。図５は、判定装置の構成例を示す図である。図６は、ベクトル量子化の学習を説明するための図である。図７は、図５の誤差評価部の処理手順の例を示すフローチャートである。図８は、判定装置の処理手順の例を示す図である。図９は、比較例と判定装置の判定精度をAUROCで評価した結果を示す図である。図１０は、比較例と判定装置それぞれの入力データとその復号データを示す図である。図１１は、プログラムを実行するコンピュータを示す図である。

　以下、図面を参照しながら、本発明を実施するための形態（実施形態）について説明する。本発明は、本実施形態に限定されない。

［概要］
　まず、図３を用いて、オートエンコーダに、入力データの画像の認識（例えば、入力データの画像のカテゴリラベルの予測）機能を付加した技術の問題点を説明する。例えば、従来技術では認識対象（例えば、人物の顔）の画像で学習を行っても、認識対象外（例えば、犬の顔）の画像も比較的精度よく復号できてしまうことがある。例えば、オートエンコーダが人物の顔の画像で学習を行った場合、図３に示すように、犬の顔の画像も比較的精度よく復号できてしまうことがある。その結果、従来技術では、入力データが認識対象の画像のデータか否かを精度よく判定できないという問題があった。

　このような問題が発生する原因は、以下の２つが考えられる。

（１）従来技術は、オートエンコーダの学習と入力データの画像の認識（分類）の学習とを同時に行うことで、入力データの符号化先のデータ空間が離散的になっている。

（２）オートエンコーダによる復号データの画像は、入力データの画像と色や形が違うというよりぼけの程度が違う。つまり、復号データの方がぼけの程度が強い。

　上記の（１）については、本来、オートエンコーダは、連続的な空間を仮定する。一方、分類問題では、学習したデータは、特徴空間で、似たもの同士のクラスタを形成するように学習される。よって、学習していないデータは、学習したデータのなすクラスタから離れて表現される。ここで、クラスタの隙間に落ちたデータは、復号できないとは限らない。つまり、クラスタの隙間に落ちたデータは、復号される可能性がある。

　そこで、本実施形態の判定装置は、できるだけ隙間からデータをサンプリングしないようにするため、入力データを符号化（低次元のデータに変換）した後、ベクトル量子化を行う。

　例えば、判定装置は、図４に示すように、連続に表現される低次元のデータ空間の座標を、最近傍の格子点の座標に置き換えることによりベクトル量子化を行う。判定装置は、上記のベクトル量子化により、連続的に表される低次元のデータ空間を離散的な表現に置換する。そして、判定装置は、ベクトル量子化を行ったデータを対象にデータの復号を行う。

　また、上記の（２）については、従来技術は、入力データの画像と復号データの画像との画素値の差が平均的に小さいか否かを評価するものにすぎないため、入力データの画像と復号データの画像のぼけの程度の差を評価できない。

　そこで、判定装置は、画像の周波数の情報を表現できるフーリエ空間で入力データと復号データとの差を評価する。例えば、判定装置は、入力データの画像と復号データの画像をフーリエ変換することで、これらの画像のスペクトル分布を得ることができる。ここで、ぼけの程度が高い画像は、パワースペクトルが低いので周波数が０に近づく。一方、ぼけの程度が低い画像は、パワースペクトルが高周波数まで伸びる。よって、判定装置は、入力データの画像と復号データの画像のパワースペクトルの差をとることで、復号データのぼけの程度を評価できる。

　このように判定装置は、ベクトル量子化を用いて認識対象の限定的な特徴を復号し、かつ、認識対象外の画像について定性的に復号誤差の出やすい周波数（高周波数）に注目して復号誤差を評価する。これにより、判定装置は、入力データが認識対象の画像のデータか否かの判定精度を向上させることができる。

［構成例］
　次に、図５を用いて、判定装置１０の構成例を説明する。判定装置１０は、入力データが認識対象のデータか否かの判定を行う。判定装置１０は、入出力部１１、記憶部１２および制御部１３を備える。

［入出力部］
　入出力部１１は、判定装置１０が各種情報の入力を受け付けたり、出力したりする際のインタフェースを司る。例えば、入出力部１１は、制御部１３の学習データ（認識対象とする物体の画像のデータ）、制御部１３の判定対象のデータ等の入力を受け付ける。また、入出力部１１は、制御部１３による処理結果を出力する。例えば、入出力部１１は、制御部１３における判定の結果（入力データが認識対象の画像のデータか否かの判定結果）、入力データの予測ラベル等を出力する。

［記憶部］
　記憶部１２は、制御部１３が動作する際に用いる各種情報やプログラム、制御部１３が動作した結果得られた各種情報を記憶する。ここで、記憶部１２は、例えば、ＲＡＭ（Random　Access　Memory）、フラッシュメモリ等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置等である。

　記憶部１２は、例えば、入出力部１１経由で入力された学習データを記憶する。また、記憶部１２は、例えば、制御部１３により学習された符号化部１３１、ラベル予測部１３４、復号部１３３それぞれのパラメータ等を記憶する。

［制御部］
　制御部１３は、判定装置１０全体の制御を司る。制御部１３は、オートエンコーダ１３０、ラベル予測（認識）部１３４、学習部１３５、誤差評価部１３６、判定処理部１３７、および、出力処理部１３８を備える。上記の各部の機能は、例えば、判定装置１０のＣＰＵが、判定装置１０の記憶部に記憶されるプログラムを実行することにより実現される。

［オートエンコーダ］
　オートエンコーダ１３０は、入力データの符号化を行った後、ベクトル量子化し、ベクトル量子化したデータを復号する。このオートエンコーダ１３０は、符号化部１３１、ベベクトル量子化部１３２、および、復号部１３３を備える。

［符号化部］
　符号化部１３１は、入力データの符号化を行う。例えば、符号化部１３１は、入力データを当該入力データよりも低次元のデータに変換する。この符号化部１３１は、復号部１３３により出力される復号データが、当該復号データの元になった入力データに一致するように学習部１３５により学習される。

［ベクトル量子化部］
　ベクトル量子化部１３２は、符号化部１３１により出力された低次元のデータを、ベクトル量子化により、当該低次元の空間で離散化して表現したデータに変換する。例えば、ベクトル量子化部１３２は、予め設定された低次元の空間で取りうる値を示した格子点の座標のうち、当該データに最も近い座標のデータに変換する（図６参照）。このベクトル量子化部１３２は、離散化前のデータ空間の座標が、予め設定した取りうる値（コードブック）に近づくように学習される。

　例えば、ベクトル量子化部１３２は、以下の式（１）に示す損失Lができるだけ小さくするよう学習される。

　式（１）の第１項は、入力データとその復号データとの誤差を示し、第２項は、プロトタイプを、エンコードされたマップに近づけるための項であり、第３項は、エンコードされたマップを、プロトタイプに近づけるための項である。sg(・)は、勾配を返さないという演算を示し、eは、最も近いコードブックを示す。

［復号部］
　復号部１３３は、低次元のデータを元の次元のデータに復号する。例えば、復号部１３３は、ベクトル量子化部１３２によりベクトル量子化された低次元のデータを、元の次元のデータに復号する。この復号部１３３も、復号データが、当該復号データの元になった入力データに一致するように学習部１３５により学習される。

［ラベル予測部］
　ラベル予測部１３４は、オートエンコーダ１３０の符号化部１３１により低次元のデータに変換されたデータの画像の認識処理を行う。例えば、ラベル予測部１３２は、符号化部１３１から出力されたデータを用いて、入力データの画像のラベルを予測する。例えば、ラベル予測部１３４は、入力データの画像の事後確率を推定し、推定した事後確率の値を入力データの予測ラベルとして出力する。このラベル予測部１３４は、入力データの画像の正解ラベルの事後確率が最大になるように学習部１３５により学習される。

［学習部］
　学習部１３５は、認識対象とする物体の画像を学習データとして用いて、符号化部１３１、ラベル予測部１３４、および、復号部１３３の学習を行う。例えば、学習部１３５は、復号部１３３が復号したデータが当該データの元になった入力データに近づき、かつ、ラベル予測部１３４が予測した入力データのラベルの予測値が当該入力データのラベルの正解値に近づくよう、符号化部１３１、ラベル予測部１３４、および、復号部１３３の学習を行う。

［誤差評価部］
　誤差評価部１３６は、フーリエ空間における、復号部１３３により復号されたデータ（復号データ）の画像と、当該データの元となった入力データ（元データ）の画像との誤差を評価する。

　誤差評価部１３６の処理フローの例を図７に示す。ここでは、誤差評価部１３６が、元の入力データの画像をグレースケールに変換する場合を例に説明する。なお、元々入力データの画像がグレースケールの画像で表現できる場合は、このプロセスは不要である。また、誤差評価部１３６が入力データの画像をグレースケールに変換せずに処理を行う場合は、図７に示す一連のプロセスを各チャネルに適用すればよい。

　まず、誤差評価部１３６は、復号データおよび元データそれぞれの画像をグレースケールの画像に変換する（Ｓ１：グレースケールに変換）。そして、誤差評価部１３６は、グレースケールに変換した復号データおよび元データそれぞれの画像をフーリエ変換する（Ｓ２）。フーリエ変換は、例えば、２次元フーリエ変換であり、以下の式（２）で表せる。

　式（２）における、M,Nは変換対象の画像の縦横の画素数、k,lは任意の周波数、eはネイピア数、iは虚数、fは画素値を示す。また、誤差評価部１３６は、Ｓ２において、画素の中央に低周波成分が来るように画像の画素の並び順を変えてもよい。

　Ｓ２の後、誤差評価部１３６は、Ｓ２で得られたフーリエ変換の結果における実部と虚部をそれぞれ二乗し、和を取ることで、復号データおよび元データそれぞれの画像のパワースペクトルを取得する（Ｓ３）。なお、誤差評価部１３６は、Ｓ３で取得したパワースペクトルに対しては何らかの正規化を行ってもよい。

　Ｓ３の後、誤差評価部１３６は、復号データおよび元データそれぞれの画像のパワースペクトルの差を取る（Ｓ４）。例えば、誤差評価部１３６は、復号データおよび元データそれぞれのパワースペクトル画像の違いを評価する。ここで評価指標は、例えば、平均二乗誤差でもいいし、平均絶対誤差でもいいし、クロスエントロピーでもよい。そして、誤差評価部１３６は、Ｓ４で得られた復号データおよび元データそれぞれの画像のパワースペクトルの差を評価値として出力する。

［判定処理部］
　判定処理部１３７は、誤差評価部１３６により評価された、復号データの画像と元データの画像との誤差が所定の閾値よりも大きいか否かを判定する。そして、判定処理部１３７が、上記の誤差が所定の閾値よりも大きいと判定した場合、元データ（入力データ）は、認識対象の画像のデータではない（ラベルの予測対象の画像のデータではない）と判定する。一方、判定処理部１３７が、上記の誤差が所定の閾値以下であると判定した場合、入力データは、認識対象の画像のデータである（ラベルの予測対象の画像のデータである）と判定する。

［出力処理部］
　出力処理部１３８は、判定処理部１３７による入力データが認識対象の画像のデータか否かの判定の結果と、ラベル予測部１３４による当該入力データの画像のラベルの予測結果とを出力する。

　このような判定装置１０によれば、入力データが認識対象の画像のデータか否かを精度よく判定することができる。

［処理手順の例］
　次に、図８を用いて判定装置１０の処理手順の例を説明する。なお、判定装置１０は、図８に示す処理の実行前に、学習部１３５により、符号化部１３１、ラベル予測部１３４、ベクトル量子化部１３２、および、復号部１３３を学習済みであるものとする。

　まず、判定装置１０の符号化部１３１は、入力データを低次元のデータに変換する（Ｓ１：符号化）。

　その後、ラベル予測部１３４は、Ｓ１で変換された低次元のデータを用いて入力データの画像のラベルの予測を行う（Ｓ２：ラベル予測）。また、ベクトル量子化部１３２は、Ｓ１で変換された低次元のデータのベクトル量子化を行う（Ｓ３）。

　Ｓ３の後、復号部１３３は、Ｓ３でベクトル量子化されたデータを、元の次元のデータに復号する（Ｓ４：復号）。次に、誤差評価部１３６は、フーリエ空間における、Ｓ４で復号されたデータの画像と、当該データの元となった入力データの画像との誤差を評価する（Ｓ５：フーリエ空間における復号誤差の評価）。

　Ｓ５の後、判定処理部１３７は、Ｓ５で評価した誤差が所定の閾値よりも大きいか否かを判定する。ここで、判定処理部１３７が、Ｓ５で評価した誤差が所定の閾値よりも大きいと判定した場合、入力データは、認識対象の画像のデータではないと判定する。一方、判定処理部１３７が、Ｓ５で評価した誤差が所定の閾値以下と判定した場合、入力データは、認識対象の画像のデータであると判定する（Ｓ６：誤差の判定）。

　Ｓ６の後、出力処理部１３８は、Ｓ６で得られた入力データの判定結果と、Ｓ２で得られた当該入力データの画像の予測ラベルとを出力する（Ｓ７：出力処理）。

　判定装置１０が上記の処理を実行することで、入力データが認識対象の画像のデータか否かを精度よく判定することができる。

［実験結果］
　次に、図９を用いて判定装置１０の判定精度の実験結果を説明する。本実験において、判定装置１０は、AffectNet(表情認識のための人の顔の画像)を学習データとして用いて学習した。その後、判定装置１０は、AffectNetおよびStanford　Dogs(犬の画像)の入力を受け付けると、入力データの画像の復号誤差により、当該入力データが人の顔の画像か否かを判定した。判定精度の評価には、AUROC（チャンスレート=0.5。1に近いほど良い性能）を用いた。比較例として、ナイーブなオートエンコーダを用いた。

　図９に示すように、本実施形態の判定装置１０によれば、比較例よりもAUROCの値が向上することが確認できた。

　また、比較例および本実施形態の判定装置１０それぞれの入力データとその復号データを図１０に示す。比較例による犬の画像の復号データと、本実施形態の判定装置１０による犬の画像の復号データとを比較すると、比較例よりも本実施形態の判定装置１０の方が復号データの画像がぼやけていることが確認できた。つまり、比較例よりも本実施形態の判定装置１０の方が、学習対象外の画像（犬の画像）について復号誤差の大きい画像を生成することが確認できた。

　このことから、本実施形態の判定装置１０によれば、上記の復号誤差により、入力データが認識対象の画像のデータか否かを精度よく判定できることが確認できた。

［システム構成等］
　また、図示した各部の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、ＣＰＵ及び当該ＣＰＵにて実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

　また、前記した実施形態において説明した処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

［プログラム］
　前記した判定装置１０は、パッケージソフトウェアやオンラインソフトウェアとしてプログラム（判定プログラム）を所望のコンピュータにインストールさせることによって実装できる。例えば、上記のプログラムを情報処理装置に実行させることにより、情報処理装置を判定装置１０として機能させることができる。ここで言う情報処理装置にはスマートフォン、携帯電話機やＰＨＳ（Personal　Handyphone　System）等の移動体通信端末、さらには、ＰＤＡ（Personal　Digital　Assistant）等の端末等がその範疇に含まれる。

　図１１は、判定プログラムを実行するコンピュータの一例を示す図である。コンピュータ１０００は、例えば、メモリ１０１０、ＣＰＵ１０２０を有する。また、コンピュータ１０００は、ハードディスクドライブインタフェース１０３０、ディスクドライブインタフェース１０４０、シリアルポートインタフェース１０５０、ビデオアダプタ１０６０、ネットワークインタフェース１０７０を有する。これらの各部は、バス１０８０によって接続される。

　メモリ１０１０は、ＲＯＭ（Read　Only　Memory）１０１１及びＲＡＭ（Random　Access　Memory）１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic　Input　Output　System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１１００に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ１１００に挿入される。シリアルポートインタフェース１０５０は、例えばマウス１１１０、キーボード１１２０に接続される。ビデオアダプタ１０６０は、例えばディスプレイ１１３０に接続される。

　ハードディスクドライブ１０９０は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、上記の判定装置１０が実行する各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール１０９３として実装される。プログラムモジュール１０９３は、例えばハードディスクドライブ１０９０に記憶される。例えば、判定装置１０における機能構成と同様の処理を実行するためのプログラムモジュール１０９３が、ハードディスクドライブ１０９０に記憶される。なお、ハードディスクドライブ１０９０は、ＳＳＤ（Solid　State　Drive）により代替されてもよい。

　また、上述した実施形態の処理で用いられるデータは、プログラムデータ１０９４として、例えばメモリ１０１０やハードディスクドライブ１０９０に記憶される。そして、ＣＰＵ１０２０が、メモリ１０１０やハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して実行する。

　なお、プログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ１１００等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、プログラムモジュール１０９３及びプログラムデータ１０９４は、ネットワーク（ＬＡＮ（Local　Area　Network）、ＷＡＮ（Wide　Area　Network）等）を介して接続される他のコンピュータに記憶されてもよい。そして、プログラムモジュール１０９３及びプログラムデータ１０９４は、他のコンピュータから、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

　１０　判定装置
　１１　入出力部
　１２　記憶部
　１３　制御部
　１３０　オートエンコーダ
　１３１　符号化部
　１３２　ベクトル量子化部
　１３３　復号部
　１３４　ラベル予測部
　１３５　学習部
　１３６　誤差評価部
　１３７　判定処理部
　１３８　出力処理部

Claims

　入力データを前記入力データよりも低次元のデータに変換する符号化部と、前記符号化部により変換されたデータを、ベクトル量子化により、離散化して表現したデータに変換するベクトル量子化部と、前記ベクトル量子化部により変換されたデータを、元の次元のデータに復号する復号部とを含むオートエンコーダと、
　前記入力データの画像の認識を行う認識部と、
　認識対象の物体の画像を学習データとして用いて、前記復号部により復号されたデータが前記データの元となった入力データに近づくよう、前記オートエンコーダの前記符号化部および前記復号部を学習し、前記入力データの画像の認識結果が正解データに近づくよう、前記認識部を学習する学習部と、
　学習後の前記符号化部により変換された後、前記ベクトル量子化部により変換され、学習後の前記復号部により復号されたデータの画像と、前記データの元となった入力データの画像とのフーリエ空間における誤差を評価する誤差評価部と、
　評価した前記誤差が所定の閾値よりも大きい場合、前記入力データは、認識対象の画像のデータではないと判定する判定処理部と、
　前記判定の結果を出力する出力処理部と、
　を備えることを特徴とする判定装置。
　前記ベクトル量子化部は、
　前記変換されたデータを、予め設定された前記低次元の空間で取りうる値を示した格子点の座標のうち、当該データに最も近い座標のデータに変換する
　ことを特徴とする請求項１に記載の判定装置。
　前記誤差評価部は、
　前記復号されたデータの画像と前記データの元となった入力データの画像それぞれをフーリエ変換した結果から、パワースペクトルを取得し、取得したパワースペクトルの差分を、フーリエ空間における、前記復号されたデータの画像と、前記データの元となった入力データの画像との前記誤差とする
　ことを特徴とする請求項１に記載の判定装置。
　入力データを前記入力データよりも低次元のデータに変換する符号化部と、前記符号化部により変換されたデータを、ベクトル量子化により、離散化して表現したデータに変換するベクトル量子化部と、前記ベクトル量子化部により変換されたデータを、元の次元のデータに復号する復号部と、前記入力データの画像の認識を行う認識部とを備える判定装置が、
　認識対象の物体の画像を学習データとして用いて、前記復号部により復号されたデータが前記データの元となった入力データに近づくよう、前記符号化部および前記復号部を学習し、前記入力データの画像の認識結果が正解データに近づくよう、前記認識部を学習する工程と、
　学習後の前記符号化部により、入力データを前記低次元のデータに変換する工程と、
　前記ベクトル量子化部により、前記変換されたデータを離散化して表現したデータに変換する工程と、
　学習後の前記復号部により、前記ベクトル量子化部により変換されたデータを、元の次元のデータに復号する工程と、
　フーリエ空間における、前記復号されたデータの画像と、前記データの元となった入力データの画像との誤差を評価する工程と、
　評価した前記誤差が所定の閾値よりも大きい場合、前記入力データは、認識対象の画像のデータではないと判定する工程と、
　前記判定の結果を出力する工程と、
　を含むことを特徴とする判定方法。
　入力データを低次元のデータに変換する符号化部と、前記変換されたデータを離散化して表現したデータに変換するベクトル量子化部と、前記ベクトル量子化部により変換されたデータを、元の次元のデータに復号する復号部とを備えるコンピュータに、
　認識対象の物体の画像を学習データとして用いて、前記復号部により復号されたデータが前記データの元となった入力データに近づくよう、前記符号化部および前記復号部を学習する工程と、
　学習後の前記符号化部により、入力データを前記低次元のデータに変換する工程と、
　前記ベクトル量子化部により、前記変換されたデータを離散化して表現したデータに変換する工程と、
　学習後の前記復号部により、前記ベクトル量子化部により変換されたデータを、元の次元のデータに復号する工程と、
　フーリエ空間における、前記復号されたデータの画像と、前記データの元となった入力データの画像との誤差を評価する工程と、
　評価した前記誤差が所定の閾値よりも大きい場合、前記入力データは、認識対象の画像のデータではないと判定する工程と、
　前記判定の結果を出力する工程と、
　を実行させるための判定プログラム。