WO2021014809A1

WO2021014809A1 - 画像認識評価プログラム、画像認識評価方法、評価装置及び評価システム

Info

Publication number: WO2021014809A1
Application number: PCT/JP2020/022928
Authority: WO
Inventors: 俊菅原; 賢佑田口
Original assignee: 京セラ株式会社
Priority date: 2019-07-19
Filing date: 2020-06-10
Publication date: 2021-01-28
Also published as: US20220270351A1; EP4002270A4; JP7148462B2; JP2021018576A; CN114127799A; EP4002270A1

Abstract

画像認識評価プログラムは、画像セグメンテーションを行う画像認識装置の認識精度を評価する評価装置によって実行される。評価装置に、画像認識装置に入力される入力画像に対して画像加工を行い、複数の加工入力画像を生成することを実行させる。この後、評価装置に、生成した複数の加工入力画像を画像認識装置に入力し、画像認識装置により画像セグメンテーションが行われることでクラス分類された複数の出力画像を取得することを実行させる。続いて、評価装置に、取得した複数の出力画像に基づいて、出力画像の分散値を算出することを実行させる。

Description

画像認識評価プログラム、画像認識評価方法、評価装置及び評価システム

　本発明は、画像認識評価プログラム、画像認識評価方法、評価装置及び評価システムに関する。

　画像認識技術として、Fully　Convolutional　Network（ＦＣＮ：全層畳み込みネットワーク）を用いたSemantic　Segmentation（セマンティック・セグメンテーション）が知られている（例えば、非特許文献１参照）。セマンティック・セグメンテーションは、入力画像として入力されたデジタル画像に対して、ピクセル単位でのクラス分類（推論）を行っている。つまり、セマンティック・セグメンテーションは、デジタル画像の各ピクセルに対してクラス分類を行い、推論結果として、クラス分けした各ピクセル対してカテゴリをラベリングすることで、デジタル画像を複数のカテゴリの画像領域に分割し、出力画像として出力する。

　また、画像認識精度を評価する技術として、Bayesian　SegNetと呼ばれる手法が知られている（例えば、非特許文献２参照）。Bayesian　SegNetでは、DropOutと呼ばれる手法でNetworkの内部状態をランダムに振動させ、推論結果の揺らぎを算出している。そして、算出した推論結果が大きく揺らぐ場合には、信頼度（認識精度）が低いと判定し、算出した推論結果が揺らがない場合には、信頼度（認識精度）が高いと判定している。

Hengshuang　Zhao,　et　al.　"Pyramid　scene　parsing　network"　IEEE　Conf.　on　Computer　Vision　and　Pattern　Recognition　(CVPR).　2017 Alex　Kendall,　et　al.　"Bayesian　SegNet:　Model　Uncertainty　in　Deep　Convolutional　Encoder-Decoder　Architectures　for　Scene　Understanding"　arXiv:1511.02680v2　[cs.CV],　10　Oct　2016

　非特許文献２では、Networkの内部状態をランダムに振動させることから、Network構造の変更が必要となる。ここで、評価するNetworkとしては、Network構造がブラックボックス化された、いわゆるBlack　Box　Networkがある。この場合、非特許文献２では、Network構造の変更が前提となる一方で、Black　Box　Networkに対しては、変更を行うことができない。このため、Black　Box　Networkに対しては、非特許文献２の手法を適用することはできず、Networkの認識精度の評価を行うことが困難である。

　本発明は、画像認識装置がブラックボックス化されたものであっても、画像認識装置の認識精度を評価することができる画像認識評価プログラム、画像認識評価方法、評価装置及び評価システムを提供することを目的とする。

　態様の１つに係る画像認識評価プログラムは、画像セグメンテーションを行う画像認識装置の認識精度を評価する評価装置によって実行される画像認識評価プログラムであって、前記評価装置に、前記画像認識装置に入力される入力画像に対して画像加工を行い、複数の加工入力画像を生成し、生成した複数の前記加工入力画像を前記画像認識装置に入力し、前記画像認識装置により画像セグメンテーションが行われることでクラス分類された複数の出力画像を取得し、取得した複数の前記出力画像に基づいて、前記出力画像の分散値を算出することを、実行させる。

　態様の１つに係る画像認識評価方法は、画像セグメンテーションを行う画像認識装置の認識精度を評価する評価装置によって実行される画像認識評価方法であって、前記画像認識装置に入力される入力画像に対して画像加工を行い、複数の加工入力画像を生成し、生成した複数の前記加工入力画像を、前記画像認識装置に入力し、前記画像認識装置による画像セグメンテーション行って、クラス分類された複数の出力画像を取得し、取得した複数の前記出力画像に基づいて、前記出力画像の分散値を算出することを、実行する。

　態様の１つに係る評価装置は、画像セグメンテーションを行う画像認識装置の認識精度を評価する評価装置であって、前記画像認識装置に入力画像を入力すると共に、前記画像認識装置で生成された出力画像を取得する入出力部と、前記画像認識装置に入力する前記入力画像に対して画像加工を行い、複数の加工入力画像を生成し、生成した複数の前記加工入力画像を、前記画像認識装置に入力し、前記画像認識装置によって画像セグメンテーションが行われることにより、クラス分類された複数の前記出力画像を取得し、取得した複数の前記出力画像に基づいて、前記出力画像の分散値を算出する制御部と、を備える。

　態様の１つに係る評価システムは、上記の評価装置と、前記評価装置から入力される複数の前記加工入力画像に対して画像セグメンテーションを行って、クラス分類された複数の前記出力画像を前記評価装置へ向けて出力する前記画像認識装置と、を備える。

図１は、実施形態に係る評価システムの概要を示す図である。図２は、実施形態に係る評価システムの評価時における機能の概要を示す図である。図３は、入力画像、加工入力画像、出力画像の一例を示す図である。図４は、入力画像と出力画像とを重ね合わせた画像、分散画像の一例を示す図である。図５は、画像認識装置の評価に関する処理の一例を示す図である。

　本出願に係る実施形態を、図面を参照しつつ詳細に説明する。以下の説明において、同様の構成要素について同一の符号を付すことがある。さらに、重複する説明は省略することがある。また、本出願に係る実施形態を説明する上で密接に関連しない事項は、説明及び図示を省略することがある。

（実施形態）
　図１は、実施形態に係る評価システムの概要を示す図である。図２は、実施形態に係る評価システムの評価時における機能の概要を示す図である。評価システム１は、画像認識装置５による画像認識の精度を評価するシステムであり、評価対象となる画像認識装置５と、画像認識装置５を評価する評価装置６とを含んで構成されている。評価システム１において、画像認識装置５と評価装置６とは、双方向にデータを通信可能に接続されている。なお、本実施形態において、評価システム１は、画像認識装置５と評価装置６とがそれぞれ独立した別体の構成となっているが、この構成に特に限定されない。評価システム１は、画像認識装置５と評価装置６とが一体となる単一の装置として構成してもよい。

　画像認識装置５は、入力される入力画像Ｉに含まれるオブジェクトを認識し、認識した結果を出力画像Ｏとして出力するものである。画像認識装置５は、カメラ等の撮像装置において撮像された撮影画像が入力画像Ｉとして入力される。なお、詳細は後述するが、評価時において、画像認識装置５には、評価装置６において生成された加工入力画像Ｉａが入力される。

　画像認識装置５は、入力画像Ｉに対して画像セグメンテーションを行う。画像セグメンテーションとは、デジタル画像の分割された画像領域に対してクラスをラベリングすることであり、クラス推論（クラス分類）ともいう。つまり、画像セグメンテーションとは、デジタル画像の分割された所定の画像領域が、何れのクラスであるかを判別して、画像領域が示すクラスを識別するための識別子（カテゴリ）を付すことで、複数のカテゴリに領域分割することである。画像認識装置５は、入力画像Ｉを画像セグメンテーション（クラス推論）した画像を、出力画像Ｏとして出力する。

　画像認識装置５は、例えば、車の車載認識カメラに設けられている。車載認識カメラは、車の走行状況を所定のフレームレートでリアルタイムに撮像し、撮像した撮影画像を画像認識装置５に入力する。画像認識装置５は、所定のフレームレートで入力される撮影画像を入力画像Ｉとして取得する。画像認識装置５は、入力画像Ｉに含まれるオブジェクトをクラス分類して、クラス分類された画像を出力画像Ｏとして、所定のフレームレートで出力する。なお、画像認識装置５は、車載認識カメラへの搭載に限定されず、他の装置に設けてもよい。

　画像認識装置５は、制御部１１と、記憶部１２と、画像認識部１３とを備えている。記憶部１２は、プログラム及びデータを記憶する。また、記憶部１２は、制御部１１の処理結果を一時的に記憶する作業領域としても利用してもよい。記憶部１２は、半導体記憶デバイス、及び磁気記憶デバイス等の任意の記憶デバイスを含んでよい。また、記憶部１２は、複数の種類の記憶デバイスを含んでよい。また、記憶部１２は、メモリカード等の可搬の記憶媒体と、記憶媒体の読み取り装置との組み合わせを含んでよい。

　制御部１１は、画像認識装置５の動作を統括的に制御して各種の機能を実現する。制御部１１は、例えば、ＣＰＵ（Central　Processing　Unit）等の集積回路を含んでいる。具体的に、制御部１１は、記憶部１２に記憶されているプログラムに含まれる命令を実行して、画像認識部１３等を制御することによって各種機能を実現する。制御部１１は、例えば、画像認識に関するプログラムを実行することにより、画像認識部１３による画像認識を実行する。

　画像認識部１３は、ＧＰＵ（Graphics　Processing　Unit）等の集積回路を含んでいる。画像認識部１３は、例えば、セマンティック・セグメンテーションを用いた画像セグメンテーションを行っている。セマンティック・セグメンテーションは、入力画像Ｉの各ピクセルに対してクラス推論を行い、クラス分けされた各ピクセルに対してカテゴリをラベリングすることで、入力画像Ｉを複数のカテゴリごとに領域分割する。画像認識部１３は、入力画像Ｉが入力されると、画像セグメンテーションを行うことで、入力画像Ｉのピクセルごとにクラス分類された画像を、出力画像Ｏとして出力する。

　画像認識部１３は、全てが畳み込み層で構成されるＦＣＮ（Fully　Convolutional　Network）等のニューラル・ネットワーク（以下、単にネットワークともいう）を用いた画像セグメンテーションを行っている。画像認識部１３は、学習済みのネットワークを用いており、例えば、どのような学習が行われたか不明となる、ブラックボックス化されたネットワークとなっている。画像認識部１３は、エンコーダ２２と、デコーダ２３とを有している。

　エンコーダ２２は、入力画像Ｉに対してエンコード処理を実行する。エンコード処理は、入力画像Ｉの特徴量を抽出した特徴マップ（Feature　Map）を生成しつつ、特徴マップの解像度を低くするダウンサンプリング（プーリングともいう）を実行する処理である。具体的に、エンコード処理では、畳み込み層とプーリング層とにおいて入力画像Ｉに処理が行われる。畳み込み層では、入力画像Ｉの特徴量を抽出するためのカーネル（フィルタ）を、入力画像Ｉにおいて所定のストライドで移動させる。そして、畳み込み層では、畳み込み層の重みに基づいて、入力画像Ｉの特徴量を抽出するための畳み込み計算が行われ、この畳み込み計算により特徴量が抽出された特徴マップを生成する。生成される特徴マップは、カーネルのチャネル数に応じた数だけ生成される。プーリング層では、特徴量が抽出された特徴マップを縮小して、低解像度となる特徴マップを生成する。エンコード処理では、畳み込み層における処理とプーリング層における処理とを複数回繰り返し実行することで、ダウンサンプリングされた特徴量を有する特徴マップを生成する。

　デコーダ２３は、エンコード処理後の特徴マップに対してデコード処理を実行する。デコード処理は、特徴マップの解像度を高くするアップサンプリング（アンプーリングともいう）を実行する処理である。具体的に、デコード処理は、逆畳み込み層とアンプーリング層とにおいて特徴マップに処理が行われる。アンプーリング層では、特徴量を含む低解像度の特徴マップを拡大して、高解像度となる特徴マップを生成する。逆畳み込み層では、特徴マップに含まれる特徴量を、復元させるための逆畳み込み計算が、逆畳み込み層の重みに基づいて実行され、この計算により特徴量を復元させた特徴マップを生成する。そして、デコード処理では、アンプーリング層における処理と逆畳み込み層における処理とを複数回繰り返し実行することで、アップサンプリングされ、領域分割された画像である出力画像Ｏを生成する。出力画像Ｏは、画像認識部７に入力される入力画像Ｉと同じ解像度になるまで、アップサンプリングされる。

　以上のように、画像認識部１３は、入力画像Ｉに対して、エンコード処理及びデコード処理を実行し、ピクセル単位でクラス推論（クラス分類）を行うことで、入力画像Ｉの画像セグメンテーションを行う。そして、画像認識部１３は、入力画像Ｉをクラスごとに領域分割した画像を、出力画像Ｏとして出力する。

　評価装置６は、画像認識装置５の認識精度を評価している。評価装置６は、画像認識装置５に入力される入力画像Ｉを加工すると共に、画像認識装置５から出力される出力画像Ｏに基づいて認識精度を評価している。

　評価装置６は、制御部１５と、記憶部１６と、入出力部１７とを備えている。なお、記憶部１６は、画像認識装置５の記憶部１２とほぼ同様の構成であるため、説明を省略する。

　入出力部１７は、画像認識装置５との間で各種データの入出力を行うためのインターフェースであり、画像認識装置５に加工した入力画像Ｉである加工入力画像Ｉａを入力すると共に、画像認識装置５で生成された出力画像Ｏを取得する。

　制御部１５は、評価装置６の動作を統括的に制御して各種の機能を実現する。制御部１５は、例えば、ＣＰＵ（Central　Processing　Unit）等の集積回路を含んでいる。具体的に、制御部１５は、記憶部１６に記憶されているプログラムに含まれる命令を実行して、入出力部１７等を制御することによって各種機能を実現する。制御部１５は、例えば、画像認識装置５の評価に関する画像認識評価プログラムＰを実行することにより、画像認識装置５から出力画像Ｏを取得し、取得した出力画像Ｏに基づいて、画像認識装置５の認識精度を評価する。また、制御部１５は、画像認識評価プログラムＰを実行することにより、画像認識装置５に入力する入力画像Ｉを加工して、加工入力画像Ｉａを生成する。

　図２に示すように、評価システム１は、評価装置６が入力画像Ｉを取得すると、入力画像Ｉを加工して加工入力画像Ｉａを生成し、生成した加工入力画像Ｉａを画像認識部１３に入力する。画像認識部１３は、加工入力画像Ｉａに対して、エンコード処理及びデコード処理を実行することで、加工入力画像Ｉａの画像セグメンテーションを行う。そして、画像認識部１３は、加工入力画像Ｉａをクラスごとに領域分割した画像を、出力画像Ｏとして評価装置６へ向けて出力する。評価装置６は、出力画像Ｏを取得し、取得した出力画像Ｏに基づいて、画像認識装置５を評価するための分散画像Ｖを生成する。

　なお、画像認識装置５及び評価装置６が一体となる単一の装置である場合、制御部１１及び制御部１５を同一の制御部としてもよく、また、記憶部１２及び記憶部１６を同一の記憶部としてもよい。

　次に、図３及び図４を参照して、入力画像Ｉ、加工入力画像Ｉａ、出力画像Ｏ及び分散画像Ｖについて説明する。図３は、入力画像、加工入力画像、出力画像の一例を示す図である。図４は、入力画像と出力画像とを重ね合わせた画像、分散画像の一例を示す図である。

　入力画像Ｉは、複数の画素（ピクセル）からなるデジタル画像である。入力画像Ｉは、例えば、カメラ等の撮像装置に設けられる撮像素子によって生成される、撮像素子の画素数に応じた解像度の画像となっている。つまり、入力画像Ｉは、画像の画素数を高くするアップサンプリング処理、または、画像の画素数を低くするダウンサンプリング処理が行われていない、高解像度となるオリジナルの原画像となっている。

　加工入力画像Ｉａは、入力画像Ｉを画像加工したものである。図３では、加工入力画像Ｉａの加工例として、画像加工例１から画像加工例３を図示している。画像加工としては、例えば、パーリンノイズ加工、ガウシアンノイズ加工、ガンマ変換加工、ホワイトバランス加工、ブラー加工等がある。画像加工例１の加工入力画像Ｉａは、入力画像Ｉにガンマ変換加工を行った画像となっている。画像加工例２の加工入力画像Ｉａは、入力画像Ｉにガウシアンノイズ加工を行った画像となっている。画像加工例３の加工入力画像Ｉａは、入力画像Ｉにホワイトバランス加工を行った画像となっている。

　出力画像Ｏは、クラスごとに領域分割されている。クラスは、例えば、入力画像Ｉに含まれるオブジェクトを含み、人、車、道、建物等である。出力画像Ｏは、ピクセル単位でオブジェクトごとのクラス分類がなされ、ピクセル単位（画素単位）ごとに分類されたクラスがラベリングされることで、クラスごとに領域分割されている。図３では、例えば、人、車、道路、空等のクラスに分類されている。また、出力画像Ｏとしては、加工入力画像Ｉａに対応した出力画像Ｏがある。図４では、画像加工例１から画像加工例３の加工入力画像Ｉａに対応する出力画像例１から出力画像例３を図示している。出力画像例１の出力画像Ｏは、画像加工例１の加工入力画像Ｉａに対応する出力画像となっている。出力画像例２の出力画像Ｏは、画像加工例２の加工入力画像Ｉａに対応する出力画像となっている。出力画像例３の出力画像Ｏは、画像加工例３の加工入力画像Ｉａに対応する出力画像となっている。図３に示す例では、出力画像例１から出力画像例３において、認識精度が低下した出力画像Ｏとなっている。なお、図３の出力画像Ｏは一例であり、このクラス分類に、特に限定されない。また、出力画像Ｏは、入力画像Ｉと同じ解像度となっている。

　図４に示す画像は、上側の画像が、入力画像Ｉと出力画像Ｏとを重ね合わせた画像となっており、下側の画像が、入力画像Ｉ及び出力画像Ｏに基づく分散画像Ｖとなっている。分散画像Ｖは、入力画像Ｉを画像加工することで複数の加工入力画像Ｉａを生成し、生成した複数の加工入力画像Ｉａを画像認識装置５に入力して生成された複数の出力画像Ｏを用いて生成される。ここで、分散画像Ｖを生成する場合は、画像加工の種類を変えて生成した複数の加工入力画像Ｉａに対応する複数の出力画像Ｏを用いてもよい。また、分散画像Ｖを生成する場合は、画像加工の種類は変えずにランダムに画像加工を行うことで生成した複数の加工入力画像Ｉａに対応する複数の出力画像Ｏを用いてもよい。

　具体的に、分散画像Ｖは、複数の出力画像Ｏに基づいて、各画素における分散値を可視化したものである。分散画像Ｖにおいて、白い画像領域は、分散値が低いものとなっており、黒い画像領域は、分散値が高いものとなっている。つまり、分散画像Ｖの所定の画素における分散値は、複数の出力画像Ｏの所定の画素におけるクラスが分散している場合、分散値が高く設定されて黒い画像領域となる。一方で、分散画像Ｖの所定の画素における分散値は、複数の出力画像Ｏの所定の画素におけるクラスが分散していない場合、分散値が低く設定されて白い画像領域となる。このように、分散画像Ｖは、画素毎に分散値が設定された画像となっている。

　次に、図５を参照して、評価装置６による画像認識装置５の評価に関する処理について説明する。図５は、画像認識装置の評価に関する処理の一例を示す図である。

　先ず、評価装置６に、画像認識装置５に入力される入力画像Ｉが入力される（ステップＳ１）。すると、評価装置６の制御部１１は、入力画像Ｉに対して画像加工を行い、複数の加工入力画像Ｉａを生成する（ステップＳ２）。ステップＳ２では、入力画像Ｉに対して、所定の種類の画像加工を複数回行うことで、複数の加工入力画像Ｉａを生成してもよいし、異なる複数の種類の画像加工を行うことで、複数の加工入力画像Ｉａを生成してもよいし、その両方を行うことで、複数の加工入力画像Ｉａを生成してもよい。また、入力画像Ｉに対して画像加工を行う場合、予め設定された摂動範囲内における加工度で、入力画像Ｉの画像加工を行っている。ここで、摂動範囲としては、入力画像Ｉに映っている物体が画像加工を行っても認識可能な範囲となっている。

　続いて、評価装置６は、生成した複数の加工入力画像Ｉａを画像認識装置５に入力する（ステップＳ３）。加工入力画像Ｉａが入力されると、画像認識部１３は、加工入力画像Ｉａに対してエンコード処理を実行する（ステップＳ４）。画像認識部１３は、エンコード処理を実行することで、ダウンサンプリングされた特徴量を含む特徴マップを生成する。画像認識部１３は、ダウンサンプリングされた特徴量を含む特徴マップに対してデコード処理を実行する（ステップＳ５）。画像認識部１３は、デコード処理を実行することで、特徴量を含む特徴マップを復元しながらアップサンプリングして、加工入力画像Ｉａと同じ解像度とする。そして、画像認識部１３は、画像をピクセル単位でクラスごとに領域分割するクラス推論を実行する（ステップＳ６）。画像認識部１３は、クラス推論の結果として、出力画像Ｏを生成し、生成した出力画像Ｏを評価装置６へ向けて出力することで、評価装置６は、出力画像Ｏを取得する（ステップＳ７）。ステップＳ４からステップＳ６は、加工入力画像Ｉａの数に応じて複数回実行することで、ステップＳ７では、複数の加工入力画像Ｉａに応じた複数の出力画像Ｏを取得している。

　次に、評価装置６は、取得した複数の出力画像Ｏに基づいて、出力画像Ｏの分散値を算出する（ステップＳ８）。ステップ８では、複数の出力画像Ｏを用いて、各画素におけるクラスの分散値を算出している。この後、評価装置６は、各画素におけるクラスの分散値に基づいて、分散画像Ｖを生成して取得する（ステップＳ９）。

　続いて、評価装置６は、予め設定されたしきい値に対して、出力画像Ｏの分散値が大きいか否かを判定する（ステップＳ１０）。ここで、しきい値は、画像認識装置５によるクラス分類の推定が、点推定状態であるか否かを判定するための値である。点推定状態とは、画像認識装置５の学習において、ロバスト性の低い学習が行われることで、画像認識装置５の推定に際して、ピーキーな（鋭敏な）推定を行ってしまう状態である。具体的に、点推定状態とは、画像認識装置５の学習において、物体の正面だけの画像を用いた学習が行われた場合、画像認識装置５の推定に際して、物体の正面だけの画像でしか、物体の推定を行うことができず、物体の背面の画像では、物体の推定が困難となる状態である。また、ステップＳ１０では、具体的に、予め設定されたしきい値に対して、出力画像Ｏのクラスの分散値が大きいか否かを判定しており、クラスごとに点推定状態であるか否かを判定している。

　評価装置６は、出力画像Ｏの（クラスの）分散値がしきい値よりも大きい場合（ステップＳ１０：Ｙｅｓ）、画像認識装置５が点推定状態であると判定する（ステップＳ１１）。一方で、評価装置６は、出力画像Ｏの（クラスの）分散値がしきい値以下である場合（ステップＳ１０：Ｎｏ）、画像認識装置５が点推定状態でないと判定する（ステップＳ１２）。

　以上のように、実施形態に係る画像認識装置５の評価では、入力画像Ｉの画像加工を行うことで、入力画像Ｉを摂動させ、摂動させた入力画像Ｉである加工入力画像Ｉａを画像認識装置５に入力して、出力画像Ｏの分散値を算出することができる。このため、画像認識装置がブラックボックス化されたものであっても、入力画像Ｉを摂動させて、分散値に基づく評価を行うことで、画像認識装置５の認識精度を適切に評価することができる。

　また、実施形態に係る画像認識装置５の評価では、出力画像Ｏの各画素におけるクラスの分散値を算出することができるため、画像認識装置５のクラス単位での認識精度を適切に評価することができる。

　また、実施形態に係る画像認識装置５の評価では、出力画像Ｏの分散値と予め設定されたしきい値とを比較することにより、画像認識装置５が点推定状態であるか否かを適切に判定することができる。

　また、実施形態に係る画像認識装置５の評価では、パーリンノイズ加工、ガウシアンノイズ加工、ガンマ変換加工、ホワイトバランス加工、ブラー加工等の各種の画像加工を用いることができる。このため、入力画像Ｉに対して様々な摂動を行うことができるため、画像認識装置５に対する多様な認識精度の評価を行うことができる。

　なお、本実施形態において、画像認識装置５は、セマンティック・セグメンテーションを用いた画像セグメンテーションを行ったが、この構成に特に限定されない。画像認識に用いられるネットワークとしては、他のニューラル・ネットワークを用いてもよい。

　１　評価システム
　５　画像認識装置
　６　評価装置
　１１　制御部
　１２　記憶部
　１３　画像認識部
　１５　制御部
　１６　記憶部
　１７　入出力部
　２２　エンコーダ
　２３　デコーダ
　Ｐ　画像認識評価プログラム
　Ｉ　入力画像
　Ｉａ　加工入力画像
　Ｏ　出力画像
　Ｖ　分散画像

Claims

　画像セグメンテーションを行う画像認識装置の認識精度を評価する評価装置によって実行される画像認識評価プログラムであって、
　前記評価装置に、
　前記画像認識装置に入力される入力画像に対して画像加工を行い、複数の加工入力画像を生成し、
　生成した複数の前記加工入力画像を前記画像認識装置に入力し、前記画像認識装置により画像セグメンテーションが行われることでクラス分類された複数の出力画像を取得し、
　取得した複数の前記出力画像に基づいて、前記出力画像の分散値を算出することを、実行させる画像認識評価プログラム。
　前記出力画像の前記分散値は、前記出力画像の各画素に対応付けられたクラスの分散値である請求項１に記載の画像認識評価プログラム。
　前記画像認識装置によるクラス分類の推定が、点推定状態であるか否かを判定するためのしきい値が予め設定されており、
　前記評価装置に、
　算出された前記出力画像の前記分散値と前記しきい値とに基づいて、点推定状態か否かを判定することを、さらに実行させる請求項２に記載の画像認識評価プログラム。
　前記画像加工は、パーリンノイズ加工、ガウシアンノイズ加工、ガンマ変換加工、ホワイトバランス加工、ブラー加工のうち、少なくとも１つの加工を含む請求項１から３のいずれか１項に記載の画像認識評価プログラム。
　画像セグメンテーションを行う画像認識装置の認識精度を評価する評価装置によって実行される画像認識評価方法であって、
　前記画像認識装置に入力される入力画像に対して画像加工を行い、複数の加工入力画像を生成し、
　生成した複数の前記加工入力画像を、前記画像認識装置に入力し、前記画像認識装置による画像セグメンテーション行って、クラス分類された複数の出力画像を取得し、
　取得した複数の前記出力画像に基づいて、前記出力画像の分散値を算出することを、実行する画像認識評価方法。
　画像セグメンテーションを行う画像認識装置の認識精度を評価する評価装置であって、
　前記画像認識装置に入力画像を入力すると共に、前記画像認識装置で生成された出力画像を取得する入出力部と、
　前記画像認識装置に入力する前記入力画像に対して画像加工を行い、複数の加工入力画像を生成し、生成した複数の前記加工入力画像を、前記画像認識装置に入力し、前記画像認識装置によって画像セグメンテーションが行われることにより、クラス分類された複数の前記出力画像を取得し、取得した複数の前記出力画像に基づいて、前記出力画像の分散値を算出する制御部と、を備える評価装置。
　請求項６に記載の評価装置と、
　前記評価装置から入力される複数の前記加工入力画像に対して画像セグメンテーションを行って、クラス分類された複数の前記出力画像を前記評価装置へ向けて出力する前記画像認識装置と、を備える評価システム。