WO2021014809A1 - 画像認識評価プログラム、画像認識評価方法、評価装置及び評価システム - Google Patents

画像認識評価プログラム、画像認識評価方法、評価装置及び評価システム Download PDF

Info

Publication number
WO2021014809A1
WO2021014809A1 PCT/JP2020/022928 JP2020022928W WO2021014809A1 WO 2021014809 A1 WO2021014809 A1 WO 2021014809A1 JP 2020022928 W JP2020022928 W JP 2020022928W WO 2021014809 A1 WO2021014809 A1 WO 2021014809A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
image recognition
input
evaluation
output
Prior art date
Application number
PCT/JP2020/022928
Other languages
English (en)
French (fr)
Inventor
俊 菅原
賢佑 田口
Original Assignee
京セラ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 京セラ株式会社 filed Critical 京セラ株式会社
Priority to CN202080051729.5A priority Critical patent/CN114127799A/zh
Priority to US17/628,135 priority patent/US20220270351A1/en
Priority to EP20843790.5A priority patent/EP4002270A4/en
Publication of WO2021014809A1 publication Critical patent/WO2021014809A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Definitions

  • Bayesian SegNet As a technique for evaluating image recognition accuracy, a method called Bayesian SegNet is known (see, for example, Non-Patent Document 2).
  • Bayesian SegNet the internal state of the network is randomly vibrated by a method called DropOut, and the fluctuation of the inference result is calculated. Then, when the calculated inference result fluctuates greatly, it is determined that the reliability (recognition accuracy) is low, and when the calculated inference result does not fluctuate, it is determined that the reliability (recognition accuracy) is high.
  • the evaluation system performs image segmentation on the evaluation device and the plurality of processed input images input from the evaluation device, and evaluates the plurality of classified output images.
  • the image recognition device that outputs to the device is provided.
  • the evaluation device 6 includes a control unit 15, a storage unit 16, and an input / output unit 17. Since the storage unit 16 has almost the same configuration as the storage unit 12 of the image recognition device 5, the description thereof will be omitted.
  • the input / output unit 17 is an interface for inputting / outputting various data to / from the image recognition device 5, and inputs the processed input image Ia which is the processed input image I to the image recognition device 5 and also performs image recognition.
  • the output image O generated by the device 5 is acquired.
  • FIG. 5 is a diagram showing an example of processing related to evaluation of the image recognition device.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)

Abstract

画像認識評価プログラムは、画像セグメンテーションを行う画像認識装置の認識精度を評価する評価装置によって実行される。評価装置に、画像認識装置に入力される入力画像に対して画像加工を行い、複数の加工入力画像を生成することを実行させる。この後、評価装置に、生成した複数の加工入力画像を画像認識装置に入力し、画像認識装置により画像セグメンテーションが行われることでクラス分類された複数の出力画像を取得することを実行させる。続いて、評価装置に、取得した複数の出力画像に基づいて、出力画像の分散値を算出することを実行させる。

Description

画像認識評価プログラム、画像認識評価方法、評価装置及び評価システム
 本発明は、画像認識評価プログラム、画像認識評価方法、評価装置及び評価システムに関する。
 画像認識技術として、Fully Convolutional Network(FCN:全層畳み込みネットワーク)を用いたSemantic Segmentation(セマンティック・セグメンテーション)が知られている(例えば、非特許文献1参照)。セマンティック・セグメンテーションは、入力画像として入力されたデジタル画像に対して、ピクセル単位でのクラス分類(推論)を行っている。つまり、セマンティック・セグメンテーションは、デジタル画像の各ピクセルに対してクラス分類を行い、推論結果として、クラス分けした各ピクセル対してカテゴリをラベリングすることで、デジタル画像を複数のカテゴリの画像領域に分割し、出力画像として出力する。
 また、画像認識精度を評価する技術として、Bayesian SegNetと呼ばれる手法が知られている(例えば、非特許文献2参照)。Bayesian SegNetでは、DropOutと呼ばれる手法でNetworkの内部状態をランダムに振動させ、推論結果の揺らぎを算出している。そして、算出した推論結果が大きく揺らぐ場合には、信頼度(認識精度)が低いと判定し、算出した推論結果が揺らがない場合には、信頼度(認識精度)が高いと判定している。
Hengshuang Zhao, et al. "Pyramid scene parsing network" IEEE Conf. on Computer Vision and Pattern Recognition (CVPR). 2017 Alex Kendall, et al. "Bayesian SegNet: Model Uncertainty in Deep Convolutional Encoder-Decoder Architectures for Scene Understanding" arXiv:1511.02680v2 [cs.CV], 10 Oct 2016
 非特許文献2では、Networkの内部状態をランダムに振動させることから、Network構造の変更が必要となる。ここで、評価するNetworkとしては、Network構造がブラックボックス化された、いわゆるBlack Box Networkがある。この場合、非特許文献2では、Network構造の変更が前提となる一方で、Black Box Networkに対しては、変更を行うことができない。このため、Black Box Networkに対しては、非特許文献2の手法を適用することはできず、Networkの認識精度の評価を行うことが困難である。
 本発明は、画像認識装置がブラックボックス化されたものであっても、画像認識装置の認識精度を評価することができる画像認識評価プログラム、画像認識評価方法、評価装置及び評価システムを提供することを目的とする。
 態様の1つに係る画像認識評価プログラムは、画像セグメンテーションを行う画像認識装置の認識精度を評価する評価装置によって実行される画像認識評価プログラムであって、前記評価装置に、前記画像認識装置に入力される入力画像に対して画像加工を行い、複数の加工入力画像を生成し、生成した複数の前記加工入力画像を前記画像認識装置に入力し、前記画像認識装置により画像セグメンテーションが行われることでクラス分類された複数の出力画像を取得し、取得した複数の前記出力画像に基づいて、前記出力画像の分散値を算出することを、実行させる。
 態様の1つに係る画像認識評価方法は、画像セグメンテーションを行う画像認識装置の認識精度を評価する評価装置によって実行される画像認識評価方法であって、前記画像認識装置に入力される入力画像に対して画像加工を行い、複数の加工入力画像を生成し、生成した複数の前記加工入力画像を、前記画像認識装置に入力し、前記画像認識装置による画像セグメンテーション行って、クラス分類された複数の出力画像を取得し、取得した複数の前記出力画像に基づいて、前記出力画像の分散値を算出することを、実行する。
 態様の1つに係る評価装置は、画像セグメンテーションを行う画像認識装置の認識精度を評価する評価装置であって、前記画像認識装置に入力画像を入力すると共に、前記画像認識装置で生成された出力画像を取得する入出力部と、前記画像認識装置に入力する前記入力画像に対して画像加工を行い、複数の加工入力画像を生成し、生成した複数の前記加工入力画像を、前記画像認識装置に入力し、前記画像認識装置によって画像セグメンテーションが行われることにより、クラス分類された複数の前記出力画像を取得し、取得した複数の前記出力画像に基づいて、前記出力画像の分散値を算出する制御部と、を備える。
 態様の1つに係る評価システムは、上記の評価装置と、前記評価装置から入力される複数の前記加工入力画像に対して画像セグメンテーションを行って、クラス分類された複数の前記出力画像を前記評価装置へ向けて出力する前記画像認識装置と、を備える。
図1は、実施形態に係る評価システムの概要を示す図である。 図2は、実施形態に係る評価システムの評価時における機能の概要を示す図である。 図3は、入力画像、加工入力画像、出力画像の一例を示す図である。 図4は、入力画像と出力画像とを重ね合わせた画像、分散画像の一例を示す図である。 図5は、画像認識装置の評価に関する処理の一例を示す図である。
 本出願に係る実施形態を、図面を参照しつつ詳細に説明する。以下の説明において、同様の構成要素について同一の符号を付すことがある。さらに、重複する説明は省略することがある。また、本出願に係る実施形態を説明する上で密接に関連しない事項は、説明及び図示を省略することがある。
(実施形態)
 図1は、実施形態に係る評価システムの概要を示す図である。図2は、実施形態に係る評価システムの評価時における機能の概要を示す図である。評価システム1は、画像認識装置5による画像認識の精度を評価するシステムであり、評価対象となる画像認識装置5と、画像認識装置5を評価する評価装置6とを含んで構成されている。評価システム1において、画像認識装置5と評価装置6とは、双方向にデータを通信可能に接続されている。なお、本実施形態において、評価システム1は、画像認識装置5と評価装置6とがそれぞれ独立した別体の構成となっているが、この構成に特に限定されない。評価システム1は、画像認識装置5と評価装置6とが一体となる単一の装置として構成してもよい。
 画像認識装置5は、入力される入力画像Iに含まれるオブジェクトを認識し、認識した結果を出力画像Oとして出力するものである。画像認識装置5は、カメラ等の撮像装置において撮像された撮影画像が入力画像Iとして入力される。なお、詳細は後述するが、評価時において、画像認識装置5には、評価装置6において生成された加工入力画像Iaが入力される。
 画像認識装置5は、入力画像Iに対して画像セグメンテーションを行う。画像セグメンテーションとは、デジタル画像の分割された画像領域に対してクラスをラベリングすることであり、クラス推論(クラス分類)ともいう。つまり、画像セグメンテーションとは、デジタル画像の分割された所定の画像領域が、何れのクラスであるかを判別して、画像領域が示すクラスを識別するための識別子(カテゴリ)を付すことで、複数のカテゴリに領域分割することである。画像認識装置5は、入力画像Iを画像セグメンテーション(クラス推論)した画像を、出力画像Oとして出力する。
 画像認識装置5は、例えば、車の車載認識カメラに設けられている。車載認識カメラは、車の走行状況を所定のフレームレートでリアルタイムに撮像し、撮像した撮影画像を画像認識装置5に入力する。画像認識装置5は、所定のフレームレートで入力される撮影画像を入力画像Iとして取得する。画像認識装置5は、入力画像Iに含まれるオブジェクトをクラス分類して、クラス分類された画像を出力画像Oとして、所定のフレームレートで出力する。なお、画像認識装置5は、車載認識カメラへの搭載に限定されず、他の装置に設けてもよい。
 画像認識装置5は、制御部11と、記憶部12と、画像認識部13とを備えている。記憶部12は、プログラム及びデータを記憶する。また、記憶部12は、制御部11の処理結果を一時的に記憶する作業領域としても利用してもよい。記憶部12は、半導体記憶デバイス、及び磁気記憶デバイス等の任意の記憶デバイスを含んでよい。また、記憶部12は、複数の種類の記憶デバイスを含んでよい。また、記憶部12は、メモリカード等の可搬の記憶媒体と、記憶媒体の読み取り装置との組み合わせを含んでよい。
 制御部11は、画像認識装置5の動作を統括的に制御して各種の機能を実現する。制御部11は、例えば、CPU(Central Processing Unit)等の集積回路を含んでいる。具体的に、制御部11は、記憶部12に記憶されているプログラムに含まれる命令を実行して、画像認識部13等を制御することによって各種機能を実現する。制御部11は、例えば、画像認識に関するプログラムを実行することにより、画像認識部13による画像認識を実行する。
 画像認識部13は、GPU(Graphics Processing Unit)等の集積回路を含んでいる。画像認識部13は、例えば、セマンティック・セグメンテーションを用いた画像セグメンテーションを行っている。セマンティック・セグメンテーションは、入力画像Iの各ピクセルに対してクラス推論を行い、クラス分けされた各ピクセルに対してカテゴリをラベリングすることで、入力画像Iを複数のカテゴリごとに領域分割する。画像認識部13は、入力画像Iが入力されると、画像セグメンテーションを行うことで、入力画像Iのピクセルごとにクラス分類された画像を、出力画像Oとして出力する。
 画像認識部13は、全てが畳み込み層で構成されるFCN(Fully Convolutional Network)等のニューラル・ネットワーク(以下、単にネットワークともいう)を用いた画像セグメンテーションを行っている。画像認識部13は、学習済みのネットワークを用いており、例えば、どのような学習が行われたか不明となる、ブラックボックス化されたネットワークとなっている。画像認識部13は、エンコーダ22と、デコーダ23とを有している。
 エンコーダ22は、入力画像Iに対してエンコード処理を実行する。エンコード処理は、入力画像Iの特徴量を抽出した特徴マップ(Feature Map)を生成しつつ、特徴マップの解像度を低くするダウンサンプリング(プーリングともいう)を実行する処理である。具体的に、エンコード処理では、畳み込み層とプーリング層とにおいて入力画像Iに処理が行われる。畳み込み層では、入力画像Iの特徴量を抽出するためのカーネル(フィルタ)を、入力画像Iにおいて所定のストライドで移動させる。そして、畳み込み層では、畳み込み層の重みに基づいて、入力画像Iの特徴量を抽出するための畳み込み計算が行われ、この畳み込み計算により特徴量が抽出された特徴マップを生成する。生成される特徴マップは、カーネルのチャネル数に応じた数だけ生成される。プーリング層では、特徴量が抽出された特徴マップを縮小して、低解像度となる特徴マップを生成する。エンコード処理では、畳み込み層における処理とプーリング層における処理とを複数回繰り返し実行することで、ダウンサンプリングされた特徴量を有する特徴マップを生成する。
 デコーダ23は、エンコード処理後の特徴マップに対してデコード処理を実行する。デコード処理は、特徴マップの解像度を高くするアップサンプリング(アンプーリングともいう)を実行する処理である。具体的に、デコード処理は、逆畳み込み層とアンプーリング層とにおいて特徴マップに処理が行われる。アンプーリング層では、特徴量を含む低解像度の特徴マップを拡大して、高解像度となる特徴マップを生成する。逆畳み込み層では、特徴マップに含まれる特徴量を、復元させるための逆畳み込み計算が、逆畳み込み層の重みに基づいて実行され、この計算により特徴量を復元させた特徴マップを生成する。そして、デコード処理では、アンプーリング層における処理と逆畳み込み層における処理とを複数回繰り返し実行することで、アップサンプリングされ、領域分割された画像である出力画像Oを生成する。出力画像Oは、画像認識部7に入力される入力画像Iと同じ解像度になるまで、アップサンプリングされる。
 以上のように、画像認識部13は、入力画像Iに対して、エンコード処理及びデコード処理を実行し、ピクセル単位でクラス推論(クラス分類)を行うことで、入力画像Iの画像セグメンテーションを行う。そして、画像認識部13は、入力画像Iをクラスごとに領域分割した画像を、出力画像Oとして出力する。
 評価装置6は、画像認識装置5の認識精度を評価している。評価装置6は、画像認識装置5に入力される入力画像Iを加工すると共に、画像認識装置5から出力される出力画像Oに基づいて認識精度を評価している。
 評価装置6は、制御部15と、記憶部16と、入出力部17とを備えている。なお、記憶部16は、画像認識装置5の記憶部12とほぼ同様の構成であるため、説明を省略する。
 入出力部17は、画像認識装置5との間で各種データの入出力を行うためのインターフェースであり、画像認識装置5に加工した入力画像Iである加工入力画像Iaを入力すると共に、画像認識装置5で生成された出力画像Oを取得する。
 制御部15は、評価装置6の動作を統括的に制御して各種の機能を実現する。制御部15は、例えば、CPU(Central Processing Unit)等の集積回路を含んでいる。具体的に、制御部15は、記憶部16に記憶されているプログラムに含まれる命令を実行して、入出力部17等を制御することによって各種機能を実現する。制御部15は、例えば、画像認識装置5の評価に関する画像認識評価プログラムPを実行することにより、画像認識装置5から出力画像Oを取得し、取得した出力画像Oに基づいて、画像認識装置5の認識精度を評価する。また、制御部15は、画像認識評価プログラムPを実行することにより、画像認識装置5に入力する入力画像Iを加工して、加工入力画像Iaを生成する。
 図2に示すように、評価システム1は、評価装置6が入力画像Iを取得すると、入力画像Iを加工して加工入力画像Iaを生成し、生成した加工入力画像Iaを画像認識部13に入力する。画像認識部13は、加工入力画像Iaに対して、エンコード処理及びデコード処理を実行することで、加工入力画像Iaの画像セグメンテーションを行う。そして、画像認識部13は、加工入力画像Iaをクラスごとに領域分割した画像を、出力画像Oとして評価装置6へ向けて出力する。評価装置6は、出力画像Oを取得し、取得した出力画像Oに基づいて、画像認識装置5を評価するための分散画像Vを生成する。
 なお、画像認識装置5及び評価装置6が一体となる単一の装置である場合、制御部11及び制御部15を同一の制御部としてもよく、また、記憶部12及び記憶部16を同一の記憶部としてもよい。
 次に、図3及び図4を参照して、入力画像I、加工入力画像Ia、出力画像O及び分散画像Vについて説明する。図3は、入力画像、加工入力画像、出力画像の一例を示す図である。図4は、入力画像と出力画像とを重ね合わせた画像、分散画像の一例を示す図である。
 入力画像Iは、複数の画素(ピクセル)からなるデジタル画像である。入力画像Iは、例えば、カメラ等の撮像装置に設けられる撮像素子によって生成される、撮像素子の画素数に応じた解像度の画像となっている。つまり、入力画像Iは、画像の画素数を高くするアップサンプリング処理、または、画像の画素数を低くするダウンサンプリング処理が行われていない、高解像度となるオリジナルの原画像となっている。
 加工入力画像Iaは、入力画像Iを画像加工したものである。図3では、加工入力画像Iaの加工例として、画像加工例1から画像加工例3を図示している。画像加工としては、例えば、パーリンノイズ加工、ガウシアンノイズ加工、ガンマ変換加工、ホワイトバランス加工、ブラー加工等がある。画像加工例1の加工入力画像Iaは、入力画像Iにガンマ変換加工を行った画像となっている。画像加工例2の加工入力画像Iaは、入力画像Iにガウシアンノイズ加工を行った画像となっている。画像加工例3の加工入力画像Iaは、入力画像Iにホワイトバランス加工を行った画像となっている。
 出力画像Oは、クラスごとに領域分割されている。クラスは、例えば、入力画像Iに含まれるオブジェクトを含み、人、車、道、建物等である。出力画像Oは、ピクセル単位でオブジェクトごとのクラス分類がなされ、ピクセル単位(画素単位)ごとに分類されたクラスがラベリングされることで、クラスごとに領域分割されている。図3では、例えば、人、車、道路、空等のクラスに分類されている。また、出力画像Oとしては、加工入力画像Iaに対応した出力画像Oがある。図4では、画像加工例1から画像加工例3の加工入力画像Iaに対応する出力画像例1から出力画像例3を図示している。出力画像例1の出力画像Oは、画像加工例1の加工入力画像Iaに対応する出力画像となっている。出力画像例2の出力画像Oは、画像加工例2の加工入力画像Iaに対応する出力画像となっている。出力画像例3の出力画像Oは、画像加工例3の加工入力画像Iaに対応する出力画像となっている。図3に示す例では、出力画像例1から出力画像例3において、認識精度が低下した出力画像Oとなっている。なお、図3の出力画像Oは一例であり、このクラス分類に、特に限定されない。また、出力画像Oは、入力画像Iと同じ解像度となっている。
 図4に示す画像は、上側の画像が、入力画像Iと出力画像Oとを重ね合わせた画像となっており、下側の画像が、入力画像I及び出力画像Oに基づく分散画像Vとなっている。分散画像Vは、入力画像Iを画像加工することで複数の加工入力画像Iaを生成し、生成した複数の加工入力画像Iaを画像認識装置5に入力して生成された複数の出力画像Oを用いて生成される。ここで、分散画像Vを生成する場合は、画像加工の種類を変えて生成した複数の加工入力画像Iaに対応する複数の出力画像Oを用いてもよい。また、分散画像Vを生成する場合は、画像加工の種類は変えずにランダムに画像加工を行うことで生成した複数の加工入力画像Iaに対応する複数の出力画像Oを用いてもよい。
 具体的に、分散画像Vは、複数の出力画像Oに基づいて、各画素における分散値を可視化したものである。分散画像Vにおいて、白い画像領域は、分散値が低いものとなっており、黒い画像領域は、分散値が高いものとなっている。つまり、分散画像Vの所定の画素における分散値は、複数の出力画像Oの所定の画素におけるクラスが分散している場合、分散値が高く設定されて黒い画像領域となる。一方で、分散画像Vの所定の画素における分散値は、複数の出力画像Oの所定の画素におけるクラスが分散していない場合、分散値が低く設定されて白い画像領域となる。このように、分散画像Vは、画素毎に分散値が設定された画像となっている。
 次に、図5を参照して、評価装置6による画像認識装置5の評価に関する処理について説明する。図5は、画像認識装置の評価に関する処理の一例を示す図である。
 先ず、評価装置6に、画像認識装置5に入力される入力画像Iが入力される(ステップS1)。すると、評価装置6の制御部11は、入力画像Iに対して画像加工を行い、複数の加工入力画像Iaを生成する(ステップS2)。ステップS2では、入力画像Iに対して、所定の種類の画像加工を複数回行うことで、複数の加工入力画像Iaを生成してもよいし、異なる複数の種類の画像加工を行うことで、複数の加工入力画像Iaを生成してもよいし、その両方を行うことで、複数の加工入力画像Iaを生成してもよい。また、入力画像Iに対して画像加工を行う場合、予め設定された摂動範囲内における加工度で、入力画像Iの画像加工を行っている。ここで、摂動範囲としては、入力画像Iに映っている物体が画像加工を行っても認識可能な範囲となっている。
 続いて、評価装置6は、生成した複数の加工入力画像Iaを画像認識装置5に入力する(ステップS3)。加工入力画像Iaが入力されると、画像認識部13は、加工入力画像Iaに対してエンコード処理を実行する(ステップS4)。画像認識部13は、エンコード処理を実行することで、ダウンサンプリングされた特徴量を含む特徴マップを生成する。画像認識部13は、ダウンサンプリングされた特徴量を含む特徴マップに対してデコード処理を実行する(ステップS5)。画像認識部13は、デコード処理を実行することで、特徴量を含む特徴マップを復元しながらアップサンプリングして、加工入力画像Iaと同じ解像度とする。そして、画像認識部13は、画像をピクセル単位でクラスごとに領域分割するクラス推論を実行する(ステップS6)。画像認識部13は、クラス推論の結果として、出力画像Oを生成し、生成した出力画像Oを評価装置6へ向けて出力することで、評価装置6は、出力画像Oを取得する(ステップS7)。ステップS4からステップS6は、加工入力画像Iaの数に応じて複数回実行することで、ステップS7では、複数の加工入力画像Iaに応じた複数の出力画像Oを取得している。
 次に、評価装置6は、取得した複数の出力画像Oに基づいて、出力画像Oの分散値を算出する(ステップS8)。ステップ8では、複数の出力画像Oを用いて、各画素におけるクラスの分散値を算出している。この後、評価装置6は、各画素におけるクラスの分散値に基づいて、分散画像Vを生成して取得する(ステップS9)。
 続いて、評価装置6は、予め設定されたしきい値に対して、出力画像Oの分散値が大きいか否かを判定する(ステップS10)。ここで、しきい値は、画像認識装置5によるクラス分類の推定が、点推定状態であるか否かを判定するための値である。点推定状態とは、画像認識装置5の学習において、ロバスト性の低い学習が行われることで、画像認識装置5の推定に際して、ピーキーな(鋭敏な)推定を行ってしまう状態である。具体的に、点推定状態とは、画像認識装置5の学習において、物体の正面だけの画像を用いた学習が行われた場合、画像認識装置5の推定に際して、物体の正面だけの画像でしか、物体の推定を行うことができず、物体の背面の画像では、物体の推定が困難となる状態である。また、ステップS10では、具体的に、予め設定されたしきい値に対して、出力画像Oのクラスの分散値が大きいか否かを判定しており、クラスごとに点推定状態であるか否かを判定している。
 評価装置6は、出力画像Oの(クラスの)分散値がしきい値よりも大きい場合(ステップS10:Yes)、画像認識装置5が点推定状態であると判定する(ステップS11)。一方で、評価装置6は、出力画像Oの(クラスの)分散値がしきい値以下である場合(ステップS10:No)、画像認識装置5が点推定状態でないと判定する(ステップS12)。
 以上のように、実施形態に係る画像認識装置5の評価では、入力画像Iの画像加工を行うことで、入力画像Iを摂動させ、摂動させた入力画像Iである加工入力画像Iaを画像認識装置5に入力して、出力画像Oの分散値を算出することができる。このため、画像認識装置がブラックボックス化されたものであっても、入力画像Iを摂動させて、分散値に基づく評価を行うことで、画像認識装置5の認識精度を適切に評価することができる。
 また、実施形態に係る画像認識装置5の評価では、出力画像Oの各画素におけるクラスの分散値を算出することができるため、画像認識装置5のクラス単位での認識精度を適切に評価することができる。
 また、実施形態に係る画像認識装置5の評価では、出力画像Oの分散値と予め設定されたしきい値とを比較することにより、画像認識装置5が点推定状態であるか否かを適切に判定することができる。
 また、実施形態に係る画像認識装置5の評価では、パーリンノイズ加工、ガウシアンノイズ加工、ガンマ変換加工、ホワイトバランス加工、ブラー加工等の各種の画像加工を用いることができる。このため、入力画像Iに対して様々な摂動を行うことができるため、画像認識装置5に対する多様な認識精度の評価を行うことができる。
 なお、本実施形態において、画像認識装置5は、セマンティック・セグメンテーションを用いた画像セグメンテーションを行ったが、この構成に特に限定されない。画像認識に用いられるネットワークとしては、他のニューラル・ネットワークを用いてもよい。
 1 評価システム
 5 画像認識装置
 6 評価装置
 11 制御部
 12 記憶部
 13 画像認識部
 15 制御部
 16 記憶部
 17 入出力部
 22 エンコーダ
 23 デコーダ
 P 画像認識評価プログラム
 I 入力画像
 Ia 加工入力画像
 O 出力画像
 V 分散画像

Claims (7)

  1.  画像セグメンテーションを行う画像認識装置の認識精度を評価する評価装置によって実行される画像認識評価プログラムであって、
     前記評価装置に、
     前記画像認識装置に入力される入力画像に対して画像加工を行い、複数の加工入力画像を生成し、
     生成した複数の前記加工入力画像を前記画像認識装置に入力し、前記画像認識装置により画像セグメンテーションが行われることでクラス分類された複数の出力画像を取得し、
     取得した複数の前記出力画像に基づいて、前記出力画像の分散値を算出することを、実行させる画像認識評価プログラム。
  2.  前記出力画像の前記分散値は、前記出力画像の各画素に対応付けられたクラスの分散値である請求項1に記載の画像認識評価プログラム。
  3.  前記画像認識装置によるクラス分類の推定が、点推定状態であるか否かを判定するためのしきい値が予め設定されており、
     前記評価装置に、
     算出された前記出力画像の前記分散値と前記しきい値とに基づいて、点推定状態か否かを判定することを、さらに実行させる請求項2に記載の画像認識評価プログラム。
  4.  前記画像加工は、パーリンノイズ加工、ガウシアンノイズ加工、ガンマ変換加工、ホワイトバランス加工、ブラー加工のうち、少なくとも1つの加工を含む請求項1から3のいずれか1項に記載の画像認識評価プログラム。
  5.  画像セグメンテーションを行う画像認識装置の認識精度を評価する評価装置によって実行される画像認識評価方法であって、
     前記画像認識装置に入力される入力画像に対して画像加工を行い、複数の加工入力画像を生成し、
     生成した複数の前記加工入力画像を、前記画像認識装置に入力し、前記画像認識装置による画像セグメンテーション行って、クラス分類された複数の出力画像を取得し、
     取得した複数の前記出力画像に基づいて、前記出力画像の分散値を算出することを、実行する画像認識評価方法。
  6.  画像セグメンテーションを行う画像認識装置の認識精度を評価する評価装置であって、
     前記画像認識装置に入力画像を入力すると共に、前記画像認識装置で生成された出力画像を取得する入出力部と、
     前記画像認識装置に入力する前記入力画像に対して画像加工を行い、複数の加工入力画像を生成し、生成した複数の前記加工入力画像を、前記画像認識装置に入力し、前記画像認識装置によって画像セグメンテーションが行われることにより、クラス分類された複数の前記出力画像を取得し、取得した複数の前記出力画像に基づいて、前記出力画像の分散値を算出する制御部と、を備える評価装置。
  7.  請求項6に記載の評価装置と、
     前記評価装置から入力される複数の前記加工入力画像に対して画像セグメンテーションを行って、クラス分類された複数の前記出力画像を前記評価装置へ向けて出力する前記画像認識装置と、を備える評価システム。
PCT/JP2020/022928 2019-07-19 2020-06-10 画像認識評価プログラム、画像認識評価方法、評価装置及び評価システム WO2021014809A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202080051729.5A CN114127799A (zh) 2019-07-19 2020-06-10 图像识别评价程序、图像识别评价方法、评价装置以及评价系统
US17/628,135 US20220270351A1 (en) 2019-07-19 2020-06-10 Image recognition evaluation program, image recognition evaluation method, evaluation apparatus, and evaluation system
EP20843790.5A EP4002270A4 (en) 2019-07-19 2020-06-10 IMAGE RECOGNITION EVALUATION PROGRAM, METHOD, DEVICE AND SYSTEM

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019133589A JP7148462B2 (ja) 2019-07-19 2019-07-19 画像認識評価プログラム、画像認識評価方法、評価装置及び評価システム
JP2019-133589 2019-07-19

Publications (1)

Publication Number Publication Date
WO2021014809A1 true WO2021014809A1 (ja) 2021-01-28

Family

ID=74193368

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/022928 WO2021014809A1 (ja) 2019-07-19 2020-06-10 画像認識評価プログラム、画像認識評価方法、評価装置及び評価システム

Country Status (5)

Country Link
US (1) US20220270351A1 (ja)
EP (1) EP4002270A4 (ja)
JP (1) JP7148462B2 (ja)
CN (1) CN114127799A (ja)
WO (1) WO2021014809A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023096337A1 (ko) * 2021-11-23 2023-06-01 이화여자대학교 산학협력단 인공지능 기반의 영상 화질 평가장치, 방법 및 이를 위한 컴퓨터 판독가능 프로그램

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018097807A (ja) * 2016-12-16 2018-06-21 株式会社デンソーアイティーラボラトリ 学習装置
JP2018535491A (ja) * 2016-03-25 2018-11-29 三菱電機株式会社 画像のセマンティックセグメンテーションのためのシステム及びコンピューター実施方法、並びに非一時的コンピューター可読媒体
JP2019109691A (ja) * 2017-12-18 2019-07-04 日立オートモティブシステムズ株式会社 移動体挙動予測装置および移動体挙動予測方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
PT2779089T (pt) * 2010-07-30 2019-02-19 Fund D Anna Sommer Champalimaud E Dr Carlos Montez Champalimaud Sistemas e métodos para segmentação e processamento de imagens de tecidos e extração de características dos mesmos para tratar, diagnosticar ou prever condições médicas

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018535491A (ja) * 2016-03-25 2018-11-29 三菱電機株式会社 画像のセマンティックセグメンテーションのためのシステム及びコンピューター実施方法、並びに非一時的コンピューター可読媒体
JP2018097807A (ja) * 2016-12-16 2018-06-21 株式会社デンソーアイティーラボラトリ 学習装置
JP2019109691A (ja) * 2017-12-18 2019-07-04 日立オートモティブシステムズ株式会社 移動体挙動予測装置および移動体挙動予測方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
ALEX KENDALL ET AL.: "Bayesian SegNet: Model Uncertainty in Deep Convolutional Encoder-Decoder Architectures for Scene Understanding", ARXIV: 1511.02680V2, 10 October 2016 (2016-10-10)
HENGSHUANG ZHAO ET AL.: "Pyramid scene parsing network", IEEE CONF. ON COMPUTER VISION AND PATTERN RECOGNITION, 2017
IKU SHIMIZU, MASAKI SAMEJIMA, YUSUKE KANNO, YASUYUKI MATSUSHITA : "Semantic segmentation using label likelihood as a global feature", IEICE TECHNICAL REPORT, vol. 117, no. 513 (PRMU2017-190), 16 April 2018 (2018-04-16), JP , pages 109 - 114, XP009532967, ISSN: 0913-5685 *
See also references of EP4002270A4

Also Published As

Publication number Publication date
US20220270351A1 (en) 2022-08-25
EP4002270A4 (en) 2023-07-19
JP7148462B2 (ja) 2022-10-05
JP2021018576A (ja) 2021-02-15
CN114127799A (zh) 2022-03-01
EP4002270A1 (en) 2022-05-25

Similar Documents

Publication Publication Date Title
US10452960B1 (en) Image classification
JP6897335B2 (ja) 学習プログラム、学習方法および物体検知装置
CN109145798B (zh) 一种驾驶场景目标识别与可行驶区域分割集成方法
KR20210031427A (ko) 교통 이미지를 인식하는 방법, 장치, 컴퓨터 기기 및 매체
CN109948637B (zh) 对象检测装置、对象检测方法及计算机可读介质
CN114118124B (zh) 图像检测方法和装置
CN110533046B (zh) 一种图像实例分割方法、装置、计算机可读存储介质及电子设备
KR102476022B1 (ko) 얼굴검출 방법 및 그 장치
US20190272645A1 (en) Systems and methods for performing instance segmentation
JP2020038574A (ja) 画像学習プログラム、画像学習方法、画像認識プログラム、画像認識方法、及び画像認識装置
CN112784885B (zh) 基于人工智能的自动驾驶方法、装置、设备、介质及车辆
CN114549369B (zh) 数据修复方法、装置、计算机及可读存储介质
US20220301099A1 (en) Systems and methods for generating object detection labels using foveated image magnification for autonomous driving
Alkhorshid et al. Road detection through supervised classification
WO2021014809A1 (ja) 画像認識評価プログラム、画像認識評価方法、評価装置及び評価システム
CN112508839A (zh) 对象检测系统及其对象检测方法
CN111339808B (zh) 车辆碰撞概率预测方法、装置、电子设备及存储介质
US11256950B2 (en) Image feature amount output device, image recognition device, the image feature amount output program, and image recognition program
CN111435457B (zh) 对传感器获取的采集进行分类的方法
JP2020038572A (ja) 画像学習プログラム、画像学習方法、画像認識プログラム、画像認識方法、学習データセットの生成プログラム、学習データセットの生成方法、学習データセット、及び画像認識装置
US20230342884A1 (en) Diverse Image Inpainting Using Contrastive Learning
Zhou et al. Impacts of data anonymization on semantic segmentation
CN110889352A (zh) 图像模糊化处理方法、计算机装置及计算机可读存储介质
CN116205795A (zh) 轨道交通的环境感知方法以及轨道交通的环境感知装置
Singh et al. Fotonnet: A hw-efficient object detection system using 3d-depth segmentation and 2d-dnn classifier

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20843790

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2020843790

Country of ref document: EP

Effective date: 20220221