JPWO2018143277A1 - 画像特徴量出力装置、画像認識装置、画像特徴量出力プログラム、及び画像認識プログラム - Google Patents
画像特徴量出力装置、画像認識装置、画像特徴量出力プログラム、及び画像認識プログラム Download PDFInfo
- Publication number
- JPWO2018143277A1 JPWO2018143277A1 JP2018565608A JP2018565608A JPWO2018143277A1 JP WO2018143277 A1 JPWO2018143277 A1 JP WO2018143277A1 JP 2018565608 A JP2018565608 A JP 2018565608A JP 2018565608 A JP2018565608 A JP 2018565608A JP WO2018143277 A1 JPWO2018143277 A1 JP WO2018143277A1
- Authority
- JP
- Japan
- Prior art keywords
- image
- occurrence
- feature amount
- resolution
- pixels
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000009826 distribution Methods 0.000 claims description 37
- 238000006243 chemical reaction Methods 0.000 claims description 10
- 238000012905 input function Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 abstract description 131
- 239000011159 matrix material Substances 0.000 abstract description 40
- 238000000034 method Methods 0.000 abstract description 31
- 239000013598 vector Substances 0.000 abstract description 21
- 239000000284 extract Substances 0.000 abstract description 7
- 230000006870 function Effects 0.000 description 23
- 238000010586 diagram Methods 0.000 description 19
- 238000012986 modification Methods 0.000 description 11
- 230000004048 modification Effects 0.000 description 11
- 238000000605 extraction Methods 0.000 description 9
- 238000001514 detection method Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 3
- 239000002245 particle Substances 0.000 description 3
- 238000013139 quantization Methods 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 230000015654 memory Effects 0.000 description 2
- 230000002787 reinforcement Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003936 working memory Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/758—Involving statistics of pixels or of feature values, e.g. histogram matching
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
Description
輝度の勾配方向の分布による画像特徴量としては、HOG(Histograms of Oriented Gradients)特徴量が有名である。
HOG特徴量は、次の手順により画像から抽出される。
図10(a)左図に示した画像101は、対象を観測する観測窓などによって抽出された観測領域とする。
まず、画像101を矩形のセル102a、102b、・・・に分割する。
次に、図10(a)右図に示したように、セル102ごとに各画素(ピクセル)の輝度の勾配方向(低輝度から高輝度に向かう方向)を例えば8方向に量子化する。なお、この量子化を上述した矩形のセルに分割する前に行ってもよい。
そして、セル102をいくつか集めたブロック単位でヒストグラム106の合計度数が1となるように正規化する。
このようにして正規化したヒストグラム106a、106b、・・・を図10(c)のように一列に並べたヒストグラムが画像101のHOG特徴量107である。
このようなHOG特徴量を用いた技術として、特許文献1の「人物検出装置」がある。この技術は、監視カメラに写った人物をHOG特徴量により検出するものである。
しかし、例えば、車載カメラで歩行中の人物を認識して追跡する場合など、より頑強な画像認識方式が求められていた。
(2)請求項2に記載の発明では、画像を入力する画像入力手段と、前記入力した画像の解像度を変換する解像度変換手段と、前記入力した画像と前記解像度を変換した画像に含まれる画素から2つの画素の組合せを取得する画素組合せ取得手段と、前記取得した組合せに係る2つの画素の輝度の勾配方向の共起を取得する共起取得手段と、前記取得する画素の組合せを変化させながら、前記取得する共起の出現頻度の分布を取得する出現頻度取得手段と、前記取得した共起の出現頻度の分布を前記画像の特徴量として出力する出力手段と、を備えたことを特徴とする画像特徴量出力装置を提供する。
(3)請求項3に記載の発明では、前記画素組合せ取得手段は、少なくとも、前記画像の全体に渡って隣接する画素の組合せを取得することを特徴とする請求項1、又は請求項2に記載の画像特徴量出力装置を提供する。
(4)請求項4に記載の発明では、前記画素組合せ取得手段は、異なる解像度の画素の組合せを取得することを特徴とする請求項1、請求項2、又は請求項3に記載の画像特徴量出力装置を提供する。
(5)請求項5に記載の発明では、前記画素組合せ取得手段は、解像度ごとに同一の解像度の画素の組合せを取得することを特徴とする請求項1、請求項2、又は請求項3に記載の画像特徴量出力装置を提供する。
(6)請求項6に記載の発明では、認識対象の特徴量を輝度の勾配方向の共起の出現頻度の分布で表した基準特徴量を取得する基準特徴量取得手段と、判断対象となる対象画像を取得する対象画像取得手段と、前記取得した対象画像を請求項1、又は請求項2に記載の画像特徴量出力装置の画像入力手段に入力して当該対象画像の特徴量を取得する対象画像特徴量取得手段と、前記取得した基準特徴量と、前記取得した対象画像の特徴量を比較することにより前記対象画像が認識対象の画像を含んでいるか否かを判断する判断手段と、前記判断の結果を出力する結果出力手段と、を具備したことを特徴とする画像認識装置を提供する。
(7)請求項7に記載の発明では、画像を入力する画像入力機能と、前記入力した画像の解像度を変換する解像度変換機能と、前記入力した画像と前記解像度を変換した画像に含まれる画素の、輝度の勾配方向を取得する勾配方向取得機能と、前記入力した画像と前記解像度を変換した画像に含まれる画素から2つの画素の組合せを取得する画素組合せ取得機能と、前記取得した各画素の輝度の勾配方向を使用して、前記取得した組合せに係る2つの画素に対する、前記勾配方向取得機能で取得した輝度の勾配方向の共起を取得する共起取得機能と、前記画素組合せ取得機能で取得する画素の組合せを変化させながら、前記共起取得機能で取得した共起の出現頻度の分布を取得する出現頻度取得機能と、前記取得した輝度の勾配方向に対する出現頻度の分布を含まない、前記出現頻度取得機能で取得した共起の出現頻度の分布を前記画像の特徴量として出力する出力機能と、をコンピュータに実現させることを特徴とする画像特徴量出力プログラムを提供する。
(8)請求項8に記載の発明では、認識対象の特徴量を輝度の勾配方向の共起の出現頻度の分布で表した基準特徴量を取得する基準特徴量取得機能と、判断対象となる対象画像を取得する対象画像取得機能と、前記取得した対象画像を、請求項1、又は請求項2に記載の画像特徴量出力装置の画像入力手段、又は請求項7に記載の画像特徴量出力プログラムの画像入力機能、に入力して当該対象画像の特徴量を取得する対象画像特徴量取得機能と、前記取得した基準特徴量と、前記取得した対象画像の特徴量を比較することにより前記対象画像が認識対象の画像を含んでいるか否かを判断する判断機能と、前記判断の結果を出力する結果出力機能と、をコンピュータで実現する画像認識プログラムを提供する。
本実施形態の画像処理装置8(図1)では、注目画素5とその周辺画素との輝度の勾配方向の共起関係に基づいて共起行列15を作成し、これを認識対象画像の特徴量とするものである。この特徴量は、各注目画素5が本来備えている特徴(輝度の勾配方向)の情報を、その注目画素5に隣接する画素1a〜1dとの共起関係の中に含めたものとして使用している。
画像処理装置8は、高解像度画像11の注目画素5を設定し、高解像度画像11内で注目画素5に隣接する画素1a〜1dとの(輝度の)勾配方向の共起、注目画素5と、中解像度画像12でその周囲にある画素2a〜2dとの勾配方向の共起、及び注目画素5と、更に低解像度画像13でその周囲にある画素3a〜3dとの勾配方向の共起を共起行列15に投票(カウント)する。
画像処理装置8は、このような共起行列15を画素の組合せごと、及び解像度ごとに作成する。
更に、画像処理装置8は、共起ヒストグラムを正規化して、これによる度数を成分とするベクトル量を当該画像の特徴量として抽出する。
そして、画像処理装置8は、画像認識の対象となる画像に対して上記処理にて特徴量を抽出し、これと基準特徴量との類似により、当該画像に認識対象が写っているか否かを判断する。
以上のように、画像処理装置8は、輝度の勾配方向の共起によって、画素同士の勾配方向の組合せを特徴量とするため、単独の画素の勾配方向の分布を特徴量とするHOG特徴量よりも頑強に対象を認識することができる。
図1は、本実施形態に係る画像処理を説明するための図である。
本実施形態の画像処理装置8は、画像から特徴量を抽出する画像特徴量出力装置としての機能と、これを用いて画像認識処理を行う画像認識装置としての機能を併せ持っている装置であって、同じ画像の異なる解像度間に渡る共起をみることにより画像から特徴量を抽出する。
このように画像処理装置8は、画像を入力する画像入力手段を備えている。
図では、図示しやすいように4×4に区分しているが、標準的な値は、例えば、4×8である。
なお、ブロック領域3A、3B、・・・を特に区別しない場合は、単にブロック領域3と記す。
このように、画像処理装置8は、画像の解像度を変換する解像度変換手段を備えている。
図では、ブロック領域3Aの部分の高解像度画像11、中解像度画像12、低解像度画像13を示しており、升目は画素の例を表している。
なお、以下では、輝度の勾配方向を単に勾配方向と記す。また、8方向に量子化するのは一例であって、量子化の方向数は他の数m(例えば、m=16、32等)であってもよい。
なお、画素n個分の距離をオフセット距離nと呼ぶことにする。
図1(d)は、共起行列について概念的に表したものである。図1(d)に示すように、共起行列15は、注目画素5とオフセット画像1aに対する共起行列15(1a)〜注目画素5とオフセット画素3dに対する共起行列15(3d)、からなる12の共起行列15で構成されている。
なお、図1(d)に示した12の共起行列15(1a)〜15(3d)は、図1(a)で区分したブロック領域3A、3B、・・・毎に作成される。
以下、複数の共起行列全体をさす場合には共起行列を15という。
このように共起行列15は、画像中にある特定のオフセット(注目画素5からの相対位置)を持つ2つの勾配方向ペアがどのような出現頻度を持つかを表現している。
元画像2の端部では、勾配方向を算出することができないが、これについては、適当な任意の方法で処理する。
なお、画像処理装置8は、先に注目画素5とオフセット画素1aで使用した共起行列15とは異なる新たな共起行列15(1b)を用意し、これに投票する。このように、画像処理装置8は、注目画素5とオフセット画素の相対的な位置関係の組合せごとに共起行列15を生成する。
そして、高解像度画像11内で注目画素5を順次移動しながら、注目画素5とオフセット画素1bとの共起を取って当該共起行列15(1b)に投票する。
画像処理装置8は、以上の処理をブロック領域3B、3C、・・・に対しても行い、元画像2の特徴を抽出した複数の共起行列15を生成する。
このように画像処理装置8は、ブロック領域3A、3B、3C・・・毎に、複数の共起行列15(1a)〜15(3d)を生成する。
そして、当該画素組合せ取得手段は、少なくとも、画像の全体に渡って隣接する画素の組合せを取得し、当該画素の組合せを変化させながら、勾配方向の共起の出現頻度の分布を取得する出現頻度取得手段を備えている。
更に、画素組合せ取得手段は、解像度を変換した画素を組合せの対象とし、異なる解像度の画素の組合せも取得している。
共起ヒストグラム18は、元画像2の特徴量を勾配方向の共起によって含んでおり、画像処理装置8は、ヒストグラムの度数の合計度数が1となるようにこれを正規化する。
共起特徴量は、勾配方向の共起の出現頻度を表しており、このように画像処理装置8は、共起の出現頻度の分布を画像の特徴量として出力する出力手段を備えている。
そして、4×8、2×4、1×2は、それぞれ高解像度画像11、中解像度画像12、低解像度画像13のブロック数である。
このように、出力手段は、勾配方向の共起の分布だけを出力しており、例えば、従来例のHOG特徴量で規定される画素の輝度の勾配方向の分布による特徴量を含んでいない。
そして、画像処理装置8が当該ハードウェアを搭載すると共起特徴量を高速に抽出できるため、例えば、車載カメラから出力される動画フレームの共起特徴量から歩行者をリアルタイムで検出することも可能となる。
画像処理装置8は、以上のように元画像2から共起特徴量を抽出する特徴量抽出機能を有しているが、次に、これを用いた画像認識機能について説明する。
まず、画像処理装置8は、認識対象(以下では、一例として歩行者とする)が様々な態様で写っている画像を大量に上記手法にて処理し、歩行者が写った画像の共起特徴量を学習する。この学習した特徴量を基準特徴量と呼ぶことにする。
図では、簡単のため、共起特徴量空間を2次元で表しているが、共起ヒストグラム18のビンがn個ある場合は、n次元となる。先に説明した例では、10752次元となる。
これも共起特徴量空間での単位ベクトルとなり、これを共起特徴量ベクトル20、21、22とする。
このように画像処理装置8は、認識対象の特徴量を輝度勾配の共起の出現頻度の分布で表した基準特徴量を取得する基準特徴量取得手段を備えている。
一方、認識対象画像に歩行者が含まれていない場合、当該認識対象画像の共起特徴量ベクトルは、共起特徴量ベクトル21、22のように、基準特徴量ベクトル19とは異なる方向を向く。
そして、画像処理装置8は、例えば、この内積が所定の閾値よりも大きい場合に、認識対象画像に歩行者が写っていると判断し、その判断結果を出力する。
このように画像処理装置8は、認識対象画像の特徴量と基準特徴量を比較することにより、学習した画像と認識対象との類似を判断して出力する判断手段を備えている。
画像処理装置8は、例えば、パーソナルコンピュータによって構成されている。
これは一例であって、共起特徴量抽出用の専用のハードウェアを半導体装置で形成し、これを車載カメラに搭載するように構成することもできる。
CPU81は、中央処理装置であって、記憶装置85が記憶する画像認識プログラムに従って動作し、上述した画像からの特徴量抽出処理や、抽出した共起特徴量を用いた画像認識処理などを行う。
RAM83は、読み書きが可能なメモリであって、CPU81が特徴量抽出処理や画像認識処理を行う際のワーキングメモリを提供する。
画像認識プログラムは、CPU81に特徴量抽出処理機能や画像認識処理機能を発揮させるプログラムである。
これにより、学習用画像や認識対象画像を読み込むことができる。
入力部86は、操作担当者からの入力を受け付けるキーボード、マウスなどの入力デバイスを備えており、各種プログラムやデータの読み込みや、操作担当者からの操作を受け付ける。
出力部87は、操作担当者に各種の情報を提示するディスプレイ、プリンタなどの出力デバイスを備えており、画像認識プログラムの操作画面、及び、特徴量抽出処理や画像認識処理の結果を出力する。
通信ネットワークやインターフェースに接続したカメラから動画を受信し、これに対してリアルタイムで画像認識処理を行うこともできる。
グラフの縦軸は正検出率を表しており、横軸は誤検出率を表している。
実線で示した曲線31は、上の方法により取得した複数解像度間(多重解像度間)の共起を含む共起特徴量にHOG特徴量を加えた特徴量で画像認識を行った場合を示しており、波線で示した曲線32は、当該共起特徴量だけを用いた特徴量で画像認識を行った場合を示している。
正検出率が1.0に近づくにつれて、曲線32は、曲線31よりも若干正検出率が小さくなるが、その差は小さく、複数解像度間の共起を含む共起特徴量にHOG特徴量を加えても画像認識能力はほとんど変わらないことがわかる。
ちなみに、このグラフでは、曲線の下側の面積が大きいほど能力が高いことを示している。
即ち、勾配方向の共起ヒストグラムを計算するときに、隣接した画素は輝度値が微少量しか変位しないため、同一の勾配方向が多くある。そのため、局所領域における共起ペアは、注目画素自身のヒストグラムであるHOG特徴量を内包しており、HOG特徴量が冗長な情報となっている。
即ち、図1(d)の共起行列15では、列を注目画素5の勾配方向とし、行をオフセット画素の勾配方向とすることで、注目画素5とオフセット画素との勾配方向を2次元で表している。この共起行列15における全ての行に対し、各行毎の要素の値を全て加算して1次元で表すと、図10(b)と同様に、輝度の勾配方向のヒスとグラムを生成することができる。
例えば、共起行列15において、勾配方向が右方向である列についての要素を全て足すと、勾配方向が右方向の注目画素5の出現回数となる。
このように、本実施形態の共起行列15には、すでにHOG特徴量に相当する情報が含まれていることが理由であると推測される。
以下の処理は、CPU81が画像認識プログラムに従って行うものである。
まず、画像処理装置8は、特徴を抽出する対象となる元画像2の入力を記憶装置84などから受け付けてRAM83に読み込む(ステップ5)。
次に、画像処理装置8は、元画像2をブロック領域3に区分し、当該区分の位置をRAM83に記憶する(ステップ10)。
なお、元画像2をそのまま高解像度画像11として使用する場合は、元画像2の画素を解像度変換せずに高解像度画像11の画素として使用する。
次に、画像処理装置8は、高解像度画像11内、高解像度画像11と中解像度画像12の間、及び高解像度画像11と低解像度画像13の間で勾配方向の共起を取って対応する共起行列15に投票し、RAM83に記憶する(ステップ30)。これにより当該ブロック領域3Aによる共起行列15、15、・・・が得られる。
まだ、投票処理を行っていないブロック領域3がある場合(ステップ35;N)、画像処理装置8は、ステップ15に戻って次のブロック領域3を選択し、これについて投票を行う。
以上のようにして画像処理装置8は、元画像2から共起特徴量を抽出することができ、元画像2として学習画像を多数入力して学習すれば、基準特徴量を出力し、認識対象画像を入力すれば、当該認識画像を画像認識するための共起特徴量を出力する。
ここでは、一例として、車載カメラで歩行者を追跡する場合について説明する。
画像処理装置8は、車両に搭載されており、車外(例えば、車両前方)を被写体とするカメラと接続されている。
車両は、画像処理装置8によって歩行者を追跡してこれを車両の制御系に出力し、制御系は、これに基づいて運転者のハンドル操作やブレーキ操作などを支援して安全性を高める。
次に、画像処理装置8は、カメラから送信される動画データから動画フレームを取得してRAM83に記憶する(ステップ55)。
初回の歩行者検出では、歩行者がどこに写っているかわからないため、画像処理装置8は、例えば、適当な初期値に基づいて白色雑音による乱数(パーティクル)を発生させて、これに基づいて適当な大きさの観測領域を適当な位置に設定する。
画像処理装置8は、当該観測領域に含まれる画像を認識対象画像としてRAM83に記憶する。
そして、画像処理装置8は、RAM83に記憶した基準特徴量と認識対象画像の共起特徴量を読み出し、共起特徴量空間での内積を計算することにより類似度を算出してRAM83に記憶する(ステップ70)。
この類似度の計算は、例えば、SVM(サポートベクターマシン)やAdaBoostなどの識別器に入力して画像認識の判定を行うことができる。なお、これは、識別器を限定するものではなく、計算コストや精度の兼ね合いから使用者が自由に選択することができる。
類似していない場合、画像処理装置8は、動画フレーム内で歩行者を当該観測領域内に認識できなかったと判断し(ステップ85;N)、ステップ60に戻って、更に動画フレームに前回とは異なる観測領域を設定して、歩行者の認識を繰り返す。
そして、画像処理装置8は、更に認識対象の追跡を継続するか否かを判断する(ステップ90)。この判断は、例えば、車両が目的地に到着するなどして走行を停止した場合に追跡を継続しないと判断し、車両が走行している場合は追跡すると判断する。
一方、追跡を継続すると判断した場合(ステップ90;Y)、画像処理装置8は、ステップ55に戻って、次の動画フレームに対して同様の画像認識処理を行う。
これは、歩行者が1つ前の動画フレームで検出された付近に今回の動画フレームでも存在すると考えられるからである。
なお、この手法は、車載カメラ以外に監視カメラや、その他の動く対象を動画に基づいて追跡するシステムに適用することができる。
更に、前方を走行する車両を画像認識によって追跡して、これに追随走行する所謂コンボイ走行に適用することも可能である。
図7(a)に示したように、本変形例に係る画像処理装置8は、先に説明した実施形態の画像処理装置8と同様に、高解像度画像11、中解像度画像12、低解像度画像13を形成する。
そして、画像処理装置8は、これら解像度の異なる画像のそれぞれについて個々の画素の勾配方向を計算し、それぞれの解像度の範囲内で勾配方向の共起を観察する。
画像処理装置8は、高解像度画像11に注目画素5を設定し、オフセット距離1の(即ち注目画素5に隣接している)オフセット画素1a〜1dについて、注目画素5との勾配方向の共起を取得して注目画素5とオフセット画素1aとの組合せの共起行列15、注目画素5とオフセット画素1bとの組合せの共起行列15、・・・に投票する。
更に、画像処理装置8aは、注目画素5からオフセット距離3のオフセット画素3a〜3h、及び注目画素5からオフセット距離4のオフセット画素4a〜4lについても注目画素5との勾配方向の共起を取得して組合せごとの共起行列15に投票する。
画像処理装置8は、上の処理を高解像度画像11内で注目画素5を移動しながら全ての画素について行う。
画像処理装置8は、中解像度画像12に注目画素5を設定し、注目画素5からオフセット距離1の(即ち注目画素5に隣接している)オフセット画素1a〜1dについて、注目画素5との勾配方向の共起を取得して組合せごとの共起行列15に投票する。
画像処理装置8は、上の処理を中解像度画像12内で注目画素5を移動しながら全ての画素について行う。
なお、最も遠いオフセット距離は、高解像度画像11と中解像度画像12では、画素4個分、低解像度画像13では、画素3個分とするなど、解像度ごとに異なった値を設定することができ、画像認識の精度との兼ね合いから最適な値を設定することができる。
画像処理装置8は、上の処理を元画像2の全てのブロック領域3について行い、得られた共起行列15の要素の成分を連結して1列に並べて図7(d)に示した共起ヒストグラム18を作成する。
そして、画像処理装置8は、これを正規化して共起特徴量ベクトルを生成し、これを画像の共起特徴量とする。
本変形例の画像処理装置8は、解像度の変換は行わずに、高解像度画像11(元画像2)における勾配方向の共起から共起特徴量を取得する。
そして、画像処理装置8は、注目画素5を図に向かって右方向の隣接する画素に移動しながら、高解像度画像11の全ての画素について同様の処理を行う。
本変形例では、勾配方向を0°〜360°の連続値とし、GMM(混合ガウスモデル)を用いて共起特徴量を抽出する。
なお、これは一例であって、第1の変形例で示した複数解像度の各解像度内での共起であってもよいし、第2の変形例に示した高解像度画像11内の共起であってもよい。
実施形態では、共起行列15に投票したが、本変形例では、横軸を注目画素5の勾配方向とし、縦軸をオフセット画素の勾配方向とする特徴面50に共起対応点51としてプロットする。特徴面50は、図9(a)に示した散布図となる。
また、画像処理装置8は、共起行列15と同様に、注目画素5とオフセット画素の相対的な位置ごとに特徴面50を作成する。
Kは、予め設定された値であり、典型的にはK=64などの整数であるが、図の例では簡略化のためK=3とした。
zは、EMアルゴリズムや負担率を計算するのに用いられる潜在変数であり、混合するK個のガウス分布に対応してz1、z2、・・・、zKが用いられる。
EMアルゴリズムは、説明は省略するが、尤度を最大化する母数(μj、Σj)を推定するアルゴリズムである。
πjは、混合係数と呼ばれ、j番目のガウス分布を選択する確率を表している。
γ(zkn)は、図9(e)の式で表したように、基準GMM55に対して認識対象画像の共起対応点51の分布が与えられた場合の潜在変数zの事後確率であり、k番目のガウス分布がxnの観測を説明する度合いを表している。
画像処理装置8は、これらの特徴量を用いて画像認識する。
(1)勾配方向の共起によってHOG特徴量を用いずに、HOG特徴量よりも頑強な特徴量を画像から抽出することができる。
(2)複数の解像度に渡って、あるいは、それぞれの解像度内で勾配方向の共起を取ることにより、共起特徴量を取得することができる。
(3)動画フレームをリアルタイムで画像認識することにより、動いている対象を動画で追跡することができる。
(4)半導体装置による実装に適しているため、専用チップを開発して低価格で大量に供給することができる。
(5)専用チップを実装することにより小型化、低コスト化を図ることができ、例えば、車載装置などの移動体装置やスマートフォンなどの携帯端末などでの普及を図ることができる。
3 ブロック領域
5 注目画素
8 画像処理装置
11 高解像度画像
12 中解像度画像
13 低解像度画像
15 共起行列
18 共起ヒストグラム
19 基準特徴量ベクトル
20、21、22 共起特徴量ベクトル
31、32 曲線
50 特徴面
51 共起対応点
53 GMM
55 基準GMM
60 クラスタ
81 CPU
82 ROM
83 RAM
84 記憶装置
85 記憶媒体駆動装置
86 入力部
87 出力部
101 画像
102 セル
106 ヒストグラム
107 HOG特徴量
Claims (8)
- 画像を入力する画像入力手段と、
前記入力した画像の解像度を変換する解像度変換手段と、
前記入力した画像と前記解像度を変換した画像に含まれる画素の、輝度の勾配方向を取得する勾配方向取得手段と、
前記入力した画像と前記解像度を変換した画像に含まれる画素から2つの画素の組合せを取得する画素組合せ取得手段と、
前記取得した各画素の輝度の勾配方向を使用して、前記取得した組合せに係る2つの画素に対する、前記勾配方向取得手段で取得した輝度の勾配方向の共起を取得する共起取得手段と、
前記画素組合せ取得手段で取得する画素の組合せを変化させながら、前記共起取得手段で取得した共起の出現頻度の分布を取得する出現頻度取得手段と、
前記取得した輝度の勾配方向に対する出現頻度の分布を含まない、前記出現頻度取得手段で取得した共起の出現頻度の分布を前記画像の特徴量として出力する出力手段と、
を備えたことを特徴とする画像特徴量出力装置。 - 画像を入力する画像入力手段と、
前記入力した画像の解像度を変換する解像度変換手段と、
前記入力した画像と前記解像度を変換した画像に含まれる画素から2つの画素の組合せを取得する画素組合せ取得手段と、
前記取得した組合せに係る2つの画素の輝度の勾配方向の共起を取得する共起取得手段と、
前記取得する画素の組合せを変化させながら、前記取得する共起の出現頻度の分布を取得する出現頻度取得手段と、
前記取得した共起の出現頻度の分布を前記画像の特徴量として出力する出力手段と、
を備えたことを特徴とする画像特徴量出力装置。 - 前記画素組合せ取得手段は、少なくとも、前記画像の全体に渡って隣接する画素の組合せを取得することを特徴とする請求項1、又は請求項2に記載の画像特徴量出力装置。
- 前記画素組合せ取得手段は、異なる解像度の画素の組合せを取得することを特徴とする請求項1、請求項2、又は請求項3に記載の画像特徴量出力装置。
- 前記画素組合せ取得手段は、解像度ごとに同一の解像度の画素の組合せを取得することを特徴とする請求項1、請求項2、又は請求項3に記載の画像特徴量出力装置。
- 認識対象の特徴量を輝度の勾配方向の共起の出現頻度の分布で表した基準特徴量を取得する基準特徴量取得手段と、
判断対象となる対象画像を取得する対象画像取得手段と、
前記取得した対象画像を請求項1、又は請求項2に記載の画像特徴量出力装置の画像入力手段に入力して当該対象画像の特徴量を取得する対象画像特徴量取得手段と、
前記取得した基準特徴量と、前記取得した対象画像の特徴量を比較することにより前記対象画像が認識対象の画像を含んでいるか否かを判断する判断手段と、
前記判断の結果を出力する結果出力手段と、
を具備したことを特徴とする画像認識装置。 - 画像を入力する画像入力機能と、
前記入力した画像の解像度を変換する解像度変換機能と、
前記入力した画像と前記解像度を変換した画像に含まれる画素の、輝度の勾配方向を取得する勾配方向取得機能と、
前記入力した画像と前記解像度を変換した画像に含まれる画素から2つの画素の組合せを取得する画素組合せ取得機能と、
前記取得した各画素の輝度の勾配方向を使用して、前記取得した組合せに係る2つの画素に対する、前記勾配方向取得機能で取得した輝度の勾配方向の共起を取得する共起取得機能と、
前記画素組合せ取得機能で取得する画素の組合せを変化させながら、前記共起取得機能で取得した共起の出現頻度の分布を取得する出現頻度取得機能と、
前記取得した輝度の勾配方向に対する出現頻度の分布を含まない、前記出現頻度取得機能で取得した共起の出現頻度の分布を前記画像の特徴量として出力する出力機能と、
をコンピュータに実現させることを特徴とする画像特徴量出力プログラム。 - 認識対象の特徴量を輝度の勾配方向の共起の出現頻度の分布で表した基準特徴量を取得する基準特徴量取得機能と、
判断対象となる対象画像を取得する対象画像取得機能と、
前記取得した対象画像を、請求項1、又は請求項2に記載の画像特徴量出力装置の画像入力手段、又は請求項7に記載の画像特徴量出力プログラムの画像入力機能、に入力して当該対象画像の特徴量を取得する対象画像特徴量取得機能と、
前記取得した基準特徴量と、前記取得した対象画像の特徴量を比較することにより前記対象画像が認識対象の画像を含んでいるか否かを判断する判断機能と、
前記判断の結果を出力する結果出力機能と、
をコンピュータで実現する画像認識プログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017016220 | 2017-01-31 | ||
JP2017016220 | 2017-01-31 | ||
PCT/JP2018/003224 WO2018143277A1 (ja) | 2017-01-31 | 2018-01-31 | 画像特徴量出力装置、画像認識装置、画像特徴量出力プログラム、及び画像認識プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2018143277A1 true JPWO2018143277A1 (ja) | 2020-01-09 |
JP7165353B2 JP7165353B2 (ja) | 2022-11-04 |
Family
ID=63039703
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018565608A Active JP7165353B2 (ja) | 2017-01-31 | 2018-01-31 | 画像特徴量出力装置、画像認識装置、画像特徴量出力プログラム、及び画像認識プログラム |
Country Status (5)
Country | Link |
---|---|
US (1) | US11256950B2 (ja) |
EP (1) | EP3579183A4 (ja) |
JP (1) | JP7165353B2 (ja) |
CN (1) | CN110249366B (ja) |
WO (1) | WO2018143277A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019109709A (ja) * | 2017-12-18 | 2019-07-04 | 株式会社東芝 | 画像処理装置、画像処理方法およびプログラム |
CN111126406B (zh) * | 2019-12-17 | 2023-04-07 | 北京四维图新科技股份有限公司 | 车辆行驶区域识别方法及装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009301104A (ja) * | 2008-06-10 | 2009-12-24 | Chube Univ | 物体検出装置 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5361530B2 (ja) * | 2009-05-20 | 2013-12-04 | キヤノン株式会社 | 画像認識装置、撮像装置及び画像認識方法 |
WO2011037097A1 (ja) * | 2009-09-24 | 2011-03-31 | 国立大学法人京都大学 | パターン認識方法及び該方法を用いたパターン認識装置 |
JP6326622B2 (ja) | 2014-03-25 | 2018-05-23 | 株式会社明電舎 | 人物検出装置 |
CN104036258A (zh) * | 2014-06-25 | 2014-09-10 | 武汉大学 | 一种基于稀疏表示处理低分辨率下的行人检测方法 |
CN105844278B (zh) * | 2016-04-15 | 2019-01-25 | 浙江理工大学 | 一种多特征融合的织物扫描图案识别方法 |
CN106022251B (zh) * | 2016-05-17 | 2019-03-26 | 沈阳航空航天大学 | 基于视觉共生矩阵序列的异常双人交互行为识别方法 |
-
2018
- 2018-01-31 EP EP18748682.4A patent/EP3579183A4/en active Pending
- 2018-01-31 US US16/480,960 patent/US11256950B2/en active Active
- 2018-01-31 CN CN201880009328.6A patent/CN110249366B/zh active Active
- 2018-01-31 JP JP2018565608A patent/JP7165353B2/ja active Active
- 2018-01-31 WO PCT/JP2018/003224 patent/WO2018143277A1/ja unknown
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009301104A (ja) * | 2008-06-10 | 2009-12-24 | Chube Univ | 物体検出装置 |
Non-Patent Citations (2)
Title |
---|
岩田壮平,大塚広道,榎田修一,久野和宏: "異なるフィルタサイズにより抽出された勾配方向の共起に基づく歩行者検出", 第21回 画像センシングシンポジウム 講演論文集 [CD−ROM], JPN6022009869, June 2015 (2015-06-01), pages 3 - 21, ISSN: 0004725163 * |
岩田壮平,榎田修一: "多重解像度処理を導入したCoHOGに基づく物体検出", 画像電子学会誌[CD−ROM], vol. 第45巻,第1号, JPN6022009868, 30 January 2016 (2016-01-30), pages 42 - 52, ISSN: 0004725164 * |
Also Published As
Publication number | Publication date |
---|---|
EP3579183A4 (en) | 2020-09-09 |
WO2018143277A1 (ja) | 2018-08-09 |
EP3579183A1 (en) | 2019-12-11 |
JP7165353B2 (ja) | 2022-11-04 |
CN110249366B (zh) | 2024-05-10 |
US20190392249A1 (en) | 2019-12-26 |
CN110249366A (zh) | 2019-09-17 |
US11256950B2 (en) | 2022-02-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Huang et al. | Bevdet: High-performance multi-camera 3d object detection in bird-eye-view | |
Chen et al. | Pothole detection using location-aware convolutional neural networks | |
US11151734B2 (en) | Method and system for generating synthetic point cloud data using a generative model | |
JP7091686B2 (ja) | 立体物認識装置、撮像装置および車両 | |
CN112528961B (zh) | 一种基于Jetson Nano的视频分析方法 | |
CN108292367B (zh) | 图像处理装置、半导体装置、图像识别装置、移动体装置以及图像处理方法 | |
CN110533046B (zh) | 一种图像实例分割方法、装置、计算机可读存储介质及电子设备 | |
US9323989B2 (en) | Tracking device | |
KR102197930B1 (ko) | 번호판 인식 방법 및 시스템 | |
Luo et al. | Traffic analytics with low-frame-rate videos | |
Farag | A lightweight vehicle detection and tracking technique for advanced driving assistance systems | |
Toprak et al. | Conditional weighted ensemble of transferred models for camera based onboard pedestrian detection in railway driver support systems | |
US11468572B2 (en) | Image processing device, image recognition device, image processing program, and image recognition program | |
US11062141B2 (en) | Methods and apparatuses for future trajectory forecast | |
JP7165353B2 (ja) | 画像特徴量出力装置、画像認識装置、画像特徴量出力プログラム、及び画像認識プログラム | |
EP3796256A1 (en) | Image processing apparatus, image processing method, and computer program | |
CN113728357B (zh) | 图像处理方法、图像处理装置以及图像处理系统 | |
JP2013069045A (ja) | 画像認識装置、画像認識方法および画像認識プログラム | |
WO2018143278A1 (ja) | 画像処理装置、画像認識装置、画像処理プログラム、及び画像認識プログラム | |
CN112232102A (zh) | 一种基于深度神经网络和多任务学习的建筑物目标识别方法和系统 | |
CN113160027A (zh) | 一种图像处理模型训练方法及装置 | |
EP3951707A1 (en) | Image processing device and image processing program | |
Adaimi et al. | Traffic perception from aerial images using butterfly fields | |
Singh | Anomalous Motion Detection of Vehicles on Highway Using Deep Learning | |
CN117203678A (zh) | 目标检测方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7426 Effective date: 20190725 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20190725 |
|
AA64 | Notification of invalidation of claim of internal priority (with term) |
Free format text: JAPANESE INTERMEDIATE CODE: A241764 Effective date: 20191011 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20191029 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210128 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20210728 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220311 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220509 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220916 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221014 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7165353 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |