JPWO2019220622A1 - 画像処理装置、システム、方法及びプログラム - Google Patents
画像処理装置、システム、方法及びプログラム Download PDFInfo
- Publication number
- JPWO2019220622A1 JPWO2019220622A1 JP2020518924A JP2020518924A JPWO2019220622A1 JP WO2019220622 A1 JPWO2019220622 A1 JP WO2019220622A1 JP 2020518924 A JP2020518924 A JP 2020518924A JP 2020518924 A JP2020518924 A JP 2020518924A JP WO2019220622 A1 JPWO2019220622 A1 JP WO2019220622A1
- Authority
- JP
- Japan
- Prior art keywords
- images
- image
- modal
- detection target
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/254—Fusion techniques of classification results, e.g. of results related to same input data
- G06F18/256—Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
- G06T7/74—Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/776—Validation; Performance evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/809—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
- G06V10/811—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data the classifiers operating on different input data, e.g. multi-modal recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10048—Infrared image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
Description
特定の検出対象に対して異なる複数のモーダルにより撮影された複数の画像のそれぞれにおいて当該検出対象が含まれる複数の正解領域と、当該検出対象に付されるラベルとを対応付けた正解ラベルを用いて、前記複数の画像の間で共通する所定の位置にそれぞれ対応する複数の候補領域について、前記複数の画像ごとに対応する前記正解領域を含む度合いを判定する判定手段と、
前記複数の画像のそれぞれから抽出された複数の特徴マップと、前記判定手段による前記複数の画像ごとの判定結果の組と、前記正解ラベルとに基づいて、第1のモーダルにより撮影された第1の画像に含まれる前記検出対象の位置と、第2のモーダルにより撮影された第2の画像に含まれる前記検出対象の位置との位置ずれ量を予測する際に用いる第1のパラメータを学習し、当該学習した第1のパラメータを記憶手段に保存する第1の学習手段と、
を備える。
特定の検出対象に対して異なる複数のモーダルにより撮影された複数の画像と、前記複数の画像のそれぞれにおいて前記検出対象が含まれる複数の正解領域と当該検出対象に付されるラベルとを対応付けた正解ラベルと、を記憶する第1の記憶手段と、
第1のモーダルにより撮影された第1の画像に含まれる前記検出対象の位置と、第2のモーダルにより撮影された第2の画像に含まれる前記検出対象の位置との位置ずれ量を予測する際に用いる第1のパラメータを記憶する第2の記憶手段と、
前記正解ラベルを用いて、前記複数の画像の間で共通する所定の位置にそれぞれ対応する複数の候補領域について、前記複数の画像ごとに対応する前記正解領域を含む度合いを判定する判定手段と、
前記複数の画像のそれぞれから抽出された複数の特徴マップと、前記判定手段による前記複数の画像ごとの判定結果の組と、前記正解ラベルとに基づいて、前記第1のパラメータを学習し、当該学習した第1のパラメータを前記第2の記憶手段に保存する第1の学習手段と、
を備える。
画像処理装置が、
特定の検出対象に対して異なる複数のモーダルにより撮影された複数の画像のそれぞれにおいて当該検出対象が含まれる複数の正解領域と、当該検出対象に付されるラベルとを対応付けた正解ラベルを用いて、前記複数の画像の間で共通する所定の位置にそれぞれ対応する複数の候補領域について、前記複数の画像ごとに対応する前記正解領域を含む度合いを判定し、
前記複数の画像のそれぞれから抽出された複数の特徴マップと、前記複数の画像ごとの判定結果の組と、前記正解ラベルとに基づいて、第1のモーダルにより撮影された第1の画像に含まれる前記検出対象の位置と、第2のモーダルにより撮影された第2の画像に含まれる前記検出対象の位置との位置ずれ量を予測する際に用いる第1のパラメータを学習し、
前記学習した第1のパラメータを記憶装置に保存する。
特定の検出対象に対して異なる複数のモーダルにより撮影された複数の画像のそれぞれにおいて当該検出対象が含まれる複数の正解領域と、当該検出対象に付されるラベルとを対応付けた正解ラベルを用いて、前記複数の画像の間で共通する所定の位置にそれぞれ対応する複数の候補領域について、前記複数の画像ごとに対応する前記正解領域を含む度合いを判定する処理と、
前記複数の画像のそれぞれから抽出された複数の特徴マップと、前記複数の画像ごとの判定結果の組と、前記正解ラベルとに基づいて、第1のモーダルにより撮影された第1の画像に含まれる前記検出対象の位置と、第2のモーダルにより撮影された第2の画像に含まれる前記検出対象の位置との位置ずれ量を予測する際に用いる第1のパラメータを学習する処理と、
前記学習した第1のパラメータを記憶装置に保存する処理と、
をコンピュータに実行させる。
図1は、本実施の形態1にかかる画像処理装置1の構成を示す機能ブロック図である。画像処理装置1は、複数のモーダルにより撮影された画像の組に対する画像処理を行うコンピュータである。尚、画像処理装置1は、2台以上の情報処理装置により構成されていてもよい。
本実施の形態2は、上述した実施の形態1の一実施例である。図4は、本実施の形態2にかかる画像処理システム1000の構成を示すブロック図である。画像処理システム1000は、マルチモーダル画像から特定の検出対象の検出を行うための画像認識処理に用いられる各種パラメータを学習するための情報システムである。画像処理システム1000は、上述した画像処理装置1に機能を追加及び具体化したものであってもよい。また、画像処理システム1000は、複数台のコンピュータ装置により構成されて、後述する各機能ブロックを実現するものであってもよい。
本実施の形態3は、上述した実施の形態2の応用例である。本実施の形態3は、実施の形態2にかかる画像処理システム1000により学習された各パラメータを用いて、任意のマルチモーダル画像から物体検出を行うための画像認識処理を行うものである。図7は、本実施の形態3にかかる画像処理システム1000aの構成を示すブロック図である。画像処理システム1000aは、図4の画像処理システム1000に機能を追加したものであり、図4における記憶装置200以外の構成は、図7では省略している。そのため、画像処理システム1000aは、上述した画像処理装置1に機能を追加及び具体化したものであってもよい。また、画像処理システム1000aは、複数台のコンピュータ装置により構成されて、後述する各機能ブロックを実現するものであってもよい。
尚、上述の実施の形態では、ハードウェアの構成として説明したが、これに限定されるものではない。本開示は、任意の処理を、CPU(Central Processing Unit)にコンピュータプログラムを実行させることにより実現することも可能である。
(付記1)
特定の検出対象に対して異なる複数のモーダルにより撮影された複数の画像のそれぞれにおいて当該検出対象が含まれる複数の正解領域と、当該検出対象に付されるラベルとを対応付けた正解ラベルを用いて、前記複数の画像の間で共通する所定の位置にそれぞれ対応する複数の候補領域について、前記複数の画像ごとに対応する前記正解領域を含む度合いを判定する判定手段と、
前記複数の画像のそれぞれから抽出された複数の特徴マップと、前記判定手段による前記複数の画像ごとの判定結果の組と、前記正解ラベルとに基づいて、第1のモーダルにより撮影された第1の画像に含まれる前記検出対象の位置と、第2のモーダルにより撮影された第2の画像に含まれる前記検出対象の位置との位置ずれ量を予測する際に用いる第1のパラメータを学習し、当該学習した第1のパラメータを記憶手段に保存する第1の学習手段と、
を備える画像処理装置。
(付記2)
前記第1の学習手段は、
前記度合いが所定値以上である前記判定結果の組における前記複数の正解領域のそれぞれと、前記検出対象における所定の基準領域との差分を前記位置ずれ量として、前記第1のパラメータを学習する
付記1に記載の画像処理装置。
(付記3)
前記第1の学習手段は、前記複数の正解領域のいずれか一方、又は、前記複数の正解領域の中間の位置を前記基準領域とする
付記2に記載の画像処理装置。
(付記4)
前記判定結果の組及び前記特徴マップに基づいて、前記候補領域に対する前記検出対象の度合いを示すスコアを算出する際に用いる第2のパラメータを学習し、当該学習した第2のパラメータを前記記憶手段に保存する第2の学習手段と、
前記判定結果の組及び前記特徴マップに基づいて、前記候補領域の位置及び形状を前記判定に用いられた正解領域に近付ける回帰を行う際に用いる第3のパラメータを学習し、当該学習した第3のパラメータを前記記憶手段に保存する第3の学習手段と、
をさらに備える
付記1乃至3のいずれか1項に記載の画像処理装置。
(付記5)
前記判定結果の組に基づいて、前記複数の画像のそれぞれから前記複数の特徴マップを抽出する際に用いる第4のパラメータを学習し、当該学習した第4のパラメータを前記記憶手段に保存する第4の学習手段をさらに備え、
前記第1の学習手段は、
前記記憶手段に保存された前記第4のパラメータを用いて前記複数の画像のそれぞれから抽出された前記複数の特徴マップを用いて、前記第1のパラメータを学習する
付記1乃至4のいずれか1項に記載の画像処理装置。
(付記6)
前記複数の特徴マップを融合し、かつ、前記候補領域を識別する際に用いる第5のパラメータを学習し、当該学習した第5のパラメータを前記記憶手段に保存する第5の学習手段をさらに備える
付記5に記載の画像処理装置。
(付記7)
前記複数のモーダルにより撮影された複数の入力画像から前記記憶手段に保存された前記第4のパラメータを用いて抽出された複数の特徴マップと、前記記憶手段に保存された前記第1のパラメータとを用いて、前記入力画像間の前記検出対象における位置ずれ量を予測して、当該予測した位置ずれ量に基づいて前記複数の入力画像のそれぞれから前記検出対象を含む候補領域の組を選択する候補領域選択手段をさらに備える
付記5又は6のいずれか1項に記載の画像処理装置。
(付記8)
前記複数の画像のそれぞれは、前記複数のモーダルのそれぞれに対応する複数のカメラにより撮影されたものである
付記1乃至7のいずれか1項に記載の画像処理装置。
(付記9)
前記複数の画像のそれぞれは、移動中の1つのカメラにより所定間隔で前記複数のモーダルを切り替えて撮影されたものである
付記1乃至7のいずれか1項に記載の画像処理装置。
(付記10)
特定の検出対象に対して異なる複数のモーダルにより撮影された複数の画像と、前記複数の画像のそれぞれにおいて前記検出対象が含まれる複数の正解領域と当該検出対象に付されるラベルとを対応付けた正解ラベルと、を記憶する第1の記憶手段と、
第1のモーダルにより撮影された第1の画像に含まれる前記検出対象の位置と、第2のモーダルにより撮影された第2の画像に含まれる前記検出対象の位置との位置ずれ量を予測する際に用いる第1のパラメータを記憶する第2の記憶手段と、
前記正解ラベルを用いて、前記複数の画像の間で共通する所定の位置にそれぞれ対応する複数の候補領域について、前記複数の画像ごとに対応する前記正解領域を含む度合いを判定する判定手段と、
前記複数の画像のそれぞれから抽出された複数の特徴マップと、前記判定手段による前記複数の画像ごとの判定結果の組と、前記正解ラベルとに基づいて、前記第1のパラメータを学習し、当該学習した第1のパラメータを前記第2の記憶手段に保存する第1の学習手段と、
を備える画像処理システム。
(付記11)
前記第1の学習手段は、
前記度合いが所定値以上である前記判定結果の組における前記複数の正解領域のそれぞれと、前記検出対象における所定の基準領域との差分を前記位置ずれ量として、前記第1のパラメータを学習する
付記10に記載の画像処理システム。
(付記12)
画像処理装置が、
特定の検出対象に対して異なる複数のモーダルにより撮影された複数の画像のそれぞれにおいて当該検出対象が含まれる複数の正解領域と、当該検出対象に付されるラベルとを対応付けた正解ラベルを用いて、前記複数の画像の間で共通する所定の位置にそれぞれ対応する複数の候補領域について、前記複数の画像ごとに対応する前記正解領域を含む度合いを判定し、
前記複数の画像のそれぞれから抽出された複数の特徴マップと、前記複数の画像ごとの判定結果の組と、前記正解ラベルとに基づいて、第1のモーダルにより撮影された第1の画像に含まれる前記検出対象の位置と、第2のモーダルにより撮影された第2の画像に含まれる前記検出対象の位置との位置ずれ量を予測する際に用いる第1のパラメータを学習し、
前記学習した第1のパラメータを記憶装置に保存する
画像処理方法。
(付記13)
特定の検出対象に対して異なる複数のモーダルにより撮影された複数の画像のそれぞれにおいて当該検出対象が含まれる複数の正解領域と、当該検出対象に付されるラベルとを対応付けた正解ラベルを用いて、前記複数の画像の間で共通する所定の位置にそれぞれ対応する複数の候補領域について、前記複数の画像ごとに対応する前記正解領域を含む度合いを判定する処理と、
前記複数の画像のそれぞれから抽出された複数の特徴マップと、前記複数の画像ごとの判定結果の組と、前記正解ラベルとに基づいて、第1のモーダルにより撮影された第1の画像に含まれる前記検出対象の位置と、第2のモーダルにより撮影された第2の画像に含まれる前記検出対象の位置との位置ずれ量を予測する際に用いる第1のパラメータを学習する処理と、
前記学習した第1のパラメータを記憶装置に保存する処理と、
をコンピュータに実行させる画像処理プログラムが格納された非一時的なコンピュータ可読媒体。
11 判定部
12 学習部
13 記憶部
14 パラメータ
101 記憶装置
1011 プログラム
1012 パラメータ
102 メモリ
103 プロセッサ
1000 画像処理システム
1000a 画像処理システム
100 記憶装置
110 学習用データ
120 マルチモーダル画像
121 モーダルA画像
122 モーダルB画像
130 正解ラベル
131 正解領域
132 正解領域
133 ラベル
200 記憶装置
210 辞書
220 辞書
221 辞書
222 辞書
223 辞書
230 辞書
310 特徴マップ抽出部学習ブロック
311 特徴マップ抽出部
312 学習部
320 領域候補選択部学習ブロック
321 スコア算出部学習ブロック
3211 判定部
3212 スコア算出部
3213 学習部
322 矩形回帰部学習ブロック
3222 矩形回帰部
3223 学習部
323 位置ずれ予測部学習ブロック
3232 位置ずれ予測部
3233 学習部
330 モーダル融合識別部学習ブロック
331 モーダル融合識別部
332 学習部
41 入力画像の組
411 入力画像
4111 背景物体
4112 人物
412 入力画像
4121 背景物体
4122 人物
42 検出候補領域の組
421 画像
4211 背景物体
4212 人物
4213 検出候補領域
4214 検出候補領域
422 画像
4221 背景物体
4222 人物
4223 検出候補領域
4224 検出候補領域
431 出力画像
4311 検出候補領域
4312 検出候補領域
4313 ラベル
4314 ラベル
500 記憶装置
510 入力データ
520 マルチモーダル画像
521 モーダルA画像
522 モーダルB画像
530 出力データ
611 モーダル画像入力部
612 モーダル画像入力部
620 画像認識処理ブロック
621 特徴マップ抽出部
622 特徴マップ抽出部
623 領域候補選択部
6231 スコア算出部
6232 矩形回帰部
6233 位置ずれ予測部
6234 選定部
6235 算出部
624 切り出し部
625 切り出し部
626 モーダル融合識別部
627 検出候補領域
628 検出候補領域
630 出力部
Claims (13)
- 特定の検出対象に対して異なる複数のモーダルにより撮影された複数の画像のそれぞれにおいて当該検出対象が含まれる複数の正解領域と、当該検出対象に付されるラベルとを対応付けた正解ラベルを用いて、前記複数の画像の間で共通する所定の位置にそれぞれ対応する複数の候補領域について、前記複数の画像ごとに対応する前記正解領域を含む度合いを判定する判定手段と、
前記複数の画像のそれぞれから抽出された複数の特徴マップと、前記判定手段による前記複数の画像ごとの判定結果の組と、前記正解ラベルとに基づいて、第1のモーダルにより撮影された第1の画像に含まれる前記検出対象の位置と、第2のモーダルにより撮影された第2の画像に含まれる前記検出対象の位置との位置ずれ量を予測する際に用いる第1のパラメータを学習し、当該学習した第1のパラメータを記憶手段に保存する第1の学習手段と、
を備える画像処理装置。 - 前記第1の学習手段は、
前記度合いが所定値以上である前記判定結果の組における前記複数の正解領域のそれぞれと、前記検出対象における所定の基準領域との差分を前記位置ずれ量として、前記第1のパラメータを学習する
請求項1に記載の画像処理装置。 - 前記第1の学習手段は、前記複数の正解領域のいずれか一方、又は、前記複数の正解領域の中間の位置を前記基準領域とする
請求項2に記載の画像処理装置。 - 前記判定結果の組及び前記特徴マップに基づいて、前記候補領域に対する前記検出対象の度合いを示すスコアを算出する際に用いる第2のパラメータを学習し、当該学習した第2のパラメータを前記記憶手段に保存する第2の学習手段と、
前記判定結果の組及び前記特徴マップに基づいて、前記候補領域の位置及び形状を前記判定に用いられた正解領域に近付ける回帰を行う際に用いる第3のパラメータを学習し、当該学習した第3のパラメータを前記記憶手段に保存する第3の学習手段と、
をさらに備える
請求項1乃至3のいずれか1項に記載の画像処理装置。 - 前記判定結果の組に基づいて、前記複数の画像のそれぞれから前記複数の特徴マップを抽出する際に用いる第4のパラメータを学習し、当該学習した第4のパラメータを前記記憶手段に保存する第4の学習手段をさらに備え、
前記第1の学習手段は、
前記記憶手段に保存された前記第4のパラメータを用いて前記複数の画像のそれぞれから抽出された前記複数の特徴マップを用いて、前記第1のパラメータを学習する
請求項1乃至4のいずれか1項に記載の画像処理装置。 - 前記複数の特徴マップを融合し、かつ、前記候補領域を識別する際に用いる第5のパラメータを学習し、当該学習した第5のパラメータを前記記憶手段に保存する第5の学習手段をさらに備える
請求項5に記載の画像処理装置。 - 前記複数のモーダルにより撮影された複数の入力画像から前記記憶手段に保存された前記第4のパラメータを用いて抽出された複数の特徴マップと、前記記憶手段に保存された前記第1のパラメータとを用いて、前記入力画像間の前記検出対象における位置ずれ量を予測して、当該予測した位置ずれ量に基づいて前記複数の入力画像のそれぞれから前記検出対象を含む候補領域の組を選択する候補領域選択手段をさらに備える
請求項5又は6のいずれか1項に記載の画像処理装置。 - 前記複数の画像のそれぞれは、前記複数のモーダルのそれぞれに対応する複数のカメラにより撮影されたものである
請求項1乃至7のいずれか1項に記載の画像処理装置。 - 前記複数の画像のそれぞれは、移動中の1つのカメラにより所定間隔で前記複数のモーダルを切り替えて撮影されたものである
請求項1乃至7のいずれか1項に記載の画像処理装置。 - 特定の検出対象に対して異なる複数のモーダルにより撮影された複数の画像と、前記複数の画像のそれぞれにおいて前記検出対象が含まれる複数の正解領域と当該検出対象に付されるラベルとを対応付けた正解ラベルと、を記憶する第1の記憶手段と、
第1のモーダルにより撮影された第1の画像に含まれる前記検出対象の位置と、第2のモーダルにより撮影された第2の画像に含まれる前記検出対象の位置との位置ずれ量を予測する際に用いる第1のパラメータを記憶する第2の記憶手段と、
前記正解ラベルを用いて、前記複数の画像の間で共通する所定の位置にそれぞれ対応する複数の候補領域について、前記複数の画像ごとに対応する前記正解領域を含む度合いを判定する判定手段と、
前記複数の画像のそれぞれから抽出された複数の特徴マップと、前記判定手段による前記複数の画像ごとの判定結果の組と、前記正解ラベルとに基づいて、前記第1のパラメータを学習し、当該学習した第1のパラメータを前記第2の記憶手段に保存する第1の学習手段と、
を備える画像処理システム。 - 前記第1の学習手段は、
前記度合いが所定値以上である前記判定結果の組における前記複数の正解領域のそれぞれと、前記検出対象における所定の基準領域との差分を前記位置ずれ量として、前記第1のパラメータを学習する
請求項10に記載の画像処理システム。 - 画像処理装置が、
特定の検出対象に対して異なる複数のモーダルにより撮影された複数の画像のそれぞれにおいて当該検出対象が含まれる複数の正解領域と、当該検出対象に付されるラベルとを対応付けた正解ラベルを用いて、前記複数の画像の間で共通する所定の位置にそれぞれ対応する複数の候補領域について、前記複数の画像ごとに対応する前記正解領域を含む度合いを判定し、
前記複数の画像のそれぞれから抽出された複数の特徴マップと、前記複数の画像ごとの判定結果の組と、前記正解ラベルとに基づいて、第1のモーダルにより撮影された第1の画像に含まれる前記検出対象の位置と、第2のモーダルにより撮影された第2の画像に含まれる前記検出対象の位置との位置ずれ量を予測する際に用いる第1のパラメータを学習し、
前記学習した第1のパラメータを記憶装置に保存する
画像処理方法。 - 特定の検出対象に対して異なる複数のモーダルにより撮影された複数の画像のそれぞれにおいて当該検出対象が含まれる複数の正解領域と、当該検出対象に付されるラベルとを対応付けた正解ラベルを用いて、前記複数の画像の間で共通する所定の位置にそれぞれ対応する複数の候補領域について、前記複数の画像ごとに対応する前記正解領域を含む度合いを判定する処理と、
前記複数の画像のそれぞれから抽出された複数の特徴マップと、前記複数の画像ごとの判定結果の組と、前記正解ラベルとに基づいて、第1のモーダルにより撮影された第1の画像に含まれる前記検出対象の位置と、第2のモーダルにより撮影された第2の画像に含まれる前記検出対象の位置との位置ずれ量を予測する際に用いる第1のパラメータを学習する処理と、
前記学習した第1のパラメータを記憶装置に保存する処理と、
をコンピュータに実行させる画像処理プログラムが格納された非一時的なコンピュータ可読媒体。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2018/019291 WO2019220622A1 (ja) | 2018-05-18 | 2018-05-18 | 画像処理装置、システム、方法及びプログラムが格納された非一時的なコンピュータ可読媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2019220622A1 true JPWO2019220622A1 (ja) | 2021-05-13 |
JP6943338B2 JP6943338B2 (ja) | 2021-09-29 |
Family
ID=68539869
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020518924A Active JP6943338B2 (ja) | 2018-05-18 | 2018-05-18 | 画像処理装置、システム、方法及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20210133474A1 (ja) |
JP (1) | JP6943338B2 (ja) |
WO (1) | WO2019220622A1 (ja) |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110012210B (zh) * | 2018-01-05 | 2020-09-22 | Oppo广东移动通信有限公司 | 拍照方法、装置、存储介质及电子设备 |
US20220130135A1 (en) * | 2019-03-13 | 2022-04-28 | Nec Corporation | Data generation method, data generation device, and program |
US11586973B2 (en) * | 2019-03-22 | 2023-02-21 | International Business Machines Corporation | Dynamic source reliability formulation |
WO2020240809A1 (ja) * | 2019-05-31 | 2020-12-03 | 楽天株式会社 | 学習装置、分類装置、学習方法、分類方法、学習プログラム、及び分類プログラム |
US11341370B2 (en) * | 2019-11-22 | 2022-05-24 | International Business Machines Corporation | Classifying images in overlapping groups of images using convolutional neural networks |
JP7278202B2 (ja) * | 2019-11-27 | 2023-05-19 | 富士フイルム株式会社 | 画像学習装置、画像学習方法、ニューラルネットワーク、及び画像分類装置 |
JP7490359B2 (ja) * | 2019-12-24 | 2024-05-27 | キヤノン株式会社 | 情報処理装置、情報処理方法及びプログラム |
JP7217256B2 (ja) * | 2020-01-10 | 2023-02-02 | 株式会社大気社 | 品質管理システム、品質管理方法、および品質管理プログラム |
US20230004797A1 (en) * | 2020-03-10 | 2023-01-05 | Sri International | Physics-guided deep multimodal embeddings for task-specific data exploitation |
US11847771B2 (en) * | 2020-05-01 | 2023-12-19 | Samsung Electronics Co., Ltd. | Systems and methods for quantitative evaluation of optical map quality and for data augmentation automation |
DE112021002170T5 (de) * | 2020-06-11 | 2023-03-02 | Hitachi Astemo, Ltd. | Bildverarbeitungsvorrichtung und Bildverarbeitungsverfahren |
CA3126236A1 (en) * | 2020-07-29 | 2022-01-29 | Uatc, Llc | Systems and methods for sensor data packet processing and spatial memoryupdating for robotic platforms |
CN111881854A (zh) * | 2020-07-31 | 2020-11-03 | 上海商汤临港智能科技有限公司 | 动作识别方法、装置、计算机设备及存储介质 |
CN112149561B (zh) * | 2020-09-23 | 2024-04-16 | 杭州睿琪软件有限公司 | 图像处理方法和装置、电子设备和存储介质 |
CN114444650A (zh) * | 2020-11-06 | 2022-05-06 | 安霸国际有限合伙企业 | 改进量化的多级对象检测网络的准确度的方法 |
WO2022144603A1 (en) * | 2020-12-31 | 2022-07-07 | Sensetime International Pte. Ltd. | Methods and apparatuses for training neural network, and methods and apparatuses for detecting correlated objects |
TWI790572B (zh) * | 2021-03-19 | 2023-01-21 | 宏碁智醫股份有限公司 | 影像相關的檢測方法及檢測裝置 |
CN113609906A (zh) * | 2021-06-30 | 2021-11-05 | 南京信息工程大学 | 一种面向文献的表格信息抽取方法 |
CN116665002B (zh) * | 2023-06-28 | 2024-02-27 | 北京百度网讯科技有限公司 | 图像处理方法、深度学习模型的训练方法和装置 |
CN116758429B (zh) * | 2023-08-22 | 2023-11-07 | 浙江华是科技股份有限公司 | 一种基于正负样本候选框动态选择船舶检测方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010524111A (ja) * | 2007-04-13 | 2010-07-15 | ミツビシ・エレクトリック・アールアンドディー・センター・ヨーロッパ・ビーヴィ | 幾何学変換に基づく一般化統計的テンプレートマッチング |
JP2015064778A (ja) * | 2013-09-25 | 2015-04-09 | 住友電気工業株式会社 | 検出対象識別装置、変換装置、監視システム、及びコンピュータプログラム |
US20170206431A1 (en) * | 2016-01-20 | 2017-07-20 | Microsoft Technology Licensing, Llc | Object detection and classification in images |
-
2018
- 2018-05-18 JP JP2020518924A patent/JP6943338B2/ja active Active
- 2018-05-18 WO PCT/JP2018/019291 patent/WO2019220622A1/ja active Application Filing
- 2018-05-18 US US17/055,819 patent/US20210133474A1/en not_active Abandoned
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010524111A (ja) * | 2007-04-13 | 2010-07-15 | ミツビシ・エレクトリック・アールアンドディー・センター・ヨーロッパ・ビーヴィ | 幾何学変換に基づく一般化統計的テンプレートマッチング |
JP2015064778A (ja) * | 2013-09-25 | 2015-04-09 | 住友電気工業株式会社 | 検出対象識別装置、変換装置、監視システム、及びコンピュータプログラム |
US20170206431A1 (en) * | 2016-01-20 | 2017-07-20 | Microsoft Technology Licensing, Llc | Object detection and classification in images |
Also Published As
Publication number | Publication date |
---|---|
US20210133474A1 (en) | 2021-05-06 |
WO2019220622A1 (ja) | 2019-11-21 |
JP6943338B2 (ja) | 2021-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6943338B2 (ja) | 画像処理装置、システム、方法及びプログラム | |
US20210365707A1 (en) | Maintaining fixed sizes for target objects in frames | |
US11151384B2 (en) | Method and apparatus for obtaining vehicle loss assessment image, server and terminal device | |
KR102364993B1 (ko) | 제스처 인식 방법, 장치 및 디바이스 | |
US20210264133A1 (en) | Face location tracking method, apparatus, and electronic device | |
US20190325241A1 (en) | Device and a method for extracting dynamic information on a scene using a convolutional neural network | |
CN110268440B (zh) | 图像解析装置、图像解析方法、以及存储介质 | |
KR20210090139A (ko) | 정보처리장치, 정보처리방법 및 기억매체 | |
KR101410489B1 (ko) | 얼굴 식별 방법 및 그 장치 | |
EP1542155A1 (en) | Object detection | |
CN109871821B (zh) | 自适应网络的行人重识别方法、装置、设备及存储介质 | |
JP2007074143A (ja) | 撮像装置及び撮像システム | |
EP1542153A1 (en) | Object detection | |
WO2016179808A1 (en) | An apparatus and a method for face parts and face detection | |
CN111881849A (zh) | 图像场景检测方法、装置、电子设备及存储介质 | |
KR20210048272A (ko) | 음성 및 영상 자동 포커싱 방법 및 장치 | |
WO2024051067A1 (zh) | 红外图像处理方法、装置及设备、存储介质 | |
CN115760912A (zh) | 运动目标跟踪方法、装置、设备及计算机可读存储介质 | |
Ahmadi et al. | Efficient and fast objects detection technique for intelligent video surveillance using transfer learning and fine-tuning | |
KR20130091441A (ko) | 물체 추적 장치 및 그 제어 방법 | |
CN116824641B (zh) | 姿态分类方法、装置、设备和计算机存储介质 | |
CN113780145A (zh) | 精子形态检测方法、装置、计算机设备和存储介质 | |
KR102161166B1 (ko) | 영상 융합 방법 및 기록 매체 | |
KR102224218B1 (ko) | 비디오 시간 정보를 활용하는 딥러닝 기반 물체 검출 방법 및 장치 | |
WO2020194622A1 (ja) | 情報処理装置、情報処理方法、及び非一時的なコンピュータ可読媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201105 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201105 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210810 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210823 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6943338 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |