JPWO2020105146A1 - 情報処理装置、制御方法、及びプログラム - Google Patents
情報処理装置、制御方法、及びプログラム Download PDFInfo
- Publication number
- JPWO2020105146A1 JPWO2020105146A1 JP2020557084A JP2020557084A JPWO2020105146A1 JP WO2020105146 A1 JPWO2020105146 A1 JP WO2020105146A1 JP 2020557084 A JP2020557084 A JP 2020557084A JP 2020557084 A JP2020557084 A JP 2020557084A JP WO2020105146 A1 JPWO2020105146 A1 JP WO2020105146A1
- Authority
- JP
- Japan
- Prior art keywords
- image
- recognizer
- learning
- structural information
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
- G06V20/53—Recognition of crowd images, e.g. recognition of crowd congestion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/192—Recognition using electronic means using simultaneous comparisons or correlations of the image signals with a plurality of references
- G06V30/194—References adjustable by an adaptive method, e.g. learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/255—Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/62—Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
Description
<概要>
図1は、本実施形態の情報処理装置2000が行う処理を概念的に示す図である。情報処理装置2000は、認識器2020を有する。認識器2020には、画像10が入力される。認識器2020は、入力された画像10に含まれる群衆について、ラベル30及び構造情報40を出力する。群衆は、複数のオブジェクトによって構成される。オブジェクトは、人その他の動物であってもよいし、動物以外のもの(例えば、車、自転車、又はバイクなどの乗り物)であってもよい。ラベル30は、画像10に含まれる群衆の種類を示す。群衆の種類には、例えば、行列構造、取り囲み構造、パニック構造、離散構造、合流(集合)構造、滞留(たむろ)構造、回避構造、逆走構造、横切り構造、及びけんか構造などがある。構造情報40は、群衆の構造を表す情報であり、少なくとも、群衆を構成するオブジェクトの位置及び向きを示す。なお、画像10に複数の群衆が含まれる場合、認識器2020は、それら複数の群衆それぞれについて、ラベル30及び構造情報40を出力する。
本発明者は、群衆の種類(ラベル)の認識を行う認識器の学習において、正解のラベルのみに基づいて学習を行うと、ラベル認識の精度がなかなか高くならないという問題が発生しうることを見出した。このような問題が生じる理由は、群衆の種類が、複数のオブジェクトそれぞれの配置や向き、オブジェクト同士の重なり方などといった種々の要素によって決まるものであり、そのような複雑な情報の認識を行う認識器は、群衆を表す画像とその群衆の種類を表すラベルという少ない情報だけでは学習しきれない場合があるためである。なお、ラベル認識の精度がなかなか高くならないということは、ラベル認識の精度を高くするためには大量の学習データを用いて長時間の学習が必要であることや、限られた少ない学習データではラベル認識の精度が低くなってしまうことを意味する。
図3は、実施形態1の情報処理装置2000の機能構成を例示する図である。情報処理装置2000は、認識器2020、取得部2040、及び学習部2060を有する。認識器2020は、画像10が入力されたことに応じて、その画像10に含まれる群衆の種類を表すラベル30を出力する。取得部2040は、学習データ50を取得する。学習データ50は、学習画像52、学習ラベル54、及び学習構造情報56を含む。学習部2060は、学習画像52を認識器2020に入力し、認識器2020から出力されるラベル30及び構造情報40、並びに学習ラベル54及び学習構造情報56を用いて、認識器2020の学習を行う。
情報処理装置2000の各機能構成部は、各機能構成部を実現するハードウエア(例:ハードワイヤードされた電子回路など)で実現されてもよいし、ハードウエアとソフトウエアとの組み合わせ(例:電子回路とそれを制御するプログラムの組み合わせなど)で実現されてもよい。以下、情報処理装置2000の各機能構成部がハードウエアとソフトウエアとの組み合わせで実現される場合について、さらに説明する。
図5は、実施形態1の情報処理装置2000によって実行される処理の流れを例示するフローチャートである。取得部2040は、学習データ50を取得する(S102)。学習部2060は、学習画像52を認識器2020に入力する(S104)。認識器2020は、入力された学習画像52に基づいて、ラベル30及び構造情報40を出力する(S106)。学習部2060は、認識器2020から出力されたラベル30及び構造情報40、並びに学習データ50に含まれる学習ラベル54及び学習構造情報56を用いて、認識器2020の学習を行う(S108)。
前述した様に、画像10に対応する構造情報40は、その画像10に含まれる群衆の構造を表す情報であり、少なくとも、群衆に含まれるオブジェクトの位置及び向きを示す。ここで、群衆に含まれるオブジェクトの位置と向きをデータとして表す方法には、種々の方法を採用できる。以下、その方法を具体的に例示する。
オブジェクトの位置は、そのオブジェクトを表す画像領域に基づき、様々な方法で定めることができる。例えばオブジェクトの位置は、そのオブジェクトを表す画像領域の所定の位置(中心位置や頂点など)で表される。ここで、「オブジェクトを表す画像領域」は、画像においてそのオブジェクト全体を表す画像領域であってもよいし、そのオブジェクトの一部を表す画像領域であってもよい。「オブジェクトの全体を表す画像領域」は、例えば、そのオブジェクトの輪郭で囲まれた画像領域や、そのオブジェクトの輪郭の外接矩形である。「オブジェクトの一部を表す画像領域」は、例えば、そのオブジェクトの所定の部位の輪郭で囲まれた画像領域や、その輪郭の外接矩形を表す画像領域である。所定の部位には、任意の部位を採用することができる。例えば、オブジェクトが人である場合、所定の部位には、顔、頭部、又は胴体などを採用することができる。その他にも例えば、オブジェクトが車である場合、所定の部位には、ボンネット、フロントグラス、又はナンバープレートなどを採用することができる。
オブジェクトの向きは、そのオブジェクトを表す画像領域の一部又は全体に基づき、様々な方法で定めることができる。例えばオブジェクトの向きは、そのオブジェクトを表す画像領域全体から定まる向きを表すベクトルで定められる。その他にも例えば、オブジェクトの向きは、そのオブジェクトの所定の部位の向きを表すベクトルとして定められる。ここで、上述したオブジェクトの向きを表すベクトルを、方向ベクトルと呼ぶ。方向ベクトルは、例えば、長さ1の単位ベクトルとする。
構造情報40は、対応する画像10に含まれる全てのオブジェクトそれぞれについて、その位置及び向きを示してもよいし、対応する画像10に含まれる一部のオブジェクトについて、その位置及び向きを示してもよい。後者の場合、例えば構造情報40は、対応する画像10に含まれるオブジェクトのうち、群衆を構成するオブジェクトのみについて、そのオブジェクトの位置及び向きを示す。例えば、群衆の種類として行列を想定する場合において、画像10に、行列を構成するオブジェクトと、その行列を構成しないオブジェクトの双方が含まれているとする。この場合、構造情報40が、行列を構成するオブジェクトについてのみその位置と向きを示し、行列を構成しないオブジェクトについてはその位置と向きを示さないようにする。また、構造情報40は、所定のサイズ以上であるなどといった所定の基準を満たすオブジェクトについてのみ、その位置及び向きを示すようにしてもよい。所定のサイズ以上であるオブジェクトについてのみその位置及び向きを示すようにすると、サイズが小さいオブジェクトの位置及び向きが構造情報40に含まれなくなる。
認識器2020は、入力された画像10について、画像10に含まれる群衆の種類を表すラベル30を出力する。また、少なくとも学習のフェーズにおいて、認識器2020は、構造情報40をさらに出力する。ここで、認識器2020のモデルとしては、ニューラルネットワーク(例えば、Convolutional Neural Network(CNN))など、一般的な機械学習で示される種々のモデルを採用することができる。
取得部2040は学習データ50を取得する。取得部2040が学習データ50を取得する方法は任意である。例えば認識器2020は、学習データ50が記憶されている記憶装置から学習データ50を取得する。学習データ50が記憶されている記憶装置は、情報処理装置2000の内部に設けられていてもよいし、外部に設けられていてもよい。その他にも例えば、取得部2040は、他の装置によって送信される学習データ50を受信することで、学習データ50を取得する。
学習部2060は、認識器2020の学習を行う。具体的には、学習部2060は、認識器2020に対して学習画像52を入力することで、学習画像52についてのラベル30及び構造情報40を得る。そして、学習部2060は、認識器2020から得られたラベル30及び構造情報40、並びに学習データ50に含まれる学習ラベル54及び学習構造情報56を用いて、認識器2020の学習(パラメータの更新)を行う。例えば認識器2020がニューラルネットワークで構成される場合、ニューラルネットワークの重みとバイアスの更新が行われる。
認識器2020によって出力される構造情報40は、前述した群衆を構成するオブジェクトの位置及び向き以外にも、群衆に関する種々の情報を含んでもよい。例えば構造情報40は、群衆を構成するオブジェクトの密度を表す情報(以下、密度情報)を含む。密度情報は、例えば、オブジェクトの密度の分布を表すマップである。オブジェクトの密度の分布を表すマップとは、画像10上の1つ以上の領域に、その領域におけるオブジェクトの密度を表す数値が重畳されたデータである。
1. 画像が入力されたことに応じて、その画像に含まれる群衆の種類を表すラベルと、その群衆の構造を表す構造情報とを出力する認識器と、
学習データを取得する取得部と、を有し、
前記学習データは、画像、並びにその画像を前記認識器に入力したことに応じて出力されるべき前記ラベル及び前記構造情報を含み、
前記学習データに含まれる画像を前記認識器に入力し、前記認識器から出力される前記ラベル及び前記構造情報、並びに前記学習データに含まれる前記ラベル及び前記構造情報を用いて、前記認識器の学習を行う学習部を有し、
前記構造情報は、前記画像に含まれるオブジェクトの位置及び向きを含む、情報処理装置。
2. 前記学習データの前記構造情報は、前記学習データの画像に含まれる群衆を構成するオブジェクトについてのみ、その位置及び向きを示す、1.に記載の情報処理装置。
3. 前記学習データの前記構造情報は、
前記オブジェクトの位置を、前記学習データの画像を分割して得られる複数の部分領域のうちの1つ以上に対応させて表し、
各前記部分領域について、その中に含まれる前記オブジェクトの向きを示す、1.又は2.に記載の情報処理装置。
4. 前記オブジェクトは人であり、
前記学習データの前記構造情報は、
前記学習データの画像に含まれる各前記オブジェクトの位置を、頭部の位置、人体の中心位置、頭部領域の位置、及び人体領域の位置のいずれかとして示し、
前記学習データの画像に含まれる各前記オブジェクトの向きを、頭部の向き、人体の向き、頭部領域の向き、及び人体領域の向きのいずれかとして示す、1.乃至3.いずれか一つに記載の情報処理装置。
5. 前記学習データの前記構造情報には、前記学習データの画像に含まれるオブジェクトについて、密度の分布を表す密度情報及び速度の分布を表す速度情報のいずれか1つ又は双方が含まれ、
前記認識器から出力される前記構造情報には、前記入力される画像におけるオブジェクトについて、前記密度情報及び前記速度情報のいずれか1つ又は双方が含まれる、
1.乃至4.いずれか一つに記載の情報処理装置。
6. 前記認識器は、学習時には前記構造情報を出力し、運用時には前記構造情報を出力しない、1.乃至5.いずれか一つに記載の情報処理装置。
7. 前記認識器はニューラルネットワークで構成され、
前記ニューラルネットワークは、前記ラベルを認識する第1のネットワークと、前記構造情報を認識する第2のネットワークとを含み、
前記第1のネットワークと前記第2のネットワークは1つ以上のノードを互いに共有する、1.乃至6.いずれか一つに記載の情報処理装置。
8. 前記学習データの前記構造情報には、前記学習データの画像に含まれる各前記オブジェクトの位置として、オブジェクトの位置を定める複数の方法それぞれによって定めた位置が含まれ、
前記認識器から出力される前記構造情報には、前記入力される画像に含まれる各前記オブジェクトの位置として、前記複数の方法それぞれに対応する位置が含まれる、1.乃至7.いずれか一つに記載の情報処理装置。
9. 前記学習データの前記構造情報には、前記学習データの画像に含まれる各前記オブジェクトの向きとして、オブジェクトの向きを定める複数の方法それぞれによって定めた向きが含まれ、
前記認識器から出力される前記構造情報には、前記入力される画像に含まれる各前記オブジェクトの向きとして、前記複数の方法それぞれに対応する向きが含まれる、1.乃至8.いずれか一つに記載の情報処理装置。
前記コンピュータは、画像が入力されたことに応じて、その画像に含まれる群衆の種類を表すラベルと、その群衆の構造を表す構造情報とを出力する認識器を有し、
当該制御方法は、学習データを取得する取得ステップを有し、
前記学習データは、画像、並びにその画像を前記認識器に入力したことに応じて出力されるべき前記ラベル及び前記構造情報を含み、
当該制御方法は、前記学習データに含まれる画像を前記認識器に入力し、前記認識器から出力される前記ラベル及び前記構造情報、並びに前記学習データに含まれる前記ラベル及び前記構造情報を用いて、前記認識器の学習を行う学習ステップを有し、
前記構造情報は、前記画像に含まれるオブジェクトの位置及び向きを含む、制御方法。
11. 前記学習データの前記構造情報は、前記学習データの画像に含まれる群衆を構成するオブジェクトについてのみ、その位置及び向きを示す、10.に記載の制御方法。
12. 前記学習データの前記構造情報は、
前記オブジェクトの位置を、前記学習データの画像を分割して得られる複数の部分領域のうちの1つ以上に対応させて表し、
各前記部分領域について、その中に含まれる前記オブジェクトの向きを示す、10.又は11.に記載の制御方法。
13. 前記オブジェクトは人であり、
前記学習データの前記構造情報は、
前記学習データの画像に含まれる各前記オブジェクトの位置を、頭部の位置、人体の中心位置、頭部領域の位置、及び人体領域の位置のいずれかとして示し、
前記学習データの画像に含まれる各前記オブジェクトの向きを、頭部の向き、人体の向き、頭部領域の向き、及び人体領域の向きのいずれかとして示す、10.乃至12.いずれか一つに記載の制御方法。
14. 前記学習データの前記構造情報には、前記学習データの画像に含まれるオブジェクトについて、密度の分布を表す密度情報及び速度の分布を表す速度情報のいずれか1つ又は双方が含まれ、
前記認識器から出力される前記構造情報には、前記入力される画像におけるオブジェクトについて、前記密度情報及び前記速度情報のいずれか1つ又は双方が含まれる、
10.乃至13.いずれか一つに記載の制御方法。
15. 前記認識器は、学習時には前記構造情報を出力し、運用時には前記構造情報を出力しない、10.乃至14.いずれか一つに記載の制御方法。
16. 前記認識器はニューラルネットワークで構成され、
前記ニューラルネットワークは、前記ラベルを認識する第1のネットワークと、前記構造情報を認識する第2のネットワークとを含み、
前記第1のネットワークと前記第2のネットワークは1つ以上のノードを互いに共有する、10.乃至15.いずれか一つに記載の制御方法。
17. 前記学習データの前記構造情報には、前記学習データの画像に含まれる各前記オブジェクトの位置として、オブジェクトの位置を定める複数の方法それぞれによって定めた位置が含まれ、
前記認識器から出力される前記構造情報には、前記入力される画像に含まれる各前記オブジェクトの位置として、前記複数の方法それぞれに対応する位置が含まれる、10.乃至16.いずれか一つに記載の制御方法。
18. 前記学習データの前記構造情報には、前記学習データの画像に含まれる各前記オブジェクトの向きとして、オブジェクトの向きを定める複数の方法それぞれによって定めた向きが含まれ、
前記認識器から出力される前記構造情報には、前記入力される画像に含まれる各前記オブジェクトの向きとして、前記複数の方法それぞれに対応する向きが含まれる、10.乃至17.いずれか一つに記載の制御方法。
Claims (19)
- 画像が入力されたことに応じて、その画像に含まれる群衆の種類を表すラベルと、その群衆の構造を表す構造情報とを出力する認識器と、
学習データを取得する取得部と、を有し、
前記学習データは、画像、並びにその画像を前記認識器に入力したことに応じて出力されるべき前記ラベル及び前記構造情報を含み、
前記学習データに含まれる画像を前記認識器に入力し、前記認識器から出力される前記ラベル及び前記構造情報、並びに前記学習データに含まれる前記ラベル及び前記構造情報を用いて、前記認識器の学習を行う学習部を有し、
前記構造情報は、前記画像に含まれるオブジェクトの位置及び向きを含む、情報処理装置。 - 前記学習データの前記構造情報は、前記学習データの画像に含まれる群衆を構成するオブジェクトについてのみ、その位置及び向きを示す、請求項1に記載の情報処理装置。
- 前記学習データの前記構造情報は、
前記オブジェクトの位置を、前記学習データの画像を分割して得られる複数の部分領域のうちの1つ以上に対応させて表し、
各前記部分領域について、その中に含まれる前記オブジェクトの向きを示す、請求項1又は2に記載の情報処理装置。 - 前記オブジェクトは人であり、
前記学習データの前記構造情報は、
前記学習データの画像に含まれる各前記オブジェクトの位置を、頭部の位置、人体の中心位置、頭部領域の位置、及び人体領域の位置のいずれかとして示し、
前記学習データの画像に含まれる各前記オブジェクトの向きを、頭部の向き、人体の向き、頭部領域の向き、及び人体領域の向きのいずれかとして示す、請求項1乃至3いずれか一項に記載の情報処理装置。 - 前記学習データの前記構造情報には、前記学習データの画像に含まれるオブジェクトについて、密度の分布を表す密度情報及び速度の分布を表す速度情報のいずれか1つ又は双方が含まれ、
前記認識器から出力される前記構造情報には、前記入力される画像におけるオブジェクトについて、前記密度情報及び前記速度情報のいずれか1つ又は双方が含まれる、
請求項1乃至4いずれか一項に記載の情報処理装置。 - 前記認識器は、学習時には前記構造情報を出力し、運用時には前記構造情報を出力しない、請求項1乃至5いずれか一項に記載の情報処理装置。
- 前記認識器はニューラルネットワークで構成され、
前記ニューラルネットワークは、前記ラベルを認識する第1のネットワークと、前記構造情報を認識する第2のネットワークとを含み、
前記第1のネットワークと前記第2のネットワークは1つ以上のノードを互いに共有する、請求項1乃至6いずれか一項に記載の情報処理装置。 - 前記学習データの前記構造情報には、前記学習データの画像に含まれる各前記オブジェクトの位置として、オブジェクトの位置を定める複数の方法それぞれによって定めた位置が含まれ、
前記認識器から出力される前記構造情報には、前記入力される画像に含まれる各前記オブジェクトの位置として、前記複数の方法それぞれに対応する位置が含まれる、請求項1乃至7いずれか一項に記載の情報処理装置。 - 前記学習データの前記構造情報には、前記学習データの画像に含まれる各前記オブジェクトの向きとして、オブジェクトの向きを定める複数の方法それぞれによって定めた向きが含まれ、
前記認識器から出力される前記構造情報には、前記入力される画像に含まれる各前記オブジェクトの向きとして、前記複数の方法それぞれに対応する向きが含まれる、請求項1乃至8いずれか一項に記載の情報処理装置。 - コンピュータによって実行される制御方法であって、
前記コンピュータは、画像が入力されたことに応じて、その画像に含まれる群衆の種類を表すラベルと、その群衆の構造を表す構造情報とを出力する認識器を有し、
当該制御方法は、学習データを取得する取得ステップを有し、
前記学習データは、画像、並びにその画像を前記認識器に入力したことに応じて出力されるべき前記ラベル及び前記構造情報を含み、
当該制御方法は、前記学習データに含まれる画像を前記認識器に入力し、前記認識器から出力される前記ラベル及び前記構造情報、並びに前記学習データに含まれる前記ラベル及び前記構造情報を用いて、前記認識器の学習を行う学習ステップを有し、
前記構造情報は、前記画像に含まれるオブジェクトの位置及び向きを含む、制御方法。 - 前記学習データの前記構造情報は、前記学習データの画像に含まれる群衆を構成するオブジェクトについてのみ、その位置及び向きを示す、請求項10に記載の制御方法。
- 前記学習データの前記構造情報は、
前記オブジェクトの位置を、前記学習データの画像を分割して得られる複数の部分領域のうちの1つ以上に対応させて表し、
各前記部分領域について、その中に含まれる前記オブジェクトの向きを示す、請求項10又は11に記載の制御方法。 - 前記オブジェクトは人であり、
前記学習データの前記構造情報は、
前記学習データの画像に含まれる各前記オブジェクトの位置を、頭部の位置、人体の中心位置、頭部領域の位置、及び人体領域の位置のいずれかとして示し、
前記学習データの画像に含まれる各前記オブジェクトの向きを、頭部の向き、人体の向き、頭部領域の向き、及び人体領域の向きのいずれかとして示す、請求項10乃至12いずれか一項に記載の制御方法。 - 前記学習データの前記構造情報には、前記学習データの画像に含まれるオブジェクトについて、密度の分布を表す密度情報及び速度の分布を表す速度情報のいずれか1つ又は双方が含まれ、
前記認識器から出力される前記構造情報には、前記入力される画像におけるオブジェクトについて、前記密度情報及び前記速度情報のいずれか1つ又は双方が含まれる、
請求項10乃至13いずれか一項に記載の制御方法。 - 前記認識器は、学習時には前記構造情報を出力し、運用時には前記構造情報を出力しない、請求項10乃至14いずれか一項に記載の制御方法。
- 前記認識器はニューラルネットワークで構成され、
前記ニューラルネットワークは、前記ラベルを認識する第1のネットワークと、前記構造情報を認識する第2のネットワークとを含み、
前記第1のネットワークと前記第2のネットワークは1つ以上のノードを互いに共有する、請求項10乃至15いずれか一項に記載の制御方法。 - 前記学習データの前記構造情報には、前記学習データの画像に含まれる各前記オブジェクトの位置として、オブジェクトの位置を定める複数の方法それぞれによって定めた位置が含まれ、
前記認識器から出力される前記構造情報には、前記入力される画像に含まれる各前記オブジェクトの位置として、前記複数の方法それぞれに対応する位置が含まれる、請求項10乃至16いずれか一項に記載の制御方法。 - 前記学習データの前記構造情報には、前記学習データの画像に含まれる各前記オブジェクトの向きとして、オブジェクトの向きを定める複数の方法それぞれによって定めた向きが含まれ、
前記認識器から出力される前記構造情報には、前記入力される画像に含まれる各前記オブジェクトの向きとして、前記複数の方法それぞれに対応する向きが含まれる、請求項10乃至17いずれか一項に記載の制御方法。 - 請求項10乃至18いずれか一項に記載の制御方法の各ステップをコンピュータに実行させるプログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2018/043003 WO2020105146A1 (ja) | 2018-11-21 | 2018-11-21 | 情報処理装置、制御方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2020105146A1 true JPWO2020105146A1 (ja) | 2021-10-07 |
JP7211428B2 JP7211428B2 (ja) | 2023-01-24 |
Family
ID=70774708
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020557084A Active JP7211428B2 (ja) | 2018-11-21 | 2018-11-21 | 情報処理装置、制御方法、及びプログラム |
Country Status (4)
Country | Link |
---|---|
US (3) | US20220012477A1 (ja) |
JP (1) | JP7211428B2 (ja) |
AR (1) | AR117141A1 (ja) |
WO (1) | WO2020105146A1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7121781B2 (ja) * | 2020-09-28 | 2022-08-18 | ソフトバンク株式会社 | 情報処理方法、プログラムおよび情報処理装置 |
JP7265672B2 (ja) * | 2020-09-28 | 2023-04-26 | ソフトバンク株式会社 | 情報処理方法、プログラムおよび情報処理装置 |
US11869246B2 (en) * | 2021-09-15 | 2024-01-09 | Here Global B.V. | Method and apparatus for crowd control maps |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014207991A1 (ja) * | 2013-06-28 | 2014-12-31 | 日本電気株式会社 | 教師データ生成装置、方法、プログラム、および群衆状態認識装置、方法、プログラム |
WO2017154655A1 (ja) * | 2016-03-07 | 2017-09-14 | 日本電気株式会社 | 群衆種類識別システム、群衆種類識別方法および群衆種類識別プログラムを記憶する記憶媒体 |
JP2018116692A (ja) * | 2017-01-13 | 2018-07-26 | キヤノン株式会社 | 人流解析装置およびシステム |
WO2018216648A1 (ja) * | 2017-05-22 | 2018-11-29 | 日本電気株式会社 | 群衆状態認識装置、学習方法および学習プログラム |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7139409B2 (en) * | 2000-09-06 | 2006-11-21 | Siemens Corporate Research, Inc. | Real-time crowd density estimation from video |
US8195598B2 (en) * | 2007-11-16 | 2012-06-05 | Agilence, Inc. | Method of and system for hierarchical human/crowd behavior detection |
US9208386B1 (en) * | 2012-01-09 | 2015-12-08 | The United States Of America As Represented By The Secretary Of The Navy | Crowd state characterization system and method |
GB2505501B (en) * | 2012-09-03 | 2020-09-09 | Vision Semantics Ltd | Crowd density estimation |
CN105654021B (zh) * | 2014-11-12 | 2019-02-01 | 株式会社理光 | 检测人群对目标位置关注度的方法及设备 |
US9989965B2 (en) * | 2015-08-20 | 2018-06-05 | Motionloft, Inc. | Object detection and analysis via unmanned aerial vehicle |
JP6336952B2 (ja) * | 2015-09-30 | 2018-06-06 | セコム株式会社 | 群衆解析装置 |
US11004209B2 (en) * | 2017-10-26 | 2021-05-11 | Qualcomm Incorporated | Methods and systems for applying complex object detection in a video analytics system |
US10599929B2 (en) * | 2018-01-04 | 2020-03-24 | Motionloft, Inc. | Event monitoring with object detection systems |
-
2018
- 2018-11-21 WO PCT/JP2018/043003 patent/WO2020105146A1/ja active Application Filing
- 2018-11-21 US US17/294,788 patent/US20220012477A1/en active Pending
- 2018-11-21 JP JP2020557084A patent/JP7211428B2/ja active Active
-
2019
- 2019-11-21 AR ARP190103419A patent/AR117141A1/es unknown
-
2023
- 2023-08-09 US US18/232,164 patent/US20230386242A1/en active Pending
- 2023-08-09 US US18/232,215 patent/US20230386243A1/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014207991A1 (ja) * | 2013-06-28 | 2014-12-31 | 日本電気株式会社 | 教師データ生成装置、方法、プログラム、および群衆状態認識装置、方法、プログラム |
WO2017154655A1 (ja) * | 2016-03-07 | 2017-09-14 | 日本電気株式会社 | 群衆種類識別システム、群衆種類識別方法および群衆種類識別プログラムを記憶する記憶媒体 |
JP2018116692A (ja) * | 2017-01-13 | 2018-07-26 | キヤノン株式会社 | 人流解析装置およびシステム |
WO2018216648A1 (ja) * | 2017-05-22 | 2018-11-29 | 日本電気株式会社 | 群衆状態認識装置、学習方法および学習プログラム |
Also Published As
Publication number | Publication date |
---|---|
US20220012477A1 (en) | 2022-01-13 |
US20230386243A1 (en) | 2023-11-30 |
AR117141A1 (es) | 2021-07-14 |
WO2020105146A1 (ja) | 2020-05-28 |
US20230386242A1 (en) | 2023-11-30 |
JP7211428B2 (ja) | 2023-01-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11967151B2 (en) | Video classification method and apparatus, model training method and apparatus, device, and storage medium | |
US10089556B1 (en) | Self-attention deep neural network for action recognition in surveillance videos | |
JP6889728B2 (ja) | 畳み込みニューラルネットワークにおける構造学習 | |
CN109145759B (zh) | 车辆属性识别方法、装置、服务器及存储介质 | |
CN111428765B (zh) | 一种基于全局卷积、局部深度卷积融合的目标检测方法 | |
CN110889672B (zh) | 一种基于深度学习的学生打卡及上课状态的检测系统 | |
US20180157902A1 (en) | Techniques for assessing group level cognitive states | |
WO2020052678A1 (en) | Method and system for generating synthetic point cloud data using a generative model | |
US20230386242A1 (en) | Information processing apparatus, control method, and non-transitory storage medium | |
KR20200118076A (ko) | 생체 검출 방법 및 장치, 전자 기기 및 저장 매체 | |
CN108053410A (zh) | 运动目标分割方法及装置 | |
WO2021184754A1 (zh) | 视频对比方法、装置、计算机设备和存储介质 | |
KR20220024986A (ko) | 타깃 추적 방법 및 장치, 저장 매체 및 컴퓨터 프로그램 | |
WO2022052782A1 (zh) | 图像的处理方法及相关设备 | |
CN115050064A (zh) | 人脸活体检测方法、装置、设备及介质 | |
WO2023279799A1 (zh) | 对象识别方法、装置和电子系统 | |
CN115346262A (zh) | 一种表情驱动参数的确定方法、装置、设备及存储介质 | |
CN110390226B (zh) | 人群事件识别方法、装置、电子设备及系统 | |
CN114399424A (zh) | 模型训练方法及相关设备 | |
CN109740527A (zh) | 一种视频帧中图像处理方法 | |
Molina-Cabello et al. | Neural controller for PTZ cameras based on nonpanoramic foreground detection | |
JP7239002B2 (ja) | 物体数推定装置、制御方法、及びプログラム | |
CN111539420B (zh) | 基于注意力感知特征的全景图像显著性预测方法及系统 | |
CN112287955A (zh) | 基于图像的处理、训练、前景提取方法、装置及系统 | |
Hristov et al. | Multi-view RGB-D System for Person Specific Activity Recognition in the context of holographic communication |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210512 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210512 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220712 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220829 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221213 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221226 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7211428 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |