WO2020044448A1 - 物体識別装置、物体識別方法およびプログラム記憶媒体 - Google Patents

物体識別装置、物体識別方法およびプログラム記憶媒体 Download PDF

Info

Publication number
WO2020044448A1
WO2020044448A1 PCT/JP2018/031853 JP2018031853W WO2020044448A1 WO 2020044448 A1 WO2020044448 A1 WO 2020044448A1 JP 2018031853 W JP2018031853 W JP 2018031853W WO 2020044448 A1 WO2020044448 A1 WO 2020044448A1
Authority
WO
WIPO (PCT)
Prior art keywords
feature
moving
moving object
apparent
image
Prior art date
Application number
PCT/JP2018/031853
Other languages
English (en)
French (fr)
Inventor
佐藤 秀昭
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to JP2020539910A priority Critical patent/JP7147854B2/ja
Priority to PCT/JP2018/031853 priority patent/WO2020044448A1/ja
Priority to US17/270,566 priority patent/US20210342584A1/en
Publication of WO2020044448A1 publication Critical patent/WO2020044448A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects

Definitions

  • the present invention relates to a technique for identifying a moving object detected in a captured image.
  • ⁇ ⁇ ⁇ Cameras are used to monitor and identify moving objects. For example, in the technique disclosed in Patent Literature 1, a temporal change is observed for each pixel of an image captured by a camera, and a moving object and a background are identified using the observation result. In the technique disclosed in Patent Literature 2, the type of a moving object is identified using the shape of the moving object in a captured image and the amount of movement of the moving object.
  • the type of the moving object is identified using the moving amount of the moving object in the captured image. Therefore, if the moving amount of the moving object in the captured image is different, the same moving object 110 is different. The moving object 110 is set. Since such a situation occurs, in the technique of Patent Document 2, the identification accuracy of the moving object 110 is reduced.
  • a main object of the present invention relates to a process for identifying a moving object in a captured image, with high accuracy even from a moving object whose area in the captured image fluctuates by moving in a perspective direction with respect to the imaging device. It is to provide a technology that can be identified.
  • one aspect of the object identification device is: An apparent feature generating unit that extracts an apparent feature as an apparent feature from an image of the moving object in the captured image; A moving feature generation unit that normalizes a moving amount of the moving object in the captured image and calculates a value obtained by the normalization as a moving feature; A feature combining unit that combines the apparent feature and the moving feature; Identification means for identifying the moving object using information obtained by the feature combining unit.
  • One aspect of the object identification method is as follows. By computer Extracting apparent features as apparent features from the image of the moving object in the captured image, Normalize the moving amount of the moving object in the captured image and calculate a value obtained by the normalization as a moving feature, Combining the apparent feature and the moving feature, The moving object is identified using information obtained by combining the apparent feature and the moving feature.
  • one embodiment of the program storage medium is: A process of extracting an apparent feature as an apparent feature from the image of the moving object in the captured image; A process of normalizing the moving amount of the moving object in the captured image and calculating a value obtained by the normalization as a moving feature; A process of combining the apparent feature and the moving feature; A computer program for causing a computer to execute a process of identifying the moving object using information obtained by combining the apparent features and the moving features is stored.
  • a moving object whose area in the captured image varies by moving in a perspective direction with respect to the imaging device can be identified from the captured image with high accuracy.
  • FIG. 7 is a diagram illustrating a difference in the moving amount of the moving object in the captured image due to a difference in the distance from the camera to the moving object.
  • 1 is a block diagram illustrating a configuration of an object identification device according to a first embodiment of the present invention.
  • FIG. 5 is a diagram illustrating a method for calculating a movement feature according to the first embodiment. 5 is a flowchart illustrating an example of an operation of identifying a moving object in the object identification device of the first embodiment. It is a figure explaining the calculation method of the movement feature in a 2nd embodiment.
  • FIG. 2 is a block diagram conceptually showing the configuration of the object identification device of the first embodiment according to the present invention.
  • the object identification device 1 according to the first embodiment includes a reception unit 10, a foreground extraction unit 20, an apparent feature generation unit 30, a movement feature generation unit 40, a feature combination unit 50, a feature amount storage unit 60, a dictionary,
  • the storage device includes a storage unit 70, an identification unit 80, and a presentation unit 90.
  • the receiving unit 10 acquires (receives) a captured image (moving image or still image) captured using an imaging device such as a video camera from an imaging device or a storage device storing the captured image.
  • an imaging device such as a video camera
  • the foreground extraction unit 20 has a function of separating the captured image received by the reception unit 10 into a foreground area and a background area.
  • a technique used in the process of separating the foreground and the background for example, there is a technique of background subtraction, a technique using an optical flow, and the like.
  • the apparent feature generation unit 30 has a function of extracting an apparent feature of the object as an apparent feature from the image of the object included in the foreground area obtained by the foreground extraction unit 20.
  • a method used in the feature extraction processing for example, a feature extraction method using a neural network, a method of extracting gradient information or Hog (Histograms of Oriented Gradients) as a feature amount, or a Haar-Like feature amount is extracted. There are methods. Note that the captured image from which the apparent feature generation unit 30 extracts the apparent feature need not be all the captured images on which the foreground extraction unit 20 has performed the processing.
  • the moving feature generation unit 40 uses the image of the foreground area obtained by the foreground extraction unit 20 to generate information (moving features) related to the movement of a moving object (for example, a flying object such as a drone, a car, or a bird). It has a function to calculate.
  • FIG. 3 is a diagram illustrating an example of a process for calculating a movement feature. An example of a method of calculating a moving feature by the moving feature generating unit 40 will be described below with reference to FIG.
  • the frames D10, D11, and D12 shown in FIG. 3 are temporally continuous frames in a captured image (moving image), and are arranged in chronological order.
  • the moving feature generation unit 40 uses, for example, the foreground region D10a of the frame D10 (T-1 frame) and the foreground region D11a of the frame D11 (T frame) obtained by the foreground extraction unit 20 to generate an image of the moving object. Is calculated. Then, the movement feature generation unit 40 normalizes the calculated movement amount V using the rectangular areas S10 and S11 of the foreground regions D10a and D11a, and generates (calculates) the value M obtained by the normalization as the movement feature. ). Specifically, for example, the movement feature generation unit 40 calculates a value M obtained by normalizing the movement amount according to Expression (1).
  • the movement feature generation unit 40 may calculate a value M obtained by normalizing the movement amount according to Expression (2).
  • M V / (S10 / S11) (2)
  • V in Expressions (1) and (2) represents a moving amount of the moving object in the captured image
  • M represents a value obtained by normalizing the moving amount V.
  • S10 represents the area (or number of pixels) of the foreground area D10a in the captured image
  • S11 represents the area (or number of pixels) of the foreground area D11a in the captured image.
  • the moving object in the perspective direction with respect to the imaging device changes even for the same moving object. Therefore, as described above, by normalizing the moving amount of the moving object in the captured image using the area of the moving object in the captured image, the moving amount of the moving object in the perspective direction with respect to the imaging device is A moving feature absorbing variations in the distance to the imaging device is obtained.
  • the frame used by the moving feature generation unit 40 for calculating the moving feature does not need to be a temporally continuous frame. Further, the number of frames used by the moving feature generation unit 40 for calculating the moving feature may be three or more. Further, when calculating the value M by normalizing the movement amount according to the equation (1), the square root of the sum of the areas of the foreground regions in a plurality of frames is used. Instead, the movement amount V may be normalized using the average value, the median value, or the square root of the median value of the area of the foreground region in a plurality of frames.
  • the movement feature generation unit 40 sets a plurality of groups of a plurality of frames (for example, two frames) in, for example, four or more frames, and sets a value M obtained by normalizing the movement amount for each group. After calculating, the average, variance, median value, representative value, sum value, and the like of the calculated values M may be calculated as the moving feature.
  • the value M for each group for example, as described above, the area ratio of the foreground area in a plurality of frames, the square root of the area sum, the average value of the areas, the median value, the square root of the median, and the like are used. Used.
  • the feature combining unit 50 has a function of combining the apparent features (apparent features) of the object extracted by the apparent feature generating unit 30 and the moving features calculated by the moving feature generating unit 40.
  • the information obtained by the combination is represented by a form in which an apparent feature is represented as a vector and a moving feature is combined at the end of the vector, or a graph structure.
  • the feature storage unit 60 stores the information obtained by the feature combining unit 50 as the feature of the moving object.
  • the dictionary storage unit 70 stores a dictionary as an identification model learned using information stored in the feature amount storage unit 60.
  • As the identification model a model appropriately selected in consideration of the resolution of the captured image, the device performance, and the like is adopted from a plurality of types of models such as a neural network and a support vector machine.
  • the dictionary is stored in the dictionary storage unit 70.
  • the identification unit 80 refers to the model stored in the dictionary storage unit 70, and uses the information obtained by the feature combining unit 50 on the moving object imaged in the captured image to determine the type of the moving object in the captured image. It has a function to identify
  • the presenting unit 90 presents the result of the identifying unit 80 to the user.
  • the feature storage unit 60 and the dictionary storage unit 70 are realized by the storage device 4 such as a magnetic disk device or a semiconductor memory.
  • the foreground extraction unit 20, the apparent feature generation unit 30, the movement feature generation unit 40, the feature connection unit 50, and the identification unit 80 are controlled by a control including a processor such as a CPU (Central Processing Unit) or a GPU (Graphics Processing Unit).
  • a processor such as a CPU (Central Processing Unit) or a GPU (Graphics Processing Unit).
  • the processor of the control device 3 executes the computer program read from the storage device 4 to execute the foreground extracting unit 20, the apparent feature generating unit 30, the moving feature generating unit 40, the feature combining unit 50, and the identifying unit 80.
  • the storage device 4 such as a magnetic disk device or a semiconductor memory.
  • the foreground extraction unit 20, the apparent feature generation unit 30, the movement feature generation unit 40, the feature connection unit 50, and the identification unit 80 are controlled by a control including a processor such as a CPU (Central Processing Unit) or
  • the method by which the presentation unit 90 presents the result of the identification unit 80 is not particularly limited as long as the user can understand the identification result of the moving object, but examples of the presentation method include a presentation method using voice using a speaker, There are a presentation method by displaying characters, photographs, and the like using a display, and a method combining a plurality of such presentation methods.
  • FIG. 4 is a flowchart illustrating an example of a process of processing in which the object identification device 1 identifies a moving object.
  • the receiving unit 10 acquires a captured image from an imaging device such as a camera or an external storage device (Step S101).
  • the foreground extraction unit 20 divides the captured image obtained through the reception unit 10 into a foreground region and a background region, and extracts a foreground region from the captured image (Step S102).
  • the apparent feature generation unit 30 extracts an apparent feature from the image of the moving object in the foreground area obtained by the foreground extraction unit 20 (Step S103).
  • the moving feature generation unit 40 can extract a moving object from a plurality of captured images having the same imaging range and different imaging times. It is determined whether or not this is the case (step S104). If the moving object cannot be extracted, the object identification device 1 performs the operation after step S101 again. If the moving object can be extracted, the moving feature generation unit 40 extracts the moving object from the image of the foreground area obtained by the foreground extraction unit 20 (Step S105). Then, the moving feature generation unit 40 extracts a moving feature from the extracted image of the moving object (Step S106).
  • the feature combining unit 50 determines whether the apparent feature and the moving feature have been extracted by the apparent feature generating unit 30 and the moving feature generating unit 40 for a plurality of frames (captured images) designated as the processing target. (Step S107). If not extracted, the object identification device 1 performs the operation after step S101 again. If extracted, the feature combining unit 50 combines the apparent features and the moving features in the plurality of frames (captured images) to be processed (step S108), and stores the information obtained by the combining in the feature amount storage unit. Stored in 60.
  • the identification unit 80 refers to the dictionary in the dictionary storage unit 70 and uses the information obtained by the feature combining unit 50 on the moving object imaged in the captured image to determine the type of the moving object in the captured image. Is identified (step S109).
  • the presentation unit 90 presents the identification result by the identification unit 80 to the user (Step S110).
  • the object identification device 1 and the object identification method executed by the object identification device 1 according to the first embodiment can be applied to a moving image in which the area of the captured image changes by moving in the perspective direction with respect to the imaging device. Can be identified with high accuracy.
  • the reason is that, in the object identification device 1 and the object identification method of the first embodiment, the movement amount of the moving object in the captured image is normalized by using the area of the moving object, whereby This is because variations in the distance between the moving object that is moving and the imaging device are absorbed.
  • the object identification device 1 of the first embodiment uses the fact that the physical size of the moving object does not change, and treats the size of the moving object appearing in the captured image like a ruler.
  • the method by which the moving feature generation unit 40 calculates the moving feature is different from that in the first embodiment.
  • Other configurations of the object identification device 1 of the second embodiment are the same as those of the first embodiment.
  • FIG. 5 is a diagram for explaining a method of calculating a moving feature according to the second embodiment.
  • the frames D20, D21, D22, D23, and D24 shown in FIG. 5 are temporally continuous frames in a captured image (moving image) and are arranged in chronological order.
  • the moving feature generation unit 40 extracts the foreground regions D20a to D24a detected by the foreground extraction unit 20 from the specified number of frames (N (5 in the example of FIG. 5)) of frames D20 to be processed. And an image D30 including all of them is generated. Further, the moving feature generation unit 40 calculates the normalized moving amount of the moving object in the captured image as a moving feature by converting the generated image D30 into the moving amount normalized image D40. This feature is generated as a feature that absorbs the difference in distance between the imaging device and the moving object. Note that N, which is the number of frames to be processed, is appropriately set in consideration of the state of the range imaged by the imaging device.
  • the size of the horizontal width of the moving amount normalized image D40 is WD40
  • the size of the vertical width is HD40
  • n an integer equal to a half of the number N of frames to be processed
  • i an integer greater than ⁇ n and equal to or smaller than n
  • the moving feature is calculated by normalizing the image size by the moving feature generation unit 40, and the movement in the captured image is performed using the moving feature. Identify the object.
  • the same effects as those obtained by the object identification device 1 and the object identification method of the first embodiment can be obtained.
  • the object identification device 1 and the object identification method described in the first and second embodiments can be applied to, for example, monitoring of drones and birds required for operation management of flying objects such as drones in physical distribution.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

撮像画像における移動物体を識別する処理に関し、撮像装置に対して遠近方向に移動することによって撮像画像における面積が変動する移動物体であっても撮像画像から高い精度で識別するために、物体識別装置1は、見かけ特徴生成部30と、移動特徴生成部40と、特徴結合部50と、識別部80とを備える。見かけ特徴生成部30は、撮像画像における移動物体の画像から見かけ上の特徴を見かけ特徴として抽出する。移動特徴生成部40は、撮像画像における移動物体の移動量を正規化し当該正規化により得られた値を移動特徴として算出する。特徴結合部50は、見かけ特徴と移動特徴を結合する。識別部80は、特徴結合部50により得られた情報を利用して移動物体を識別する。

Description

物体識別装置、物体識別方法およびプログラム記憶媒体
 本発明は、撮像画像において検知された移動物体を識別する技術に関する。
 移動物体を監視・識別するためにカメラが利用されている。例えば、特許文献1に開示されている技術では、カメラで撮像した画像の各ピクセルについて、時間的な変化が観測され、この観察結果を利用して、移動物体と背景が識別されている。特許文献2に開示されている技術では、撮像画像における移動物体の形状や、移動物体の移動量を用いて、移動物体の種類が識別されている。
特開2007-323572号公報 特開平8-106534号公報 特開2011-192090号公報 特開2006-318064号公報
 特許文献1の技術では、移動物体と背景の識別は可能だが、移動物体の種類は識別されていない。特許文献2の技術では、移動物体の種類は識別されているが、設置したカメラから移動物体までの距離が考慮されていないため、次のような理由により移動物体の識別精度が低くなってしまう。すなわち、図1に示されるように、カメラ120から移動物体110までの距離L1,L2が異なると、同様な速度かつ移動経路で移動している同じ移動物体110(例えば鳥)をカメラ120が撮像しているのにも拘わらず、カメラ120の撮像画像A,Bにおける移動物体110の移動量が異なる。特許文献2の技術では、撮像画像における移動物体の移動量を利用して移動物体の種類が識別されるため、撮像画像における移動物体の移動量が異なると、同じ移動物体110であっても異なる移動物体110とされる。このような事態が生じることから、特許文献2の技術では、移動物体110の識別精度が低くなってしまう。
 本発明の主な目的は、撮像画像における移動物体を識別する処理に関し、撮像装置に対して遠近方向に移動することによって撮像画像における面積が変動する移動物体であっても撮像画像から高い精度で識別できる技術を提供することである。
 上記目的を達成するために、物体識別装置の一態様は、
 撮像画像における移動物体の画像から見かけ上の特徴を見かけ特徴として抽出する見かけ特徴生成部と、
 前記撮像画像における前記移動物体の移動量を正規化し当該正規化により得られた値を移動特徴として算出する移動特徴生成部と、
 前記見かけ特徴と前記移動特徴を結合する特徴結合部と、
 前記特徴結合部により得られた情報を利用して前記移動物体を識別する識別手段と
を備える。
 また、物体識別方法の一態様は、
 コンピュータによって、
 撮像画像における移動物体の画像から見かけ上の特徴を見かけ特徴として抽出し、
 前記撮像画像における前記移動物体の移動量を正規化し当該正規化により得られた値を移動特徴として算出し、
 前記見かけ特徴と前記移動特徴を結合し、
 前記見かけ特徴と前記移動特徴の結合により得られた情報を利用して前記移動物体を識別する。
 さらに、プログラム記憶媒体の一態様は、
撮像画像における移動物体の画像から見かけ上の特徴を見かけ特徴として抽出する処理と、
 前記撮像画像における前記移動物体の移動量を正規化し当該正規化により得られた値を移動特徴として算出する処理と、
 前記見かけ特徴と前記移動特徴を結合する処理と、
 前記見かけ特徴と前記移動特徴の結合により得られた情報を利用して前記移動物体を識別する処理と
をコンピュータに実行させるコンピュータプログラムを記憶する。
 本発明によれば、撮像画像における移動物体を識別する処理に関し、撮像装置に対して遠近方向に移動することによって撮像画像における面積が変動する移動物体であっても撮像画像から高い精度で識別できる。
カメラから移動物体までの距離の差異による撮像画像での移動物体の移動量の差異を説明する図である。 本発明に係る第1実施形態の物体識別装置の構成を示すブロック図である。 第1実施形態での移動特徴の算出手法を説明する図である。 第1実施形態の物体識別装置における移動物体を識別する動作の一例を示すフローチャートである。 第2実施形態での移動特徴の算出手法を説明する図である。
 以下に、本発明に係る実施形態について図面を参照して説明する。
 <第1実施形態>
 図2は、本発明に係る第1実施形態の物体識別装置の構成を概念的に示すブロック図である。第1実施形態の物体識別装置1は、受信部10と、前景抽出部20と、見かけ特徴生成部30と、移動特徴生成部40と、特徴結合部50と、特徴量記憶部60と、辞書記憶部70と、識別部80と、提示部90とを備える。
 受信部10は、例えば、ビデオカメラ等の撮像装置を用いて撮像した撮像画像(動画や静止画)を、撮像装置や、撮像画像を格納している記憶装置から取得(受信)する。
 前景抽出部20は、受信部10により受信された撮像画像を、前景領域と背景領域に分離する機能を備える。前景と背景に分離する処理で利用する手法としては、例えば、背景差分の手法や、オプティカルフローを利用した手法などがある。
 見かけ特徴生成部30は、前景抽出部20により得られた前景領域に含まれる物体の画像から、物体の見かけ上の特徴を見かけ特徴として抽出する機能を備える。特徴を抽出する処理で利用する手法としては、例えば、ニューラルネットワークによる特徴抽出の手法や、勾配情報やHog(Histograms of Oriented Gradients)を特徴量として抽出する手法や、Haar-Like特徴量を抽出する手法などがある。なお、見かけ特徴生成部30が見かけ特徴を抽出する撮像画像は、前景抽出部20が処理を実行した全ての撮影画像でなくともよい。
 移動特徴生成部40は、前景抽出部20により得られた前景領域の画像を用いて、移動物体(例えばドローン等の飛行体や、車や、鳥)の移動に関連する情報(移動特徴)を算出する機能を備える。図3は、移動特徴を算出する処理の一例を説明する図である。図3を利用して、移動特徴生成部40による移動特徴の算出手法の一例を以下に説明する。なお、図3に表されているフレームD10,D11,D12は、撮像画像(動画)における時間的に連続しているフレームであり、時間順に配置されている。
 移動特徴生成部40は、例えば、前景抽出部20により得られたフレームD10(T-1フレーム)の前景領域D10aとフレームD11(Tフレーム)の前景領域D11aを用いて、移動物体の撮像画像での移動量Vを算出する。そして、移動特徴生成部40は、算出した移動量Vを、前景領域D10a,D11aの矩形の面積S10,S11を利用して正規化し、正規化により得られた値Mを移動特徴として生成(算出)する。具体的には、例えば、移動特徴生成部40は、数式(1)に従って、移動量を正規化した値Mを算出する。
M=V/(S10+S11)1/2 ・・・・・・ (1)
 あるいは、移動特徴生成部40は、数式(2)に従って、移動量を正規化した値Mを算出してもよい。
M=V/(S10/S11) ・・・・・・ (2)
 なお、数式(1)、(2)におけるVは移動物体の撮像画像での移動量を表し、Mは移動量Vを正規化した値を表す。また、S10は撮像画像における前景領域D10aの面積(あるいはピクセル数)を表し、S11は撮像画像における前景領域D11aの面積(あるいはピクセル数)を表す。
 移動物体が撮像装置に対して遠近方向に移動している場合には、同じ移動物体であっても撮像装置による撮像画像における移動物体の面積は変化する。このため、上述したように、撮像画像における移動物体の移動量を、撮像画像における移動物体の面積を利用して正規化することにより、撮像装置に対して遠近方向に移動している移動物体と撮像装置との間の距離の変動を吸収した移動特徴が得られる。
 なお、移動特徴生成部40が移動特徴の算出に利用するフレームは、時間的に連続したフレームでなくともよい。また、移動特徴生成部40が移動特徴の算出に利用するフレームの数は3以上であってもよい。さらに、数式(1)に従って移動量を正規化して値Mを算出する場合には、複数のフレームにおける前景領域の面積の和の平方根が利用されている。これに代えて、複数のフレームにおける前景領域の面積の平均値や、中央値や、中央値の平方根などが利用されて移動量Vが正規化されてもよい。さらにまた、移動特徴生成部40は、例えば4枚以上のフレームにおいて、複数のフレーム(例えば2枚のフレーム)から成るグループを複数グループ設定し、グループ毎に、移動量を正規化した値Mを算出し、さらに、それら算出した複数の値Mの平均や分散や中央値や代表値や合算値などを移動特徴として算出してもよい。グループ毎に値Mを算出する手法は、例えば、前述したような、複数のフレームにおける前景領域の面積比率や、面積和の平方根や、面積の平均値や中央値や、中央値の平方根などが利用される。ところで、飛行中の鳥は、羽ばたきや向きの変化などに起因して撮影画像における画像の面積が不規則に変化する。このように、撮像画像における移動物体の面積が変化する場合であっても、移動特徴の算出に利用するフレーム数の数を増加することにより、移動物体の画像の面積変化の影響が抑制された移動特徴が得られる。
 特徴結合部50は、見かけ特徴生成部30により抽出された物体の見かけ上の特徴(見かけ特徴)と、移動特徴生成部40により算出された移動特徴とを結合する機能を備える。例えば、その結合により得られた情報は、見かけ特徴をベクトルとして表し当該ベクトルの末尾に移動特徴を結合した態様や、グラフ構造により表される。
 特徴量記憶部60は、特徴結合部50により得られた情報を移動物体の特徴量として保持する。
 辞書記憶部70は、特徴量記憶部60に格納されている情報を利用して学習した識別モデルである辞書を格納している。識別モデルには、ニューラルネットワークやサポートベクトルマシン等の複数種のモデルの中から、撮像画像の解像度や装置性能などを考慮して適宜に選択されたモデルが採用され、当該採用された識別モデルによる辞書が辞書記憶部70に格納される。
 識別部80は、辞書記憶部70に格納されているモデルを参照し、撮像画像に撮像されている移動物体について特徴結合部50により得られた情報を利用して、撮像画像における移動物体の種類を識別する機能を備える。
 提示部90は、識別部80の結果を、ユーザに提示する。
 なお、特徴量記憶部60と辞書記憶部70は、磁気ディスク装置や半導体メモリ等の記憶装置4により実現される。また、前景抽出部20と見かけ特徴生成部30と移動特徴生成部40と特徴結合部50と識別部80は、例えば、CPU(Central Processing Unit)やGPU(Graphics Processing Unit)等のプロセッサを含む制御装置3により実現される。換言すれば、制御装置3のプロセッサは、記憶装置4から読み出したコンピュータプログラムを実行することにより、前景抽出部20と見かけ特徴生成部30と移動特徴生成部40と特徴結合部50と識別部80としての機能を持つことができる。さらに、提示部90が識別部80の結果を提示する手法は、ユーザが移動物体の識別結果を理解できれば特に限定されないが、提示手法の例を挙げると、スピーカーを利用した音声による提示手法や、ディスプレイを利用した文字や写真等の表示による提示手法や、そのような複数の提示手法を組み合わせた手法がある。
 次に、第1実施形態における物体識別装置1の動作例を図4を利用して説明する。図4は、物体識別装置1が移動物体を識別する処理の工程例を示すフローチャートである。
 例えば、受信部10は、カメラ等の撮像装置や外部の記憶装置から、撮像画像を取得する(ステップS101)。前景抽出部20は、受信部10を通して得られた撮像画像を前景領域と背景領域に分け、当該撮像画像から前景領域を抽出する(ステップS102)。見かけ特徴生成部30は、前景抽出部20により得られた前景領域における移動物体の画像から見かけ特徴を抽出する(ステップS103)。
 その後、移動特徴生成部40は、前景抽出部20により得られた前景領域および背景領域の画像情報を利用して、撮像範囲が同じ且つ撮影時間が異なる複数の撮像画像から、移動物体が抽出できるか否かを判断する(ステップS104)。移動物体を抽出できない場合には、物体識別装置1は、ステップS101以降の動作を再度行う。移動物体を抽出できる場合には、移動特徴生成部40は、前景抽出部20により得られた前景領域の画像から移動物体を抽出する(ステップS105)。そして、移動特徴生成部40は、抽出した移動物体の画像から移動特徴を抽出する(ステップS106)。
 そして、特徴結合部50は、処理対象として指定された複数枚のフレーム(撮像画像)について、見かけ特徴生成部30と移動特徴生成部40によって見かけ特徴と移動特徴が抽出されたか否かを判断する(ステップS107)。抽出されていない場合には、物体識別装置1は、ステップS101以降の動作を再度行う。抽出されている場合には、特徴結合部50は、処理対象の複数枚のフレーム(撮像画像)における見かけ特徴と移動特徴を結合し(ステップS108)、結合により得られた情報を特徴量記憶部60へ格納する。
 然る後に、識別部80は、辞書記憶部70の辞書を参照し、撮像画像に撮像されている移動物体について特徴結合部50により得られた情報を利用して、撮像画像の移動物体の種類を識別する(ステップS109)。提示部90は、識別部80による識別結果をユーザに提示する(ステップS110)。
 なお、ここで説明した処理の工程は一例であって、処理を実行する順番は適宜変更してもよい。
 -効果の説明-
 第1実施形態の物体識別装置1および物体識別装置1が実行する物体識別方法は、撮像装置に対して遠近方向に移動することによって撮像画像における面積が変動する移動物体であっても、撮像画像から高い精度で識別できる。その理由は、第1実施形態の物体識別装置1および物体識別方法では、撮像画像における移動物体の移動量を移動物体の面積を利用して正規化し、これにより、撮像装置に対して遠近方向に移動している移動物体と撮像装置との間の距離の変動を吸収するからである。言い換えれば、第1実施形態の物体識別装置1は、移動物体の物理的な大きさは変わらないことを利用して、撮像画像に写りこむ移動物体の大きさを物差しのように扱い、撮像装置に対して遠近方向に移動している移動物体と撮像装置の位置関係の違いを吸収する特徴を生成している。第1実施形態の物体識別装置1は、その特徴を利用して移動物体を識別するため、撮像画像における平面上の移動量だけでは判断できない物理的な移動量が等しい同一種類の物体を高い精度で識別できる。
 <第2実施形態>
 以下に、本発明に係る第2実施形態を説明する。なお、第2実施形態の説明において、第1実施形態の物体識別装置を構成する構成部分と同一名称部分には同一符号を付し、その共通部分の重複説明は省略する。
 第2実施形態では、移動特徴生成部40が移動特徴を算出する手法が第1実施形態とは異なっている。第2実施形態の物体識別装置1におけるそれ以外の構成は第1実施形態と同様である。
 図5は、第2実施形態における移動特徴を算出する手法を説明する図である。なお、図5に表されているフレームD20,D21,D22,D23,D24は、撮像画像(動画)における時間的に連続しているフレームであり、時間順に配置されている。
 移動特徴生成部40は、指定されている処理対象のフレーム数(N枚(図5の例では、5枚))のフレームD20~D24から、前景抽出部20により検知された前景領域D20a~D24aを切り出し、それらを全て含む画像D30を生成する。さらに、移動特徴生成部40は、生成した画像D30を移動量正規化画像D40に変換することにより、撮像画像における移動物体の正規化した移動量を移動特徴として算出する。この特徴は、撮像装置と移動物体との間の距離の違いを吸収する特徴として生成される。なお、処理対象のフレーム数であるNは、撮像装置により撮像される範囲の状況などを考慮して適宜に設定される。
 画像D30を移動量正規化画像D40に変換する手法の具体例を次に述べる。ここで、移動量正規化画像D40の横幅のサイズをWD40とし、縦幅のサイズをHD40とする。また、指定されている処理対象のフレーム数Nの2分の1の整数をnとした場合に、-nよりも大きく、かつ、n以下の範囲の整数である変数をiとする(-n<i≦n)。さらに、T+iフレームの撮像画像において、前景領域を囲む矩形の左上と右下の撮像画像における座標を,それぞれ(Xleft_i,Yleft_i),(Xright_i,Yright_i)とすると,全てのT+iフレームの撮像画像における前景領域を含む画像D30の横幅と縦幅のサイズWD30,HD30は、WD30=Max(Xright_i)-Min(Xleft_i),HD30=Max(Yleft_i)-Min(Yright_i)と表せる。
 移動特徴生成部40は、画像D30を移動量正規化画像D40に変換するために、T+iフレームの撮像画像における前景領域の横幅と縦幅のサイズに、横幅のスケール要素Sw=WD40/WD30、縦幅のスケール要素S=HD40/HD30を乗算する。これにより、移動特徴生成部40は、画像D30を移動量正規化画像D40に変換する。
 第2実施形態の物体識別装置1および物体識別方法は、上述したように移動特徴生成部40によって画像サイズを正規化することにより移動特徴を算出し、当該移動特徴を利用して撮像画像における移動物体を識別する。この第2実施形態の物体識別装置1および物体識別方法においても、第1実施形態の物体識別装置1および物体識別方法により得られる効果と同様の効果を得ることができる。
 第1と第2の実施形態で述べた物体識別装置1および物体識別方法は、例えば物流におけるドローン等の飛行体の運行管理に必要なドローンや鳥の監視に適用することができる。
 以上、上述した実施形態を模範的な例として本発明を説明した。しかしながら、本発明は、上述した実施形態には限定されない。即ち、本発明は、本発明のスコープ内において、当業者が理解し得る様々な態様を適用することができる。
 1 物体識別装置
 10 受信部
 20 前景抽出部
 30 見かけ特徴生成部
 40 移動特徴生成部
 50 特徴結合部
 60 特徴量記憶部
 70 辞書記憶部
 80 識別部
 90 提示部

Claims (5)

  1.  撮像画像における移動物体の画像から見かけ上の特徴を見かけ特徴として抽出する見かけ特徴生成手段と、
     前記撮像画像における前記移動物体の移動量を正規化し当該正規化により得られた値を移動特徴として算出する移動特徴生成手段と、
     前記見かけ特徴と前記移動特徴を結合する特徴結合手段と、
     前記特徴結合手段により得られた情報を利用して前記移動物体を識別する識別手段と
    を備える物体識別装置。
  2.  前記移動特徴生成手段は、前記撮像画像における前記移動物体の面積あるいは当該面積に応じた数値を利用して前記移動物体の移動量を正規化することにより前記移動特徴を算出する請求項1に記載の物体識別装置。
  3.  前記移動特徴生成手段は、複数の前記撮像画像からそれぞれ抽出した前記移動物体の画像を含む画像を生成し当該画像を正規化することにより前記移動物体の移動量を正規化する請求項1に記載の物体識別装置。
  4.  コンピュータによって、
     撮像画像における移動物体の画像から見かけ上の特徴を見かけ特徴として抽出し、
     前記撮像画像における前記移動物体の移動量を正規化し当該正規化により得られた値を移動特徴として算出し、
     前記見かけ特徴と前記移動特徴を結合し、
     前記見かけ特徴と前記移動特徴の結合により得られた情報を利用して前記移動物体を識別する
    物体識別方法。
  5.  撮像画像における移動物体の画像から見かけ上の特徴を見かけ特徴として抽出する処理と、
     前記撮像画像における前記移動物体の移動量を正規化し当該正規化により得られた値を移動特徴として算出する処理と、
     前記見かけ特徴と前記移動特徴を結合する処理と、
     前記見かけ特徴と前記移動特徴の結合により得られた情報を利用して前記移動物体を識別する処理と
    をコンピュータに実行させるコンピュータプログラムを記憶するプログラム記憶媒体。
PCT/JP2018/031853 2018-08-29 2018-08-29 物体識別装置、物体識別方法およびプログラム記憶媒体 WO2020044448A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2020539910A JP7147854B2 (ja) 2018-08-29 2018-08-29 物体識別装置、物体識別方法およびコンピュータプログラム
PCT/JP2018/031853 WO2020044448A1 (ja) 2018-08-29 2018-08-29 物体識別装置、物体識別方法およびプログラム記憶媒体
US17/270,566 US20210342584A1 (en) 2018-08-29 2018-08-29 Object recognition device, object recognition method, and program storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2018/031853 WO2020044448A1 (ja) 2018-08-29 2018-08-29 物体識別装置、物体識別方法およびプログラム記憶媒体

Publications (1)

Publication Number Publication Date
WO2020044448A1 true WO2020044448A1 (ja) 2020-03-05

Family

ID=69644930

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/031853 WO2020044448A1 (ja) 2018-08-29 2018-08-29 物体識別装置、物体識別方法およびプログラム記憶媒体

Country Status (3)

Country Link
US (1) US20210342584A1 (ja)
JP (1) JP7147854B2 (ja)
WO (1) WO2020044448A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011192090A (ja) * 2010-03-15 2011-09-29 Omron Corp ジェスチャ認識装置、ジェスチャ認識装置の制御方法、および、制御プログラム
JP2012088861A (ja) * 2010-10-18 2012-05-10 Secom Co Ltd 侵入物体検出装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8830360B1 (en) * 2010-08-25 2014-09-09 Sri International Method and apparatus for optimizing image quality based on scene content

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011192090A (ja) * 2010-03-15 2011-09-29 Omron Corp ジェスチャ認識装置、ジェスチャ認識装置の制御方法、および、制御プログラム
JP2012088861A (ja) * 2010-10-18 2012-05-10 Secom Co Ltd 侵入物体検出装置

Also Published As

Publication number Publication date
JPWO2020044448A1 (ja) 2021-08-10
US20210342584A1 (en) 2021-11-04
JP7147854B2 (ja) 2022-10-05

Similar Documents

Publication Publication Date Title
US11450146B2 (en) Gesture recognition method, apparatus, and device
JP6494253B2 (ja) 物体検出装置、物体検出方法、画像認識装置及びコンピュータプログラム
KR102068719B1 (ko) 이미지들 내의 움직임 검출
US9600898B2 (en) Method and apparatus for separating foreground image, and computer-readable recording medium
JP4613994B2 (ja) 動態推定装置、動態推定方法、プログラム
US9773192B2 (en) Fast template-based tracking
WO2016026371A1 (en) Fast object detection method based on deformable part model (dpm)
JP7192582B2 (ja) 物体追跡装置および物体追跡方法
JP2018022360A (ja) 画像解析装置、画像解析方法およびプログラム
JP2011134114A (ja) パターン認識方法およびパターン認識装置
KR102474837B1 (ko) 전경 추출 방법 및 장치
JP2021082316A5 (ja)
JP6217635B2 (ja) 転倒検知装置および転倒検知方法、転倒検知カメラ、並びにコンピュータ・プログラム
JP5656768B2 (ja) 画像特徴量抽出装置およびそのプログラム
JP6110174B2 (ja) 画像検出装置及び制御プログラム並びに画像検出方法
CN111292335A (zh) 一种前景掩模特征图的确定方法、装置及电子设备
KR101851492B1 (ko) 번호판 인식 방법 및 번호판 인식 장치
KR101542206B1 (ko) 코아스-파인 기법을 이용한 객체 추출과 추적 장치 및 방법
WO2020044448A1 (ja) 物体識別装置、物体識別方法およびプログラム記憶媒体
JP6289027B2 (ja) 人物検出装置及びプログラム
JP7253967B2 (ja) 物体対応付け装置、物体対応付けシステム、物体対応付け方法及びコンピュータプログラム
JP2017207960A (ja) 画像解析装置、画像解析方法およびプログラム
Depraz et al. Real-time object detection and tracking in omni-directional surveillance using GPU
JP2012226403A (ja) 画像領域追跡装置、画像領域追跡方法、および、コンピュータ・プログラム
KR101426039B1 (ko) 얼굴/물체 인식을 위한 특징점 검출 장치 및 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18931514

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2020539910

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18931514

Country of ref document: EP

Kind code of ref document: A1