WO2022202178A1 - 機械学習用の学習データ生成装置、学習データ生成システム及び学習データ生成方法 - Google Patents

機械学習用の学習データ生成装置、学習データ生成システム及び学習データ生成方法 Download PDF

Info

Publication number
WO2022202178A1
WO2022202178A1 PCT/JP2022/009062 JP2022009062W WO2022202178A1 WO 2022202178 A1 WO2022202178 A1 WO 2022202178A1 JP 2022009062 W JP2022009062 W JP 2022009062W WO 2022202178 A1 WO2022202178 A1 WO 2022202178A1
Authority
WO
WIPO (PCT)
Prior art keywords
learning data
unit
frame
data generation
video
Prior art date
Application number
PCT/JP2022/009062
Other languages
English (en)
French (fr)
Inventor
健斗 冨田
Original Assignee
株式会社日立国際電気
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社日立国際電気 filed Critical 株式会社日立国際電気
Priority to JP2023508880A priority Critical patent/JPWO2022202178A1/ja
Publication of WO2022202178A1 publication Critical patent/WO2022202178A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis

Definitions

  • the present invention relates to a device that generates learning data for machine learning in image analysis, and more particularly to a learning data generation device, a learning data generation system, and a learning data generation method that automate collection and annotation of learning data.
  • Non-Patent Documents 1 and 2 For the task of detecting an object (object detection task) with temporally continuous image data such as moving images and live images (hereinafter simply referred to as "video") as input, a machine learning-based The application of AI (Artificial Intelligence, hereinafter simply referred to as "AI”) is progressing (see Non-Patent Documents 1 and 2).
  • AI Artificial Intelligence
  • Supervised learning is often used as a method for learning AI.
  • training data is a pair of input (for example, image data) for a certain task and expected output value (teaching data) for that input. learn.
  • adding teacher data is called annotation, and estimating an output value for an input using a learned AI (learned model) is called inference.
  • object detection AI object detection tasks
  • inference accuracy such as objects that do not exist in the learning data exist in the actual operating environment. Therefore, in order to put AI into practical use, robustness against environmental differences and the ability to make correct inferences even for unknown inputs (generalization performance) are required.
  • Patent Document 1 discloses determining the category of an object from an image of the object.
  • the expected inference accuracy may not be obtained due to differences in the environment.
  • inference is performed for each frame, so there are cases where the target can be detected in one frame but the same target cannot be detected in another frame (missing the detection target). ) may occur.
  • the conventional technology has the problem that it takes time and effort to collect overlooked image data and annotate the collected image data in order to improve the accuracy of inference.
  • Patent Document 1 does not describe automating the work of collecting and annotating overlooked image data.
  • the present invention for solving the problems of the conventional example is a learning data generation device for generating learning data for machine learning in image analysis, comprising: an inference unit for inferring object detection in a video frame using a trained model; Detect missed video frames that have been missed due to failure of object detection by the trained model from multiple video frames inferred over time, and interpolate the detection results of the missed frames from the multiple video frames. It is characterized by having an interpolation unit and a generation unit that generates learning data using the interpolated detection result.
  • the interpolation unit acquires the identification number of the overlooked video frame, estimates the position and type of the object from a plurality of video frames over time, and the generation unit converts the identification number into
  • the method is characterized in that learning data is generated by associating the corresponding missed frame with the estimated position and type of the object.
  • the present invention provides, in the learning data generation device, a video data storage unit that stores a plurality of video frames over time, a learning data storage unit that stores the generated learning data, and an overlooked video detected by the interpolation unit. and a frame extraction unit for extracting the missed video frame based on the identification number of the frame and outputting it to the generation unit.
  • a learning data generation system is characterized by comprising the learning data generation device described above and a photographing device that captures a video and provides video frames to the learning data generation device.
  • the present invention is a learning data generation method for generating learning data for machine learning in image analysis, inferring object detection in video frames with a trained model, and learning from a plurality of inferred video frames over time. Detecting overlooked video frames that have been overlooked due to an object detection by a model, interpolating the detection results of the detected overlooked frames from a plurality of video frames, and generating learning data using the interpolated detection results. characterized by
  • a learning data generation device for generating learning data for machine learning in image analysis, comprising an inference unit for inferring object detection in a video frame using a trained model; An interpolating unit that detects missed video frames that have been missed due to object detection by a trained model from video frames, and interpolates detection results of the detected missed frames from a plurality of video frames; and interpolated detection results. and a generation unit that generates learning data using .
  • FIG. 3 is a flow chart showing a schematic process in this device;
  • FIG. 4 is an explanatory diagram showing an example of an image;
  • FIG. 11 is an explanatory diagram showing an example of video of an inference result by object detection AI;
  • FIG. 10 is an explanatory diagram showing an example of numerical data of an inference result by object detection AI;
  • FIG. 10 is an explanatory diagram showing an example of numerical data of detection results after interpolation;
  • FIG. 11 is an explanatory diagram showing an example of an image of an interpolated detection result;
  • It is a flow chart of interpolation processing.
  • FIG. 10 is an explanatory diagram showing an example of specifying a position based on one frame immediately before and after one frame;
  • FIG. 4 is an explanatory diagram showing an example of specifying a position based on several frames immediately before and after;
  • a learning data generation device (this device) according to an embodiment of the present invention generates learning data for machine learning in image analysis, and an inference unit detects an object in a video frame. is inferred by the learned model, and the interpolating unit detects missed video frames that have been missed due to object detection by the learned model from a plurality of inferred video frames over time, and detects the missed video frames. Frame detection results are interpolated from multiple video frames over time, and the generator generates learning data using the interpolated detection results. It improves the work efficiency of creation.
  • FIG. 1 is a schematic diagram of the configuration of this device.
  • the apparatus 1 is implemented by an information processing apparatus such as a computer, and basically comprises a control section 10 and a storage section 20. As shown in FIG. 1, the apparatus 1 is implemented by an information processing apparatus such as a computer, and basically comprises a control section 10 and a storage section 20. As shown in FIG.
  • the control unit 10 includes a video acquisition unit 11, an object detection unit 12, a missed frame extraction unit 13, and a learning data generation unit .
  • the storage unit 20 also includes a video data storage unit 21 , a detection result storage unit 22 , and a learning data storage unit 23 . Each part will be specifically described below.
  • Video acquisition unit 11 The video acquisition unit 11 reads video frames (video data/image data) over time from the video data storage unit 21 of the storage unit 2 and outputs them to the object detection unit 12 .
  • the object detection unit 12 performs object detection inference processing on input video data using an AI trained model, detects missing frames, and performs interpolation processing.
  • the object detection unit 12 includes an inference unit 121 and an interpolation unit 122 .
  • the processing by the inference unit 121 and the processing by the interpolation unit 122 may be performed in parallel, or the processing by the interpolation unit 122 may be performed after the processing by the inference unit 121 .
  • the inference unit 121 performs inference by object detection AI, and infers the position and type of an object for each frame of video using a learned object detection AI (learned model). .
  • object detection AI learned model
  • a method/algorithm for detecting an object it is possible to arbitrarily select from publicly known ones as long as they are based on machine learning. Examples include YOLO (You Only Look Once/see Non-Patent Document 1) and SSD (Single Shot MultiBox Detector/see Non-Patent Document 2).
  • the interpolation unit 122 performs interpolation processing of the inference result of the inference unit 121, and uses a method/algorithm that can be interpolated when the object detection AI misses an inference by the object detection AI. Interpolate the result. That is, it estimates the position and type of an object missed by the object detection AI.
  • one or more of known ones can be arbitrarily selected as long as it utilizes the temporal context (passage of time) in the inference results of video or object detection AI.
  • Examples include tracking using the Kanade-Lucas-Tomasi algorithm (Carlo Tomasi, Takeo Kanade, “Detection and Tracking of Point Features,” Technical Report CMU-CS-91-132, April 1991), Kalman filter (Rudolf Emil Kalman, “On the general theory of control systems,” Proc. the 1st IFAC World Congress, August 1960.).
  • the object detection unit 12 records the following information for each object in each video frame only for those that have been overlooked by the object detection AI and interpolated by interpolation processing.
  • the first is the frame number, which is the identification information of the frame.
  • frame time information may be used instead of the frame number as the frame identification information.
  • the second is the information of the bounding box, which is the positional information of the detected object.
  • This information represents the position of an object within a video frame, and is a set of coordinate values (for example, left edge, top edge, right edge, bottom edge, etc.) indicating the object area.
  • the missed frame extraction unit 13 extracts from the video data storage unit 21 the video frame corresponding to the frame number (or time) that is the identification information of the first frame recorded by the object detection unit 12. and outputs the extracted video frames to the learning data generation unit 14 .
  • the learning data generation unit 14 annotates overlooked objects in missed video frames, and stores missed video frames input from the missed frame extraction unit 13 in the detection result storage unit 22.
  • the detection result is used as the teacher data as it is, and the set of the overlooked video frame and the teacher data is stored in the learning data storage unit 23 as learning data for re-learning.
  • the video data storage unit 21 stores video frames over time, and each video frame is given a frame number, a shooting time, or both.
  • the video frames in the video data storage unit 21 are read by the video acquisition unit 11, and the video frames to be interpolated by access from the missed frame extraction unit 13 are read based on the corresponding frame number or time.
  • the detection result storage unit 22 stores the detection result of the inference unit 121 of the object detection unit 12 and the interpolation result (interpolation content) of the interpolation unit 122 . Further, the detection result storage unit 22 outputs an interpolation result that becomes teacher data upon access from the learning data generation unit 14 . Acquisition processing of teacher data will be described later.
  • the learning data storage unit 23 stores missed video frames and teacher data output from the learning data generation unit 14 as learning data.
  • the learning data stored in the learning data storage unit 23 becomes learning data for re-learning.
  • a learning data generation system (this system) is constructed by connecting a photographing device such as a camera for photographing to the device 1 and storing video data photographed by the photographing device in the video data storage unit 21 of the storage unit 2. may be configured.
  • the first condition is that there is no occluder between the object and the camera.
  • the second condition is that objects do not overlap or contact each other.
  • the third condition is that the speed of the object is constant or the change in speed of the object is sufficiently small relative to the number of frames per second of the image.
  • FIG. 2 is a flowchart showing a schematic processing in this device.
  • the inference unit 121 of the object detection unit 12 performs inference processing for object detection (S1). (S2).
  • the overlooked frame extracting unit 13 extracts the video frame in which the overlooked object has been interpolated from the video data storage unit 21 by frame number or the like (S3). Furthermore, the overlooked video frame extracted by the learning data generation unit 14 and the corresponding detection result are acquired from the detection result storage unit 22, the detection result is used as teacher data, and learning data is generated by combining the missed video frame and the teacher data. (S4), the process ends.
  • the apparatus 1 can automate the detection of missed video frames in which the detection object is interpolated by the interpolator 122, and can also automate annotation using the inference results of the temporally preceding and succeeding frames of the missed video frames. It is.
  • FIG. 3 is an explanatory diagram showing an example of an image
  • FIG. 4 is an explanatory diagram showing an example of an inference result by the object detection AI
  • FIG. 5 is an explanation showing an example of numerical data of the inference result by the object detection AI
  • FIG. 6 is an explanatory diagram showing an example of numerical data of the detection result after interpolation
  • FIG. 7 is an explanatory diagram showing an example of video of the interpolated detection result.
  • FIG. 3 shows an example of an image for object detection, which is an image consisting of 5 frames, and is an image of a car traveling at a constant speed in front of a building in the background. Inference is performed on the image in FIG. 3 by the learned object detection AI that has learned cars in advance, and the bounding box (1) obtained as the inference result is superimposed on the image and displayed in FIG. .
  • FIG. 5 shows the inference results shown in FIG. 4 as numerical data in tabular form. Each row of the table in FIG. 5 represents information about each detected object.
  • FIG. 6 shows the results of interpolation processing performed on the inference results of the object detection AI.
  • the row surrounded by a thick frame is the interpolated detection result (2).
  • FIG. 7 shows the interpolated detection result (2) superimposed on the image.
  • the bounding box (1) properly overlaps the car area in the frame and the interpolation process works ideally in this example. Based on the above, the image of frame number 3 was obtained as the missed frame, and the interpolated detection result was obtained. This is used as learning data for learning.
  • FIG. 8 is a flowchart of interpolation processing. Although various methods and algorithms can be applied to the contents of the interpolation processing, FIG. 8 shows a simple example.
  • the interpolation processing algorithm compares the frame numbers with the inference results in ascending order, and if there is no detection result for a certain frame number (that is, there is an oversight), interpolation is performed based on the detection results of the preceding and succeeding frames.
  • the i-th frame is collated, and it is determined whether or not there is a detection result in that frame (S14). If there is no detection result in determination processing S14 (No), it is regarded as a missed frame candidate. If there is a detection result in determination processing S14 (Yes), the frame number is incremented (S15), and the process returns to determination processing S13.
  • a process is performed to verify whether a frame that is a candidate for a missed frame is actually a missed frame (that is, is it not detected in that frame even though it was detected in the previous frame and the next frame) (S16).
  • the bounding box of the object is set to the average value of the previous frame and the next frame, and the class of the object is set to the value of the previous frame.
  • the frame number is incremented (S18), and the process returns to the determination process S13.
  • FIG. 9 is an explanatory diagram showing an example of specifying a position based on one frame immediately before and after
  • FIG. 10 is an explanatory diagram showing an example of specifying a position based on several frames immediately before and after.
  • the position (coordinates of the bounding box) is estimated by referring only to the immediately preceding frame (i-1) and the immediately succeeding frame (i+1). This is calculated by Equation (1) shown in FIG.
  • the inference unit 121 infers object detection in video frames using a trained model, and the interpolation unit 122 learns from a plurality of inferred video frames over time. Missed video frames that have been missed due to the failure of object detection by the existing model are detected, and the detection results of the detected missed frames are interpolated from a plurality of video frames over time, and the learning data generation unit 14 performs interpolation. Since learning data is generated using the detected detection results, the collection and annotation of overlooked frames can be automated, easily improving inference accuracy, reducing the burden on workers in AI creation, reducing human error, and creating AI. It has the effect of realizing efficiency improvement and man-hour reduction.
  • the present invention is suitable for a learning data generation device, a learning data generation system, and a learning data generation method that automate the work of collecting and annotating overlooked image data.
  • 1... learning data generation device 10... control unit, 11... video acquisition unit, 12... object detection unit, 13... missing frame extraction unit, 14... learning data generation unit, 20... storage unit, 21... video data storage unit, 22... Learning data storage unit, 121... Inference unit, 122... Interpolation unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

見逃した画像データの収集とアノテーションを行う作業を自動化する学習データ生成装置、学習データ生成システム及び学習データ生成方法を提供する。物体検知部12の推論部121が、映像フレームにおける物体検知を学習済モデルで推論し、補間部122が、推論された時間経過に伴う複数の映像フレームから学習済モデルによる物体検知がなされず見逃しとなった見逃し映像フレームを検出して、当該検出された見逃しフレームの検知結果を時間経過に伴う複数の映像フレームから補間し、学習データ生成部14が、補間された検知結果を用いて学習データを生成する学習データ生成装置、学習データ生成システム及び学習データ生成方法である。

Description

機械学習用の学習データ生成装置、学習データ生成システム及び学習データ生成方法
 本発明は、画像解析における機械学習の学習データを生成する装置に係り、特に、学習データの収集とアノテーションを自動化する学習データ生成装置、学習データ生成システム及び学習データ生成方法に関する。
[従来の技術]  動画やライブ映像などの時間的に連続した画像データ(以下、単に「映像」という)を入力とした物体を検知するタスク(物体検知タスク)に対して、機械学習に基づいたAI(Artificial Intelligence/人工知能。以下、単に「AI」という)の適用が進んでいる(非特許文献1,2参照)。
 製品やシステムにAIを組み込むことで、従来は人手で行なっていた作業を代替し、人件費の削減や商品の価値向上を図ることができる。このことは製品やシステムの販売促進に寄与するため、多くの企業がAIに対し高い関心を抱いている。
 AIを学習するための方法として教師あり学習が多く用いられる。
 教師あり学習では、あるタスクに対する入力(例として、画像データ等)とその入力に対して期待する出力値(教師データ)との組を学習データとし、大量の学習データから入力に対する出力のパターンを学習する。
 学習データの作成に際し、教師データを付与することをアノテーションと呼び、学習済みのAI(学習済モデル)を用いて入力に対する出力値を推定することを推論と呼ぶ。
 しばしば物体検知タスクを行うAI(以下、単に「物体検知AI」)に関して、AIの実運用環境と学習データ収集時の撮影環境との間には、背景、画角、明るさなどの違いが存在したり、学習データに存在しない物体が実運用環境に存在するなど、推論精度低下に繋がる様々な要因が存在する。
 そのためAIを実用化する上では、環境の違いに対する頑健性や、未知の入力に対しても正しく推論できる能力(汎化性能)が求められる。
[関連技術]  尚、関連する先行技術として、特開2019-220116号公報「情報処理装置、判定方法、および対象判定プログラム」(特許文献1)がある。
 特許文献1には、対象物を撮影した画像から当該対象物のカテゴリを判定することが示されている。
特開2019-220116号公報
Joseph Redmon, Santosh Divvala, Ross Girshick, Ali Farhadi, "You Only Look Once: Unified, Real-Time Object Detection," June 8, 2015, [online], https://arxiv.org/abs/1506.02640. Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott Reed, Cheng-Yang Fu, Alexander C. Berg, "SSD: Single Shot MultiBox Detector", December 8, 2015, [online], https://arxiv.org/abs/1512.02325.
 上述した通り、事前に準備した学習データで学習したAIを用いる場合、環境の違いにより期待した推論精度が得られないことがある。
 特に、映像を入力とした物体検知タスクにおいてはフレーム毎に推論を行うため、あるフレームでは対象を検知できているが、別のフレームでは同一対象を検知できていない、といったケース(検知対象の見逃し)が生じることがある。
 推論精度を改善するには、より多様な学習データを適宜追加した上で再度学習を行うことで、AIの頑健性や汎化性能を向上させる方法が考えられるが、既に正しく検知できている画像ではなく、実際に見逃しが発生する画像を収集した方が効果的である。
 しかしながら、見逃した画像を収集するのは、AIやプログラム等で自動化することは難しく、人手により画像データを収集するとなると、実際に大量の検知結果を目視確認するなど手間と時間を要する。また、画像データを収集した後にアノテーションを行う必要があるため、これについても同様に手間と時間を要することになる。
 従って、従来の技術では、推論精度を向上させるために、見逃した画像データを収集し、更に収集した画像データにアノテーションを行う作業には手間と時間が掛かるという問題点があった。
 尚、特許文献1には、見逃した画像データの収集とアノテーションを行う作業を自動化することについての記載がない。
 本発明は上記実情に鑑みて為されたもので、見逃した画像データの収集とアノテーションを行う作業を自動化する学習データ生成装置、学習データ生成システム及び学習データ生成方法を提供することを目的とする。
 上記従来例の問題点を解決するための本発明は、画像解析における機械学習の学習データを生成する学習データ生成装置であって、映像フレームにおける物体検知を学習済モデルで推論する推論部と、推論された時間経過に伴う複数の映像フレームから学習済モデルによる物体検知がなされず見逃しとなった見逃し映像フレームを検出して、当該検出された見逃しフレームの検知結果を複数の映像フレームから補間する補間部と、補間された検知結果を用いて学習データを生成する生成部と、を有することを特徴とする。
 本発明は、上記学習データ生成装置において、補間部が、見逃し映像フレームの識別番号を取得し、時間経過に伴う複数の映像フレームから物体の位置及び種類を推定し、生成部が、識別番号に対応する見逃しフレームと推定された物体の位置及び種類とを関連付けて学習データとして生成することを特徴とする。
 本発明は、上記学習データ生成装置において、時間経過に伴う複数の映像フレームを記憶する映像データ記憶部と、生成された学習データを記憶する学習データ記憶部と、補間部で検出された見逃し映像フレームの識別番号に基づいて当該見逃し映像フレームを抽出して生成部に出力するフレーム抽出部と、を有することを特徴とする。
 本発明は、学習データ生成システムにおいて、上記学習データ生成装置と、映像を撮影し、当該学習データ生成装置に映像フレームを提供する撮影装置とを有することを特徴とする。
 本発明は、画像解析における機械学習の学習データを生成する学習データ生成方法であって、映像フレームにおける物体検知を学習済モデルで推論し、推論された時間経過に伴う複数の映像フレームから学習済モデルによる物体検知がなされず見逃しとなった見逃し映像フレームを検出し、当該検出された見逃しフレームの検知結果を複数の映像フレームから補間し、補間された検知結果を用いて学習データとして生成することを特徴とする。
 本発明によれば、画像解析における機械学習の学習データを生成する学習データ生成装置であって、映像フレームにおける物体検知を学習済モデルで推論する推論部と、推論された時間経過に伴う複数の映像フレームから学習済モデルによる物体検知がなされず見逃しとなった見逃し映像フレームを検出して、当該検出された見逃しフレームの検知結果を複数の映像フレームから補間する補間部と、補間された検知結果を用いて学習データを生成する生成部と、を有するものとしているので、見逃しフレームの収集とアノテーションを自動化できる効果がある。
本装置の構成概略図である。 本装置における概略処理を示すフロー図である。 映像例を示す説明図である。 物体検知AIによる推論結果の映像例を示す説明図である。 物体検知AIによる推論結果の数値データ例を示す説明図である。 補間後の検知結果の数値データ例を示す説明図である。 補間した検知結果の映像例を示す説明図である。 補間処理のフロー図である。 直前・直後の1フレームを基に位置を特定する例を示す説明図である。 直前・直後の数フレームを基に位置を特定する例を示す説明図である。
 本発明の実施の形態について図面を参照しながら説明する。[実施の形態の概要]  本発明の実施の形態に係る学習データ生成装置(本装置)は、画像解析における機械学習の学習データを生成するものであって、推論部が、映像フレームにおける物体検知を学習済モデルで推論し、補間部が、推論された時間経過に伴う複数の映像フレームから学習済モデルによる物体検知がなされず見逃しとなった見逃し映像フレームを検出して、当該検出された見逃しフレームの検知結果を時間経過に伴う複数の映像フレームから補間し、生成部が、補間された検知結果を用いて学習データを生成するものとしているので、見逃しフレームの収集とアノテーションを自動化でき、AI作成の作業効率を向上させるものである。
[本装置:図1]  本装置の構成について図1を参照しながら説明する。図1は、本装置の構成概略図である。
 本装置1は、図1に示すように、コンピュータ等の情報処理装置で実現され、基本的には制御部10と記憶部20とから構成されている。
 [制御部10と記憶部20]  制御部10は、映像取得部11と、物体検知部12と、見逃しフレーム抽出部13と、学習データ生成部14とを備えている。
 また、記憶部20は、映像データ記憶部21と、検知結果記憶部22と、学習データ記憶部23とを備えている。
 以下、各部を具体的に説明する。
 [映像取得部11]  映像取得部11は、時間経過に伴う映像フレーム(映像データ/画像データ)を記憶部2の映像データ記憶部21から読み込み、物体検知部12に出力する。
 [物体検知部12]  物体検知部12は、入力された映像データについてAIの学習済モデルを用いて物体検知の推論処理を行い、見逃しフレームを検出して補間処理を行う。
 具体的には、物体検知部12は、推論部121と、補間部122とを備えている。尚、推論部121での処理と補間部122での処理を同時並列して行ってもよく、推論部121での処理後に補間部122の処理を行ってもよい。
  [推論部121]  推論部121は、物体検知AIによる推論を行うもので、学習済みの物体検知AI(学習済モデル)を用いて、映像の各フレームに対して物体の位置及び種類を推論する。
 物体検知を行うための手法・アルゴリズムとしては、機械学習に基づくものであれば、公知のものから任意に選択することができる。例として、YOLO(You Only Look Once/非特許文献1参照)、SSD(Single Shot MultiBox Detector/非特許文献2参照)等がある。
  [補間部122]  補間部122は、推論部121での推論結果の補間処理を行うもので、物体検知AIによって見逃しが生じた場合に補間し得る手法・アルゴリズムを用いて、物体検知AIによる推論結果を補間する。
 すなわち、物体検知AIが見逃した物体の位置及び種類を推定するものである。
 補間処理の手法・アルゴリズムとしては、映像、あるいは物体検知AIの推論結果における時間的な前後関係(時間経過)を利用するものであれば、公知のものから1つ以上を任意に選択することができる。例として、Kanade-Lucas-Tomasiアルゴリズム(Carlo Tomasi, Takeo Kanade, “Detection and Tracking of Point Features,” Technical Report CMU-CS-91-132, April 1991.参照)等を用いたトラッキング、カルマンフィルタ(Rudolf Emil Kalman, “On the general theory of control systems,” Proc. the 1st IFAC World Congress, August 1960.参照)を用いた状態推定などがある。
 物体検知部12は、検知結果の内、物体検知AIが見逃し、かつ補間処理によって補間したものに限り、各映像フレームにおける各物体に対して以下の情報を記録する。
 第1に、当該フレームの識別情報となるフレーム番号である。但し、フレームの識別情報として、フレーム番号の代わりにフレームの時刻情報でもよい。
 第2に、検知した物体の位置情報となるバウンディングボックスの情報である。この情報は映像フレーム内における物体の位置を表すものであり、物体領域を示す座標値(例として、左端・上端・右端・下端の4値など)の組である。
 第3に、検知した物体のクラス情報である。これは物体の種類を表すものであり、物体検知AIが学習したものの中から択一的に出力される。クラス情報の選択については後述する。
 [見逃しフレーム抽出部13]  見逃しフレーム抽出部13は、物体検知部12で記録された第1のフレームの識別情報であるフレーム番号(あるいは時刻)に対応する映像フレームを映像データ記憶部21から抽出し、抽出した映像フレームを学習データ生成部14に出力する。
 [学習データ生成部14]  学習データ生成部14は、見逃し映像フレームにおける見逃した物体に対するアノテーションを行うもので、見逃しフレーム抽出部13から入力される見逃し映像フレームに対して検知結果記憶部22に記憶する検知結果をそのまま教師データとし、見逃し映像フレームと教師データの組を再学習用の学習データとして学習データ記憶部23に記憶する。
 [映像データ記憶部21]  映像データ記憶部21は、時間経過に伴う映像フレームを記憶するもので、各映像フレームにはフレーム番号又は撮影時刻若しくは双方が付与されている。
 映像データ記憶部21の映像フレームは、映像取得部11に読み取られ、また、見逃しフレーム抽出部13からのアクセスにより補間対象になった映像フレームが、対応するフレーム番号又は時刻に基づいて読み出される。
 [検知結果記憶部22]  検知結果記憶部22は、物体検知部12の推論部121での検知結果、補間部122での補間結果(補間内容)を記憶するものである。
 また、検知結果記憶部22は、学習データ生成部14からのアクセスにより教師データとなる補間結果を出力する。教師データの取得処理については後述する。
 [学習データ記憶部23]  学習データ記憶部23は、学習データ生成部14から出力される見逃し映像フレームと教師データを学習データとして記憶する。学習データ記憶部23に記憶された学習データが再学習用の学習データとなる。
 本装置1に撮影用のカメラ等の撮影装置を接続し、撮影装置で撮影された映像データを記憶部2の映像データ記憶部21に保存するようにして、学習データ生成システム(本システム)を構成するようにしてもよい。
 また、本装置及び本システムが好適となる条件を説明する。これらの条件は、補間処理の正確さ、すなわち本実施形態においてアノテーションされる教師データの正確さに寄与するものである。
 第1の条件は、物体とカメラとの間に遮蔽物が存在しないことである。
 第2の条件は、物体同士の重複や接触が生じないことである。
 第3の条件は、物体の速度が一定、または、物体の速度変化が映像の秒間フレーム数に対して十分に小さいことである。
[本装置1での概略処理:図2]  次に、本装置1における概略処理について図2を参照しながら説明する。図2は、本装置における概略処理を示すフロー図である。
 本装置1では、図2に示すように、映像取得部11から入力される映像フレームについて、物体検知部12の推論部121で物体検知の推論処理を行い(S1)、補間部122で見逃し物体の補間処理を行う(S2)。
 次に、見逃しフレーム抽出部13が見逃し物体の補間を行った映像フレームを映像データ記憶部21からフレーム番号等で抽出する(S3)。
 更に、学習データ生成部14が抽出した見逃し映像フレームと対応する検知結果を検知結果記憶部22から取得し、検知結果を教師データとし、見逃し映像フレームと教師データを組みとする学習データを生成し(S4)、処理を終了する。
 このように、本装置1では、補間部122で検知物体を補間した見逃し映像フレームの検出を自動化でき、更に、当該見逃し映像フレームの時間的に前後のフレームの推論結果を用いてアノテーションも自動化できるものである。
[車両による具体例:図3~7]  次に、車両を用いた具体例について図3~7を参照しながら説明する。図3は、映像例を示す説明図であり、図4は、物体検知AIによる推論結果の映像例を示す説明図であり、図5は、物体検知AIによる推論結果の数値データ例を示す説明図であり、図6は、補間後の検知結果の数値データ例を示す説明図であり、図7は、補間した検知結果の映像例を示す説明図である。
 図3に、物体検知を行う映像の一例を示しており、5フレームからなる映像であり、背景に存在する建物の手前を車が等速走行する様子を撮影したものである。
 この図3の映像に対して、事前に車を学習した学習済み物体検知AIによる推論を行い、推論結果として得られたバウンディングボックス(1)を映像に重畳して表示したものを図4に示す。
 図4の例では、フレーム番号1,2,4,5のフレームでは車を正しく検知できているが、フレーム番号3のフレームでは背景と重なった車を検知できず、見逃している。
 図5は、図4に示した推論結果を数値データとして表形式で示したものである。図5の表の各行が検知した各物体の情報を表している。
 物体検知AIの推論結果に対して補間処理を行なった結果を図6に示している。太枠で囲った行が補間した検知結果(2)である。この補間した検知結果(2)を映像に重畳して表示したものを図7に示している。
 図7から、バウンディングボックス(1)がフレーム中の車の領域と適切に重なっており、本実施例においては補間処理が理想的に機能している。
 以上の内容から、見逃しが発生したフレームとしてフレーム番号3の画像が得られ、また補間した検知結果が得られたため、補間した検知結果をフレーム番号3の画像の教師データとしてアノテーションし、これを再学習用の学習データとする。
[補間処理のフロー:図8]  次に、本装置1における補間処理のアルゴリズムについて図8を参照しながら説明する。図8は、補間処理のフロー図である。補間処理の内容としては様々な手法・アルゴリズムを適用できるが、図8では単純な例を示している。
 補間処理のアルゴリズムは、フレーム番号を若い順に推論結果と照合し、あるフレーム番号における検知結果が存在しない(すなわち見逃しが生じている)場合、前後のフレームの検知結果に基づき補間するものである。
 補間処理のアルゴリズムは、図8に示すように、処理が開始する(S11)と、映像の先頭フレーム(i=0)から照合を開始し(S12)、最終フレームまで照合が完了した場合ら処理を終了する。つまり、フレーム>=i(i番目のフレームが検知対象の総フレーム数以下)を満たす検知結果が存在するか否かを判定し(S13)、存在しない(検知が完了した)場合(Noの場合)、処理を終了する(S19)。
 判定処理S13で検知が完了していなければ(Yesの場合)、i番目のフレームの照合を行い、そのフレームに検知結果が存在するか否かを判定する(S14)。
 判定処理S14で検知結果が存在しない場合(Noの場合)は、見逃しフレームの候補とする。
 判定処理S14で検知結果が存在する場合(Yesの場合)、フレーム番号をインクリメントし(S15)、判定処理S13に戻る。
 見逃しフレームの候補としたフレームは、実際に見逃しフレームであるか(すなわち、直前フレーム及び直後フレームで検知したにもかかわらずそのフレームでは検知していないか)を検証する処理を行う(S16)。
 図3~7の例で用いた映像のように、検知対象が背景と重なってしまったため、一瞬だけ物体検知AIが検知対象を見逃してしまった場合は、判定処理S16で見逃しフレームである(Yesの場合)と判定され、検知結果が補間される(S17)。
 補間処理S17における具体的な補間方法の例として、物体のバウンディングボックスは直前フレームと直後フレームの平均値とする、物体のクラスは直前フレームの値をとる、などがある。
 補間処理S17の終了後、または、検証処理S16で見逃しフレームではないと判定された場合(Noの場合)は、フレーム番号をインクリメントし(S18)、判定処理S13に戻る。
[応用例1:図9,10]  応用例1について図9,10を参照しながら説明する。図9は、直前・直後の1フレームを基に位置を特定する例を示す説明図であり、図10は、直前・直後の数フレームを基に位置を特定する例を示す説明図である。
 図8のアルゴリズムを拡張することによって、数フレーム分連続して生じた見逃しを補間してもよい。
 例として、処理S16では直前フレーム(i-1)と直後フレーム(i+1)のみを参照して位置(バウンディングボックスの座標)を推定している。これは、図9に示す数式(1)で算出される。
 位置推定のために参照する直前・直後のフレームを1フレーム分から数フレーム分に変更することで、前後数フレーム分まで参照できる。
 このようにして、前方nフレーム先(i-n)、後方Nフレーム先(i+N)の推論結果を基にバウンディングボックスを推定する場合、前方の参照フレームにN倍、後方の参照フレームにn倍の重みをつけて加重平均をとることで推定できる。
 具体的には、図10に示す数式(2)で算出される。
[応用例2]  図8に示したアルゴリズムの処理S17において、物体検知AIが参照先フレームで複数の物体を検知していた場合、どの物体の推論結果に基づいて補間処理を行うかが未定義である。
 これに関し、物体の速度が一定、または、物体の速度変化が映像の秒間フレーム数に対して十分に小さい場合などの好適条件下であれば、バウンディングボックスが最も近い推論結果に基づいて推定するなどの規則を適用することで補間できる。
 また、処理S17において、物体検知AIが単一の物体を検知していた場合に関しても、それらが同一の物体であるかを判定するために、同様の規則を適用してもよい。
[応用例3]  図8に示したアルゴリズムにおいて、処理S17では線形補間を行うが、これを変更し、バウンディングボックスを非線形補間してもよい。公知である非線形補間手法としては非線形カルマンフィルタ等がある。
[応用例4]  以上の例では、物体検知AIの推論結果に基づいて検知結果を補間する方法について説明したが、別の方法として、物体検知を適用する映像の各フレーム画像に基づいて検知結果を補間してもよい。例として、補間処理で取り上げた、Kanade-Lucas-Tomasiアルゴリズム等によるトラッキング手法を用いることができる。
[実施の形態の効果]  本装置1によれば、推論部121が、映像フレームにおける物体検知を学習済モデルで推論し、補間部122が、推論された時間経過に伴う複数の映像フレームから学習済モデルによる物体検知がなされず見逃しとなった見逃し映像フレームを検出して、当該検出された見逃しフレームの検知結果を時間経過に伴う複数の映像フレームから補間し、学習データ生成部14が、補間された検知結果を用いて学習データを生成するものとしているので、見逃しフレームの収集とアノテーションを自動化でき、推論精度を容易に向上させ、AI作成における作業者の負担軽減、ヒューマンエラー削減、AI作成の効率化及び工数削減を実現できる効果がある。
 本発明は、見逃した画像データの収集とアノテーションを行う作業を自動化する学習データ生成装置、学習データ生成システム及び学習データ生成方法に好適である。
 1…学習データ生成装置、 10…制御部、 11…映像取得部、 12…物体検知部、 13…見逃しフレーム抽出部、 14…学習データ生成部、 20…記憶部、 21…映像データ記憶部、 22…学習データ記憶部、 121…推論部、 122…補間部

Claims (5)

  1.  画像解析における機械学習の学習データを生成する学習データ生成装置であって、
     映像フレームにおける物体検知を学習済モデルで推論する推論部と、
     前記推論された時間経過に伴う複数の映像フレームから前記学習済モデルによる物体検知がなされず見逃しとなった見逃し映像フレームを検出して、当該検出された見逃しフレームの検知結果を前記複数の映像フレームから補間する補間部と、
     前記補間された検知結果を用いて学習データを生成する生成部と、を有することを特徴とする学習データ生成装置。
  2.  前記補間部は、見逃し映像フレームの識別番号を取得し、前記時間経過に伴う複数の映像フレームから物体の位置及び種類を推定し、
     前記生成部は、前記識別番号に対応する前記見逃しフレームと前記推定された物体の位置及び種類とを関連付けて学習データとして生成することを特徴とする請求項1記載の学習データ生成装置。
  3.  時間経過に伴う複数の映像フレームを記憶する映像データ記憶部と、
     生成された学習データを記憶する学習データ記憶部と、
     前記補間部で検出された見逃し映像フレームの識別番号に基づいて当該見逃し映像フレームを抽出して前記生成部に出力するフレーム抽出部と、を有することを特徴とする請求項1記載の学習データ生成装置。
  4.  請求項1に記載の学習データ生成装置と、映像を撮影し、当該学習データ生成装置に映像フレームを提供する撮影装置とを有することを特徴とする学習データ生成システム。
  5.  画像解析における機械学習の学習データを生成する学習データ生成方法であって、
     映像フレームにおける物体検知を学習済モデルで推論し、
     前記推論された時間経過に伴う複数の映像フレームから前記学習済モデルによる物体検知がなされず見逃しとなった見逃し映像フレームを検出し、
     当該検出された見逃しフレームの検知結果を前記複数の映像フレームから補間し、
     前記補間された検知結果を用いて学習データを生成することを特徴とする学習データ生成方法。
PCT/JP2022/009062 2021-03-23 2022-03-03 機械学習用の学習データ生成装置、学習データ生成システム及び学習データ生成方法 WO2022202178A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2023508880A JPWO2022202178A1 (ja) 2021-03-23 2022-03-03

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021-048089 2021-03-23
JP2021048089 2021-03-23

Publications (1)

Publication Number Publication Date
WO2022202178A1 true WO2022202178A1 (ja) 2022-09-29

Family

ID=83396925

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/009062 WO2022202178A1 (ja) 2021-03-23 2022-03-03 機械学習用の学習データ生成装置、学習データ生成システム及び学習データ生成方法

Country Status (2)

Country Link
JP (1) JPWO2022202178A1 (ja)
WO (1) WO2022202178A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016001397A (ja) * 2014-06-11 2016-01-07 キヤノン株式会社 画像処理装置、画像処理方法、コンピュータプログラム
JP2017168029A (ja) * 2016-03-18 2017-09-21 Kddi株式会社 行動価値によって調査対象の位置を予測する装置、プログラム及び方法
JP2018112996A (ja) * 2017-01-13 2018-07-19 キヤノン株式会社 映像認識装置、映像認識方法及びプログラム
JP2021012446A (ja) * 2019-07-04 2021-02-04 Kddi株式会社 学習装置及びプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016001397A (ja) * 2014-06-11 2016-01-07 キヤノン株式会社 画像処理装置、画像処理方法、コンピュータプログラム
JP2017168029A (ja) * 2016-03-18 2017-09-21 Kddi株式会社 行動価値によって調査対象の位置を予測する装置、プログラム及び方法
JP2018112996A (ja) * 2017-01-13 2018-07-19 キヤノン株式会社 映像認識装置、映像認識方法及びプログラム
JP2021012446A (ja) * 2019-07-04 2021-02-04 Kddi株式会社 学習装置及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
HIRONORI HATTORI, IKUHISA MITSUGAMI, MASAYUKI MUKUNOKI, MICHIHIKO MINOH: "Scene Adaptation Method of HOG Human Detector for Fixed Camera Video", IEICE TECHNICAL REPORT, PRMU, vol. 109, no. 471 (PRMU2009-261), 8 March 2010 (2010-03-08), JP, pages 163 - 168, XP009539961 *

Also Published As

Publication number Publication date
JPWO2022202178A1 (ja) 2022-09-29

Similar Documents

Publication Publication Date Title
Yang et al. Stacked hourglass network for robust facial landmark localisation
NL2024682B1 (en) Assembly monitoring method and device based on deep learning, and readable storage medium
Biresaw et al. Vitbat: Video tracking and behavior annotation tool
Wang et al. Monocular 3d object detection with depth from motion
US10937176B2 (en) Object recognition apparatus
KR101621370B1 (ko) 도로에서의 차선 검출 방법 및 장치
Wang et al. A semi-automatic video labeling tool for autonomous driving based on multi-object detector and tracker
US20230018877A1 (en) Image/video analysis with activity signatures
US20230154016A1 (en) Information processing apparatus, information processing method, and storage medium
Scarpellini et al. Lifting monocular events to 3d human poses
CN117078927A (zh) 一种联合目标标注方法、装置、设备及存储介质
Makino et al. Moving-object detection method for moving cameras by merging background subtraction and optical flow methods
Usmani et al. A reinforcement learning based adaptive ROI generation for video object segmentation
CN114742112A (zh) 一种对象关联方法、装置及电子设备
WO2022202178A1 (ja) 機械学習用の学習データ生成装置、学習データ生成システム及び学習データ生成方法
Pumarola et al. Relative localization for aerial manipulation with PL-SLAM
TWI464697B (zh) 追蹤移動物件之裝置與方法
CN114529587A (zh) 一种视频目标跟踪方法、装置、电子设备及存储介质
Fu et al. The Capture of Moving Object in Video Image.
JP4538426B2 (ja) 移動ベクトル検出装置、移動ベクトル検出方法および移動ベクトル検出プログラム
WO2023276332A1 (ja) 作業分析装置及び方法
Ravichandar et al. Gyro-aided image-based tracking using mutual information optimization and user inputs
CN112987571B (zh) 高动态视觉控制系统及其视觉量测性能衰减容错控制方法
EP4280101A1 (en) Pseudo-ground-truth generation from timestamp supervision
Kardoost et al. Object segmentation tracking from generic video cues

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22774974

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2023508880

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 22774974

Country of ref document: EP

Kind code of ref document: A1