WO2022202178A1

WO2022202178A1 - 機械学習用の学習データ生成装置、学習データ生成システム及び学習データ生成方法

Info

Publication number: WO2022202178A1
Application number: PCT/JP2022/009062
Authority: WO
Inventors: 健斗冨田
Original assignee: 株式会社日立国際電気
Priority date: 2021-03-23
Filing date: 2022-03-03
Publication date: 2022-09-29
Also published as: JPWO2022202178A1

Abstract

見逃した画像データの収集とアノテーションを行う作業を自動化する学習データ生成装置、学習データ生成システム及び学習データ生成方法を提供する。物体検知部１２の推論部１２１が、映像フレームにおける物体検知を学習済モデルで推論し、補間部１２２が、推論された時間経過に伴う複数の映像フレームから学習済モデルによる物体検知がなされず見逃しとなった見逃し映像フレームを検出して、当該検出された見逃しフレームの検知結果を時間経過に伴う複数の映像フレームから補間し、学習データ生成部１４が、補間された検知結果を用いて学習データを生成する学習データ生成装置、学習データ生成システム及び学習データ生成方法である。

Description

機械学習用の学習データ生成装置、学習データ生成システム及び学習データ生成方法

　本発明は、画像解析における機械学習の学習データを生成する装置に係り、特に、学習データの収集とアノテーションを自動化する学習データ生成装置、学習データ生成システム及び学習データ生成方法に関する。

［従来の技術］　動画やライブ映像などの時間的に連続した画像データ（以下、単に「映像」という）を入力とした物体を検知するタスク（物体検知タスク）に対して、機械学習に基づいたＡＩ（Artificial Intelligence／人工知能。以下、単に「ＡＩ」という）の適用が進んでいる（非特許文献１，２参照）。

　製品やシステムにＡＩを組み込むことで、従来は人手で行なっていた作業を代替し、人件費の削減や商品の価値向上を図ることができる。このことは製品やシステムの販売促進に寄与するため、多くの企業がＡＩに対し高い関心を抱いている。

　ＡＩを学習するための方法として教師あり学習が多く用いられる。
　教師あり学習では、あるタスクに対する入力（例として、画像データ等）とその入力に対して期待する出力値（教師データ）との組を学習データとし、大量の学習データから入力に対する出力のパターンを学習する。
　学習データの作成に際し、教師データを付与することをアノテーションと呼び、学習済みのＡＩ（学習済モデル）を用いて入力に対する出力値を推定することを推論と呼ぶ。

　しばしば物体検知タスクを行うＡＩ（以下、単に「物体検知ＡＩ」）に関して、ＡＩの実運用環境と学習データ収集時の撮影環境との間には、背景、画角、明るさなどの違いが存在したり、学習データに存在しない物体が実運用環境に存在するなど、推論精度低下に繋がる様々な要因が存在する。
　そのためＡＩを実用化する上では、環境の違いに対する頑健性や、未知の入力に対しても正しく推論できる能力（汎化性能）が求められる。

［関連技術］　尚、関連する先行技術として、特開２０１９－２２０１１６号公報「情報処理装置、判定方法、および対象判定プログラム」（特許文献１）がある。
　特許文献１には、対象物を撮影した画像から当該対象物のカテゴリを判定することが示されている。

特開２０１９－２２０１１６号公報

Joseph Redmon, Santosh Divvala, Ross Girshick, Ali Farhadi, "You Only Look Once: Unified, Real-Time Object Detection," June 8, 2015, [online], https://arxiv.org/abs/1506.02640. Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott Reed, Cheng-Yang Fu, Alexander C. Berg, "SSD: Single Shot MultiBox Detector", December 8, 2015, [online], https://arxiv.org/abs/1512.02325.

　上述した通り、事前に準備した学習データで学習したＡＩを用いる場合、環境の違いにより期待した推論精度が得られないことがある。
　特に、映像を入力とした物体検知タスクにおいてはフレーム毎に推論を行うため、あるフレームでは対象を検知できているが、別のフレームでは同一対象を検知できていない、といったケース（検知対象の見逃し）が生じることがある。

　推論精度を改善するには、より多様な学習データを適宜追加した上で再度学習を行うことで、ＡＩの頑健性や汎化性能を向上させる方法が考えられるが、既に正しく検知できている画像ではなく、実際に見逃しが発生する画像を収集した方が効果的である。

　しかしながら、見逃した画像を収集するのは、ＡＩやプログラム等で自動化することは難しく、人手により画像データを収集するとなると、実際に大量の検知結果を目視確認するなど手間と時間を要する。また、画像データを収集した後にアノテーションを行う必要があるため、これについても同様に手間と時間を要することになる。

　従って、従来の技術では、推論精度を向上させるために、見逃した画像データを収集し、更に収集した画像データにアノテーションを行う作業には手間と時間が掛かるという問題点があった。

　尚、特許文献１には、見逃した画像データの収集とアノテーションを行う作業を自動化することについての記載がない。

　本発明は上記実情に鑑みて為されたもので、見逃した画像データの収集とアノテーションを行う作業を自動化する学習データ生成装置、学習データ生成システム及び学習データ生成方法を提供することを目的とする。

　上記従来例の問題点を解決するための本発明は、画像解析における機械学習の学習データを生成する学習データ生成装置であって、映像フレームにおける物体検知を学習済モデルで推論する推論部と、推論された時間経過に伴う複数の映像フレームから学習済モデルによる物体検知がなされず見逃しとなった見逃し映像フレームを検出して、当該検出された見逃しフレームの検知結果を複数の映像フレームから補間する補間部と、補間された検知結果を用いて学習データを生成する生成部と、を有することを特徴とする。

　本発明は、上記学習データ生成装置において、補間部が、見逃し映像フレームの識別番号を取得し、時間経過に伴う複数の映像フレームから物体の位置及び種類を推定し、生成部が、識別番号に対応する見逃しフレームと推定された物体の位置及び種類とを関連付けて学習データとして生成することを特徴とする。

　本発明は、上記学習データ生成装置において、時間経過に伴う複数の映像フレームを記憶する映像データ記憶部と、生成された学習データを記憶する学習データ記憶部と、補間部で検出された見逃し映像フレームの識別番号に基づいて当該見逃し映像フレームを抽出して生成部に出力するフレーム抽出部と、を有することを特徴とする。

　本発明は、学習データ生成システムにおいて、上記学習データ生成装置と、映像を撮影し、当該学習データ生成装置に映像フレームを提供する撮影装置とを有することを特徴とする。

　本発明は、画像解析における機械学習の学習データを生成する学習データ生成方法であって、映像フレームにおける物体検知を学習済モデルで推論し、推論された時間経過に伴う複数の映像フレームから学習済モデルによる物体検知がなされず見逃しとなった見逃し映像フレームを検出し、当該検出された見逃しフレームの検知結果を複数の映像フレームから補間し、補間された検知結果を用いて学習データとして生成することを特徴とする。

　本発明によれば、画像解析における機械学習の学習データを生成する学習データ生成装置であって、映像フレームにおける物体検知を学習済モデルで推論する推論部と、推論された時間経過に伴う複数の映像フレームから学習済モデルによる物体検知がなされず見逃しとなった見逃し映像フレームを検出して、当該検出された見逃しフレームの検知結果を複数の映像フレームから補間する補間部と、補間された検知結果を用いて学習データを生成する生成部と、を有するものとしているので、見逃しフレームの収集とアノテーションを自動化できる効果がある。

本装置の構成概略図である。本装置における概略処理を示すフロー図である。映像例を示す説明図である。物体検知ＡＩによる推論結果の映像例を示す説明図である。物体検知ＡＩによる推論結果の数値データ例を示す説明図である。補間後の検知結果の数値データ例を示す説明図である。補間した検知結果の映像例を示す説明図である。補間処理のフロー図である。直前・直後の１フレームを基に位置を特定する例を示す説明図である。直前・直後の数フレームを基に位置を特定する例を示す説明図である。

　本発明の実施の形態について図面を参照しながら説明する。［実施の形態の概要］　本発明の実施の形態に係る学習データ生成装置（本装置）は、画像解析における機械学習の学習データを生成するものであって、推論部が、映像フレームにおける物体検知を学習済モデルで推論し、補間部が、推論された時間経過に伴う複数の映像フレームから学習済モデルによる物体検知がなされず見逃しとなった見逃し映像フレームを検出して、当該検出された見逃しフレームの検知結果を時間経過に伴う複数の映像フレームから補間し、生成部が、補間された検知結果を用いて学習データを生成するものとしているので、見逃しフレームの収集とアノテーションを自動化でき、ＡＩ作成の作業効率を向上させるものである。

［本装置：図１］　本装置の構成について図１を参照しながら説明する。図１は、本装置の構成概略図である。
　本装置１は、図１に示すように、コンピュータ等の情報処理装置で実現され、基本的には制御部１０と記憶部２０とから構成されている。

　［制御部１０と記憶部２０］　制御部１０は、映像取得部１１と、物体検知部１２と、見逃しフレーム抽出部１３と、学習データ生成部１４とを備えている。
　また、記憶部２０は、映像データ記憶部２１と、検知結果記憶部２２と、学習データ記憶部２３とを備えている。
　以下、各部を具体的に説明する。

　［映像取得部１１］　映像取得部１１は、時間経過に伴う映像フレーム（映像データ／画像データ）を記憶部２の映像データ記憶部２１から読み込み、物体検知部１２に出力する。

　［物体検知部１２］　物体検知部１２は、入力された映像データについてＡＩの学習済モデルを用いて物体検知の推論処理を行い、見逃しフレームを検出して補間処理を行う。
　具体的には、物体検知部１２は、推論部１２１と、補間部１２２とを備えている。尚、推論部１２１での処理と補間部１２２での処理を同時並列して行ってもよく、推論部１２１での処理後に補間部１２２の処理を行ってもよい。

　　［推論部１２１］　推論部１２１は、物体検知ＡＩによる推論を行うもので、学習済みの物体検知ＡＩ（学習済モデル）を用いて、映像の各フレームに対して物体の位置及び種類を推論する。
　物体検知を行うための手法・アルゴリズムとしては、機械学習に基づくものであれば、公知のものから任意に選択することができる。例として、ＹＯＬＯ（You Only Look Once／非特許文献１参照）、ＳＳＤ（Single Shot MultiBox Detector／非特許文献２参照）等がある。

　　［補間部１２２］　補間部１２２は、推論部１２１での推論結果の補間処理を行うもので、物体検知ＡＩによって見逃しが生じた場合に補間し得る手法・アルゴリズムを用いて、物体検知ＡＩによる推論結果を補間する。
　すなわち、物体検知ＡＩが見逃した物体の位置及び種類を推定するものである。

　補間処理の手法・アルゴリズムとしては、映像、あるいは物体検知ＡＩの推論結果における時間的な前後関係（時間経過）を利用するものであれば、公知のものから１つ以上を任意に選択することができる。例として、Kanade-Lucas-Tomasiアルゴリズム（Carlo Tomasi, Takeo Kanade, “Detection and Tracking of Point Features,” Technical Report CMU-CS-91-132, April 1991．参照）等を用いたトラッキング、カルマンフィルタ（Rudolf Emil Kalman, “On the general theory of control systems,” Proc. the 1st IFAC World Congress, August 1960．参照）を用いた状態推定などがある。

　物体検知部１２は、検知結果の内、物体検知ＡＩが見逃し、かつ補間処理によって補間したものに限り、各映像フレームにおける各物体に対して以下の情報を記録する。
　第１に、当該フレームの識別情報となるフレーム番号である。但し、フレームの識別情報として、フレーム番号の代わりにフレームの時刻情報でもよい。

　第２に、検知した物体の位置情報となるバウンディングボックスの情報である。この情報は映像フレーム内における物体の位置を表すものであり、物体領域を示す座標値（例として、左端・上端・右端・下端の４値など）の組である。

　第３に、検知した物体のクラス情報である。これは物体の種類を表すものであり、物体検知ＡＩが学習したものの中から択一的に出力される。クラス情報の選択については後述する。

　［見逃しフレーム抽出部１３］　見逃しフレーム抽出部１３は、物体検知部１２で記録された第１のフレームの識別情報であるフレーム番号（あるいは時刻）に対応する映像フレームを映像データ記憶部２１から抽出し、抽出した映像フレームを学習データ生成部１４に出力する。

　［学習データ生成部１４］　学習データ生成部１４は、見逃し映像フレームにおける見逃した物体に対するアノテーションを行うもので、見逃しフレーム抽出部１３から入力される見逃し映像フレームに対して検知結果記憶部２２に記憶する検知結果をそのまま教師データとし、見逃し映像フレームと教師データの組を再学習用の学習データとして学習データ記憶部２３に記憶する。

　［映像データ記憶部２１］　映像データ記憶部２１は、時間経過に伴う映像フレームを記憶するもので、各映像フレームにはフレーム番号又は撮影時刻若しくは双方が付与されている。
　映像データ記憶部２１の映像フレームは、映像取得部１１に読み取られ、また、見逃しフレーム抽出部１３からのアクセスにより補間対象になった映像フレームが、対応するフレーム番号又は時刻に基づいて読み出される。

　［検知結果記憶部２２］　検知結果記憶部２２は、物体検知部１２の推論部１２１での検知結果、補間部１２２での補間結果（補間内容）を記憶するものである。
　また、検知結果記憶部２２は、学習データ生成部１４からのアクセスにより教師データとなる補間結果を出力する。教師データの取得処理については後述する。

　［学習データ記憶部２３］　学習データ記憶部２３は、学習データ生成部１４から出力される見逃し映像フレームと教師データを学習データとして記憶する。学習データ記憶部２３に記憶された学習データが再学習用の学習データとなる。

　本装置１に撮影用のカメラ等の撮影装置を接続し、撮影装置で撮影された映像データを記憶部２の映像データ記憶部２１に保存するようにして、学習データ生成システム（本システム）を構成するようにしてもよい。

　また、本装置及び本システムが好適となる条件を説明する。これらの条件は、補間処理の正確さ、すなわち本実施形態においてアノテーションされる教師データの正確さに寄与するものである。
　第１の条件は、物体とカメラとの間に遮蔽物が存在しないことである。
　第２の条件は、物体同士の重複や接触が生じないことである。
　第３の条件は、物体の速度が一定、または、物体の速度変化が映像の秒間フレーム数に対して十分に小さいことである。

［本装置１での概略処理：図２］　次に、本装置１における概略処理について図２を参照しながら説明する。図２は、本装置における概略処理を示すフロー図である。
　本装置１では、図２に示すように、映像取得部１１から入力される映像フレームについて、物体検知部１２の推論部１２１で物体検知の推論処理を行い（Ｓ１）、補間部１２２で見逃し物体の補間処理を行う（Ｓ２）。

　次に、見逃しフレーム抽出部１３が見逃し物体の補間を行った映像フレームを映像データ記憶部２１からフレーム番号等で抽出する（Ｓ３）。
　更に、学習データ生成部１４が抽出した見逃し映像フレームと対応する検知結果を検知結果記憶部２２から取得し、検知結果を教師データとし、見逃し映像フレームと教師データを組みとする学習データを生成し（Ｓ４）、処理を終了する。

　このように、本装置１では、補間部１２２で検知物体を補間した見逃し映像フレームの検出を自動化でき、更に、当該見逃し映像フレームの時間的に前後のフレームの推論結果を用いてアノテーションも自動化できるものである。

［車両による具体例：図３～７］　次に、車両を用いた具体例について図３～７を参照しながら説明する。図３は、映像例を示す説明図であり、図４は、物体検知ＡＩによる推論結果の映像例を示す説明図であり、図５は、物体検知ＡＩによる推論結果の数値データ例を示す説明図であり、図６は、補間後の検知結果の数値データ例を示す説明図であり、図７は、補間した検知結果の映像例を示す説明図である。

　図３に、物体検知を行う映像の一例を示しており、５フレームからなる映像であり、背景に存在する建物の手前を車が等速走行する様子を撮影したものである。
　この図３の映像に対して、事前に車を学習した学習済み物体検知ＡＩによる推論を行い、推論結果として得られたバウンディングボックス（１）を映像に重畳して表示したものを図４に示す。

　図４の例では、フレーム番号１，２，４，５のフレームでは車を正しく検知できているが、フレーム番号３のフレームでは背景と重なった車を検知できず、見逃している。
　図５は、図４に示した推論結果を数値データとして表形式で示したものである。図５の表の各行が検知した各物体の情報を表している。

　物体検知ＡＩの推論結果に対して補間処理を行なった結果を図６に示している。太枠で囲った行が補間した検知結果（２）である。この補間した検知結果（２）を映像に重畳して表示したものを図７に示している。

　図７から、バウンディングボックス（１）がフレーム中の車の領域と適切に重なっており、本実施例においては補間処理が理想的に機能している。
　以上の内容から、見逃しが発生したフレームとしてフレーム番号３の画像が得られ、また補間した検知結果が得られたため、補間した検知結果をフレーム番号３の画像の教師データとしてアノテーションし、これを再学習用の学習データとする。

［補間処理のフロー：図８］　次に、本装置１における補間処理のアルゴリズムについて図８を参照しながら説明する。図８は、補間処理のフロー図である。補間処理の内容としては様々な手法・アルゴリズムを適用できるが、図８では単純な例を示している。
　補間処理のアルゴリズムは、フレーム番号を若い順に推論結果と照合し、あるフレーム番号における検知結果が存在しない（すなわち見逃しが生じている）場合、前後のフレームの検知結果に基づき補間するものである。

　補間処理のアルゴリズムは、図８に示すように、処理が開始する（Ｓ１１）と、映像の先頭フレーム（ｉ＝０）から照合を開始し（Ｓ１２）、最終フレームまで照合が完了した場合ら処理を終了する。つまり、フレーム＞＝ｉ（ｉ番目のフレームが検知対象の総フレーム数以下）を満たす検知結果が存在するか否かを判定し（Ｓ１３）、存在しない（検知が完了した）場合（Ｎｏの場合）、処理を終了する（Ｓ１９）。

　判定処理Ｓ１３で検知が完了していなければ（Ｙｅｓの場合）、ｉ番目のフレームの照合を行い、そのフレームに検知結果が存在するか否かを判定する（Ｓ１４）。
　判定処理Ｓ１４で検知結果が存在しない場合（Ｎｏの場合）は、見逃しフレームの候補とする。
　判定処理Ｓ１４で検知結果が存在する場合（Ｙｅｓの場合）、フレーム番号をインクリメントし（Ｓ１５）、判定処理Ｓ１３に戻る。

　見逃しフレームの候補としたフレームは、実際に見逃しフレームであるか（すなわち、直前フレーム及び直後フレームで検知したにもかかわらずそのフレームでは検知していないか）を検証する処理を行う（Ｓ１６）。

　図３～７の例で用いた映像のように、検知対象が背景と重なってしまったため、一瞬だけ物体検知ＡＩが検知対象を見逃してしまった場合は、判定処理Ｓ１６で見逃しフレームである（Ｙｅｓの場合）と判定され、検知結果が補間される（Ｓ１７）。

　補間処理Ｓ１７における具体的な補間方法の例として、物体のバウンディングボックスは直前フレームと直後フレームの平均値とする、物体のクラスは直前フレームの値をとる、などがある。
　補間処理Ｓ１７の終了後、または、検証処理Ｓ１６で見逃しフレームではないと判定された場合（Ｎｏの場合）は、フレーム番号をインクリメントし（Ｓ１８）、判定処理Ｓ１３に戻る。

［応用例１：図９，１０］　応用例１について図９，１０を参照しながら説明する。図９は、直前・直後の１フレームを基に位置を特定する例を示す説明図であり、図１０は、直前・直後の数フレームを基に位置を特定する例を示す説明図である。
　図８のアルゴリズムを拡張することによって、数フレーム分連続して生じた見逃しを補間してもよい。

　例として、処理Ｓ１６では直前フレーム（ｉ－１）と直後フレーム（ｉ＋１）のみを参照して位置（バウンディングボックスの座標）を推定している。これは、図９に示す数式（１）で算出される。

　位置推定のために参照する直前・直後のフレームを１フレーム分から数フレーム分に変更することで、前後数フレーム分まで参照できる。
　このようにして、前方ｎフレーム先（ｉ－ｎ）、後方Ｎフレーム先（ｉ＋Ｎ）の推論結果を基にバウンディングボックスを推定する場合、前方の参照フレームにＮ倍、後方の参照フレームにｎ倍の重みをつけて加重平均をとることで推定できる。
　具体的には、図１０に示す数式（２）で算出される。

［応用例２］　図８に示したアルゴリズムの処理Ｓ１７において、物体検知ＡＩが参照先フレームで複数の物体を検知していた場合、どの物体の推論結果に基づいて補間処理を行うかが未定義である。
　これに関し、物体の速度が一定、または、物体の速度変化が映像の秒間フレーム数に対して十分に小さい場合などの好適条件下であれば、バウンディングボックスが最も近い推論結果に基づいて推定するなどの規則を適用することで補間できる。
　また、処理Ｓ１７において、物体検知ＡＩが単一の物体を検知していた場合に関しても、それらが同一の物体であるかを判定するために、同様の規則を適用してもよい。

［応用例３］　図８に示したアルゴリズムにおいて、処理Ｓ１７では線形補間を行うが、これを変更し、バウンディングボックスを非線形補間してもよい。公知である非線形補間手法としては非線形カルマンフィルタ等がある。

［応用例４］　以上の例では、物体検知ＡＩの推論結果に基づいて検知結果を補間する方法について説明したが、別の方法として、物体検知を適用する映像の各フレーム画像に基づいて検知結果を補間してもよい。例として、補間処理で取り上げた、Kanade-Lucas-Tomasiアルゴリズム等によるトラッキング手法を用いることができる。

［実施の形態の効果］　本装置１によれば、推論部１２１が、映像フレームにおける物体検知を学習済モデルで推論し、補間部１２２が、推論された時間経過に伴う複数の映像フレームから学習済モデルによる物体検知がなされず見逃しとなった見逃し映像フレームを検出して、当該検出された見逃しフレームの検知結果を時間経過に伴う複数の映像フレームから補間し、学習データ生成部１４が、補間された検知結果を用いて学習データを生成するものとしているので、見逃しフレームの収集とアノテーションを自動化でき、推論精度を容易に向上させ、ＡＩ作成における作業者の負担軽減、ヒューマンエラー削減、ＡＩ作成の効率化及び工数削減を実現できる効果がある。

　本発明は、見逃した画像データの収集とアノテーションを行う作業を自動化する学習データ生成装置、学習データ生成システム及び学習データ生成方法に好適である。

　１…学習データ生成装置、　１０…制御部、　１１…映像取得部、　１２…物体検知部、　１３…見逃しフレーム抽出部、　１４…学習データ生成部、　２０…記憶部、　２１…映像データ記憶部、　２２…学習データ記憶部、　１２１…推論部、　１２２…補間部

Claims

　画像解析における機械学習の学習データを生成する学習データ生成装置であって、
　映像フレームにおける物体検知を学習済モデルで推論する推論部と、
　前記推論された時間経過に伴う複数の映像フレームから前記学習済モデルによる物体検知がなされず見逃しとなった見逃し映像フレームを検出して、当該検出された見逃しフレームの検知結果を前記複数の映像フレームから補間する補間部と、
　前記補間された検知結果を用いて学習データを生成する生成部と、を有することを特徴とする学習データ生成装置。
　前記補間部は、見逃し映像フレームの識別番号を取得し、前記時間経過に伴う複数の映像フレームから物体の位置及び種類を推定し、
　前記生成部は、前記識別番号に対応する前記見逃しフレームと前記推定された物体の位置及び種類とを関連付けて学習データとして生成することを特徴とする請求項１記載の学習データ生成装置。
　時間経過に伴う複数の映像フレームを記憶する映像データ記憶部と、
　生成された学習データを記憶する学習データ記憶部と、
　前記補間部で検出された見逃し映像フレームの識別番号に基づいて当該見逃し映像フレームを抽出して前記生成部に出力するフレーム抽出部と、を有することを特徴とする請求項１記載の学習データ生成装置。
　請求項１に記載の学習データ生成装置と、映像を撮影し、当該学習データ生成装置に映像フレームを提供する撮影装置とを有することを特徴とする学習データ生成システム。
　画像解析における機械学習の学習データを生成する学習データ生成方法であって、
　映像フレームにおける物体検知を学習済モデルで推論し、
　前記推論された時間経過に伴う複数の映像フレームから前記学習済モデルによる物体検知がなされず見逃しとなった見逃し映像フレームを検出し、
　当該検出された見逃しフレームの検知結果を前記複数の映像フレームから補間し、
　前記補間された検知結果を用いて学習データを生成することを特徴とする学習データ生成方法。