WO2022113535A1

WO2022113535A1 - 画像認識装置、画像認識方法、および物体認識モデル

Info

Publication number: WO2022113535A1
Application number: PCT/JP2021/037156
Authority: WO
Inventors: 晋吾木田; 英樹竹原; 尹誠楊
Original assignee: 株式会社Ｊｖｃケンウッド
Priority date: 2020-11-27
Filing date: 2021-10-07
Publication date: 2022-06-02
Also published as: US20230298366A1; CN116324876A; EP4235565A4; JP2022085357A; EP4235565A1

Abstract

物体認識部（２０）は、物体認識モデルを用いて、入力画像における物体を認識する。認識精度判定部（４０）は、入力画像における物体の認識精度を判定する。教師付き画像変換部（６０）は、物体の認識精度が所定の閾値に満たない入力画像に対して、入力画像の特徴量にもとづいてラベルを付けて教師付き画像に変換する。転移学習部（８０）は、教師付き画像を教師データとして用いて物体認識モデルを転移学習し、物体認識モデルを更新する。

Description

画像認識装置、画像認識方法、および物体認識モデル

　本発明は、画像認識技術に関する。

　画像から物体を認識する装置において、認識精度の低い画像は、認識困難な未知の画像として分類される。未知の画像に対して人間が画像内の物体を識別し、ラベル付けする手動のアノテーション作業が行われる。

　特許文献１には、未だ学習済みモデルが作成されていない未知画像を取得し、学習済みモデルの中から、取得した未知画像と撮像条件が似ている既知画像の学習済みモデルを選択し、選択した学習済みモデルを利用して、未知画像を画像解析し、画像解析の結果を提供するシステムが開示されている。

国際公開第２０１９／００３３５５号公報

　人手によるアノテーションには、多くの時間とコストがかかるため、実用には適さないという問題があった。

　本発明はこうした状況に鑑みてなされたものであり、その目的は、未知の画像を高い精度で認識することができる画像認識技術を提供することにある。

　上記課題を解決するために、本実施形態のある態様の画像認識装置は、物体認識モデルを用いて、入力画像における物体を認識する物体認識部と、前記入力画像における物体の認識精度を判定する認識精度判定部と、前記物体の認識精度が所定の閾値に満たない前記入力画像に対して、前記入力画像の特徴量にもとづいてラベルを付けて教師付き画像に変換する教師付き画像変換部と、前記教師付き画像を教師データとして用いて前記物体認識モデルを転移学習し、前記物体認識モデルを更新する転移学習部とを含む。

　本実施形態の別の態様は、画像認識方法である。この方法は、物体認識モデルを用いて、入力画像における物体を認識するステップと、前記入力画像における物体の認識精度を判定するステップと、前記物体の認識精度が所定の閾値に満たない前記入力画像に対して、前記入力画像の特徴量にもとづいてラベルを付けて教師付き画像に変換するステップと、前記教師付き画像を教師データとして用いて前記物体認識モデルを転移学習して前記物体認識モデルを更新するステップとを含む。

　本実施形態のさらに別の態様は、物体認識モデルである。この物体認識モデルは、コンピュータに入力画像における物体を認識させる物体認識モデルであって、前記物体の認識精度が所定の閾値に満たない前記入力画像に対して、前記入力画像の特徴量にもとづいてラベルを付けた教師付き画像を、教師データとして用いて転移学習して更新されている。

　なお、以上の構成要素の任意の組合せ、本実施形態の表現を方法、装置、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本実施形態の態様として有効である。

　本実施形態によれば、未知の画像を高い精度で認識することができる画像認識技術を提供することができる。

実施の形態に係る画像認識装置の構成図である。図２（ａ）～図２（ｄ）は、図１の物体認識部に入力される画像の一例を示す図である。図３（ａ）～図３（ｄ）は、図１の物体認識部が学習済みの物体認識モデルにもとづいて図２（ａ）～図２（ｄ）の画像における物体を認識した結果を説明する図である。未知画像にラベルを付けた教師付き画像を説明する図である。図１の画像認識装置による画像認識手順を説明するフローチャートである。

　図１は、実施の形態に係る画像認識装置１００の構成図である。画像認識装置１００は、入力部１０、物体認識部２０、物体認識モデル記憶部３０、認識精度判定部４０、出力部５０、教師付き画像変換部６０、特徴量－ラベルデータベース７０、転移学習部８０、および事前学習データセット記憶部９０を含む。

　入力部１０は、物体を認識すべき画像を取得し、物体認識部２０に供給する。

　物体認識モデル記憶部３０には、事前学習データセットであらかじめ学習された認識精度が優れた物体認識モデルが格納されている。事前学習データセット記憶部９０には、物体認識モデルの学習に用いられた事前学習データセットが記憶されている。

　物体認識部２０は、物体認識モデル記憶部３０に記憶された学習済みの物体認識モデルを用いて、入力画像における物体を認識する。物体認識部２０は入力画像における物体の認識結果を認識精度判定部４０に供給する。認識結果には、少なくとも一つの物体のクラスの候補とその認識精度が含まれる。

　物体認識部２０による物体の認識精度が所定の閾値以上である場合、認識結果を出力部５０に供給する。出力部５０は入力画像の認識結果を出力する。

　認識精度判定部４０は、入力画像における物体の認識精度を判定し、物体の認識精度が所定の閾値に満たない低認識精度画像を未知画像として教師付き画像変換部６０に供給する。

　教師付き画像変換部６０は、認識精度判定部４０から供給された未知画像に対して、当該未知画像の特徴量にもとづいてラベルを付けて教師付き画像に変換し、転移学習部８０に供給する。未知画像にラベルを付すために用いる特徴量の一例として、物体認識モデル記憶部３０に記憶された学習済の物体認識モデルに画像を入力した場合の中間出力である、ニューラルネットワークの後段の中間層の特徴量を用いてもよい。

　特徴量－ラベルデータベース７０は、画像の特徴量とラベルのペアを蓄積するデータベースである。教師付き画像変換部６０は、特徴量－ラベルデータベース７０を参照して、未知画像の特徴量に最も類似する特徴量に対応するラベルを取得し、取得されたラベルを未知画像に付けて教師付き画像に変換する。特徴量－ラベルデータベースの一例として、あらかじめ物体認識モデル記憶部３０に記憶された学習済の物体認識モデルに画像を入力した場合の中間出力である、ニューラルネットワークの後段の中間層の特徴量と、その画像のラベルとを関連づけて蓄積したデータベースを用いてもよい。

　転移学習部８０は、教師付き画像変換部６０から供給された教師付き画像を事前学習データセット記憶部９０に格納された事前学習データセットに追加して新たなデータセットを構成し、新たなデータセットで物体認識モデルを転移学習し、更新された物体認識モデルを物体認識モデル記憶部３０に格納する。

　ここでは、事前学習データセット記憶部９０には、物体認識モデルの事前学習に用いられたビッグデータなどのデータセットが利用できる場合は、そのデータセットが事前学習データとして格納されている。物体認識モデルの事前学習に用いられたデータセットを利用できない場合は、物体認識部２０によって高い認識精度で物体が認識された既知の入力画像を事前学習データセットとして蓄積しておいてもよい。この場合、転移学習部８０は、事前学習データセット記憶部９０に蓄積された既知画像の事前学習データセットに対して、未知画像にラベル付けした教師付き画像を追加して新たなデータセットを構成し、新たなデータセットで物体認識モデルを転移学習する。

　転移学習では、一例として、学習済みモデルのニューラルネットワークの最終出力層を新たな層に付け替え、新たなデータセットを教師データとして用いて新たな層のパラメータを再学習することにより、新たなニューラルネットワークを生成する。

　物体認識部２０は、更新された物体認識モデルを用いることにより、認識精度が低かった物体が含まれる画像が入力されても高い精度でその物体を認識することができる。これにより未知のクラスの物体の認識が可能になる。

　図２（ａ）～図２（ｄ）は、物体認識部２０に入力される画像の一例を示す図である。図２（ａ）は人の画像、図２（ｂ）はモーターバイクの画像、図２（ｃ）は車の画像、図２（ｄ）は自転車の画像である。入力画像はこれ以外にも種類があり、たとえば全部で１０種類あるとする。

　当初の物体認識モデルは、人、モーターバイク、車の３種類の画像が多数利用できるため、この３種類の画像を事前データセットとして学習されたものであるとする。

　図３（ａ）～図３（ｄ）は、物体認識部２０が学習済みの物体認識モデルにもとづいて図２（ａ）～図２（ｄ）の画像における物体を認識した結果を説明する図である。

　当初の物体認識モデルは、人、モーターバイク、車の３種類のクラスについて事前学習済みであるため、認識結果として、図３（ａ）に示すように図２（ａ）の画像には「人」、図３（ｂ）に示すように図２（ｂ）の画像には「モーターバイク」、図３（ｃ）に示すように図２（ｃ）の画像には「車」というラベルが識別される。しかし、当初の物体認識モデルは、自転車というクラスについては学習していないため、図３（ｄ）に示すように図２（ｄ）の画像の認識結果は精度が低く、ラベルが不明となる。

　教師付き画像変換部６０は、図２（ｄ）の画像の特徴量を抽出し、特徴量－ラベルデータベース７０を参照して、図２（ｄ）の画像の特徴量に最も類似する特徴量に対応するラベルを取得する。この場合、取得されるラベルは「自転車」である。教師付き画像変換部６０は、図４のように、特徴量－ラベルデータベース７０から取得された「自転車」というラベルを図２（ｄ）の画像に付けて教師付き画像に変換する。

　転移学習部８０は、図４の教師付き画像を新たな教師データとして用いて物体認識モデルを転移学習させて新しい物体認識モデルを生成する。これにより、新しい物体認識モデルは、人、モーターバイク、車、自転車の４種類のクラスを識別できるようになる。このようにして、認識精度の低い未知画像が検知される度に、ラベル付けをした教師付き画像に変換し、教師付き画像を新たな教師データとして用いて物体認識モデルを転移学習させることで１０種類全部のクラスを識別できるようになる。

　ここで、未知クラスの画像に対してラベル付けした教師付き画像のみを教師データとして用いて物体認識モデルを転移学習させると、これまで識別できていた既知クラスの画像を正しく認識できなくなることも起こりうる。そこで、既知クラスの教師付き画像に未知クラスの教師付き画像を追加した新しいデータセットを教師データとして用いて物体認識モデルを転移学習させることがより好ましい。たとえば、自転車の画像を用いて転移学習する場合、人、モーターバイク、車の教師付き画像の事前学習データセットに自転車の教師付き画像を追加して新たなデータセットを構成し、４種類の教師付き画像を含むデータセットを教師データとして用いて物体認識モデルを転移学習させる。これにより、最終的にすべての種類の画像を正しく認識できる物体認識モデルを生成することができる。

　図５は、画像認識装置１００による画像認識手順を説明するフローチャートである。

　物体認識部２０は、認識対象の画像を学習済み物体認識モデルに入力し、画像における物体を認識する（Ｓ１０）。

　物体の認識精度が所定の閾値以上である場合（Ｓ２０のＮ）、認識結果のラベルを出力し（Ｓ３０）、ステップＳ１０に戻り、別の画像を入力する。

　物体の認識精度が所定の閾値未満である場合、例えば第１候補とされるラベルの正解確率が５０％より小さい場合（Ｓ２０のＹ）、入力画像を未知画像として画像の特徴量抽出を行う（Ｓ４０）。

　教師付き画像変換部６０は、特徴量－ラベルデータベース７０から、未知画像の特徴量とマッチングしたラベルを取得し（Ｓ５０）、取得されたラベルを未知画像に付けて教師付き画像を生成する（Ｓ６０）。

　同一クラスの物体の教師付き画像が所定枚数、例えば３０枚たまるまで（Ｓ７０のＮ）、ステップＳ１０からステップＳ６０までの手順を繰り返す。所定枚数、ここでは３０枚の同一クラスの教師付き画像がたまった場合（Ｓ７０のＹ）、転移学習部８０は、事前学習に使用したデータセットに所定枚数の教師付き画像を追加して新しいデータセットを生成し、新しいデータセットを用いて学習済み物体認識モデルを転移学習させる（Ｓ８０）。転移学習部８０は、転移学習済みの新たな物体認識モデルを生成し、物体認識モデル記憶部３０に格納する（Ｓ９０）。

　上記の説明では、同一クラスの物体の教師付き画像が所定枚数たまってから転移学習を行ったが、一枚の教師付き画像が生成される都度、転移学習を行ってもよい。

　以上説明した画像認識装置１００の各種の処理は、ＣＰＵやメモリ等のハードウェアを用いた装置として実現することができるのは勿論のこと、ＲＯＭ（リード・オンリ・メモリ）やフラッシュメモリ等に記憶されているファームウェアや、コンピュータ等のソフトウェアによっても実現することができる。そのファームウェアプログラム、ソフトウェアプログラムをコンピュータ等で読み取り可能な記録媒体に記録して提供することも、有線あるいは無線のネットワークを通してサーバと送受信することも、地上波あるいは衛星ディジタル放送のデータ放送として送受信することも可能である。

　従来の構成では、未知画像に対して人手によりアノテーション作業を行い、転移学習時の教師データとして加える必要があった。本実施の形態の画像認識装置１００では、学習済み物体認識モデルの認識結果に基づき、認識精度の低い未知画像を検出し、未知画像を教師付き画像に自動変換し、変換後の教師付き画像を新たな教師データとして加え、学習済み物体認識モデルの一部を学習し直す。これにより、人手によらず、未知画像を高い精度で認識できるようになる。

　以上、本発明を実施の形態をもとに説明した。実施の形態は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。

　本発明は、画像認識技術に利用できる。

　１０　入力部、　２０　物体認識部、　３０　物体認識モデル記憶部、　４０　認識精度判定部、　５０　出力部、　６０　教師付き画像変換部、　７０　特徴量－ラベルデータベース、　８０　転移学習部、　９０　事前学習データセット記憶部、　１００　画像認識装置。

Claims

　物体認識モデルを用いて、入力画像における物体を認識する物体認識部と、
　前記入力画像における物体の認識精度を判定する認識精度判定部と、
　前記物体の認識精度が所定の閾値に満たない前記入力画像に対して、前記入力画像の特徴量にもとづいてラベルを付けて教師付き画像に変換する教師付き画像変換部と、
　前記教師付き画像を教師データとして用いて前記物体認識モデルを転移学習し、前記物体認識モデルを更新する転移学習部とを含むことを特徴とする画像認識装置。
　画像の特徴量とラベルのペアを蓄積するデータベースをさらに含み、
　前記教師付き画像変換部は、前記データベースを参照して、前記入力画像の特徴量に最も類似する特徴量に対応するラベルを取得し、取得されたラベルを前記入力画像に付けて前記教師付き画像に変換することを特徴とする請求項１に記載の画像認識装置。
　前記転移学習部は、前記物体認識モデルの事前学習に用いられたデータセットに前記教師付き画像を追加して新たなデータセットを構成し、前記新たなデータセットを教師データとして用いて前記物体認識モデルを転移学習することを特徴とする請求項１または２に記載の画像認識装置。
　前記転移学習部は、同一ラベルが付いた前記教師付き画像が所定枚数以上たまった場合に、前記物体認識モデルの事前学習に用いられたデータセットに前記教師付き画像を追加して前記新たなデータセットを構成することを特徴とする請求項３に記載の画像認識装置。
　物体認識モデルを用いて、入力画像における物体を認識するステップと、
　前記入力画像における物体の認識精度を判定するステップと、
　前記物体の認識精度が所定の閾値に満たない前記入力画像に対して、前記入力画像の特徴量にもとづいてラベルを付けて教師付き画像に変換するステップと、
　前記教師付き画像を教師データとして用いて前記物体認識モデルを転移学習して前記物体認識モデルを更新するステップとを含むことを特徴とする画像認識方法。
　コンピュータに入力画像における物体を認識させる物体認識モデルであって、
　前記物体の認識精度が所定の閾値に満たない前記入力画像に対して、前記入力画像の特徴量にもとづいてラベルを付けた教師付き画像を、教師データとして用いて転移学習して更新されたことを特徴とする物体認識モデル。