WO2022113535A1 - 画像認識装置、画像認識方法、および物体認識モデル - Google Patents

画像認識装置、画像認識方法、および物体認識モデル Download PDF

Info

Publication number
WO2022113535A1
WO2022113535A1 PCT/JP2021/037156 JP2021037156W WO2022113535A1 WO 2022113535 A1 WO2022113535 A1 WO 2022113535A1 JP 2021037156 W JP2021037156 W JP 2021037156W WO 2022113535 A1 WO2022113535 A1 WO 2022113535A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
supervised
recognition
input image
recognition model
Prior art date
Application number
PCT/JP2021/037156
Other languages
English (en)
French (fr)
Inventor
晋吾 木田
英樹 竹原
尹誠 楊
Original Assignee
株式会社Jvcケンウッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社Jvcケンウッド filed Critical 株式会社Jvcケンウッド
Priority to CN202180070962.2A priority Critical patent/CN116324876A/zh
Priority to EP21897513.4A priority patent/EP4235565A4/en
Publication of WO2022113535A1 publication Critical patent/WO2022113535A1/ja
Priority to US18/324,195 priority patent/US20230298366A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/778Active pattern-learning, e.g. online learning of image or video features
    • G06V10/7784Active pattern-learning, e.g. online learning of image or video features based on feedback from supervisors
    • G06V10/7792Active pattern-learning, e.g. online learning of image or video features based on feedback from supervisors the supervisor being an automated module, e.g. "intelligent oracle"

Definitions

  • the present invention relates to an image recognition technique.
  • an image with low recognition accuracy is classified as an unknown image that is difficult to recognize.
  • a manual annotation operation is performed on an unknown image in which a human identifies and labels an object in the image.
  • Patent Document 1 an unknown image for which a trained model has not been created is acquired, and a trained model of a known image whose imaging conditions are similar to the acquired unknown image is selected from the trained models and selected.
  • a system that analyzes an unknown image by using the trained model and provides the result of the image analysis is disclosed.
  • the present invention has been made in view of such a situation, and an object thereof is to provide an image recognition technique capable of recognizing an unknown image with high accuracy.
  • the image recognition device of an embodiment of the present embodiment uses an object recognition model to determine an object recognition unit that recognizes an object in an input image and an object recognition accuracy in the input image.
  • a recognition accuracy determination unit and a supervised image conversion unit that labels an input image whose recognition accuracy of the object is less than a predetermined threshold based on the feature amount of the input image and converts it into a supervised image.
  • the transfer learning unit that transfers and learns the object recognition model using the supervised image as teacher data and updates the object recognition model.
  • Another aspect of this embodiment is an image recognition method.
  • an object recognition model is used to recognize an object in an input image, determine the recognition accuracy of the object in the input image, and the input image whose recognition accuracy of the object does not reach a predetermined threshold.
  • the step of attaching a label based on the feature amount of the input image and converting it into a supervised image, and the transfer learning of the object recognition model using the supervised image as teacher data are performed to obtain the object recognition model. Includes steps to update.
  • This object recognition model is an object recognition model that causes a computer to recognize an object in an input image, and is based on the feature amount of the input image with respect to the input image whose recognition accuracy of the object does not reach a predetermined threshold value.
  • the labeled supervised image is transferred and updated using the supervised image as the teacher data.
  • FIGS. 2 (a) and 2 (d) are diagrams showing an example of an image input to the object recognition unit of FIG. 3 (a) to 3 (d) explain the results of recognizing an object in the images of FIGS. 2 (a) and 2 (d) based on the learned object recognition model by the object recognition unit of FIG. 1. It is a figure to do. It is a figure explaining the supervised image which attached the label to the unknown image. It is a flowchart explaining the image recognition procedure by the image recognition apparatus of FIG.
  • FIG. 1 is a configuration diagram of an image recognition device 100 according to an embodiment.
  • the image recognition device 100 includes an input unit 10, an object recognition unit 20, an object recognition model storage unit 30, a recognition accuracy determination unit 40, an output unit 50, a supervised image conversion unit 60, a feature quantity-label database 70, and a transfer learning unit 80. , And a pre-trained dataset storage unit 90.
  • the input unit 10 acquires an image for recognizing an object and supplies it to the object recognition unit 20.
  • the object recognition model storage unit 30 stores an object recognition model with excellent recognition accuracy that has been learned in advance by the pre-learning data set.
  • the pre-learning data set storage unit 90 stores the pre-learning data set used for learning the object recognition model.
  • the object recognition unit 20 recognizes an object in the input image by using the learned object recognition model stored in the object recognition model storage unit 30.
  • the object recognition unit 20 supplies the recognition result of the object in the input image to the recognition accuracy determination unit 40.
  • the recognition result includes at least one object class candidate and its recognition accuracy.
  • the recognition result is supplied to the output unit 50.
  • the output unit 50 outputs the recognition result of the input image.
  • the recognition accuracy determination unit 40 determines the recognition accuracy of the object in the input image, and supplies a low recognition accuracy image whose object recognition accuracy does not reach a predetermined threshold to the supervised image conversion unit 60 as an unknown image.
  • the supervised image conversion unit 60 labels the unknown image supplied from the recognition accuracy determination unit 40 based on the feature amount of the unknown image, converts it into a supervised image, and supplies the unknown image to the transfer learning unit 80. ..
  • the intermediate layer in the latter stage of the neural network which is the intermediate output when the image is input to the trained object recognition model stored in the object recognition model storage unit 30.
  • the feature amount of may be used.
  • the feature amount-label database 70 is a database that accumulates image feature amounts and label pairs.
  • the supervised image conversion unit 60 refers to the feature quantity-label database 70, acquires a label corresponding to the feature quantity most similar to the feature quantity of the unknown image, attaches the acquired label to the unknown image, and supervises the unknown image. Convert to an image.
  • Feature quantity-A as an example of a label database, the feature quantity of the intermediate layer in the latter stage of the neural network, which is the intermediate output when an image is input to the trained object recognition model stored in advance in the object recognition model storage unit 30, A database accumulated in association with the label of the image may be used.
  • the transfer learning unit 80 adds the supervised image supplied from the supervised image conversion unit 60 to the pre-learning data set stored in the pre-learning data set storage unit 90 to form a new data set, and new data.
  • the object recognition model is transferred and learned as a set, and the updated object recognition model is stored in the object recognition model storage unit 30.
  • the data set is stored as the pre-learning data.
  • a known input image in which the object is recognized by the object recognition unit 20 with high recognition accuracy may be stored as the pre-learning data set.
  • the transfer learning unit 80 constructs a new data set by adding a supervised image labeled to the unknown image to the pre-learning data set of the known image stored in the pre-learning data set storage unit 90. Then, transfer learning the object recognition model with a new data set.
  • a new neural network is created by replacing the final output layer of the trained model's neural network with a new layer and using the new data set as teacher data to relearn the parameters of the new layer. To generate.
  • the object recognition unit 20 can recognize the object with high accuracy even if an image including an object having low recognition accuracy is input. This makes it possible to recognize objects of unknown class.
  • FIG. 2 (a) to 2 (d) are diagrams showing an example of an image input to the object recognition unit 20.
  • 2 (a) is an image of a person
  • FIG. 2 (b) is an image of a motorbike
  • FIG. 2 (c) is an image of a car
  • FIG. 2 (d) is an image of a bicycle.
  • the initial object recognition model can use many images of three types of people, motorbikes, and cars, it is assumed that these three types of images were learned as a preliminary data set.
  • 3 (a) to 3 (d) are diagrams illustrating the results of recognition of an object in the images of FIGS. 2 (a) and 2 (d) by the object recognition unit 20 based on the learned object recognition model. Is.
  • FIG. 3 (a) Since the initial object recognition model has been pre-learned for three types of classes: human, motorbike, and car, as a recognition result, as shown in FIG. 3 (a), the image of FIG. 2 (a) shows "human”. , The image of FIG. 2 (b) is labeled "motorbike” as shown in FIG. 3 (b), and the image of FIG. 2 (c) is labeled "car” as shown in FIG. 3 (c). Will be done. However, since the initial object recognition model did not learn about the class of bicycle, the recognition result of the image of FIG. 2D is low in accuracy as shown in FIG. 3D, and the label is unknown.
  • the supervised image conversion unit 60 extracts the feature amount of the image of FIG. 2D and refers to the feature amount-label database 70 to obtain the feature amount most similar to the feature amount of the image of FIG. 2D. Get the corresponding label. In this case, the label obtained is "bicycle". As shown in FIG. 4, the supervised image conversion unit 60 attaches the label “bicycle” acquired from the feature quantity-label database 70 to the image of FIG. 2 (d) and converts it into a supervised image.
  • the transfer learning unit 80 uses the supervised image of FIG. 4 as new teacher data to perform transfer learning of the object recognition model to generate a new object recognition model. This will allow the new object recognition model to identify four classes: people, motorbikes, cars and bicycles. In this way, every time an unknown image with low recognition accuracy is detected, it is converted into a labeled supervised image, and the supervised image is used as new teacher data to transfer-learn the object recognition model. You will be able to identify all types of classes.
  • the object recognition model is transferred and trained using only the supervised image labeled for the unknown class image as the teacher data, it may not be possible to correctly recognize the known class image that could be identified so far. sell. Therefore, it is more preferable to transfer-learn the object recognition model using a new data set in which an unknown class of supervised image is added to a known class of supervised image as teacher data.
  • a new data set is constructed by adding a bicycle supervised image to the pre-trained data set of a person, motorbike, and car supervised image, and four types of teachers.
  • the object recognition model is transferred and trained using the data set including the attached image as the teacher data. This makes it possible to finally generate an object recognition model that can correctly recognize all kinds of images.
  • FIG. 5 is a flowchart illustrating an image recognition procedure by the image recognition device 100.
  • the object recognition unit 20 inputs the image to be recognized into the trained object recognition model and recognizes the object in the image (S10).
  • the recognition accuracy of the object is equal to or higher than the predetermined threshold value (N in S20)
  • the label of the recognition result is output (S30)
  • the process returns to step S10, and another image is input.
  • the recognition accuracy of the object is less than a predetermined threshold value, for example, when the correct answer probability of the label which is the first candidate is less than 50% (Y in S20), the feature amount of the image is extracted using the input image as an unknown image (Y). S40).
  • the supervised image conversion unit 60 acquires a label matching the feature amount of the unknown image from the feature amount-label database 70 (S50), attaches the acquired label to the unknown image, and generates a supervised image (S60). ).
  • step S10 to step S60 The procedure from step S10 to step S60 is repeated until a predetermined number of supervised images of objects of the same class are accumulated (N in S70).
  • a predetermined number of supervised images of the same class in this case, 30 supervised images are accumulated (Y in S70)
  • the transfer learning unit 80 adds a predetermined number of supervised images to the data set used for the pre-learning and new data.
  • a set is generated, and the trained object recognition model is transferred and trained using the new data set (S80).
  • the transfer learning unit 80 generates a new object recognition model that has been transfer-learned, and stores it in the object recognition model storage unit 30 (S90).
  • transfer learning is performed after a predetermined number of supervised images of objects of the same class are accumulated, but transfer learning may be performed each time one supervised image is generated.
  • the various processes of the image recognition device 100 described above can be realized as a device using hardware such as a CPU and a memory, and are stored in a ROM (read only memory), a flash memory, or the like. It can also be realized by using firmware or software such as a computer.
  • the firmware program and software program can be recorded and provided on a recording medium that can be read by a computer, etc., transmitted to and received from a server via a wired or wireless network, and transmitted and received as data broadcasting of terrestrial or satellite digital broadcasting. Is also possible.
  • the image recognition device 100 of the present embodiment detects an unknown image with low recognition accuracy based on the recognition result of the trained object recognition model, automatically converts the unknown image into a supervised image, and converts the converted supervised image into a supervised image. Add as new teacher data and relearn a part of the trained object recognition model. This makes it possible to recognize unknown images with high accuracy regardless of human intervention.
  • the present invention can be used for image recognition technology.
  • 10 input unit 20 object recognition unit, 30 object recognition model storage unit, 40 recognition accuracy judgment unit, 50 output unit, 60 supervised image conversion unit, 70 feature quantity-label database, 80 transfer learning unit, 90 pre-learning data set Storage unit, 100 image recognition device.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)

Abstract

物体認識部(20)は、物体認識モデルを用いて、入力画像における物体を認識する。認識精度判定部(40)は、入力画像における物体の認識精度を判定する。教師付き画像変換部(60)は、物体の認識精度が所定の閾値に満たない入力画像に対して、入力画像の特徴量にもとづいてラベルを付けて教師付き画像に変換する。転移学習部(80)は、教師付き画像を教師データとして用いて物体認識モデルを転移学習し、物体認識モデルを更新する。

Description

画像認識装置、画像認識方法、および物体認識モデル
 本発明は、画像認識技術に関する。
 画像から物体を認識する装置において、認識精度の低い画像は、認識困難な未知の画像として分類される。未知の画像に対して人間が画像内の物体を識別し、ラベル付けする手動のアノテーション作業が行われる。
 特許文献1には、未だ学習済みモデルが作成されていない未知画像を取得し、学習済みモデルの中から、取得した未知画像と撮像条件が似ている既知画像の学習済みモデルを選択し、選択した学習済みモデルを利用して、未知画像を画像解析し、画像解析の結果を提供するシステムが開示されている。
国際公開第2019/003355号公報
 人手によるアノテーションには、多くの時間とコストがかかるため、実用には適さないという問題があった。
 本発明はこうした状況に鑑みてなされたものであり、その目的は、未知の画像を高い精度で認識することができる画像認識技術を提供することにある。
 上記課題を解決するために、本実施形態のある態様の画像認識装置は、物体認識モデルを用いて、入力画像における物体を認識する物体認識部と、前記入力画像における物体の認識精度を判定する認識精度判定部と、前記物体の認識精度が所定の閾値に満たない前記入力画像に対して、前記入力画像の特徴量にもとづいてラベルを付けて教師付き画像に変換する教師付き画像変換部と、前記教師付き画像を教師データとして用いて前記物体認識モデルを転移学習し、前記物体認識モデルを更新する転移学習部とを含む。
 本実施形態の別の態様は、画像認識方法である。この方法は、物体認識モデルを用いて、入力画像における物体を認識するステップと、前記入力画像における物体の認識精度を判定するステップと、前記物体の認識精度が所定の閾値に満たない前記入力画像に対して、前記入力画像の特徴量にもとづいてラベルを付けて教師付き画像に変換するステップと、前記教師付き画像を教師データとして用いて前記物体認識モデルを転移学習して前記物体認識モデルを更新するステップとを含む。
 本実施形態のさらに別の態様は、物体認識モデルである。この物体認識モデルは、コンピュータに入力画像における物体を認識させる物体認識モデルであって、前記物体の認識精度が所定の閾値に満たない前記入力画像に対して、前記入力画像の特徴量にもとづいてラベルを付けた教師付き画像を、教師データとして用いて転移学習して更新されている。
 なお、以上の構成要素の任意の組合せ、本実施形態の表現を方法、装置、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本実施形態の態様として有効である。
 本実施形態によれば、未知の画像を高い精度で認識することができる画像認識技術を提供することができる。
実施の形態に係る画像認識装置の構成図である。 図2(a)~図2(d)は、図1の物体認識部に入力される画像の一例を示す図である。 図3(a)~図3(d)は、図1の物体認識部が学習済みの物体認識モデルにもとづいて図2(a)~図2(d)の画像における物体を認識した結果を説明する図である。 未知画像にラベルを付けた教師付き画像を説明する図である。 図1の画像認識装置による画像認識手順を説明するフローチャートである。
 図1は、実施の形態に係る画像認識装置100の構成図である。画像認識装置100は、入力部10、物体認識部20、物体認識モデル記憶部30、認識精度判定部40、出力部50、教師付き画像変換部60、特徴量-ラベルデータベース70、転移学習部80、および事前学習データセット記憶部90を含む。
 入力部10は、物体を認識すべき画像を取得し、物体認識部20に供給する。
 物体認識モデル記憶部30には、事前学習データセットであらかじめ学習された認識精度が優れた物体認識モデルが格納されている。事前学習データセット記憶部90には、物体認識モデルの学習に用いられた事前学習データセットが記憶されている。
 物体認識部20は、物体認識モデル記憶部30に記憶された学習済みの物体認識モデルを用いて、入力画像における物体を認識する。物体認識部20は入力画像における物体の認識結果を認識精度判定部40に供給する。認識結果には、少なくとも一つの物体のクラスの候補とその認識精度が含まれる。
 物体認識部20による物体の認識精度が所定の閾値以上である場合、認識結果を出力部50に供給する。出力部50は入力画像の認識結果を出力する。
 認識精度判定部40は、入力画像における物体の認識精度を判定し、物体の認識精度が所定の閾値に満たない低認識精度画像を未知画像として教師付き画像変換部60に供給する。
 教師付き画像変換部60は、認識精度判定部40から供給された未知画像に対して、当該未知画像の特徴量にもとづいてラベルを付けて教師付き画像に変換し、転移学習部80に供給する。未知画像にラベルを付すために用いる特徴量の一例として、物体認識モデル記憶部30に記憶された学習済の物体認識モデルに画像を入力した場合の中間出力である、ニューラルネットワークの後段の中間層の特徴量を用いてもよい。
 特徴量-ラベルデータベース70は、画像の特徴量とラベルのペアを蓄積するデータベースである。教師付き画像変換部60は、特徴量-ラベルデータベース70を参照して、未知画像の特徴量に最も類似する特徴量に対応するラベルを取得し、取得されたラベルを未知画像に付けて教師付き画像に変換する。特徴量-ラベルデータベースの一例として、あらかじめ物体認識モデル記憶部30に記憶された学習済の物体認識モデルに画像を入力した場合の中間出力である、ニューラルネットワークの後段の中間層の特徴量と、その画像のラベルとを関連づけて蓄積したデータベースを用いてもよい。
 転移学習部80は、教師付き画像変換部60から供給された教師付き画像を事前学習データセット記憶部90に格納された事前学習データセットに追加して新たなデータセットを構成し、新たなデータセットで物体認識モデルを転移学習し、更新された物体認識モデルを物体認識モデル記憶部30に格納する。
 ここでは、事前学習データセット記憶部90には、物体認識モデルの事前学習に用いられたビッグデータなどのデータセットが利用できる場合は、そのデータセットが事前学習データとして格納されている。物体認識モデルの事前学習に用いられたデータセットを利用できない場合は、物体認識部20によって高い認識精度で物体が認識された既知の入力画像を事前学習データセットとして蓄積しておいてもよい。この場合、転移学習部80は、事前学習データセット記憶部90に蓄積された既知画像の事前学習データセットに対して、未知画像にラベル付けした教師付き画像を追加して新たなデータセットを構成し、新たなデータセットで物体認識モデルを転移学習する。
 転移学習では、一例として、学習済みモデルのニューラルネットワークの最終出力層を新たな層に付け替え、新たなデータセットを教師データとして用いて新たな層のパラメータを再学習することにより、新たなニューラルネットワークを生成する。
 物体認識部20は、更新された物体認識モデルを用いることにより、認識精度が低かった物体が含まれる画像が入力されても高い精度でその物体を認識することができる。これにより未知のクラスの物体の認識が可能になる。
 図2(a)~図2(d)は、物体認識部20に入力される画像の一例を示す図である。図2(a)は人の画像、図2(b)はモーターバイクの画像、図2(c)は車の画像、図2(d)は自転車の画像である。入力画像はこれ以外にも種類があり、たとえば全部で10種類あるとする。
 当初の物体認識モデルは、人、モーターバイク、車の3種類の画像が多数利用できるため、この3種類の画像を事前データセットとして学習されたものであるとする。
 図3(a)~図3(d)は、物体認識部20が学習済みの物体認識モデルにもとづいて図2(a)~図2(d)の画像における物体を認識した結果を説明する図である。
 当初の物体認識モデルは、人、モーターバイク、車の3種類のクラスについて事前学習済みであるため、認識結果として、図3(a)に示すように図2(a)の画像には「人」、図3(b)に示すように図2(b)の画像には「モーターバイク」、図3(c)に示すように図2(c)の画像には「車」というラベルが識別される。しかし、当初の物体認識モデルは、自転車というクラスについては学習していないため、図3(d)に示すように図2(d)の画像の認識結果は精度が低く、ラベルが不明となる。
 教師付き画像変換部60は、図2(d)の画像の特徴量を抽出し、特徴量-ラベルデータベース70を参照して、図2(d)の画像の特徴量に最も類似する特徴量に対応するラベルを取得する。この場合、取得されるラベルは「自転車」である。教師付き画像変換部60は、図4のように、特徴量-ラベルデータベース70から取得された「自転車」というラベルを図2(d)の画像に付けて教師付き画像に変換する。
 転移学習部80は、図4の教師付き画像を新たな教師データとして用いて物体認識モデルを転移学習させて新しい物体認識モデルを生成する。これにより、新しい物体認識モデルは、人、モーターバイク、車、自転車の4種類のクラスを識別できるようになる。このようにして、認識精度の低い未知画像が検知される度に、ラベル付けをした教師付き画像に変換し、教師付き画像を新たな教師データとして用いて物体認識モデルを転移学習させることで10種類全部のクラスを識別できるようになる。
 ここで、未知クラスの画像に対してラベル付けした教師付き画像のみを教師データとして用いて物体認識モデルを転移学習させると、これまで識別できていた既知クラスの画像を正しく認識できなくなることも起こりうる。そこで、既知クラスの教師付き画像に未知クラスの教師付き画像を追加した新しいデータセットを教師データとして用いて物体認識モデルを転移学習させることがより好ましい。たとえば、自転車の画像を用いて転移学習する場合、人、モーターバイク、車の教師付き画像の事前学習データセットに自転車の教師付き画像を追加して新たなデータセットを構成し、4種類の教師付き画像を含むデータセットを教師データとして用いて物体認識モデルを転移学習させる。これにより、最終的にすべての種類の画像を正しく認識できる物体認識モデルを生成することができる。
 図5は、画像認識装置100による画像認識手順を説明するフローチャートである。
 物体認識部20は、認識対象の画像を学習済み物体認識モデルに入力し、画像における物体を認識する(S10)。
 物体の認識精度が所定の閾値以上である場合(S20のN)、認識結果のラベルを出力し(S30)、ステップS10に戻り、別の画像を入力する。
 物体の認識精度が所定の閾値未満である場合、例えば第1候補とされるラベルの正解確率が50%より小さい場合(S20のY)、入力画像を未知画像として画像の特徴量抽出を行う(S40)。
 教師付き画像変換部60は、特徴量-ラベルデータベース70から、未知画像の特徴量とマッチングしたラベルを取得し(S50)、取得されたラベルを未知画像に付けて教師付き画像を生成する(S60)。
 同一クラスの物体の教師付き画像が所定枚数、例えば30枚たまるまで(S70のN)、ステップS10からステップS60までの手順を繰り返す。所定枚数、ここでは30枚の同一クラスの教師付き画像がたまった場合(S70のY)、転移学習部80は、事前学習に使用したデータセットに所定枚数の教師付き画像を追加して新しいデータセットを生成し、新しいデータセットを用いて学習済み物体認識モデルを転移学習させる(S80)。転移学習部80は、転移学習済みの新たな物体認識モデルを生成し、物体認識モデル記憶部30に格納する(S90)。
 上記の説明では、同一クラスの物体の教師付き画像が所定枚数たまってから転移学習を行ったが、一枚の教師付き画像が生成される都度、転移学習を行ってもよい。
 以上説明した画像認識装置100の各種の処理は、CPUやメモリ等のハードウェアを用いた装置として実現することができるのは勿論のこと、ROM(リード・オンリ・メモリ)やフラッシュメモリ等に記憶されているファームウェアや、コンピュータ等のソフトウェアによっても実現することができる。そのファームウェアプログラム、ソフトウェアプログラムをコンピュータ等で読み取り可能な記録媒体に記録して提供することも、有線あるいは無線のネットワークを通してサーバと送受信することも、地上波あるいは衛星ディジタル放送のデータ放送として送受信することも可能である。
 従来の構成では、未知画像に対して人手によりアノテーション作業を行い、転移学習時の教師データとして加える必要があった。本実施の形態の画像認識装置100では、学習済み物体認識モデルの認識結果に基づき、認識精度の低い未知画像を検出し、未知画像を教師付き画像に自動変換し、変換後の教師付き画像を新たな教師データとして加え、学習済み物体認識モデルの一部を学習し直す。これにより、人手によらず、未知画像を高い精度で認識できるようになる。
 以上、本発明を実施の形態をもとに説明した。実施の形態は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。
 本発明は、画像認識技術に利用できる。
 10 入力部、 20 物体認識部、 30 物体認識モデル記憶部、 40 認識精度判定部、 50 出力部、 60 教師付き画像変換部、 70 特徴量-ラベルデータベース、 80 転移学習部、 90 事前学習データセット記憶部、 100 画像認識装置。

Claims (6)

  1.  物体認識モデルを用いて、入力画像における物体を認識する物体認識部と、
     前記入力画像における物体の認識精度を判定する認識精度判定部と、
     前記物体の認識精度が所定の閾値に満たない前記入力画像に対して、前記入力画像の特徴量にもとづいてラベルを付けて教師付き画像に変換する教師付き画像変換部と、
     前記教師付き画像を教師データとして用いて前記物体認識モデルを転移学習し、前記物体認識モデルを更新する転移学習部とを含むことを特徴とする画像認識装置。
  2.  画像の特徴量とラベルのペアを蓄積するデータベースをさらに含み、
     前記教師付き画像変換部は、前記データベースを参照して、前記入力画像の特徴量に最も類似する特徴量に対応するラベルを取得し、取得されたラベルを前記入力画像に付けて前記教師付き画像に変換することを特徴とする請求項1に記載の画像認識装置。
  3.  前記転移学習部は、前記物体認識モデルの事前学習に用いられたデータセットに前記教師付き画像を追加して新たなデータセットを構成し、前記新たなデータセットを教師データとして用いて前記物体認識モデルを転移学習することを特徴とする請求項1または2に記載の画像認識装置。
  4.  前記転移学習部は、同一ラベルが付いた前記教師付き画像が所定枚数以上たまった場合に、前記物体認識モデルの事前学習に用いられたデータセットに前記教師付き画像を追加して前記新たなデータセットを構成することを特徴とする請求項3に記載の画像認識装置。
  5.  物体認識モデルを用いて、入力画像における物体を認識するステップと、
     前記入力画像における物体の認識精度を判定するステップと、
     前記物体の認識精度が所定の閾値に満たない前記入力画像に対して、前記入力画像の特徴量にもとづいてラベルを付けて教師付き画像に変換するステップと、
     前記教師付き画像を教師データとして用いて前記物体認識モデルを転移学習して前記物体認識モデルを更新するステップとを含むことを特徴とする画像認識方法。
  6.  コンピュータに入力画像における物体を認識させる物体認識モデルであって、
     前記物体の認識精度が所定の閾値に満たない前記入力画像に対して、前記入力画像の特徴量にもとづいてラベルを付けた教師付き画像を、教師データとして用いて転移学習して更新されたことを特徴とする物体認識モデル。
PCT/JP2021/037156 2020-11-27 2021-10-07 画像認識装置、画像認識方法、および物体認識モデル WO2022113535A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202180070962.2A CN116324876A (zh) 2020-11-27 2021-10-07 图像识别装置、图像识别方法以及物体识别模型
EP21897513.4A EP4235565A4 (en) 2020-11-27 2021-10-07 IMAGE RECOGNITION DEVICE, IMAGE RECOGNITION METHOD AND OBJECT RECOGNITION MODEL
US18/324,195 US20230298366A1 (en) 2020-11-27 2023-05-26 Image recognition device, image recognition method, and non-transitory computer-readable recording medium having embodied thereon an object recognition model

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020-196991 2020-11-27
JP2020196991A JP2022085357A (ja) 2020-11-27 2020-11-27 画像認識装置、画像認識方法、および物体認識モデル

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US18/324,195 Continuation US20230298366A1 (en) 2020-11-27 2023-05-26 Image recognition device, image recognition method, and non-transitory computer-readable recording medium having embodied thereon an object recognition model

Publications (1)

Publication Number Publication Date
WO2022113535A1 true WO2022113535A1 (ja) 2022-06-02

Family

ID=81755764

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/037156 WO2022113535A1 (ja) 2020-11-27 2021-10-07 画像認識装置、画像認識方法、および物体認識モデル

Country Status (5)

Country Link
US (1) US20230298366A1 (ja)
EP (1) EP4235565A4 (ja)
JP (1) JP2022085357A (ja)
CN (1) CN116324876A (ja)
WO (1) WO2022113535A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019003355A1 (ja) 2017-06-28 2019-01-03 株式会社オプティム 画像解析結果提供システム、画像解析結果提供方法、およびプログラム
JP2019212073A (ja) * 2018-06-06 2019-12-12 アズビル株式会社 画像判別装置および方法
JP2020119322A (ja) * 2019-01-24 2020-08-06 オリンパス株式会社 学習依頼装置および学習依頼方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019003355A1 (ja) 2017-06-28 2019-01-03 株式会社オプティム 画像解析結果提供システム、画像解析結果提供方法、およびプログラム
JP2019212073A (ja) * 2018-06-06 2019-12-12 アズビル株式会社 画像判別装置および方法
JP2020119322A (ja) * 2019-01-24 2020-08-06 オリンパス株式会社 学習依頼装置および学習依頼方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP4235565A4

Also Published As

Publication number Publication date
US20230298366A1 (en) 2023-09-21
CN116324876A (zh) 2023-06-23
EP4235565A4 (en) 2024-03-20
JP2022085357A (ja) 2022-06-08
EP4235565A1 (en) 2023-08-30

Similar Documents

Publication Publication Date Title
US11151406B2 (en) Method, apparatus, device and readable storage medium for image-based data processing
CN108960073B (zh) 面向生物医学文献的跨模态图像模式识别方法
CN113591902B (zh) 基于多模态预训练模型的跨模态理解与生成方法和装置
WO2023050650A1 (zh) 动画视频生成方法、装置、设备及存储介质
CN112132030B (zh) 视频处理方法及装置、存储介质及电子设备
CN109492610B (zh) 一种行人重识别方法、装置及可读存储介质
CN116229494A (zh) 一种基于小样本数据的证照关键信息抽取方法
WO2022113535A1 (ja) 画像認識装置、画像認識方法、および物体認識モデル
WO2021237517A1 (zh) 手写体识别方法、装置、电子设备及存储介质
US20230196739A1 (en) Machine learning device and far-infrared image capturing device
CN116842944A (zh) 一种基于词增强的实体关系抽取方法及装置
CN110929013A (zh) 一种基于bottom-up attention和定位信息融合的图片问答实现方法
CN115599953A (zh) 视频文本检索模型的训练方法、检索方法及相关设备
CN114519416A (zh) 模型蒸馏方法、装置及电子设备
CN116912872A (zh) 图纸识别方法、装置、设备及可读存储介质
WO2022137337A1 (ja) 学習装置、学習方法、及び、記録媒体
CN112613341A (zh) 训练方法及装置、指纹识别方法及装置、电子设备
CN116822498B (zh) 文本纠错处理方法、模型处理方法、装置、设备及介质
CN112148870A (zh) 摘要生成方法、装置、电子设备及计算机可读存储介质
CN112906796B (zh) 一种针对不确定性标记数据的医学图像分类方法
JP2022120588A (ja) 機械学習装置、機械学習方法、および機械学習プログラム
US20220261690A1 (en) Computer-readable recording medium storing determination processing program, determination processing method, and information processing apparatus
WO2022113534A1 (ja) 機械学習装置、機械学習方法、および学習済みモデル
WO2023100427A1 (ja) 機械学習装置、機械学習方法、および機械学習プログラム
WO2024099567A1 (en) Textual inversion for object detection

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21897513

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021897513

Country of ref document: EP

Effective date: 20230526

NENP Non-entry into the national phase

Ref country code: DE