WO2022044367A1 - 機械学習装置及び遠赤外線撮像装置 - Google Patents

機械学習装置及び遠赤外線撮像装置 Download PDF

Info

Publication number
WO2022044367A1
WO2022044367A1 PCT/JP2021/003567 JP2021003567W WO2022044367A1 WO 2022044367 A1 WO2022044367 A1 WO 2022044367A1 JP 2021003567 W JP2021003567 W JP 2021003567W WO 2022044367 A1 WO2022044367 A1 WO 2022044367A1
Authority
WO
WIPO (PCT)
Prior art keywords
visible light
light image
image
far
infrared
Prior art date
Application number
PCT/JP2021/003567
Other languages
English (en)
French (fr)
Inventor
晋吾 木田
英樹 竹原
尹誠 楊
Original Assignee
株式会社Jvcケンウッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社Jvcケンウッド filed Critical 株式会社Jvcケンウッド
Publication of WO2022044367A1 publication Critical patent/WO2022044367A1/ja
Priority to US18/173,820 priority Critical patent/US20230196739A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • G06V10/12Details of acquisition arrangements; Constructional details thereof
    • G06V10/14Optical characteristics of the device performing the acquisition or on the illumination arrangements
    • G06V10/143Sensing or illuminating at different wavelengths
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/803Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/10Cameras or camera modules comprising electronic image sensors; Control thereof for generating image signals from different wavelengths
    • H04N23/11Cameras or camera modules comprising electronic image sensors; Control thereof for generating image signals from different wavelengths for generating image signals from visible and infrared light wavelengths
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/20Cameras or camera modules comprising electronic image sensors; Control thereof for generating image signals from infrared radiation only
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast

Definitions

  • the present invention relates to a transfer learning technique.
  • an infrared camera is used instead of a visible light camera to shoot an object, and a specific object such as a person is detected from the far-infrared image. Trained models are difficult to obtain. Therefore, transfer learning is performed to relearn an infrared image as teacher data for a trained model of general-purpose object detection using an RGB image.
  • transfer learning is performed using an infrared image and the corresponding utterance content as teacher data for a trained RGB video model in which the RGB image and the corresponding utterance content are learned as teacher data.
  • a learning device that generates an infrared image model is disclosed.
  • the present invention has been made in view of such a situation, and an object thereof is to provide a transfer learning technique with high inference accuracy.
  • the machine learning device of an embodiment of the present invention includes a far-infrared image acquisition unit that acquires a far-infrared image, and an image conversion unit that converts the acquired far-infrared image into a visible light image.
  • the first visible light image trained model storage unit that stores the first visible light image trained model trained using the visible light image as teacher data, and the converted visible light image as teacher data. It includes a transfer learning unit that generates a second visible light image trained model by transfer learning the visible light image trained model.
  • Another aspect of the present invention is a far-infrared image pickup device.
  • This device has a far-infrared image acquisition unit that acquires a far-infrared image, an image conversion unit that converts the acquired far-infrared image into a visible light image, and an image obtained by converting the far-infrared image into a visible light image as teacher data.
  • the object detection unit that detects an object from the converted visible light image using the second visible light image trained model generated by transfer learning the first visible light image trained model. include.
  • FIG. 1 is a configuration diagram of a machine learning device 100 according to an embodiment.
  • the machine learning device 100 includes a far-infrared image acquisition unit 10, an image conversion unit 20, a transfer learning unit 30, a visible light image-learned model storage unit 40, and a far-infrared visible light image-learned model storage unit 50.
  • the far-infrared image acquisition unit 10 acquires a far-infrared image taken by the far-infrared image pickup device and supplies it to the image conversion unit 20.
  • the image conversion unit 20 converts the far-infrared image into a visible light image based on the machine-learned image conversion model using the far-infrared image and the visible light image as teacher data.
  • the image conversion unit 20 includes a generation unit that machine-learns a far-infrared image and a visible light image as teacher data and generates a generation model that generates a visible light image from the far-infrared image, and generates a acquired far-infrared image. Input to to convert to a visible light image.
  • GAN Geneative Adversarial Networks
  • a hostile generation network two neural networks, a generator and a discriminator, learn hostile to each other.
  • CycleGAN As a method of learning the conversion from an image to an image using a hostile generation network, there is a method called CycleGAN and a method called Pix2Pix.
  • Pix2Pix the images before and after conversion given as a training data set need to be a pair corresponding to one-to-one, but in CycleGAN, it is possible to learn by using a combination of images that is not an exact pair as a training data set. can.
  • the visible light image trained model storage unit 40 stores the first visible light image trained model for object detection learned using the visible light image as teacher data.
  • the transfer learning unit 30 uses the visible light image converted by the image conversion unit 20 as teacher data to transfer train the first visible light image trained model to generate a second visible light image trained model. ..
  • transfer learning a new layer is added to the neural network of the first visible light image trained model, and the visible light image converted from the far-infrared image is learned as teacher data, so that the second visible light image is used. Generate a neural network of trained models.
  • the far-infrared visible light image trained model storage unit 50 stores the second visible light image trained model after transfer learning.
  • the image obtained by converting the far-infrared image into a visible light image is used as the teacher data, it is possible to transfer the first visible light image trained model to the second visible light image trained model without losing color information. can.
  • the first visible light image trained model is an object detection model trained using the visible light image as teacher data
  • the visible light image converted from the far infrared image rather than retraining the far infrared image as teacher data.
  • Re-learning as teacher data has a higher affinity with the trained model
  • the second visible light image trained model after transfer learning has higher object detection accuracy.
  • FIG. 2 is a configuration diagram of the far-infrared image pickup device 200 according to the embodiment.
  • the far-infrared image pickup device 200 includes a far-infrared visible light image learned model storage unit 50, a far-infrared image acquisition unit 60, an image conversion unit 70, an object detection unit 80, and a detection result display unit 90.
  • the far-infrared visible light image trained model storage unit 50 has the same configuration as the far-infrared visible light image trained model storage unit 50 in FIG. 1, and is a second visible light image generated by the transfer learning unit 30.
  • the trained model is stored.
  • the far-infrared image acquisition unit 60 acquires a far-infrared image taken by the far-infrared image pickup device and supplies it to the image conversion unit 70.
  • the image conversion unit 70 converts a far-infrared image into a visible light image based on a machine-learned image conversion model using the far-infrared image and the visible light image as teacher data.
  • the image conversion unit 70 has the same configuration as the image conversion unit 20 in FIG.
  • the object detection unit 80 detects an object from the converted visible light image using the second visible light image trained model stored in the far-infrared visible light image trained model storage unit 50.
  • the second visible light image trained model is an object detection generated by transfer learning the first visible light image trained model using an image obtained by converting a far infrared image into a visible light image as teacher data. It is a model.
  • the recognition accuracy when detecting an object from the visible light image converted from the far infrared image is improved.
  • the detection result display unit 90 displays the detection result by surrounding the detected object with a frame in the converted visible light image or the unconverted far-infrared image.
  • FIG. 3 is a configuration diagram of the machine learning device 100 according to another embodiment.
  • the machine learning device 100 of FIG. 3 is different from the machine learning device 100 of FIG. 1 in that the trained model selection unit 15 is included.
  • the trained model selection unit 15 is included.
  • a configuration different from the machine learning device 100 of FIG. 1 will be described, and the description of the same configuration as the machine learning device 100 of FIG. 1 will be omitted as appropriate.
  • the trained model selection unit 15 has trained the first visible light image that is most suitable for detecting an object from the visible light image converted by the image conversion unit 20 among the plurality of first visible light image trained models. A model is selected, and the selected first visible light image trained model is stored in the visible light image trained model storage unit 40.
  • the method of selecting the most suitable first visible light image trained model will be explained more specifically.
  • the visible light image converted by the image conversion unit 20 is used as the teacher data X.
  • the similarity of the teacher data A, B, and C to the teacher data X is calculated, and the trained model having the highest similarity among the trained models A, B, and C is used as the optimum first visible light image trained model. select.
  • the features A', B', C'of the intermediate layer in the latter stage of the neural network which is the intermediate output when the teacher data A, B, C are input to the trained models A, B, C, and the trained model A
  • the similarity of the teacher data is calculated from the difference between the feature quantities X A ', X B ', and X C'of the intermediate layer in the latter stage of the neural network, which is the intermediate output when the teacher data X is input to B and C.
  • the smaller the difference the higher the similarity.
  • the trained model having the smallest difference is selected as the optimum first visible light image trained model.
  • the transfer learning unit 30 reads out the optimum first visible light image trained model from the visible light image trained model storage unit 40, and uses the visible light image converted by the image conversion unit 20 as teacher data to be optimal.
  • the first visible light image trained model is transferred and trained to generate the second visible light image trained model.
  • the transfer learning utilizes the parameters such as the weights and coefficients of the trained model as they are, the inference accuracy can be improved by selecting the trained model with high similarity of the teacher data and performing the transfer learning.
  • FIG. 4 is a configuration diagram of the machine learning device 100 according to still another embodiment.
  • the configuration and operation of the image conversion unit 20 of FIG. 4 is different from the image conversion unit 20 of the machine learning device 100 of FIG. 1, and the other configurations are the same as those of the machine learning device 100 of FIG. Omit.
  • the generation unit of the image conversion unit 20 is used as teacher data of the far-infrared image acquired by the far-infrared image acquisition unit 10 and the first visible-light image-learned model stored in the visible-light image-learned model storage unit 40.
  • the generated model is generated by machine learning using the used visible light image as training data.
  • the image conversion unit 20 converts a far-infrared image into a visible light image by using a generated model generated by using the visible light image used in the first visible light image trained model as teacher data.
  • the far-infrared image acquired by the far-infrared image acquisition unit 10 and the visible light image used as the teacher data of the first visible light image trained model are not a pair corresponding to one-to-one. Therefore, when using a hostile generation network for machine learning, it is necessary to use CycleGAN that can be learned by using a combination of images that is not an exact pair as a training data set.
  • the far infrared image is converted by the image conversion unit 20.
  • the visible light image becomes suitable for the object detection model.
  • the generation unit of the image conversion unit 20 machine-learns the far-infrared image and the visible light image as teacher data in a hostile generation network, and generates a generation model that generates a visible light image from the far-infrared image.
  • the visible light image used as the teacher data of the first visible light image trained model used in the transfer learning by the transfer learning unit 30 is used as the teacher data Y.
  • the visible light image Z converted from the far-infrared image by the image conversion unit 20 reflects the characteristics of the teacher data Y, and the visible light image Z is the teacher data Z effective as an input of the transfer learning unit 30 in the subsequent stage. It becomes.
  • transfer learning utilizes parameters such as weights and coefficients of the trained model as they are, if the correlation between the teacher data Y and the teacher data Z is high, the transfer trained model can be made highly accurate and the inference accuracy can be improved. Can be improved.
  • FIG. 5 is a flowchart illustrating a procedure for generating a second visible light image trained model by transfer learning the first visible light image trained model by the machine learning device 100.
  • the acquired nighttime far-infrared image is converted into the daytime visible light image (S20).
  • the first visible light image trained model for object detection is transferred and trained to generate a second visible light image trained model (S30).
  • FIG. 6 shows a procedure for detecting an object from a visible light image using a second visible light image trained model generated by transfer learning a first visible light image trained model by a far-infrared image pickup device 200. It is a flowchart explaining.
  • the acquired nighttime far-infrared image is converted into the daytime visible light image (S60).
  • the detected object is highlighted by surrounding it with a frame (S80).
  • the detected object may be highlighted by surrounding it with a frame.
  • the various processes of the machine learning device 100 and the far-infrared image pickup device 200 described above can be realized as a device using hardware such as a CPU and a memory, and of course, a ROM (read-only memory). It can also be realized by firmware stored in a flash memory or the like, or by software such as a computer.
  • the firmware program and software program can be recorded and provided on a recording medium that can be read by a computer, etc., transmitted to and received from a server via a wired or wireless network, and transmitted and received as data broadcasting of terrestrial or satellite digital broadcasting. Is also possible.
  • the general-purpose trained object detection model is trained using a visible light image as teacher data
  • a black-and-white image such as a far-infrared image
  • colors are obtained. Due to the lack of information, the parameters that reflected the color information in the trained model are not well adapted and the inference accuracy is reduced.
  • the far-infrared image is converted into a visible light image, and then the general-purpose object detection model that has been trained using the visible light image as teacher data is transferred and trained. Since the parameters that reflect the color information in the model are not impaired and are relearned in the converted visible light image, the inference accuracy is improved.
  • the object detection model has higher detection accuracy in the case of visible light images than in far infrared images. Further, when a general-purpose trained object detection model is used, the trained object detection model for visible light images is open to the public and easily available, but the trained model for far-infrared images is difficult to obtain. According to the embodiment of the present invention, in order to transfer-learn a trained object detection model for a general-purpose visible light image using a visible light image converted from a far-infrared image as teacher data, visible light converted from a far-infrared image. In an optical image, a person or an object can be detected with higher accuracy by using the color information of the image.
  • the present invention can be used for transfer learning technology.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Closed-Circuit Television Systems (AREA)

Abstract

遠赤外線画像取得部10は、遠赤外線画像を取得する。画像変換部20は、取得された遠赤外線画像を可視光画像に変換する。可視光画像学習済みモデル記憶部40は、可視光画像を教師データとして学習された第1の可視光画像学習済みモデルを記憶する。転移学習部30は、変換された可視光画像を教師データとして用いて第1の可視光画像学習済みモデルを転移学習させて、第2の可視光画像学習済みモデルを生成する。

Description

機械学習装置及び遠赤外線撮像装置
 本発明は、転移学習技術に関する。
 可視光がない夜間では、可視光カメラの代わりに赤外線カメラを用いて物体を撮影し、遠赤外線画像から人物など特定の物体を検出することになるが、遠赤外線画像に適した汎用の物体検出の学習済みモデルは入手が困難である。そこで、RGB画像を用いた汎用の物体検出の学習済みモデルに対して、赤外線画像を教師データとして学習し直す転移学習が行われている。
 特許文献1には、RGB映像とそれに対応する発話内容を教師データとして学習された学習済みのRGB映像モデルに対して、赤外線画像とそれに対応する発話内容を教師データとして用いて、転移学習を行い、赤外線映像モデルを生成する学習装置が開示されている。
特開2019-204147号公報
 RGB画像を用いた物体検出モデルに対して、遠赤外線画像を教師データとした転移学習を行うと、転移学習時に色情報が損失するため、転移学習後の物体検出モデルの推論の認識率が低くなるという問題があった。
 本発明はこうした状況に鑑みてなされたものであり、その目的は、推論精度の高い転移学習技術を提供することにある。
 上記課題を解決するために、本発明のある態様の機械学習装置は、遠赤外線画像を取得する遠赤外線画像取得部と、前記取得された遠赤外線画像を可視光画像に変換する画像変換部と、可視光画像を教師データとして学習された第1の可視光画像学習済みモデルを記憶する可視光画像学習済みモデル記憶部と、前記変換された可視光画像を教師データとして用いて前記第1の可視光画像学習済みモデルを転移学習させて、第2の可視光画像学習済みモデルを生成する転移学習部とを含む。
 本発明の別の態様は、遠赤外線撮像装置である。この装置は、遠赤外線画像を取得する遠赤外線画像取得部と、前記取得された遠赤外線画像を可視光画像に変換する画像変換部と、遠赤外線画像を可視光画像に変換した画像を教師データとして用いて第1の可視光画像学習済みモデルを転移学習させて生成された第2の可視光画像学習済みモデルを用いて、前記変換された可視光画像から物体を検出する物体検出部とを含む。
 なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。
 本発明によれば、推論精度の高い転移学習技術を提供することができる。
実施の形態に係る機械学習装置の構成図である。 実施の形態に係る遠赤外線撮像装置の構成図である。 別の実施の形態に係る機械学習装置の構成図である。 さらに別の実施の形態に係る機械学習装置の構成図である。 図1の機械学習装置による転移学習手順を説明するフローチャートである。 図2の遠赤外線撮像装置による物体検出手順を説明するフローチャートである。
 図1は、実施の形態に係る機械学習装置100の構成図である。機械学習装置100は、遠赤外線画像取得部10、画像変換部20、転移学習部30、可視光画像学習済みモデル記憶部40、および遠赤外線可視光化画像学習済みモデル記憶部50を含む。
 遠赤外線画像取得部10は、遠赤外線撮像装置により撮影された遠赤外線画像を取得し、画像変換部20に供給する。
 画像変換部20は、遠赤外線画像と可視光画像を教師データとして機械学習された画像変換モデルにもとづいて遠赤外線画像を可視光画像に変換する。
 画像変換部20は、遠赤外線画像と可視光画像を教師データとして機械学習し、遠赤外線画像から可視光画像を生成する生成モデルを生成する生成部を含み、取得された遠赤外線画像を生成モデルに入力して可視光画像に変換する。
 機械学習の一例として、敵対的生成ネットワーク(GAN(Generative Adversarial Networks))を用いる。敵対的生成ネットワークでは、生成器(Generator)と識別器(Discriminator)という二つのニューラルネットワークが互いに敵対的な学習を行う。敵対的生成ネットワークを用いて画像から画像への変換を学習する方法として、CycleGANと呼ばれる手法と、Pix2Pixと呼ばれる手法がある。Pix2Pixでは、訓練データセットとして与える変換前後の画像が1対1に対応するペアとなっている必要があるが、CycleGANでは厳密なペアではない画像の組み合わせを訓練データセットとして用いて学習することができる。
 可視光画像学習済みモデル記憶部40は、可視光画像を教師データとして学習された物体検出用の第1の可視光画像学習済みモデルを記憶する。
 転移学習部30は、画像変換部20により変換された可視光画像を教師データとして用いて第1の可視光画像学習済みモデルを転移学習させて、第2の可視光画像学習済みモデルを生成する。
 転移学習では、第1の可視光画像学習済みモデルのニューラルネットワークに新たな層を追加して、遠赤外線画像から変換された可視光画像を教師データとして学習することにより、第2の可視光画像学習済みモデルのニューラルネットワークを生成する。
 遠赤外線可視光化画像学習済みモデル記憶部50は、転移学習後の第2の可視光画像学習済みモデルを記憶する。
 遠赤外線画像を可視光画像に変換した画像を教師データとするため、色情報を損失することなく、第1の可視光画像学習済みモデルを第2の可視光画像学習済みモデルに転移させることができる。
 第1の可視光画像学習済みモデルは、可視光画像を教師データとして学習された物体検出モデルであるため、遠赤外線画像を教師データとして再学習するより、遠赤外線画像から変換された可視光画像を教師データとして再学習する方が学習済みモデルとの親和性が高く、転移学習後の第2の可視光画像学習済みモデルは物体検出の精度がより高くなる。
 図2は、実施の形態に係る遠赤外線撮像装置200の構成図である。遠赤外線撮像装置200は、遠赤外線可視光化画像学習済みモデル記憶部50、遠赤外線画像取得部60、画像変換部70、物体検出部80、および検出結果表示部90を含む。遠赤外線可視光化画像学習済みモデル記憶部50は、図1の遠赤外線可視光化画像学習済みモデル記憶部50の構成と同じであり、転移学習部30により生成された第2の可視光画像学習済みモデルが格納されている。
 遠赤外線画像取得部60は、遠赤外線撮像装置により撮影された遠赤外線画像を取得し、画像変換部70に供給する。
 画像変換部70は、遠赤外線画像と可視光画像を教師データとして機械学習された画像変換モデルにもとづいて遠赤外線画像を可視光画像に変換する。画像変換部70は、図1の画像変換部20の構成と同じである。
 物体検出部80は、遠赤外線可視光化画像学習済みモデル記憶部50に記憶された第2の可視光画像学習済みモデルを用いて、変換された可視光画像から物体を検出する。
 ここで、第2の可視光画像学習済みモデルは、遠赤外線画像を可視光画像に変換した画像を教師データとして用いて第1の可視光画像学習済みモデルを転移学習させて生成された物体検出モデルである。転移学習後の第2の可視光画像学習済みモデルを用いることにより、遠赤外線画像を変換した可視光画像から物体を検出する際の認識精度が向上する。
 検出結果表示部90は、変換後の可視光画像または変換前の遠赤外線画像において、検出された物体を枠で囲むなどにより検出結果を表示する。
 図3は、別の実施の形態に係る機械学習装置100の構成図である。図3の機械学習装置100は学習済みモデル選択部15を含む点が図1の機械学習装置100とは異なる。ここでは、図1の機械学習装置100と異なる構成について説明し、図1の機械学習装置100と同じ構成については適宜説明を省略する。
 学習済みモデル選択部15は、複数の第1の可視光画像学習済みモデルの内、画像変換部20により変換された可視光画像から物体検出するのに最も適した第1の可視光画像学習済みモデルを選択し、選択された第1の可視光画像学習済みモデルを可視光画像学習済みモデル記憶部40に保存する。
 最適な第1の可視光画像学習済みモデルを選択する方法をより具体的に説明する。複数の第1の可視光画像学習済みモデルとして学習済みモデルA、B、Cの3つがあり、学習済みモデルA、B、Cの教師データとして用いられた可視光画像を教師データA、B、Cとする。画像変換部20により変換された可視光画像を教師データXとする。教師データXに対する教師データA、B、Cの類似度を算出し、学習済みモデルA、B、Cの内、類似度が最も高い学習済みモデルを最適な第1の可視光画像学習済みモデルとして選択する。
 学習済みモデルA、B、Cに教師データA、B、Cを入力した場合の中間出力であるニューラルネットワークの後段の中間層の特徴量A’、B’、C’と、学習済みモデルA、B、Cに教師データXを入力した場合の中間出力であるニューラルネットワークの後段の中間層の特徴量X’、X’、X’との差分から教師データの類似度を算出する。差分が小さいほど類似度は高い。学習済みモデルA、B、Cの内、差分が最小である学習済みモデルを最適な第1の可視光画像学習済みモデルとして選択する。
 転移学習部30は、最適な第1の可視光画像学習済みモデルを可視光画像学習済みモデル記憶部40から読み出して、画像変換部20により変換された可視光画像を教師データとして用いて最適な第1の可視光画像学習済みモデルを転移学習させて、第2の可視光画像学習済みモデルを生成する。
 転移学習は、学習済みモデルの重みや係数などのパラメータをそのまま活用するため、教師データの類似度が高い学習済みモデルを選択して転移学習することにより、推論精度を向上させることができる。
 図4は、さらに別の実施の形態に係る機械学習装置100の構成図である。図4の画像変換部20の構成と動作が図1の機械学習装置100の画像変換部20とは異なり、それ以外の構成は図1の機械学習装置100と同じであるから重複する説明は適宜省略する。
 画像変換部20の生成部は、遠赤外線画像取得部10により取得された遠赤外線画像と、可視光画像学習済みモデル記憶部40に記憶された第1の可視光画像学習済みモデルの教師データとして用いられた可視光画像とを教師データとして用いて生成モデルを機械学習により生成する。画像変換部20は、第1の可視光画像学習済みモデルで使用した可視光画像を教師データとして用いて生成された生成モデルを用いて、遠赤外線画像を可視光画像に変換する。
 遠赤外線画像取得部10により取得された遠赤外線画像と第1の可視光画像学習済みモデルの教師データとして用いられた可視光画像とは1対1に対応するペアではない。そのため、機械学習として敵対的生成ネットワークを利用する場合は、厳密なペアではない画像の組み合わせを訓練データセットとして用いて学習することのできるCycleGANを用いる必要がある。
 物体検出用の第1の可視光画像学習済みモデルの教師データとして用いられた可視光画像を画像変換部20による生成モデルの機械学習に用いることにより、画像変換部20により遠赤外線画像から変換される可視光画像が物体検出モデルに適したものになる。
 画像変換部20の生成部は、遠赤外線画像と可視光画像を教師データとして敵対的生成ネットワークで機械学習し、遠赤外線画像から可視光画像を生成する生成モデルを生成する。この可視光画像として、転移学習部30による転移学習で用いる第1の可視光画像学習済みモデルの教師データとして用いられた可視光画像を教師データYとして用いる。これにより画像変換部20により遠赤外線画像から変換された可視光画像Zは教師データYの特徴を反映したものとなり、可視光画像Zは、後段の転移学習部30の入力として有効な教師データZとなる。
 転移学習は、学習済みモデルの重みや係数などのパラメータをそのまま活用するため、教師データYと教師データZの相関性が高ければ、転移学習済みモデルを高精度化することができ、推論精度を向上させることができる。
 図5は、機械学習装置100によって、第1の可視光画像学習済みモデルを転移学習させて、第2の可視光画像学習済みモデルを生成する手順を説明するフローチャートである。
 遠赤外線カメラにより撮影された夜間赤外線画像を取得する(S10)。
 夜間遠赤外線画像と昼間可視光画像を教師データとして機械学習された生成モデルを用いて、取得された夜間遠赤外線画像を昼間可視光画像に変換する(S20)。
 変換された昼間可視光画像を教師データとして用いて、物体検出用の第1の可視光画像学習済みモデルを転移学習させて、第2の可視光画像学習済みモデルを生成する(S30)。
 図6は、遠赤外線撮像装置200によって、第1の可視光画像学習済みモデルを転移学習させて生成された第2の可視光画像学習済みモデルを用いて、可視光画像から物体を検出する手順を説明するフローチャートである。
 遠赤外線撮像装置200により撮影された夜間遠赤外線画像を取得する(S50)。
 夜間遠赤外線画像と昼間可視光画像を教師データとして機械学習された生成モデルを用いて、取得された夜間遠赤外線画像を昼間可視光画像に変換する(S60)。
 第1の可視光画像学習済みモデルを転移学習させて生成された第2の可視光画像学習済みモデルを用いて、変換された昼間可視光画像から物体を検出する(S70)。
 変換後の昼間可視光画像において、検出された物体を枠で囲むなどにより強調表示する(S80)。変換前の夜間遠赤外線画像において、検出された物体を枠で囲んで強調表示してもよい。
 以上説明した機械学習装置100および遠赤外線撮像装置200の各種の処理は、CPUやメモリ等のハードウェアを用いた装置として実現することができるのは勿論のこと、ROM(リード・オンリ・メモリ)やフラッシュメモリ等に記憶されているファームウェアや、コンピュータ等のソフトウェアによっても実現することができる。そのファームウェアプログラム、ソフトウェアプログラムをコンピュータ等で読み取り可能な記録媒体に記録して提供することも、有線あるいは無線のネットワークを通してサーバと送受信することも、地上波あるいは衛星ディジタル放送のデータ放送として送受信することも可能である。
 以上述べたように、汎用の学習済み物体検出モデルは、可視光画像を教師データとして学習されているため、転移学習時に遠赤外線画像のような白黒画像を教師データとして用いて再学習すると、色情報の欠如のため、学習済みモデルにおいて色情報を反映していたパラメータがうまく適応されず、推論精度が低下する。それに対して、本発明の実施の形態によれば、遠赤外線画像を可視光画像に変換してから、可視光画像を教師データとして学習済みの汎用の物体検出モデルを転移学習させるため、学習済みモデルにおいて色情報を反映していたパラメータが損なわれることなく、変換後の可視光画像で再学習されるため、推論精度が向上する。
 物体検出モデルは、遠赤外線画像よりも可視光画像の場合に検出精度が高い。また、汎用の学習済み物体検出モデルを利用する場合、可視光画像用の学習済み物体検出モデルは一般に公開されており入手しやすいが、遠赤外線画像用の学習済みモデルは入手困難である。本発明の実施の形態によれば、遠赤外線画像から変換された可視光画像を教師データとして汎用の可視光画像用の学習済み物体検出モデルを転移学習させるため、遠赤外線画像から変換された可視光画像において、画像の色情報を用いて人物や物体をより高い精度で検出することができる。
 以上、本発明を実施の形態をもとに説明した。実施の形態は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。
 本発明は、転移学習技術に利用できる。
 10 遠赤外線画像取得部、 15 学習済みモデル選択部、 20 画像変換部、 30 転移学習部、 40 可視光画像学習済みモデル記憶部、 50 遠赤外線可視光化画像学習済みモデル記憶部、 60 遠赤外線画像取得部、 70 画像変換部、 80 物体検出部、 90 検出結果表示部、 100 機械学習装置、 200 遠赤外線撮像装置。

Claims (5)

  1.  遠赤外線画像を取得する遠赤外線画像取得部と、
     前記取得された遠赤外線画像を可視光画像に変換する画像変換部と、
     可視光画像を教師データとして学習された第1の可視光画像学習済みモデルを記憶する可視光画像学習済みモデル記憶部と、
     前記変換された可視光画像を教師データとして用いて前記第1の可視光画像学習済みモデルを転移学習させて、第2の可視光画像学習済みモデルを生成する転移学習部とを含むことを特徴とする機械学習装置。
  2.  複数の第1の可視光画像学習済みモデルの内、前記変換された可視光画像を各第1の可視光画像学習済みモデルに入力した場合の中間出力と、各第1の可視光画像学習済みモデルの教師データとして用いられた可視光画像を各第1の可視光画像学習済みモデルに入力した場合の中間出力との差分が最小である第1の可視光画像学習済みモデルを選択し、選択された第1の可視光画像学習済みモデルを可視光画像学習済みモデル記憶部に保存する学習済みモデル選択部をさらに含むことを特徴とする請求項1に記載の機械学習装置。
  3.  前記画像変換部は、遠赤外線画像と可視光画像を教師データとして機械学習し、遠赤外線画像から可視光画像を生成する生成モデルを生成する生成部を含み、前記取得された遠赤外線画像を前記生成モデルに入力して可視光画像に変換することを特徴とする請求項1に記載の機械学習装置。
  4.  前記生成部は、遠赤外線画像と前記第1の可視光画像学習済みモデルの教師データとして用いられた可視光画像を教師データとして敵対的生成ネットワークで機械学習し、遠赤外線画像から可視光画像を生成する前記生成モデルを生成することを特徴とする請求項3に記載の機械学習装置。
  5.  遠赤外線画像を取得する遠赤外線画像取得部と、
     前記取得された遠赤外線画像を可視光画像に変換する画像変換部と、
     遠赤外線画像を可視光画像に変換した画像を教師データとして用いて第1の可視光画像学習済みモデルを転移学習させて生成された第2の可視光画像学習済みモデルを用いて、前記変換された可視光画像から物体を検出する物体検出部とを含むことを特徴とする遠赤外線撮像装置。
PCT/JP2021/003567 2020-08-26 2021-02-01 機械学習装置及び遠赤外線撮像装置 WO2022044367A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US18/173,820 US20230196739A1 (en) 2020-08-26 2023-02-24 Machine learning device and far-infrared image capturing device

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020-142706 2020-08-26
JP2020142706A JP2022038285A (ja) 2020-08-26 2020-08-26 機械学習装置及び遠赤外線撮像装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US18/173,820 Continuation US20230196739A1 (en) 2020-08-26 2023-02-24 Machine learning device and far-infrared image capturing device

Publications (1)

Publication Number Publication Date
WO2022044367A1 true WO2022044367A1 (ja) 2022-03-03

Family

ID=80355045

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/003567 WO2022044367A1 (ja) 2020-08-26 2021-02-01 機械学習装置及び遠赤外線撮像装置

Country Status (3)

Country Link
US (1) US20230196739A1 (ja)
JP (1) JP2022038285A (ja)
WO (1) WO2022044367A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7450823B1 (ja) * 2022-09-06 2024-03-15 三菱電機株式会社 学習装置、学習システム、プログラム、及び学習装置の情報処理方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019046276A (ja) * 2017-09-05 2019-03-22 ソニー株式会社 画像処理装置、および画像処理方法、並びにプログラム
JP2019118043A (ja) * 2017-12-27 2019-07-18 キヤノン株式会社 撮像装置、画像処理装置、制御方法およびプログラム
WO2019176235A1 (ja) * 2018-03-12 2019-09-19 株式会社日立産業制御ソリューションズ 画像生成方法、画像生成装置及び画像生成システム
JP6663524B1 (ja) * 2019-03-20 2020-03-11 株式会社 日立産業制御ソリューションズ 学習データ生成装置および学習データ生成方法
WO2020115981A1 (ja) * 2018-12-03 2020-06-11 株式会社Jvcケンウッド 認識処理装置、認識処理方法及びプログラム
WO2020158217A1 (ja) * 2019-02-01 2020-08-06 ソニー株式会社 情報処理装置、情報処理方法及び情報処理プログラム
JP6742554B1 (ja) * 2019-09-13 2020-08-19 三菱電機株式会社 情報処理装置およびそれを備えた電子機器

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019046276A (ja) * 2017-09-05 2019-03-22 ソニー株式会社 画像処理装置、および画像処理方法、並びにプログラム
JP2019118043A (ja) * 2017-12-27 2019-07-18 キヤノン株式会社 撮像装置、画像処理装置、制御方法およびプログラム
WO2019176235A1 (ja) * 2018-03-12 2019-09-19 株式会社日立産業制御ソリューションズ 画像生成方法、画像生成装置及び画像生成システム
WO2020115981A1 (ja) * 2018-12-03 2020-06-11 株式会社Jvcケンウッド 認識処理装置、認識処理方法及びプログラム
WO2020158217A1 (ja) * 2019-02-01 2020-08-06 ソニー株式会社 情報処理装置、情報処理方法及び情報処理プログラム
JP6663524B1 (ja) * 2019-03-20 2020-03-11 株式会社 日立産業制御ソリューションズ 学習データ生成装置および学習データ生成方法
JP6742554B1 (ja) * 2019-09-13 2020-08-19 三菱電機株式会社 情報処理装置およびそれを備えた電子機器

Also Published As

Publication number Publication date
US20230196739A1 (en) 2023-06-22
JP2022038285A (ja) 2022-03-10

Similar Documents

Publication Publication Date Title
US11508038B2 (en) Image processing method, storage medium, image processing apparatus, learned model manufacturing method, and image processing system
US10600170B2 (en) Method and device for producing a digital image
KR20110000293A (ko) 디지털 촬영장치, 그 제어방법 및 이를 실행하기 위한 프로그램을 저장한 기록매체
JP2008118387A (ja) 撮像装置
US20230360437A1 (en) Training system and data collection device
JP7207846B2 (ja) 情報処理装置、情報処理方法及びプログラム
WO2022044367A1 (ja) 機械学習装置及び遠赤外線撮像装置
JP7403995B2 (ja) 情報処理装置、制御方法およびプログラム
US11790501B2 (en) Training method for video stabilization and image processing device using the same
CN112385208B (zh) 图像识别装置以及图像识别方法
JP4680639B2 (ja) 画像処理装置およびその処理方法
TW202238522A (zh) 使用焦點資訊深度估計的方法和裝置
JP2009200743A (ja) 画像処理装置および画像処理方法および画像処理プログラムおよび撮像装置
CN105430254A (zh) 图像处理装置、摄像装置、图像处理方法
JP2022003447A (ja) 学習方法、コンテンツ再生装置、及びコンテンツ再生システム
CN110728661A (zh) 基于随机生成样本的图像畸变评价网络训练方法及装置
JP2006140952A (ja) 画像処理装置および画像処理方法
WO2022044368A1 (ja) 機械学習装置、画像処理装置、機械学習方法、及び機械学習プログラム
JP7148078B2 (ja) 属性推定装置、属性推定方法、属性推定器学習装置、及びプログラム
KR101993752B1 (ko) 신경망을 이용한 영상 컬러 일치 방법 및 장치
WO2021199366A1 (ja) 情報処理装置、方法、プログラム、およびモデル
KR102558537B1 (ko) 딥러닝을 이용한 음원 분류 장치 및 그 방법
US10387803B2 (en) Sensor system for transcoding data
CN109584137B (zh) 一种脉冲序列格式转换方法及系统
WO2021144924A1 (ja) 情報処理装置、情報処理方法、および情報処理プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21860799

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21860799

Country of ref document: EP

Kind code of ref document: A1