WO2023166940A1

WO2023166940A1 - 注視領域モデル生成システム及び推論装置

Info

Publication number: WO2023166940A1
Application number: PCT/JP2023/004394
Authority: WO
Inventors: 成志吉田; 晴輝江口
Original assignee: パナソニックＩｐマネジメント株式会社
Priority date: 2022-03-03
Filing date: 2023-02-09
Publication date: 2023-09-07

Abstract

注視領域モデル生成システムは、所定の評価対象データ組の画像データを受け付け、画像内の各位置における，教師データを用いた機械学習により生成された不良検出モデルによって出力される溶接不良情報に影響を与えない最大ノイズ強度を示す注視領域情報を、注視領域モデルを用いて生成する注視領域情報生成ステップ、仮想ノイズを評価対象データ組の画像データに付与したノイズ付き画像データに基づいて、不良検出モデルを用いて生成された溶接不良情報と、評価対象データ組のアノテーションデータとに基づいて損失を算出する損失算出ステップを、評価対象データ組として、教師データを構成する各データ組を設定して繰り返し実行したときに、損失が最も小さくなるように、注視領域モデルを機械学習により特定する。

Description

注視領域モデル生成システム及び推論装置

　本開示は、画像内の各位置における，不良検出モデルによって出力される溶接不良情報に影響を与えない最大ノイズ強度を示す注視領域情報を生成する注視領域モデルを生成する注視領域モデル生成システム、及び当該注視領域モデルを用いた推論装置に関する。

　特許文献１には、物体検出アルゴリズムであるＹＯＬＯの物体検出モデルを用いて入力画像内の物体を検出する推論装置が開示されている。

特開２０２１－００２３３３号公報

　ところで、ＹＯＬＯ等の物体検出モデルを、溶接箇所を撮影した溶接画像中の溶接不良の検出に使用した場合に、物体検出モデルによる溶接不良の検出結果が、ユーザによる溶接不良の認識と異なることがある。このような場合に、物体検出モデルが検出結果を導出した根拠をユーザが知得できるようにしたいという要望がある。

　本開示は、かかる点に鑑みてなされたものであり、その目的とするところは、物体検出モデルが検出結果を導出する根拠に関する情報をユーザが知得できるようにすることにある。

　上記の目的を達成するために、本開示に係る注視領域モデル生成システムは、溶接箇所を含む溶接画像の画像データと、当該溶接画像における溶接不良の種類、大きさ、及び位置を含む溶接不良情報のアノテーションデータとの複数のデータ組からなる教師データを受け付ける教師データ受信部と、前記教師データを用いた機械学習により生成され、溶接画像の画像データに基づいて前記溶接不良情報を出力する不良検出モデルを特定するパラメータを記憶するパラメータ記憶部と、所定の評価対象データ組の画像データを受け付け、当該画像データによって示される画像内の各位置における，前記不良検出モデルによって出力される溶接不良情報に影響を与えない最大ノイズ強度を示す注視領域情報を、注視領域モデルを用いて生成する注視領域情報生成ステップ、前記注視領域情報生成ステップによって生成した注視領域情報によって示される各位置の最大ノイズ強度にガウスノイズを乗算することにより、仮想ノイズを得る乗算ステップ、前記乗算ステップによって得た仮想ノイズを、前記評価対象データ組の画像データに付与することで、ノイズ付き画像データを取得するノイズ付与ステップ、前記ノイズ付与ステップによって取得したノイズ付き画像データに基づいて、前記溶接不良情報を、前記不良検出モデルを用いて生成する溶接不良情報生成ステップ、及び溶接不良情報生成ステップによって生成された溶接不良情報と、前記評価対象データ組のアノテーションデータとに基づいて損失を算出する損失算出ステップを、前記評価対象データ組として、前記教師データを構成する各データ組を設定して繰り返し実行したときに、前記損失算出ステップによって算出される損失が最も小さくなるように、前記注視領域モデルを機械学習により特定するモデル生成部とを備えたことを特徴とする。

　これにより、画像内の各位置における，前記不良検出モデルによって出力される溶接不良情報に影響を与えない最大ノイズ強度を示す注視領域情報を生成する注視領域モデルが生成される。したがって、ユーザは、この注視領域モデルを用いることにより、不良検出モデルが溶接不良情報を導出する根拠に関する情報として注視領域情報を知得できる。

　本開示によれば、不良検出モデルが検出結果を導出する根拠に関する情報をユーザが知得できるようになる。

図１は、本開示の実施形態に係る注視領域モデル生成システムとしてのＡＩモデル生成装置を備えた溶接システムの構成を示すブロック図である。図２は、注視領域モデル生成部の構成を説明する説明図である。図３は、注視領域モデルの生成に用いる損失関数の式を示す図である。図４Ａは、溶接不良表示画像の第１の例を示す図である。図４Ｂは、図４Ａに対応するアンダーカットについての注視領域表示画像を示す図である。図４Ｃは、図４Ａに対応するピットについての注視領域表示画像を示す図である。図４Ｄは、図４Ａに対応する穴あきについての注視領域表示画像を示す図である。図５Ａは、溶接不良表示画像の第２の例を示す図である。図５Ｂは、図５Ａに対応するアンダーカットについての注視領域表示画像を示す図である。図５Ｃは、図５Ａに対応するピットについての注視領域表示画像を示す図である。図５Ｄは、図５Ａに対応する穴あきについての注視領域表示画像を示す図である。図６Ａは、溶接不良表示画像と、ガンマ補正を行わない場合のピットについての注視領域表示画像とを左側から順に例示する図である。図６Ｂは、ガンマ補正を行った場合の図６Ａ相当図である。図７は、溶接システムの動作を例示するフローチャートである。

　以下、本開示の実施形態について図面に基づいて説明する。

　図１は、溶接システム１を示す。この溶接システム１は、不良検出モデル及び注視領域モデルを機械学習により生成する本開示の実施形態に係る注視領域モデル生成システムとしてのＡＩモデル生成装置１０と、溶接を実行する溶接装置２０とを有している。

　ＡＩモデル生成装置１０は、不良検出モデル及び注視領域モデルを機械学習により生成する。

　不良検出モデルは、入力される画像データに基づいて、溶接不良情報を出力するＹＯＬＯの物体検出モデルである。不良検出モデルは、ＣＮＮ（Convolutional Neural Network：畳み込みニューラルネットワーク）によって表現される。この物体検出モデルは、画像において、検出すべき第１の物体の一部が、検出すべき他の第２の物体に隠れている場合でも、画像における第１の物体に第２の物体が重なっている領域を、前記第１の物体が位置する領域として特定できる。溶接不良情報は、画像データによって示される画像に溶接不良が存在するか否かを示す有無情報、溶接不良のカテゴリを示すカテゴリ情報、溶接不良の大きさを示すサイズ情報、及び溶接不良の位置を示す位置情報を含む。詳しくは、サイズ情報は、溶接不良を含むバウンディングボックスの大きさを示し、位置情報は、溶接不良を含むバウンディングボックスの位置を示す。なお、バウンディングボックスは、溶接不良等のオブジェクトの周囲を囲む矩形の境界線領域である。

　注視領域モデルは、入力される画像データに基づいて、溶接不良の複数種類のカテゴリについての注視領域情報を出力するモデルである。複数種類のカテゴリには、穴あき、ピット、スパッタ、アンダーカット、及び突起等が含まれる。ピットは、溶接ビードの表面の開口である。注視領域情報は、画像データによって示される画像内の各画素（位置）における，前記不良検出モデルによって出力される溶接不良情報に影響を与えない最大ノイズの強度（以下、「最大ノイズ強度」と呼ぶ）を示す情報である。注視領域モデルも、ＣＮＮによって表現される。注視領域モデルのバックボーンとしては、ＲｅｓＮｅｔ（Residual Networks）が用いられている。なお、注視領域モデルに、ＲｅｓＮｅｔ以外のバックボーンを用いるようにしてもよい。

　具体的には、ＡＩモデル生成装置１０は、教師データ受信部１１と、不良検出モデル生成部１２と、パラメータ記憶部１３と、注視領域モデル生成部１４とを備えている。

　教師データ受信部１１は、溶接箇所を含む溶接画像の画像データと、当該溶接画像における溶接不良に関する溶接不良情報のアノテーションデータとの複数のデータ組からなる教師データを受け付ける。

　不良検出モデル生成部１２は、教師データ受信部１１が受け付けた教師データを用いた機械学習により、不良検出モデルを生成する。具体的には、不良検出モデル生成部１２は、不良検出モデルを特定するパラメータとして、不良検出モデルを表現するＣＮＮを構成する各ノードの重み及びバイアスを特定する。

　パラメータ記憶部１３は、不良検出モデル生成部１２によって特定されたパラメータを記憶する。

　注視領域モデル生成部１４は、図２に示すように、演算器１４１と、更新部１４２とを備えている。注視領域モデル生成部１４は、演算器１４１によって算出される損失関数が最も小さくなるように、パラメータ記憶部１３に記憶されたパラメータを参照して、注視領域モデルを機械学習により特定する。

　演算器１４１は、注視領域情報生成部ＣＡ１と、乗算部ＣＡ２と、ノイズ付与部ＣＡ３と、溶接不良情報生成部ＣＡ４と、損失算出部ＣＡ５とを備えている。

　注視領域情報生成部ＣＡ１は、所定の評価対象データ組の画像データを受け付け、複数種類のカテゴリについて、当該画像データについての注視領域情報ＩＮ１～ＩＮＸを、注視領域モデルを用いて生成する。注視領域情報ＩＮ１は穴あき、注視領域情報ＩＮ２はピット、注視領域情報ＩＮ３はスパッタ、注視領域情報ＩＮ４はアンダーカット、注視領域情報ＩＮ５は突起についての注視領域情報である。ＩＮＸは、その他の任意の溶接不良についての注視領域情報である。

　乗算部ＣＡ２は、注視領域情報生成部ＣＡ１によって生成された注視領域情報ＩＮ１～ＩＮＸによって示される各位置の最大ノイズ強度にガウスノイズを乗算することにより、仮想ノイズを得る。

　ノイズ付与部ＣＡ３は、複数種類のカテゴリについて乗算部ＣＡ２によって得られた仮想ノイズを、前記評価対象データ組の画像データに付与することで、ノイズ付き画像データを取得する。

　溶接不良情報生成部ＣＡ４は、ノイズ付与部ＣＡ３によって取得されたノイズ付き画像データに基づいて、複数種類のカテゴリについての溶接不良情報を、不良検出モデル生成部１２によって生成された不良検出モデルを用いて生成する。不良検出モデルは、パラメータ記憶部１３に記憶されたパラメータを参照することによって特定できる。

　損失算出部ＣＡ５は、溶接不良情報生成部ＣＡ４によって生成された溶接不良情報と、当該評価対象データ組のアノテーションデータとに基づいて、図３に示す損失関数の式により、損失Ｌを算出する。

　図３に示す式において、λ_coordは、重み係数（予め設定される定数）、Ｓ^２は、画像データによって示される画像のグリッド数、Ｂは、バウンディングボックスの数である。また、符号Ｐ１で示す２点鎖線の部分は、溶接不良が存在する場合には１、溶接不良が存在しない場合には０となる。また、溶接不良情報生成部ＣＡ４によって生成された溶接不良情報によって示される溶接不良の位置（座標）は、（ｘ_ｉ、ｙ_ｉ）であり、前記評価対象データ組のアノテーションデータによって示される溶接不良の位置（座標）は、（＾ｘ_ｉ、＾ｙ_ｉ）である。また、溶接不良情報によって示される溶接不良を含むバウンディングボックスの幅は、ｗ_ｉ、溶接不良を含むバウンディングボックスの高さは、ｈ_ｉである。一方、アノテーションデータによって示される溶接不良を含むバウンディングボックスの幅は、＾ｗ_ｉ、溶接不良を含むバウンディングボックスの高さは、＾ｈ_ｉである。classesは、カテゴリーの集合であり、p_i(c)は、グリッドセルｉにおいてカテゴリーがｃである確率、＾p_i(c)は、アノテーションデータによって示される，グリッドセルｉにおいてカテゴリーがｃである確率である。p_i(c)は、０～１の値、＾p_i(c)は、０又は１の値をとる。

　更新部１４２は、演算器１４１によって算出される損失Ｌに基づいて、損失Ｌを小さくするように、注視領域モデルのパラメータを更新する。注視領域モデルのパラメータは、注視領域モデルを表現するＣＮＮを構成する各ノードの重み及びバイアスである。

　注視領域モデルのパラメータを所定の初期値に設定した状態から、教師データ受信部１１が受け付けた教師データ（不良検出モデルの生成に用いられた教師データ）を構成する全てのデータ組を、前記評価対象データ組として順に演算器１４１に入力すると、演算器１４１によって損失Ｌが算出される毎に、更新部１４２が、当該損失Ｌに基づいて、損失Ｌを小さくするように、注視領域モデルのパラメータを更新する。そして、更新部１４２は、教師データを構成する全てのデータ組についての処理が終了したときの注視領域モデルのパラメータを特定する。

　つまり、注視領域モデル生成部１４は、所定の評価対象データ組の画像データを受け付け、複数種類のカテゴリについて、当該画像データについての注視領域情報ＩＮ１～ＩＮＸを、注視領域モデルを用いて生成する注視領域情報生成ステップと、注視領域情報生成ステップによって生成された注視領域情報ＩＮ１～ＩＮＸによって示される各位置の最大ノイズ強度にガウスノイズを乗算することにより、仮想ノイズを得る乗算ステップと、複数種類のカテゴリについて乗算ステップによって得られた仮想ノイズを、前記評価対象データ組の画像データに付与することで、ノイズ付き画像データを取得するノイズ付与ステップと、ノイズ付与ステップによって取得したノイズ付き画像データに基づいて、複数種類のカテゴリについての溶接不良情報を、不良検出モデル生成部１２によって生成された不良検出モデルを用いて生成する溶接不良情報生成ステップと、溶接不良情報生成ステップによって生成された溶接不良情報と、前記評価対象データ組のアノテーションデータとに基づいて、損失Ｌを算出する損失算出ステップとを、前記評価対象データ組として、前記教師データを構成する各データ組を設定して繰り返し実行したときに、前記損失算出ステップによって算出される損失Ｌが最も小さくなるように、前記注視領域モデルを機械学習により特定する。注視領域モデルの特定には、誤差逆伝播法等が用いられる。なお、誤差逆伝播法での注視領域モデルの特定では、損失Ｌが最小となるように、ニューラルネットワークのパラメータの調整を行う。具体的には、損失Ｌを偏微分して０に近づくようにパラメータを調整する。また、誤差逆伝播法は、勾配降下法とも言う。

　溶接装置２０は、溶接トーチ２１とワイヤ送給装置（図示せず）と溶接電源２３と出力制御部２４とロボットアーム２５とロボット制御部２６とスキャナ２７と推論装置としてのデータ処理装置３０とを有している。溶接トーチ２１に保持された溶接ワイヤ２８に溶接電源２３から電力が供給されることで、溶接ワイヤ２８の先端とワークＷとの間にアークが発生し、ワークＷが入熱されてアーク溶接が行われる。なお、溶接装置２０は、溶接トーチ２１にシールドガスを供給するための配管やガスボンベ等の別の構成部品や設備を有しているが、説明の便宜上、これらの図示及び説明を省略する。

　出力制御部２４は溶接電源２３及びワイヤ送給装置（図示せず）に接続されて、所定の溶接条件に従って、溶接トーチ２１の溶接出力、言い換えると、溶接ワイヤ２８に供給される電力及び電力供給時間を制御している。また、出力制御部２４は、ワイヤ送給装置（図示せず）から溶接トーチ２１に送給される溶接ワイヤ２８の送給速度及び送給量を制御している。なお、溶接条件は図示しない入力部を介して直接、出力制御部２４に入力されてもよいし、別途、記録媒体等から読み出された溶接プログラムから選択されるようにしてもよい。

　ロボットアーム２５は公知の多関節軸ロボットであり、先端に溶接トーチ２１を保持するとともに、ロボット制御部２６に接続されている。ロボット制御部２６は、溶接トーチ２１の先端、言い換えると、溶接トーチ２１に保持された溶接ワイヤ２８の先端が所定の溶接軌跡を描いて、所望の位置に移動するようにロボットアーム２５の動作を制御している。

　スキャナ２７は溶接トーチ２１に取り付けられて、ワークＷの溶接箇所ＰＷの形状を計測する。スキャナ２７は、例えば、ワークＷの表面を走査可能に構成されたレーザ光源（図示せず）と、ワークＷの表面に投影されたレーザ光の反射軌跡（以下、形状線と呼ぶことがある。）を撮像するカメラ（図示せず）とで構成された３次元形状計測センサーである。スキャナ２７によって、ワークＷの溶接箇所ＰＷの全体をレーザ光線で走査し、溶接箇所ＰＷで反射されたレーザ光線をカメラで撮像することにより、溶接箇所ＰＷの形状が計測される。なお、スキャナ２７は溶接箇所ＰＷだけでなく、その周囲についても所定範囲で形状計測を行うように構成されている。これは、スパッタ等の有無を評価するためである。なお、カメラは撮像素子としてＣＣＤまたはＣＭＯＳイメージセンサを有している。また、スキャナ２７の構成は特に上記に限定されず、他の構成を採りうる。例えば、カメラの代わりに光干渉計を用いてもよい。

　データ処理装置３０は、本体部３１と、画像表示部としてのモニタ３２と、入力装置３３とを有している。

　本体部３１は、パーソナルコンピュータで構成され、ＣＰＵ（Central Processing Unit）やＧＰＵ（Graphics Processing Unit）上に実装されたソフトウェアを実行することで本体部３１内の複数の機能ブロックの機能を実現する。本体部３１は、画像処理部３１１と、溶接不良情報算出部３１２と、溶接不良表示画像生成部３１３と、推論部としての注視領域情報算出部３１４と、画素値算出部としての注視領域表示画像生成部３１５とを有している。

　画像処理部３１１は、スキャナ２７によって取得された形状データを受け取って、これを、溶接箇所ＰＷを含む溶接画像の画像データに変換する。例えば、画像処理部３１１は、スキャナ２７で撮像された形状線の点群データを取得する。また、画像処理部３１１は、所定の基準面、例えば、ワークＷの設置面に対する溶接箇所ＰＷのベース部分の傾斜や歪み等を、点群データを統計処理することで補正し、溶接箇所ＰＷを含む画像データを生成する。

　溶接不良情報算出部３１２は、ＡＩモデル生成装置１０によって生成された不良検出モデルを用いて、画像処理部３１１によって生成された画像データに基づいて、溶接不良情報を算出する。

　溶接不良表示画像生成部３１３は、溶接不良情報算出部３１２によって算出された溶接不良情報に基づいて、前記溶接不良情報を表示する溶接不良表示画像の各画素の画素値を算出する。溶接不良表示画像を特定する情報は、ｊｐｅｇ方式等により圧縮されてもよい。

　図４Ａ及び図５Ａは、溶接不良表示画像の例である。図４Ａの溶接不良表示画像では、穴あき、ピット、スパッタの検出個所の領域が、矩形で示されている。具体的には、穴あきが存在する領域が、四角の線ＳＬ１で囲まれ、また、ピットが存在する領域の近傍に「ｐｉｔ」という記載ＤＥ１が表示されている。図５Ａの溶接不良表示画像では、アンダーカット、スパッタの検出個所の領域が、矩形で示されている。具体的には、アンダーカットが存在する領域が、四角の線ＳＬ２で囲まれ、各領域の近傍に「ｕｎｄｅｒｃｕｔ」という記載ＤＥ２が表示されている。

　注視領域情報算出部３１４は、ＡＩモデル生成装置１０によって生成された注視領域モデルを用いて、画像処理部３１１によって生成された画像データに基づいて、ピット、穴あき、スパッタ、アンダーカット、及び突起を含む複数種類のカテゴリについて、注視領域情報を生成する。

　注視領域表示画像生成部３１５は、注視領域情報算出部３１４によって生成された各カテゴリの注視領域情報によって示された最大ノイズ強度に応じて特定される溶接画像内の各画素の画素値にガンマ補正を行うことにより、注視領域表示画像の各画素（位置）の画素値を算出する。注視領域表示画像を特定する情報は、ｊｐｅｇ方式等により圧縮されてもよい。

　具体的には、注視領域表示画像生成部３１５は、まず、注視領域情報によって示される各画素の最大ノイズ強度を、０～１の値をとるＢとしたとき、以下の式１によって、各画素の最大ノイズ強度を８ビットの画素値Ｃに変換する。

　Ｃ＝（１－Ｂ）＊２５５　・・・式１
　次いで、式１により得た画素値Ｃに対してガンマ補正を行い、ガンマ補正後の画素値を、注視領域表示画像における画素値とする。例えば、画素値をｊｅｔカラーマップ配列に対応させることによって、最大ノイズ強度が大きい箇所、すなわち、溶接不良情報にノイズが影響を与えにくい重要でない箇所は青い画素、最大ノイズ強度が小さい箇所、すなわち、溶接不良情報にノイズが影響を与えやすい重要な箇所は赤い画素にされる。

　図４Ｂ～図４Ｄは、溶接不良表示画像が図４Ａに示す画像である場合の注視領域表示画像を示し、順に、アンダーカットについての注視領域表示画像（図４Ｂ参照）、ピットについての注視領域表示画像（図４Ｃ参照）、穴あきについての注視領域表示画像（図４Ｄ参照）を示す。また、図５Ｂ～図５Ｄは、溶接不良表示画像が図５Ａである場合の注視領域表示画像であり、順に、アンダーカットについての注視領域表示画像（図５Ｂ参照）、ピットについての注視領域表示画像（図５Ｃ参照）、穴あきについての注視領域表示画像（図５Ｄ参照）を示す。

　ここで、溶接不良表示画像の図４Ａに対するピットの注視領域画像の図４Ｃでは、図４Ａで、ピットと判定された箇所と同じ位置が白く映っている。この白く映った個所の特徴を見てピットと判定したことを意味している。また、溶接不良表示画像の図４Ａに対する穴あきの注視領域画像の図４Ｄでは、図４Ａで、穴あきと判定された箇所と同じ位置が白く映っている。この白く映った個所の特徴を見て穴あきと判定したことを意味している。図４Ａの溶接不良表示画像の例では、穴あき、ピット、スパッタの不良があるが、アンダーカットは無い。また、図５Ａの溶接不良表示画像の例では、アンダーカット、スパッタはあるが、穴あきとピットは無い。このため、溶接不良表示画像の図４Ａに対するアンダーカットについての注視領域表示画像の図４Ｂでは、図４Ａで、アンダーカットと検出された領域がないので、注視領域は無い（薄い箇所、言い換えると白い箇所が無い）。溶接不良表示画像の図５Ａに対するピットについての注視領域表示画像の図５Ｃでは、ピットと検出された領域がないので、注視領域は無い（薄い箇所、言い換えると白い箇所が無い）。溶接不良表示画像の図５Ａに対する穴あきについての注視領域表示画像の図５Ｄでは、穴あきと検出された領域がないので、注視領域は無い（薄い箇所、言い換えると白い箇所が無い）。このように、図４Ｂ、図５Ｃ、図５Ｄの注視領域表示画像は、いずれも薄い箇所、言い換えると白い箇所が無く濃い画像（言い換えると黒い画像）なので、どこにも注視領域が見当たらない結果となっている。

　図４Ｂ～図４Ｄ及び図５Ｂ～図５Ｄは、赤い画素が、青い画素よりも薄く示されたグレースケール画像である（言い換えると、特許図では、オリジナル画像のカラー画像を白黒画像に変換して記載しているので、赤い画素の箇所は白く、青い画素の箇所は黒く、グレースケールで表示されている。白く（薄く）なるほど不良と判定するのに重要な箇所を示し、黒く（濃く）なるほど不良判定に無関係な箇所を示している）。図４Ｃの画像では、溶接不良情報によりピットが存在すると示された領域の近傍（言い換えると、ピットが存在すると示された領域の外縁状の近傍領域）が、その他の領域よりも薄く示されており、溶接不良情報にノイズが影響を与えやすい箇所であることがわかる。図４Ｄの画像では、溶接不良情報により穴あきが存在すると示された領域の近傍（言い換えると、穴あきが存在すると示された領域の外縁状の近傍領域）が、その他の領域よりも薄く示されており、溶接不良情報にノイズが影響を与えやすい箇所であることがわかる。図５Ｂの画像では、溶接不良情報によりアンダーカットが存在すると示された領域の近傍（言い換えると、アンダーカットが存在すると示された領域の外縁状の近傍領域）が、その他の領域よりも薄く示されており、溶接不良情報にノイズが影響を与えやすい箇所であることがわかる。

　モニタ３２は、溶接不良表示画像生成部３１３によって算出された画素値に基づいて、前記溶接不良表示画像を表示するとともに、注視領域表示画像生成部３１５によって算出された画素値に基づいて、前記注視領域表示画像を表示する。

　また、図６Ａの左側の画像は、溶接不良表示画像である。図６Ａの右側の画像は、ガンマ補正を行わずに、式１により得た画素値をそのまま注視領域表示画像における画素値とした場合のピットの注視領域表示画像である。図６Ｂの左側の画像は、図６Ａの左側の画像と同じである。図６Ｂの右側の画像は、式１により得た画素値に対してガンマ補正を行い、ガンマ補正後の画素値を、注視領域表示画像における画素値とした場合のピットの注視領域表示画像である。このように、ガンマ補正を行うことにより、溶接不良情報にノイズが影響を与えやすい重要な箇所を絞り込むことができる。

　上述のように構成された溶接システム１の動作の例について、図７のフローチャートを参照して説明する。

　まず、Ｓ１０１において、ＡＩモデル生成装置１０の使用者が、教師データを用意し、ＡＩモデル生成装置１０に入力する。これに応じて、ＡＩモデル生成装置１０の教師データ受信部１１が教師データを受け付ける。

　次いで、Ｓ１０２において、ＡＩモデル生成装置１０の不良検出モデル生成部１２が、Ｓ１０１で教師データ受信部１１が受け付けた教師データを用いた機械学習により、不良検出モデルを生成し、不良検出モデルを特定するパラメータをパラメータ記憶部１３に記憶させる。

　次いで、Ｓ１０３において、ＡＩモデル生成装置１０の注視領域モデル生成部１４が、Ｓ１０２でパラメータ記憶部１３に記憶された不良検出モデルを特定するパラメータを参照して不良検出モデルを特定し、当該不良検出モデルと、Ｓ１０１で教師データ受信部１１によって受け付けられた教師データとを用いて、注視領域モデルを機械学習により生成する。

　その後、Ｓ１０４において、溶接装置２０の溶接不良情報算出部３１２が、検査対象の画像データを受け付ける。具体的には、例えば、溶接中にスキャナ２７によって取得された形状データに基づいて画像処理部３１１によって生成された画像データを受け付ける。

　そして、Ｓ１０５において、溶接不良情報算出部３１２が、Ｓ１０２で生成された不良検出モデルを用いて、Ｓ１０４で受け付けた画像データに基づいて、溶接不良情報を算出する。溶接装置２０は、例えば、Ｓ１０２で生成された不良検出モデルを特定するパラメータを、有線通信又は無線通信により、ＡＩモデル生成装置１０から受信することにより、不良検出モデルを特定することができる。

　すると、Ｓ１０６において、溶接不良表示画像生成部３１３が、Ｓ１０５で算出された溶接不良情報に基づいて、前記溶接不良情報を表示する溶接不良表示画像の各画素の画素値を算出し、モニタ３２が溶接不良表示画像を表示する。

　次いで、Ｓ１０７において、溶接装置２０の注視領域情報算出部３１４が、Ｓ１０３で生成された注視領域モデルを用いて、Ｓ１０４で溶接不良情報算出部３１２が受け付けた検査対象の画像データに基づいて、ピット、穴あき、スパッタ、アンダーカット、及び突起を含む複数種類のカテゴリについて、注視領域情報を生成する。溶接装置２０は、例えば、Ｓ１０３で生成された注視領域モデルを特定するパラメータを、有線通信又は無線通信により、ＡＩモデル生成装置１０から受信することにより、注視領域モデルを特定することができる。

　そして、Ｓ１０８において、注視領域表示画像生成部３１５が、注視領域情報算出部３１４によって生成された各カテゴリの注視領域情報によって示された最大ノイズ強度に応じた画素値にガンマ補正を行うことにより、注視領域表示画像の各画素の画素値を算出し、モニタ３２が各カテゴリの注視領域表示画像を表示する。

　なお、溶接装置２０にＳ１０７及びＳ１０８の処理を実行させるか否かを、Ｓ１０６においてモニタ３２に表示された溶接不良表示画像を視認したユーザが、入力装置３３への所定の入力によって選択できるようにしてもよい。

　したがって、本実施形態によれば、ＡＩモデル生成装置１０により、溶接画像内の各位置における，前記不良検出モデルによって出力される溶接不良情報に影響を与えない最大ノイズ強度を示す注視領域情報を生成する注視領域モデルが生成される。そして、溶接装置２０のデータ処理装置３０は、この注視領域モデルを用いることにより、不良検出モデルが溶接不良情報を導出する根拠に関する情報として注視領域情報を出力する。したがって、ユーザは、不良検出モデルが溶接不良情報を導出する根拠に関する情報を知得できる。

　また、損失算出ステップにおいて、損失算出部ＣＡ５が、溶接不良情報のうち、前記有無情報のアノテーションデータには基づかず、前記カテゴリ情報、前記サイズ情報及び前記位置情報と、前記カテゴリ情報、前記サイズ情報及び前記位置情報のアノテーションデータとに基づいて損失を算出するので、有無情報のアノテーションデータに基づいて損失を算出する場合に比べ、注視領域情報を精度良く生成する注視領域モデルを生成できる。

　また、ＡＩモデル生成装置１０に、複数種類のカテゴリについて、前記注視領域情報を出力する注視領域モデルを生成させるので、複数種類のカテゴリについての注視領域情報を知得するために、溶接装置２０のデータ処理装置３０に溶接不良のカテゴリ毎に注視領域モデルを切り替えて推論を実行させなくてもよい。したがって、複数種類のカテゴリについての注視領域情報を出力するために必要な処理時間を短縮できる。

　また、注視領域モデルのバックボーンとして、ＲｅｓＮｅｔを用いるので、生成される注視領域情報の精度を高めることができる。

　本開示の注視領域モデル生成システム及び推論装置は、不良検出モデルが溶接不良情報を導出する根拠に関する情報として注視領域情報をユーザが取得できるようにできるので、有用である。

１０　　　ＡＩモデル生成装置（注視領域モデル生成システム）
１１　　　教師データ受信部
１３　　　パラメータ記憶部
１４　　　注視領域モデル生成部
３０　　　データ処理装置（推論装置）
３１４　　　注視領域情報算出部（推論部）
３１５　　　注視領域表示画像生成部（画素値算出部）
３２　　　モニタ（画像表示部）

Claims

　溶接箇所を含む溶接画像の画像データと、当該溶接画像における溶接不良の種類、大きさ、及び位置を含む溶接不良情報のアノテーションデータとの複数のデータ組からなる教師データを受け付ける教師データ受信部と、
　前記教師データを用いた機械学習により生成され、溶接画像の画像データに基づいて前記溶接不良情報を出力する不良検出モデルを特定するパラメータを記憶するパラメータ記憶部と、
　所定の評価対象データ組の画像データを受け付け、当該画像データによって示される画像内の各位置における，前記不良検出モデルによって出力される溶接不良情報に影響を与えない最大ノイズ強度を示す注視領域情報を、注視領域モデルを用いて生成する注視領域情報生成ステップ、
　前記注視領域情報生成ステップによって生成した注視領域情報によって示される各位置の最大ノイズ強度にガウスノイズを乗算することにより、仮想ノイズを得る乗算ステップ、
　前記乗算ステップによって得た仮想ノイズを、前記評価対象データ組の画像データに付与することで、ノイズ付き画像データを取得するノイズ付与ステップ、
　前記ノイズ付与ステップによって取得したノイズ付き画像データに基づいて、前記溶接不良情報を、前記不良検出モデルを用いて生成する溶接不良情報生成ステップ、及び
　溶接不良情報生成ステップによって生成された溶接不良情報と、前記評価対象データ組のアノテーションデータとに基づいて損失を算出する損失算出ステップを、前記評価対象データ組として、前記教師データを構成する各データ組を設定して繰り返し実行したときに、前記損失算出ステップによって算出される損失が最も小さくなるように、前記注視領域モデルを機械学習により特定するモデル生成部とを備えた注視領域モデル生成システム。
　請求項１に記載の注視領域モデル生成システムにおいて、
　前記溶接不良情報は、前記溶接不良が存在するか否かを示す有無情報、前記溶接不良のカテゴリを示すカテゴリ情報、前記溶接不良の大きさを示すサイズ情報、及び前記溶接不良の位置を示す位置情報を含み、
　前記損失算出ステップは、前記有無情報のアノテーションデータには基づかず、前記カテゴリ情報、前記サイズ情報及び前記位置情報と、前記カテゴリ情報、前記サイズ情報及び前記位置情報のアノテーションデータとに基づいて前記損失を算出することを特徴とする注視領域モデル生成システム。
　請求項１又は２に記載の注視領域モデル生成システムにおいて、
　前記注視領域モデルは、複数種類のカテゴリについて、前記注視領域情報を出力するものであることを特徴とする注視領域モデル生成システム。
　請求項１～３のいずれか１項に記載の注視領域モデル生成システムにおいて、
　前記注視領域モデルのバックボーンとして、ＲｅｓＮｅｔが用いられていることを特徴とする注視領域モデル生成システム。
　請求項１～４のいずれか１項に記載の注視領域モデル生成システムによって生成された注視領域モデルを用いて、所定の前記溶接画像を示す画像データに基づいて、注視領域情報を生成する推論部と、
　前記推論部によって生成された注視領域情報によって示された最大ノイズ強度に応じて特定される前記溶接画像内の各画素の画素値にガンマ補正を行うことにより、表示画像内の各位置の画素値を算出する画素値算出部と、
　前記画素値算出部によって算出された画素値に基づいて、前記表示画像を表示する画像表示部とを備えた推論装置。