WO2022239671A1

WO2022239671A1 - 画像処理方法、コンピュータプログラム、画像処理装置、および、訓練方法

Info

Publication number: WO2022239671A1
Application number: PCT/JP2022/019287
Authority: WO
Inventors: 航平渡邉
Original assignee: ブラザー工業株式会社
Priority date: 2021-05-11
Filing date: 2022-04-28
Publication date: 2022-11-17
Also published as: JP2022174516A

Abstract

生成モデルを適切に構成する。注目入力画像データを第１生成モデルに入力することによって、注目入力画像データに対応する第１注目生成画像データを生成する。第１生成モデルは、光学的に読み取られた対象物の画像を表す画像データを第１生成モデルに入力することによって生成される画像データの画像が対象物のコンピュータグラフィックス画像に近づくように訓練された生成モデルである。第１注目生成画像データを第２生成モデルに入力することによって、不具合の無い注目対象物の画像を表す第２注目生成画像データを生成する。第１注目生成画像データの画像と第２注目生成画像データの画像との間の差分を示す差分画像の差分画像データを生成する。

Description

画像処理方法、コンピュータプログラム、画像処理装置、および、訓練方法

　本明細書は、生成モデルを使用する画像処理に関する。

　従来から、ニューラルネットワークとも呼ばれる機械学習モデルが画像処理に使用されている。例えば、特許文献１は、ニューラルネットワークを使用して顕微鏡画像を分類する技術を提案している。

特許第６７６７９６６号公報

　機械学習モデルとしては、画像データを生成する生成モデルが使用され得る。生成モデルは、例えば、入力された画像データを使用して、入力された画像データに対応する画像データを生成する。適切な画像データを生成するように生成モデルを構成する点については、工夫の余地があった。

　本明細書は、生成モデルを適切に構成する技術を開示する。

　本明細書に開示された技術は、以下の適用例として実現することが可能である。

［適用例１］画像データを処理する画像処理方法であって、光学的に読み取られた注目対象物を表す注目入力画像データを第１生成モデルに入力することによって、前記注目入力画像データに対応する第１注目生成画像データを生成する第１生成工程であって、前記第１生成モデルは、光学的に読み取られた対象物の画像を表す画像データを前記第１生成モデルに入力することによって生成される画像データの画像が前記対象物のコンピュータグラフィックス画像に近づくように訓練された生成モデルである、前記第１生成工程と、前記第１注目生成画像データを第２生成モデルに入力することによって、不具合の無い注目対象物の画像を表す第２注目生成画像データを生成する第２生成工程であって、前記第２生成モデルは、対象物の画像を表す画像データを前記第２生成モデルに入力することによって不具合の無い対象物の画像を表す画像データを生成するように訓練された生成モデルである、前記第２生成工程と、前記第１注目生成画像データの画像と前記第２注目生成画像データの画像との間の差分を示す差分画像の差分画像データを生成する第３生成工程と、を備え、前記第１生成モデルは、生成ネットワークと識別ネットワークとを有する敵対的生成ネットワークの訓練によって生成された前記生成ネットワークであり、前記識別ネットワークは、訓練用の入力画像データを前記生成ネットワークに入力することによって生成された画像データの画像である第１画像中の第１部分領域の画像の少なくとも一部を示す第１部分画像を表す第１部分画像データと、訓練用のコンピュータグラフィックス画像である第２画像中の第２部分領域の画像の少なくとも一部を示す第２部分画像を表す第２部分画像データと、を前記識別ネットワークに入力することによって、訓練されている、画像処理方法。

　この構成によれば、識別ネットワークへ入力される画像データの多様性が増加し、識別ネットワークの訓練の速度が抑制されるので、生成ネットワークの訓練と識別ネットワークの訓練とのバランスをとることができる。従って、第１生成モデルは、光学的に読み取られた対象物の画像を表す画像データを第１生成モデルに入力することによって生成される画像データの画像が対象物のコンピュータグラフィックス画像に近づくように適切に訓練される。このような第１生成モデルによって生成される第１注目生成画像データが第２生成モデルに入力されるので、第２生成モデルは、不具合の無い注目対象物の画像を表す第２注目生成画像データを適切に生成できる。従って、第１注目生成画像データの画像と第２注目生成画像データの画像との間の差分を示す差分画像の差分画像データは、注目対象物の読取りの条件に拘わらずに、注目入力画像データによって表される注目対象物の不具合を、適切に表すことができる。

［適用例２］生成ネットワークと識別ネットワークとを有する敵対的生成ネットワークの訓練方法であって、訓練用の入力画像データを生成ネットワークに入力することによって、第１画像の第１画像データを生成する工程と、前記第１画像中の第１部分領域をランダムに決定する工程と、前記第１画像中の前記第１部分領域の画像の少なくとも一部を示す第１部分画像を表す第１部分画像データを、前記第１画像データと前記第１部分領域とを使用して取得する工程と、前記第１部分画像データを識別ネットワークに入力することによって、第１識別データを取得する工程と、前記入力画像データに対応付けられた第２画像データの第２画像中の第２部分領域をランダムに決定する工程と、前記第２画像中の前記第２部分領域の画像の少なくとも一部を示す第２部分画像を表す第２部分画像データを、前記第２画像データと前記第２部分領域とを使用して取得する工程と、前記第２部分画像データを前記識別ネットワークに入力することによって、第２識別データを取得する工程と、前記第１識別データと前記第２識別データとを使用することによって、前記識別ネットワークのパラメータを調整する工程と、を備える、訓練方法。

　この構成によれば、敵対的生成ネットワークの訓練のために識別ネットワークに入力される画像の多様性が向上するので、識別ネットワーク、ひいては、識別ネットワークと生成ネットワークを有する敵対的生成ネットワークを、適切に訓練できる。

　なお、本明細書に開示の技術は、種々の態様で実現することが可能であり、例えば、画像処理方法および画像処理装置、敵対的生成ネットワークの訓練方法および訓練装置、それらの方法または装置の機能を実現するためのコンピュータプログラム、そのコンピュータプログラムを記録した記録媒体（例えば、一時的ではない記録媒体）、等の形態で実現することができる。

一実施例としての画像処理装置を示す説明図である。第１モデル５００の例を示すブロック図である。（Ａ）は、第２生成モデル６００の例を示すブロック図である。（Ｂ）は、第２生成モデル６００の訓練の概要を示すブロック図である。第１モデル５００の第１訓練処理の例を示すフローチャートである。第１モデル５００の第１訓練処理の例を示すフローチャートである。第２生成モデル６００の第２訓練処理の例を示すフローチャートである。検査処理の例を示すフローチャートである。検査処理の概略図である。（Ａ）、（Ｂ）は、表示部２４０に表示される画像の例を示す概略図である。検査処理の概略図である。

Ａ．第１実施例：
Ａ１．装置構成：
　図１は、一実施例としての画像処理装置を示す説明図である。本実施例では、画像処理装置２００は、例えば、パーソナルコンピュータである。画像処理装置２００は、対象物（本実施例では、プリンタＤＶに貼られたラベルシートＬＢ）の撮影画像の画像データを処理する。画像処理装置２００は、プロセッサ２１０と、記憶装置２１５と、表示部２４０と、操作部２５０と、通信インタフェース２７０と、を備えている。これらの要素は、バスを介して互いに接続されている。記憶装置２１５は、揮発性記憶装置２２０と、不揮発性記憶装置２３０と、を含んでいる。

　表示部２４０は、液晶ディスプレイ、有機ＥＬディスプレイなどの、画像を表示するように構成された装置である。操作部２５０は、ボタン、レバー、表示部２４０上に重ねて配置されたタッチパネルなどの、ユーザによる操作を受け取るように構成された装置である。ユーザは、操作部２５０を操作することによって、種々の指示を画像処理装置２００に入力可能である。通信インタフェース２７０は、他の装置と通信するためのインタフェースである（例えば、ＵＳＢインタフェース、有線ＬＡＮインタフェース、IEEE802.11の無線インタフェース）。通信インタフェース２７０には、デジタルカメラ１００が接続されている。デジタルカメラ１００は、プリンタＤＶに貼られたラベルシートＬＢを光学的に読み取ることによって、読み取られたラベルシートＬＢを表す画像データを生成する。本実施例では、ラベルシートＬＢは、矩形状のシートであり、文字列を含む種々のオブジェクトを表している。適切な文字列は、予めプリンタＤＶのモデルに対応付けられている。なお、製造時のエラーは、ラベルシートＬＢの文字列の不具合を引き起こし得る。例えば、ラベルシートＬＢは、誤った文字列を表し得る。また、適切な文字列の一部または全部が、欠ける場合がある。本実施例では、画像処理装置２００は、ラベルシートの不具合に関する検査を行う。

　プロセッサ２１０は、データ処理を行うように構成された装置であり、例えば、ＣＰＵである。揮発性記憶装置２２０は、例えば、ＤＲＡＭであり、不揮発性記憶装置２３０は、例えば、フラッシュメモリである。不揮発性記憶装置２３０は、プログラム２３１、２３２、２３３と、第１モデル５００と、第１種訓練データ５９０と、第２生成モデル６００と、第２種訓練データ６９０と、を格納している。モデル５００、６００は、それぞれ、人工ニューラルネットワークを有する予測モデルである。第１モデル５００は、第１生成モデル５１０と第１識別モデル５２０とを含んでいる。

　第１モデル５００の第１生成モデル５１０は、デジタルカメラ１００によって光学的に読み取られたラベルシートＬＢを表す画像データを使用して、同じラベルシートＬＢのコンピュータグラフィックス画像（詳細は、後述）のような画像データを生成する。第１生成モデル５１０は、画像に含まれるノイズと読取条件との影響を緩和するように、訓練される。第１識別モデル５２０は、第１生成モデル５１０の訓練のために、使用される。本実施例では、第１モデル５００は、プログラムモジュールである。第１種訓練データ５９０は、第１モデル５００の訓練のための画像データである。

　第２生成モデル６００は、第１生成モデル５１０によって生成された画像データを使用して、不具合の無いラベルシートを表す画像データを生成する。第２生成モデル６００は、第２生成モデル６００に入力される画像データによって表されるラベルシートが不具合を有する場合であっても、不具合の無いラベルシートを表す画像データを生成するように、訓練される。本実施例では、第２生成モデル６００は、プログラムモジュールである。第２種訓練データ６９０は、第２生成モデル６００の訓練のための画像データである。

　第１プログラム２３１は、第１モデル５００の訓練のためのプログラムである。第２プログラム２３２は、第２生成モデル６００の訓練のためのプログラムである。第３プログラム２３３は、ラベルシートの検査処理のためのプログラムである。プロセッサ２１０は、プログラム２３１、２３２、２３３の実行に使用される種々の中間データを、記憶装置２１５（例えば、揮発性記憶装置２２０、不揮発性記憶装置２３０のいずれか）に、一時的に格納する。プログラム２３１、２３２、２３３と、モデル５００、６００と、の詳細については、後述する。

Ａ２．第１モデル５００の構成：
　図２は、第１モデル５００の例を示すブロック図である。第１モデル５００は、いわゆる敵対的生成ネットワーク（GAN : Generative Adversarial Networks）を使用して構成されている。第１モデル５００は、第１生成モデル５１０（すなわち、生成ネットワーク）と第１識別モデル５２０（すなわち、識別ネットワーク）とを有している。

　第１モデル５００の第１生成モデル５１０には、デジタルカメラ１００によって読み取られたラベルシートＬＢｉを表す画像Ｉ５ｉの画像データＩ５ｉｄが入力される。第１生成モデル５１０は、入力された画像データＩ５ｉｄによって表されるラベルシートＬＢｉと同じラベルシートＬＢｉの画像Ｉ５１を表す画像データＩ５１ｄを生成する。生成される画像Ｉ５１内のラベルシートＬＢｉの位置と大きさとは、入力される画像Ｉ５ｉ内のラベルシートＬＢｉの位置と大きさと、それぞれ同じである。第１生成モデル５１０は、第１生成モデル５１０によって生成される画像データＩ５１ｄの画像Ｉ５１がコンピュータグラフィックス画像に近づくように、訓練される。コンピュータグラフィックス画像は、コンピュータによって生成される画像である。コンピュータグラフィックス画像は、例えば、オブジェクトを描画するための描画コマンドを含むベクタデータのレンダリング（ラスタライズとも呼ばれる）によって、生成される。デジタルカメラ１００などの読取装置によって読み取られた対象物を表す画像（読取画像とも呼ぶ）は、読取装置で生じる種々のノイズを含み得る。また、読取画像は、読取時の光源の明るさ、光源の色、対象物と読取装置との間の位置関係、などの読取りの条件に応じて、種々に変化し得る。読取画像中の対象物の色は、光源の明るさと光源の色とに応じて、種々に変化し得る。読取画像中の対象物の形状は、対象物と読取装置との間の位置関係に応じて、幾何学的に歪み得る（例えば、矩形の対象物は、読取画像中では、台形または平行四辺形で表され得る）。コンピュータグラフィックス画像は、読取装置で生じるノイズと読取りの条件との影響を受けずに生成される。訓練済の第１生成モデル５１０は、ラベルシートの画像に含まれるノイズと読取りの条件との影響を緩和する。

　以下、第１モデル５００に入力される画像データＩ５ｉｄを、入力画像データＩ５ｉｄとも呼び、入力画像データＩ５ｉｄの画像Ｉ５ｉを、入力画像Ｉ５ｉとも呼ぶ。また、第１モデル５００によって生成される画像データＩ５１ｄを、第１生成画像データＩ５１ｄとも呼び、第１生成画像データＩ５１ｄの画像Ｉ５１を、第１生成画像Ｉ５１とも呼ぶ。なお、本実施例では、画像Ｉ５ｉ、Ｉ５１は、それぞれ、矩形状の画像である（高さは２５６画素、幅は５１２画素）。画像Ｉ５ｉ、Ｉ５１の形状は、ラベルシートの形状と同じである。また、画像データＩ５ｉｄ、Ｉ５１ｄは、それぞれ、Ｒ（赤）Ｇ（緑）Ｂ（青）の３チャンネルで各画素の色を示すカラービットマップデータである。入力画像データＩ５ｉｄの要素数（ここでは、高さ＊幅＊チャンネル数）は、２５６＊５１２＊３である。ＲＧＢのそれぞれの色値は、ゼロから２５５までの２５６階調で表される。

　なお、入力画像Ｉ５ｉのラベルシートＬＢｉは、文字列の欠損や、誤記などの、不具合を有し得る。後述するように、入力画像Ｉ５ｉのラベルシートＬＢｉが不具合を有する場合、第１生成画像Ｉ５１は、同じ不具合を有するラベルシートＬＢｉを表す。

　第１生成モデル５１０は、いわゆるオートエンコーダを使用して構成されている。第１生成モデル５１０は、第１エンコーダ５１２と、第１デコーダ５１７と、を有している。第１エンコーダ５１２は、入力された画像データに対して次元削減処理を実行して、入力された画像の特徴を示す第１特徴データ５１５を生成する。本実施例では、第１エンコーダ５１２の構成は、以下の通りである。第１エンコーダ５１２は、上流側から順に並ぶ、５個の畳込層を有している。各畳込層は、２のストライドを使用して、高さに相当する要素数と幅に相当する要素数とを削減する（チャンネル数に相当する要素数は、増大する）。２番目から５番目までの各畳込層には、バッチノーマライゼーションが適用されている。各層の活性化関数は、LeakyReLUである。５個の畳込層は、データの要素数を、「２５６＊５１２＊３」から、「１２８＊２５６＊６４」、「６４＊１２８＊１２８」、「３２＊６４＊２５６」、「１６＊３２＊５１２」、「８＊１６＊５１２」の順に、変化させる。第１特徴データ５１５の要素数は、８＊１６＊５１２である。

　第１デコーダ５１７は、第１特徴データ５１５に対して次元復元処理を実行して、第１生成画像データＩ５１ｄを生成する。本実施例では、第１デコーダ５１７の構成は、以下の通りである。第１デコーダ５１７は、上流側から順に並ぶ、５個の転置畳込層を有している。各転置畳込層は、２以上のストライド（本実施例では、２）を使用して、高さに相当する要素数と幅に相当する要素数とを増大する（チャンネル数に相当する要素数は、低減する）。１番目から４番目までの４個の転置畳込層には、バッチノーマライゼーションが適用されている。また、訓練時に、１番目から２番目までの２個の転置畳込層には、ドロップアウトが適用される。各層の活性化関数は、ReLUである。なお、最後の転置畳込層の活性化関数としては、画像データＩ５１ｄの生成に適した関数（例えば、Tanh関数、または、シグモイド関数）が使用される。第１生成画像データＩ５１ｄの要素数は、入力画像データＩ５ｉｄの要素数と同じである。

　また、本実施例では、第１生成モデル５１０は、いわゆるＵ－Ｎｅｔと同様のアーキテクチャを有している。第１エンコーダ５１２と第１デコーダ５１７との間には、複数のコネクション５１９が設けられている。具体的には、１番目の畳込層の活性化関数からの出力データが、４番目の転置畳込層の活性化関数からの出力データに連結される。同様に、２番目の畳込層と３番目の転置畳込層のペアと、３番目の畳込層と２番目の転置畳込層とのペアと、４番目の畳込層と１番目の転置畳込層とのペアと、のそれぞれに関して、畳込層の活性化関数からの出力データが、転置畳込層の活性化関数からの出力データに連結される。２個の出力データの連結は、連結された出力データが２個の出力データのそれぞれのチャンネルを示すように、行われる。例えば、６４＊１２８＊２５６の要素を有する出力データと、６４＊１２８＊１２８の要素を有する出力データと、が連結される場合、６４＊１２８＊３８４の要素を有するデータが生成される。５個の転置畳込層による転置畳込と４個のコネクション５１９による連結とによって、データの要素数は、「８＊１６＊５１２」から、「１６＊３２＊５１２（転置畳込）」、「１６＊３２＊１０２４（連結）」、「３２＊６４＊２５６（転置畳込）」、「３２＊６４＊５１２（連結）」、「６４＊１２８＊２５６（転置畳込）」、「６４＊１２８＊３８４（連結）」、「１２８＊２５６＊１２８（転置畳込）」、「１２８＊２５６＊１９２（連結）」、「２５６＊５１２＊３（転置畳込）」の順に変化する。複数のコネクション５１９は、位置に関する情報を、第１エンコーダ５１２から第１デコーダ５１７へ伝達する。これにより、第１デコーダ５１７は、詳細な形状を表す画像Ｉ５１の画像データＩ５１ｄを生成できる。このようなコネクション５１９は、スキップコネクションとも呼ばれる。

　第１識別モデル５２０は、実画像データと偽画像データとを識別するように、訓練される。具体的には、第１識別モデル５２０は、第１生成モデル５１０によって生成された第１生成画像データＩ５１ｄを偽データと識別し、ラベルシートを表すコンピュータグラフィックス画像Ｉｏの画像データＩｏｄを実データと識別するように、訓練される。一方、第１生成モデル５１０は、訓練された第１識別モデル５２０が第１生成画像データＩ５１ｄを実データと誤って識別するように、訓練される。このような訓練により、第１生成モデル５１０は、コンピュータグラフィックス画像Ｉｏに近い第１生成画像Ｉ５１の第１生成画像データＩ５１ｄを生成できる。

　第１識別モデル５２０は、入力された画像データに対して次元削減処理を実行して、１個の値を示す識別データ５２９を生成する。本実施例では、第１識別モデル５２０の構成は、以下の通りである。第１識別モデル５２０は、上流側から順に並ぶ、畳込層群５２２と、グローバル平均プーリング層５２５と、全結合層群５２７と、を有している。後述するように、第１識別モデル５２０には、画像Ｉ５１、Ｉｏの一部分である部分画像ＰＡ１、ＰＡ２を表す部分画像データＰＡ１ｄ、ＰＡ２ｄが、入力される。部分画像ＰＡ１、ＰＡ２の要素数は、６４＊６４＊３である。

　畳込層群５２２は、上流側から順に並ぶ３個の畳込層を有している。各畳込層は、２のストライドを使用して、高さに相当する要素数と幅に相当する要素数とを、削減する（チャンネル数に相当する要素数は、増大する）。３個の畳込層には、バッチノーマライゼーションが適用されている。各畳込層の活性化関数は、LeakyReLUである。３個の畳込層は、データの要素数を、「６４＊６４＊３」から、「３２＊３２＊６４」、「１６＊１６＊１２８」、「８＊８＊１２８」の順に、変化させる。

　グローバル平均プーリング層５２５は、チャンネル毎の平均値を算出する。本実施例では、グローバル平均プーリング層５２５から出力されるデータの要素数は、１２８である。

　全結合層群５２７は、上流側から順に並ぶ３個の全結合層を有している。全結合層群５２７は、要素数を増大させた後、要素数を１まで低減させる。本実施例では、３個の全結合層は、要素数を、１２８から、５１２、２５６、１の順に変化させる。なお、要素数は、単調に減少してもよい。また、訓練時に、２番目の全結合層に、ドロップアウトが適用される。１番目から２番目までの２個の全結合層の活性化関数は、ReLUである。最後の全結合層の活性化関数としては、識別データ５２９の生成に適した関数（例えば、シグモイド関数、または、Tanh関数）が使用される。

　本実施例では、識別データ５２９は、ゼロ以上、１以下の値を示している。「１」は、「実」を示し、「０」は、「偽」を示している。識別データ５２９は、入力された画像データがコンピュータグラフィックス画像の画像データであることの確信の度合いを示している。

Ａ３．第２生成モデル６００の構成：
　図３（Ａ）は、第２生成モデル６００の例を示すブロック図である。図中の画像データＩ６１ｄは、第２生成モデル６００に入力される画像データである。本実施例では、画像データＩ６１ｄは、第１生成モデル５１０（図２）によって生成される第１生成画像データである（第１生成画像データＩ６１ｄとも呼ぶ）。第１生成画像データＩ６１ｄは、ラベルシートＬＢｊの画像Ｉ６１を表している。第２生成モデル６００は、第１生成画像データＩ６１ｄを使用して、不具合の無いラベルシートＬＢｊｘを表す画像データＩ６２ｄを生成する。上述したように、第１生成画像データＩ６１ｄの画像Ｉ６１のラベルシートＬＢｊは、種々の不具合を有し得る。訓練済の第２生成モデル６００は、ラベルシートＬＢｊが不具合を有する場合であっても、不具合の無いラベルシートＬＢｊｘの画像Ｉ６２を表す画像データＩ６２ｄを生成する。生成される画像Ｉ６２内のラベルシートＬＢｊｘの位置と大きさとは、入力される画像Ｉ６１内のラベルシートＬＢｊの位置と大きさと、それぞれ同じである。以下、第２生成モデル６００によって生成される画像データＩ６２ｄを、第２生成画像データＩ６２ｄとも呼び、第２生成画像データＩ６２ｄの画像Ｉ６２を、第２生成画像Ｉ６２とも呼ぶ。なお、本実施例では、第２生成画像データＩ６２ｄは、第１生成画像データＩ６１ｄと同じカラービットマップデータである。第２生成画像データＩ６２ｄの要素数（ここでは、高さ＊幅＊チャンネル数）は、２５６＊５１２＊３である。

　第２生成モデル６００は、いわゆるオートエンコーダを使用して構成されている。本実施例では、第２生成モデル６００の構成は、第１生成モデル５１０（図２）の構成と、同じである。第２生成モデル６００は、第２エンコーダ６０２と、第２デコーダ６０７と、を有している。第２エンコーダ６０２の構成は、第１エンコーダ５１２（図２）の構成と同じであり、第２デコーダ６０７の構成は、第１デコーダ５１７（図２）の構成と同じである。第２エンコーダ６０２と第２デコーダ６０７との間には、複数のコネクション６０９が設けられている。第２エンコーダ６０２は、入力された画像データに対して次元削減処理を実行して、入力された画像の特徴を示す特徴データ６０５を生成する。

Ａ４．第１訓練処理：
　図４、図５は、第１モデル５００の第１訓練処理の例を示すフローチャートである。図５は、図４の続きの処理を示している。プロセッサ２１０（図１）は、第１プログラム２３１に従って、図４、図５の処理を実行する。

　Ｓ２１０では、プロセッサ２１０は、デジタルカメラ１００によって読み取られたラベルシートの画像を表す入力画像データを生成する。本実施例では、作業者は、ラベルシート（例えば、ラベルシートＬＢ（図１））がデジタルカメラ１００の撮影範囲内に位置するように、プリンタ（例えば、プリンタＤＶ）を配置する。ここで、不具合の無いラベルシートが使用される。プロセッサ２１０は、デジタルカメラ１００にラベルシートを撮影させ、撮影画像データをデジタルカメラ１００から取得する。撮影画像は、デジタルカメラ１００によって読み取られたラベルシートの画像である。プロセッサ２１０は、撮影画像からラベルシートの領域を抽出するクロッピング処理を行う。本実施例では、プロセッサ２１０は、撮影画像を表示部２４０に表示し、作業者が、撮影画像のうちラベルシートを示すラベル領域を指定する。プロセッサ２１０は、撮影画像データのうちのラベル領域に対応する部分を使用して、ラベル領域の画像を表す入力画像データを生成する（基準入力画像データとも呼ぶ）。プロセッサ２１０は、基準入力画像データによって表される入力画像の高さと幅とを、第１モデル５００によって受け入れられる画像の高さと幅とに調整する。

　Ｓ２１５では、プロセッサ２１０は、データオーギュメンテーションとも呼ばれる加工処理を基準入力画像データに対して行うことによって、互いに異なる画像を表す複数の入力画像データを生成する。本実施例では、プロセッサ２１０は、予め決められた複数の候補加工処理から、ランダムに１以上の加工処理を選択する（例えば、乱数に従って加工処理が選択される）。そして、プロセッサ２１０は、選択した加工処理を基準入力画像データに対して実行することによって、新たな入力画像データを生成する。プロセッサ２１０は、加工処理の選択と実行とを、複数回行う。

　本実施例では、複数の候補加工処理は、ラベルシートの不具合を形成する複数の不具合形成処理を含んでいる。複数の不具合形成処理は、ラベルシートの文字列の一部を削除する処理を含んでよい（削除された文字に対応する画素の色は、削除された文字の近傍の背景部分の色と同じ色に変更される）。複数の不具合形成処理は、文字を別の文字に変更する処理を含んでよい。複数の不具合形成処理は、画像の一部を削除する処理を含んでよい。このような不具合形成処理は、不具合を有するラベルシートが撮影された場合に生成され得る画像データを、生成可能である。

　また、複数の候補加工処理は、ラベルシートの読取条件の変化に相当する複数の条件変化処理を含んでいる。複数の条件変化処理は、トーンカーブ調整処理、ホワイトバランス調整処理、ノイズ付加処理を含んでよい。このような条件変化処理は、種々の読取条件の下でラベルシートが撮影された場合に生成され得る画像データを、生成可能である。

　プロセッサ２１０は、種々の加工処理を実行することによって、不具合の無い種々のラベルシートを表す複数の入力画像データと、不具合を有する種々のラベルシートの複数の入力画像データとを、生成する。いずれの入力画像データも、光学的に読み取られたラベルシートの画像を表している。なお、不具合を有するラベルシートの撮影によって、不具合を有するラベルシートの入力画像データが生成されてもよい。

　Ｓ２２０では、プロセッサ２１０は、入力画像データと、不具合の無いラベルシートを表す原本画像データと、の複数組の画像ペアを生成する。そして、プロセッサ２１０は、各画像ペアに関して、入力画像データと原本画像データとを対応付けて記憶装置２１５（本実施例では、不揮発性記憶装置２３０）に格納する。格納された複数組の画像ペアは、第１種訓練データ５９０を構成する。原本画像データは、予め準備された原本ベクタデータのレンダリングによって生成されるビットマップデータであり、ラベルシートのコンピュータグラフィックス画像を表している。原本ベクタデータは、ラベルシートの製造のために予め準備されているデータである。原本画像データの画像の高さと幅とは、第１生成モデル５１０（図２）によって生成される第１生成画像の高さと幅と、それぞれ同じである。本実施例では、原本画像データは、複数組の画像ペアに共通である。第１種訓練データ５９０に含まれる原本画像データの総数は、１個であってよい。なお、製造時のエラーにより、不具合を有するラベルシートが製造され得る。

　なお、Ｓ２１０では、ラベルシートの複数回の撮影が行われてよい。複数回の撮影の間では、撮影条件（例えば、図示しない光源の明るさ等）が異なってよい。そして、プロセッサ２１０は、複数の基準入力画像データを生成してよい。Ｓ２１５では、プロセッサ２１０は、複数の基準入力画像データを使用して、複数の入力画像データを生成してよい。

　Ｓ２２５では、プロセッサ２１０は、第１モデル５００（図２）の複数の演算パラメータ、すなわち、第１生成モデル５１０と第１識別モデル５２０とのそれぞれの複数の演算パラメータ（例えば、畳込フィルタの複数の重みと複数のバイアスなど）を、初期化する。例えば、各演算パラメータは、乱数値に設定される。

　Ｓ２３０では、プロセッサ２１０は、第１種訓練データ５９０に含まれる複数組の画像ペアから、処理対象の複数の画像ペアである複数の対象ペアで構成されるサブセットを選択する。サブセットとしては、未処理の複数の画像ペアが選択される。また、サブセットの画像ペアの総数は、予め決められている。以下、図２の入力画像データＩ５ｉｄと画像データＩｏｄとが、対象ペアを示していることとする。ここで、画像データＩｏｄが、原本画像データである（画像データＩｏｄを、原画像データＩｏｄとも呼び、画像Ｉｏを、原画像Ｉｏとも呼ぶ）。

　Ｓ２３５では、プロセッサ２１０は、対象ペアの入力画像データＩ５ｉｄを第１生成モデル５１０に入力することによって、第１生成画像データＩ５１ｄを生成する。具体的には、プロセッサ２１０は、第１生成モデル５１０の演算パラメータを使用して、第１生成モデル５１０の各層の演算を行うことによって、第１生成画像データＩ５１ｄを生成する。

　Ｓ２４０では、プロセッサ２１０は、第１生成画像Ｉ５１中の一部の領域である第１部分領域Ａ１を、ランダムに決定する。第１部分領域Ａ１を定める複数のパラメータ（例えば、位置、形状、大きさ、数など）のうち、予め選択されたパラメータを、プロセッサ２１０は、ランダムに決定する。本実施例では、プロセッサ２１０は、乱数を生成し、乱数に従って第１部分領域Ａ１の位置である第１位置Ｐ１を決定する。第１部分領域Ａ１の形状と大きさとは、予め決められている。また、プロセッサ２１０は、１個の第１部分画像ＰＡ１のための１個の第１部分領域Ａ１を、決定する。

　Ｓ２４５では、プロセッサ２１０は、第１生成画像データＩ５１ｄと第１部分領域Ａ１とを使用する第１取得処理を実行することによって、第１部分領域Ａ１の画像の少なくとも一部を示す第１部分画像ＰＡ１の第１部分画像データＰＡ１ｄを取得する。本実施例では、プロセッサ２１０は、第１位置Ｐ１に配置された所定形状と所定サイズとを有する第１部分領域Ａ１の画像を示す第１部分画像ＰＡ１の第１部分画像データＰＡ１ｄを取得する。すなわち、プロセッサ２１０は、第１部分領域Ａ１の画像を、そのまま、第１部分画像ＰＡ１として採用する。これに代えて、第１取得処理は、画像の回転や画像のスケーリング（拡大、または、縮小）などの種々の画像処理を含んでよい（詳細は、後述）。

　Ｓ２５０では、プロセッサ２１０は、第１部分画像データＰＡ１ｄを第１識別モデル５２０に入力することによって、識別データ５２９を生成する。具体的には、プロセッサ２１０は、第１識別モデル５２０の演算パラメータを使用して、第１識別モデル５２０の各層の演算を行うことによって、識別データ５２９を算出する。以下、第１部分画像データＰＡ１ｄ（すなわち、第１生成画像データＩ５１ｄ）から得られる識別データ５２９を、第１識別データ５２９ｆとも呼ぶ。

　Ｓ２５５では、プロセッサ２１０は、原画像Ｉｏ中の一部の領域である第２部分領域Ａ２を、ランダムに決定する。第２部分領域Ａ２を定める複数のパラメータ（例えば、位置、形状、大きさ、数など）のうち、予め選択されたパラメータを、プロセッサ２１０は、ランダムに決定する。本実施例では、プロセッサ２１０は、乱数を生成し、乱数に従って第２部分領域Ａ２の位置である第２位置Ｐ２を決定する。第２部分領域Ａ２の形状と大きさとは、予め決められている。また、プロセッサ２１０は、１個の第２部分画像ＰＡ２のための１個の第２部分領域Ａ２を、決定する。

　Ｓ２６０では、プロセッサ２１０は、原画像データＩｏｄと第２部分領域Ａ２とを使用する第２取得処理を実行することによって、第２部分領域Ａ２の画像の少なくとも一部を示す第２部分画像ＰＡ２の第２部分画像データＰＡ２ｄを取得する。本実施例では、プロセッサ２１０は、第２位置Ｐ２に配置された所定形状と所定サイズとを有する第２部分領域Ａ２の画像を示す第２部分画像ＰＡ２の第２部分画像データＰＡ２ｄを取得する。すなわち、プロセッサ２１０は、第２部分領域Ａ２の画像を、そのまま、第２部分画像ＰＡ２として採用する。これに代えて、第２取得処理は、画像の回転や画像のスケーリングなどの種々の画像処理を含んでよい（詳細は、後述）。

　Ｓ２６５では、プロセッサ２１０は、第２部分画像データＰＡ２ｄを第１識別モデル５２０に入力することによって、識別データ５２９を生成する。具体的には、プロセッサ２１０は、第１識別モデル５２０の演算パラメータを使用して、第１識別モデル５２０の各層の演算を行うことによって、識別データ５２９を算出する。以下、第２部分画像データＰＡ２ｄ（すなわち、原画像データＩｏｄ）から得られる識別データ５２９を、第２識別データ５２９ｒとも呼ぶ。

　Ｓ２７０（図５）では、プロセッサ２１０は、第１識別データ５２９ｆと第２識別データ５２９ｒとを使用して、予め決められた識別損失関数に従って、識別損失を算出する。識別損失関数は、第２識別データ５２９ｒが「実（１）」に近いほど小さい値を算出し、第１識別データ５２９ｆが「偽（ゼロ）」に近いほど小さい値を算出するような、種々の関数であってよい。例えば、第２識別データ５２９ｒを、Ｄｒとし、第１識別データ５２９ｆを、Ｄｆとする場合に、識別損失関数は、以下の関数Ｆａ（Ｄｒ、Ｄｆ）であってよい。
　Ｆａ（Ｄｒ、Ｄｆ）＝（１－Ｄｒ）＋（Ｄｆ）

　本実施例では、サブセット（図４：Ｓ２３０）は、複数組の対象ペアを含んでいる。プロセッサ２１０は、複数組の対象ペアのそれぞれに関して、Ｓ２３５－Ｓ２６５の処理を実行する。そして、Ｓ２７０では、プロセッサ２１０は、複数組の対象ペアから識別損失関数に従って取得される複数の損失の合計値を、識別損失として算出する。

　Ｓ２７５では、プロセッサ２１０は、識別損失が小さくなるように、予め決められたアルゴリズムに従って、第１識別モデル５２０の複数の演算パラメータを調整する。アルゴリズムとしては、例えば、誤差逆伝播法と勾配降下法とを使用したアルゴリズムが採用されてよい。また、プロセッサ２１０は、いわゆるＡｄａｍの最適化を行ってよい。また、本実施例では、プロセッサ２１０は、畳込層群５２２の各畳込層に、バッチノーマライゼーションを適用する。プロセッサ２１０は、全結合層群５２７のうちの２番目の全結合層に、ドロップアウトを適用する。

　なお、識別損失関数は、第２識別データ５２９ｒが「実（１）」に近いほど大きい値を算出し、第１識別データ５２９ｆが「偽（ゼロ）」に近いほど大きい値を算出するような関数であってよい。例えば、識別損失関数は、以下の関数Ｆｂ（Ｄｒ、Ｄｆ）であってよい。
　Ｆｂ（Ｄｒ、Ｄｆ）＝ｌｏｇ（Ｄｒ）＋ｌｏｇ（１－Ｄｆ）
　この場合、識別損失が大きいほど、第１識別モデル５２０の性能は良好である。プロセッサ２１０は、識別損失が大きくなるように、第１識別モデル５２０の複数の演算パラメータを調整する。なお、この場合、第１識別モデル５２０にとっては、識別損失は、小さくすべき損失ではなく、大きくすべき評価値である。なお、関数Ｆｂ（Ｄｒ、Ｄｆ）にマイナスの符号を付して得られる関数－Ｆｂ（Ｄｒ、Ｄｆ）は、小さくすべき損失を表す損失関数として使用可能である。

　Ｓ２８０、Ｓ２８５は、図４のＳ２４０、Ｓ２４５と、それぞれ同じである。Ｓ２８０、Ｓ２８５では、プロセッサ２１０は、新たな第１位置Ｐ１を決定し、新たな第１部分画像データＰＡ１ｄを取得する。

　Ｓ２９０では、プロセッサ２１０は、新たな第１部分画像データＰＡ１ｄを第１識別モデル５２０に入力することによって、新たな第１識別データ５２９ｆを生成する。Ｓ２７５で第１識別モデル５２０が訓練されているので、Ｓ２９０で算出される第１識別データ５２９ｆは、「偽（ゼロ）」により近い値になり得る。

　Ｓ２９５では、プロセッサ２１０は、Ｓ２９０で生成された第１識別データ５２９ｆを使用して、予め決められた生成損失関数に従って、生成損失を算出する。生成損失関数は、第１識別データ５２９ｆが「実（１）」に近いほど、小さい値を算出する種々の関数であってよい。例えば、第１識別データ５２９ｆをＤｆとする場合に、生成損失関数は、以下の関数Ｆｃ（Ｄｆ）であってよい。
　　　Ｆｃ（Ｄｆ）＝（１－Ｄｆ）

　本実施例では、サブセット（図４：Ｓ２３０）が複数組の対象ペアを含んでいるので、Ｓ２３５では、プロセッサ２１０は、複数の第１生成画像データを生成する。プロセッサ２１０は、複数組の第１生成画像データのそれぞれに関して、Ｓ２８０－Ｓ２９０（図５）の処理を実行する。そして、Ｓ２９５では、プロセッサ２１０は、複数の第１生成画像データから生成損失関数に従って取得される複数の損失の合計値を、生成損失として算出する。

　Ｓ３００では、プロセッサ２１０は、生成損失が小さくなるように、予め決められたアルゴリズムに従って、第１生成モデル５１０の複数の演算パラメータを調整する。アルゴリズムとしては、例えば、誤差逆伝播法と勾配降下法とを使用したアルゴリズムが採用されてよい。また、プロセッサ２１０は、いわゆるＡｄａｍの最適化を行ってよい。また、本実施例では、プロセッサ２１０は、第１エンコーダ５１２の２番目から５番目までの４個の畳込層と、第１デコーダ５１７の１番目から４番目までの４個の転置畳込層と、に、バッチノーマライゼーションを適用する。プロセッサ２１０は、第１デコーダ５１７の１番目から２番目までの２個の転置畳込層に、ドロップアウトを適用する。

　Ｓ３０５では、プロセッサ２１０は、訓練終了条件が満たされるか否かを判断する。訓練終了条件は、第１モデル５００が適切に訓練されたことを示す任意の条件であってよい。本実施例では、訓練終了条件は、作業者からの終了指示が入力されることである。プロセッサ２１０は、第１種訓練データ５９０（図１）中の訓練に使用されていない複数の画像ペアから、所定数の画像ペアをランダムに取得する。プロセッサ２１０は、取得した複数の画像ペアのそれぞれの入力画像データを第１生成モデル５１０に入力し、第１生成モデル５１０から複数の第１生成画像データを取得する。プロセッサ２１０は、入力された入力画像と出力された第１生成画像との複数のペアを、表示部２４０に表示する。作業者は、表示部２４０を観察して、第１生成画像が入力画像と同じラベルシートのコンピュータグラフィックス画像を適切に表しているか否かを確認する。作業者は、確認結果に応じて、操作部２５０を操作して、訓練の終了指示、または、継続指示を入力する。

　なお、訓練の終了条件は、他の条件であってよい。例えば、終了条件は、訓練に使用されていない予め決められた第１数の画像ペアを使用して算出される識別損失と生成損失とが、それぞれに対応する所定の閾値以下であることであってよい。

　訓練が終了していないと判断される場合（Ｓ３０５：Ｎｏ）、プロセッサ２１０は、図４のＳ２３０へ移行し、新たなサブセットの処理を実行する。訓練が終了したと判断される場合（Ｓ３０５：Ｙｅｓ）、Ｓ３１０で、プロセッサ２１０は、訓練済の第１生成モデル５１０を、記憶装置２１５（ここでは、不揮発性記憶装置２３０）に格納する。そして、プロセッサ２１０は、図４、図５の処理を終了する。訓練済の第１生成モデル５１０は、ラベルシートの読取画像を、同じラベルシートのコンピュータグラフィックス画像に変換できる。なお、訓練が終了した場合、プロセッサ２１０は、第１識別モデル５２０を、不揮発性記憶装置２３０から削除してよい。

　なお、上述した読取装置で生じるノイズと読取りの条件との影響は、読取画像（例えば、入力画像Ｉ５ｉ（図２））の全体に、及ぶ。一方、コンピュータグラフィックス画像（例えば、原画像Ｉｏ（図２））に対するそのような影響は、小さい。従って、読取画像の一部分のみと、コンピュータグラフィックス画像の一部分のみと、が使用可能な場合であっても、読取画像とコンピュータグラフィックス画像との識別は容易である。このように、第１識別モデル５２０（図２）は、ラベルシートの画像Ｉ５１、Ｉｏの全体ではなく部分画像ＰＡ１、ＰＡ２が入力される場合であっても、入力された画像がコンピュータグラフィックス画像であるか否かを適切に識別できる。また、本実施例の訓練では、第１識別モデル５２０へ入力される画像データの多様性が増加する。例えば、原画像Ｉｏ中の互いに異なる部分を示す複数の第２部分画像ＰＡ２が、第１識別モデル５２０に入力される。従って、第１識別モデル５２０の訓練の速度が抑制される。この結果、第１生成モデル５１０の訓練と第１識別モデル５２０の訓練とのバランスをとることができる。従って、本実施例の訓練は、光学的に読み取られたラベルシートの画像Ｉ５ｉを表す画像データＩ５ｉｄを第１生成モデル５１０に入力することによって生成される画像データＩ５１ｄの画像Ｉ５１がラベルシートのコンピュータグラフィックス画像に近づくように、第１生成モデル５１０を適切に訓練できる。

　また、本実施例の訓練では、第１識別モデル５２０は、第１生成画像Ｉ５１中の第１部分領域Ａ１の画像を示す第１部分画像ＰＡ１の第１部分画像データＰＡ１ｄを、偽画像データとして使用する。また、第１識別モデル５２０は、原画像Ｉｏ中の第２部分領域Ａ２の画像を示す第２部分画像ＰＡ２の第２部分画像データＰＡ２ｄを、実画像データとして使用する。原画像Ｉｏは、不具合の無いラベルシートを表している。従って、本実施例の訓練は、第１部分画像ＰＡ１によって表されるラベルシートの部分が、不具合の無いラベルシートの対応する部分に近づくように、第１生成モデル５１０を訓練できる。また、第１生成モデル５１０には、ラベルシートの不具合の無い部分を含む種々の入力画像Ｉ５ｉの種々の入力画像データＩ５ｉｄが入力される。従って、本実施例の訓練は、入力画像Ｉ５ｉ中のラベルシートの不具合の無い部分と同じ部分を表す第１生成画像Ｉ５１を生成するように、第１生成モデル５１０を訓練できる。仮に、入力画像Ｉ５ｉのラベルシートＬＢｉが不具合を有する場合、第１生成画像Ｉ５１は、入力画像Ｉ５ｉに含まれる不具合を示す部分の影響により、同様の不具合を示す部分を含み得る。本実施例の訓練では、第１部分領域Ａ１は、第１生成画像Ｉ５１内の不具合を示す部分とは異なる部分に決定され得る。従って、第１生成モデル５１０は、入力画像Ｉ５ｉに含まれる不具合を示す部分に起因する第１生成画像Ｉ５１内の同様の不具合を示す部分がそのまま残るように、訓練され得る。以上により、訓練済の第１生成モデル５１０は、入力画像Ｉ５ｉのラベルシートＬＢｉが不具合を有する場合、同じ不具合を有するラベルシートＬＢｉを表す第１生成画像Ｉ５１を生成する。

　また、プロセッサ２１０は、第１部分画像ＰＡ１のための第１部分領域Ａ１の第１位置Ｐ１を、ランダムに決定する（図４：Ｓ２４０）。プロセッサ２１０は、第２部分画像ＰＡ２のための第２部分領域Ａ２の第２位置Ｐ２を、ランダムに決定する（Ｓ２５５）。従って、種々の位置Ｐ１、Ｐ２の部分画像ＰＡ１、ＰＡ２の部分画像データＰＡ１ｄ、ＰＡ２ｄが、第１識別モデル５２０に入力される。このように、第１識別モデル５２０へ入力される画像データの多様性が増加するので、第１生成モデル５１０と第１識別モデル５２０との適切な訓練が、可能である。

Ａ５．第２訓練処理：
　図６は、第２生成モデル６００の第２訓練処理の例を示すフローチャートである。図３（Ｂ）は、第２生成モデル６００の訓練の概要を示すブロック図である。本実施例では、第２生成モデル６００は、種々のラベルシートの画像データが入力される場合に、不具合のないラベルシートの画像データを生成するように、訓練される。プロセッサ２１０（図１）は、第２プログラム２３２に従って、図６の処理を実行する。

　Ｓ４１０では、プロセッサ２１０は、図２で説明した原画像データＩｏｄを使用して複数の訓練画像データを生成し、生成した複数の訓練画像データを記憶装置２１５（本実施例では、不揮発性記憶装置２３０）に格納する。格納された複数の訓練画像データは、第２種訓練データ６９０（図１）を構成する。本実施例では、プロセッサ２１０は、データオーギュメンテーションとも呼ばれる加工処理を原画像データＩｏｄに対して行うことによって、互いに異なる画像を表す複数の訓練画像データを生成する。プロセッサ２１０は、Ｓ２１５（図４）と同様に、予め決められた複数の候補加工処理からの加工処理の選択と、原画像データＩｏｄに対する選択された加工処理の実行とを、複数回行う。なお、Ｓ４１０で使用される複数の候補加工処理は、不具合の無いラベルシートを維持する複数の加工処理で構成されている（例えば、トーンカーブ調整処理、ホワイトバランス調整処理、ノイズ付加処理など）。文字の領域を加工する処理のようなラベルシートの不具合を生成する加工処理は、使用されない。従って、複数の訓練画像データは、いずれも、不具合の無いラベルシートを表している。

　Ｓ４１５では、プロセッサ２１０は、第２生成モデル６００の複数の演算パラメータ（例えば、畳込フィルタの複数の重みと複数のバイアスなど）を、初期化する。例えば、各演算パラメータは、乱数値に設定される。

　Ｓ４２０では、プロセッサ２１０は、第２種訓練データ６９０に含まれる複数の訓練画像データから、処理対象の複数のデータである複数の対象訓練画像データで構成されるサブセットを選択する。サブセットとしては、未処理の複数の訓練画像データが選択される。サブセットの画像データの総数は、予め決められている。

　Ｓ４２５では、プロセッサ２１０は、対象訓練画像データＩ６ｔｄ（図３（Ｂ））を、第２生成モデル６００（図３）に入力することによって、第２生成画像データＩ６ｘｄを生成する。具体的には、プロセッサ２１０は、第２生成モデル６００の演算パラメータを使用して、第２生成モデル６００の各層の演算を行うことによって、第２生成画像データＩ６ｘｄを生成する。

　Ｓ４３０では、プロセッサ２１０は、第２生成モデル６００に入力された対象訓練画像データＩ６ｔｄと、第２生成画像データＩ６ｘｄと、を使用して、予め決められた再構成損失関数に従って、再構成損失を算出する。再構成損失関数は、２個の画像データの間の差分を表す種々の関数であってよい。本実施例では、再構成損失関数として、いわゆる交差エントロピーが使用される。これに代えて、再構成損失関数として、二乗和誤差が使用されてよい。本実施例では、サブセット（Ｓ４２０）は、複数の対象訓練画像データを含んでいる。プロセッサ２１０は、複数の対象訓練画像データのそれぞれに関して、Ｓ４２５の処理を実行し、複数の第２生成画像データを生成する。Ｓ４３０では、プロセッサ２１０は、対象訓練画像データと第２生成画像データとの複数のペアから再構成損失関数に従って取得される複数の損失Ｌ２の合計値を、再構成損失として算出する。

　Ｓ４３５では、プロセッサ２１０は、再構成損失が小さくなるように、予め決められたアルゴリズムに従って、第２生成モデル６００の複数の演算パラメータを調整する。アルゴリズムとしては、例えば、誤差逆伝播法と勾配降下法とを使用したアルゴリズムが採用されてよい。また、プロセッサ２１０は、いわゆるＡｄａｍの最適化を行ってよい。また、本実施例では、プロセッサ２１０は、第２エンコーダ６０２の２番目から５番目までの４個の畳込層と、第２デコーダ６０７の１番目から４番目までの４個の転置畳込層と、に、バッチノーマライゼーションを適用する。プロセッサ２１０は、第２デコーダ６０７の１番目から２番目までの２個の転置畳込層に、ドロップアウトを適用する。

　Ｓ４４０では、プロセッサ２１０は、訓練終了条件が満たされるか否かを判断する。訓練終了条件は、第２生成モデル６００が適切に訓練されたことを示す任意の条件であってよい。本実施例では、訓練終了条件は、作業者からの終了指示が入力されることである。プロセッサ２１０は、第２種訓練データ６９０（図１）中の訓練に使用されていない複数の訓練画像データから、所定数の画像データをランダムに取得する。プロセッサ２１０は、取得した複数の画像データを第２生成モデル６００に入力し、第２生成モデル６００から複数の第２生成画像データを取得する。プロセッサ２１０は、入力された画像と出力された第２生成画像との複数のペアを、表示部２４０に表示する。作業者は、表示部２４０を観察して、第２生成画像が入力された画像と同じラベルシートの画像を適切に表しているか否かを確認する。作業者は、確認結果に応じて、操作部２５０を操作して、訓練の終了指示、または、継続指示を入力する。

　なお、訓練の終了条件は、他の条件であってよい。例えば、終了条件は、訓練に使用されていない予め決められた第２数の訓練画像データを使用して算出される再構成損失が、所定の再構成閾値以下であることであってよい。

　訓練が終了していないと判断される場合（Ｓ４４０：Ｎｏ）、プロセッサ２１０は、Ｓ４２０へ移行し、新たなサブセットの処理を実行する。訓練が終了したと判断される場合（Ｓ４４０：Ｙｅｓ）、Ｓ４４５で、プロセッサ２１０は、訓練済の第２生成モデル６００を、記憶装置２１５（ここでは、不揮発性記憶装置２３０）に格納する。そして、プロセッサ２１０は、図６の処理を終了する。以上のように、第２生成モデル６００は、不具合の無い種々のラベルシートの画像データから、不具合の無い同じラベルシートの画像データを生成するように訓練される。従って、訓練済の第２生成モデル６００は、入力される画像データＩ６１ｄ（図３（Ａ））が不具合を有するラベルシートＬＢｊを表す場合であっても、不具合の無いラベルシートＬＢｊｘを表す画像データＩ６２ｄを生成する。

Ａ６．検査処理：
　図７は、検査処理の例を示すフローチャートである。検査処理は、画像処理装置２００（図１）によって実行される。プロセッサ２１０は、第３プログラム２３３に従って、検査処理を実行する。

　Ｓ５１０では、プロセッサ２１０は、検査対象のラベルシートである注目ラベルシートをデジタルカメラ１００に撮影させ、注目撮影画像データをデジタルカメラ１００から取得する。図８は、検査処理の概略図である。図中の画像データＩｘｄは、注目撮影画像Ｉｘの注目撮影画像データＩｘｄである。注目撮影画像Ｉｘは、注目ラベルシートＬＢｘを含むプリンタＤＶの一部分を表している。図８の例では、注目ラベルシートＬＢｘは、文字列の不具合を有している（詳細は、後述）。

　Ｓ５１５では、プロセッサ２１０は、注目撮影画像から注目ラベルシートの領域を抽出するクロッピング処理を行う。本実施例では、プロセッサ２１０は、物体検出モデルと呼ばれる機械学習モデル（例えば、YOLOv4 (You only look once)、SSD (Single Shot MultiBox Detector)、R-CNN (Region Based Convolutional Neural Networks) など）を使用して、注目ラベルシートＬＢｘの領域を検出する。プロセッサ２１０は、注目撮影画像データＩｘｄのうちの検出された領域を示す部分を使用して、注目ラベルシートＬＢｘを表す注目入力画像データＩｘ０ｄを生成する。プロセッサ２１０は、注目入力画像データＩｘ０ｄによって表される注目入力画像Ｉｘ０の高さと幅とを、第１モデル５００によって受け入れられる画像の高さと幅とに調整する。なお、注目ラベルシートＬＢｘの領域の検出方法は、他の任意の方法であってよい。例えば、プロセッサ２１０は、予め決められた基準パターンを使用するパターンマッチングによって、注目ラベルシートＬＢｘの領域を検出してもよい。

　Ｓ５２０では、プロセッサ２１０は、注目入力画像データを第１生成モデル５１０に入力することによって、第１注目生成画像データＩｘ１ｄを生成する。プロセッサ２１０は、第１生成モデル５１０の演算パラメータを使用して、第１生成モデル５１０の各層の演算を行うことによって、第１注目生成画像データＩｘ１ｄを生成する。第１注目生成画像データＩｘ１ｄの第１注目生成画像Ｉｘ１は、コンピュータグラフィックス画像のような注目ラベルシートＬＢｘの画像である。

　Ｓ５３０では、プロセッサ２１０は、第１注目生成画像データＩｘ１ｄを第２生成モデル６００に入力することによって、第２注目生成画像データＩｘ２ｄを生成する。プロセッサ２１０は、第２生成モデル６００の演算パラメータを使用して、第２生成モデル６００の各層の演算を行うことによって、第２注目生成画像データＩｘ２ｄを生成する。第２注目生成画像データＩｘ２ｄの第２注目生成画像Ｉｘ２は、不具合の無いラベルシートＬＢｘｍを表している（正解ラベルシートＬＢｘｍとも呼ぶ）。図８の例では、正解ラベルシートＬＢｘｍは、３個の文字列Ｔ１、Ｔ２、Ｔ３を表している。一方、注目入力画像Ｉｘ０によって示されるように、注目ラベルシートＬＢｘは、２個の文字列Ｔ１、Ｔ２ｘを表している。第２文字列Ｔ２ｘの最も右側の文字Ｔ２ｅは、正解ラベルシートＬＢｘｍの第２文字列Ｔ２の正しい「２」に代えて、誤った「９」である。注目ラベルシートＬＢｘ上では、第３文字列Ｔ３は、空白領域Ａｘに置換されている。

　Ｓ５３５では、プロセッサ２１０は、第１注目生成画像Ｉｘ１と第２注目生成画像Ｉｘ２との間の差分を示す中間差分画像Ｉｘ３の中間差分画像データＩｘ３ｄを生成する。中間差分画像Ｉｘ３の各画素は、第１注目生成画像Ｉｘ１の対応する画素の第１色値と、第２注目生成画像Ｉｘ２の対応する画素の第２色値と、の間の差を示している。本実施例では、第１色値と第２色値とは、ＲＧＢ値である。プロセッサ２１０は、第１色値と第２色値との間のＬ１距離を、中間差分画像Ｉｘ３の画素の画素値として算出する。なお、中間差分画像Ｉｘ３の画素の画素値は、Ｌ１距離に代えて、第１注目生成画像Ｉｘ１と第２注目生成画像Ｉｘ２との間の差を示す任意の値であってよい（例えば、Ｌ２距離、ＲＧＢ値から算出される輝度値の差分、など）。

　中間差分画像Ｉｘ３は、種々のノイズを含み得る。例えば、文字などのオブジェクトと背景との境界を示す画素の色値は、第１注目生成画像Ｉｘ１と第２注目生成画像Ｉｘ２との間で、異なり得る。中間差分画像Ｉｘ３は、このような色値のズレを、表し得る。そこで、本実施例では、プロセッサ２１０は、中間差分画像データＩｘ３ｄの二値化処理を実行することによって、最終的な差分画像Ｉｘ４の差分画像データＩｘ４ｄを生成する。二値化処理の閾値は、不具合を示す画素の値を１に設定し、不具合の無い画素とノイズを示す画素とのぞれぞれの値をゼロに設定するように、予め実験的に決定される。図８の例では、差分画像Ｉｘ４は、注目入力画像Ｉｘ０から欠けている第３文字列Ｔ３と、第２文字列Ｔ２ｘの最も右側の文字の差分画像Ｔ２ｗと、を表している。

　Ｓ５４０では、プロセッサ２１０は、差分画像データＩｘ４ｄの次元削減処理を実行することによって、異常度ＤＡを算出する。異常度ＤＡは、注目入力画像データＩｘ０ｄによって表される注目ラベルシートＬＢｘの不具合の度合いを示している。次元削減処理は、差分画像データＩｘ４ｄの特徴を示す異常度ＤＡを算出する種々の処理であってよい。本実施例では、プロセッサ２１０は、ｔ－ＳＮＥ（t-distributed Stochastic Neighbor Embedding）を使用して、差分画像データＩｘ４ｄから、第１値Ｖ１と第２値Ｖ２とで構成される２次元データを生成する。図８には、２次元データを示すグラフの概略が示されている。横軸は第１値Ｖ１を示し、縦軸は第２値Ｖ２を示している。注目点Ｐｉは、差分画像データＩｘ４ｄから算出された２次元データを示している。基準点Ｐｓは、不具合の無いラベルシートの複数の撮影画像からＳ５１５－Ｓ５４０の処理と同じ処理によって得られる複数の２次元データＰｒの代表点である。本実施例では、基準点Ｐｓは、複数の２次元データＰｒの重心点であり、予め決められている。距離ＤＡｄは、基準点Ｐｓと注目点Ｐｉとの間の距離である（本実施例では、二乗和誤差）。なお、距離ＤＡｄは、２個の点Ｐｓ、Ｐｉの間の距離を示す種々の値であってよい（例えば、Ｌ２距離、Ｌ１距離など）。

　プロセッサ２１０は、予め決められた評価関数に距離ＤＡｄを入力することによって、異常度ＤＡを算出する。評価関数は、距離ＤＡｄが大きいほど大きい異常度ＤＡを算出する種々の関数であってよい。ここで、距離ＤＡｄの全範囲が、短範囲と中範囲と長範囲との３つの範囲に区分される場合に、短範囲では、異常度ＤＡがゼロに近く、長範囲では、異常度ＤＡが最大値（例えば、１００）に近く、中範囲では、距離ＤＡｄの変化に応じて異常度ＤＡが大きく変化することが好ましい。このような評価関数としては、例えば、シグモイド関数、または、tanh関数を採用可能である。

　このように、本実施例では、プロセッサ２１０は、ｔ－ＳＮＥと評価関数とを使用する次元削減処理を実行して、差分画像データＩｘ４ｄから異常度ＤＡを算出する。本実施例では、異常度ＤＡは、ゼロ以上、１００以下の値である。

　Ｓ５４５では、プロセッサ２１０（図１）は、差分画像Ｉｘ４と異常度ＤＡとを、表示部２４０に表示する。図９（Ａ）は、表示部２４０に表示される画像の例を示す概略図である。表示部２４０は、差分画像Ｉｘ４と、異常度ＤＡを示す文字列ＤＡｔと、を表している。図９（Ａ）では、異常度ＤＡは、８０であり、異常度ＤＡの単位として「％」が示されている。作業者は、表示部２４０を観察することによって、注目ラベルシートＬＢｘのうちの不具合を有する部分と、異常の度合いとを、容易に認識できる。

　図７の実施例では、プロセッサ２１０は、Ｓ５３０－Ｓ５４５の処理と並行して、Ｓ５５０、Ｓ５５５、Ｓ５６０の処理を実行する。図１０は、検査処理の概略図である。図１０には、Ｓ５５０、Ｓ５５５の概略が示されている。Ｓ５５０（図７）では、プロセッサ２１０は、第１注目生成画像データＩｘ１ｄの文字認識処理を実行し、注目ラベルシートＬＢｘによって表される文字列のリストを示す注目文字列テーブルＴｘを取得する。文字認識処理は、公知の種々の処理であってよい。例えば、Google社の「Tesseract OCR」と呼ばれる光学文字認識エンジンが、使用されてよい。なお、本実施例では、プロセッサ２１０は、ノイズを含む注目入力画像データＩｘ０ｄではなく、第１注目生成画像データＩｘ１ｄを、文字認識に使用する。従って、プロセッサ２１０は、適切な文字認識結果を、取得できる。

　図１０には、注目文字列テーブルＴｘの例が示されている。図示するように、注目文字列テーブルＴｘは、第１文字列Ｔ１と、第２文字列Ｔ２ｘと、を示している。第２文字列Ｔ２ｘの最も右側の文字Ｔ２ｅは、誤った「９」である。第３文字列Ｔ３は、認識されない。

　Ｓ５５５では、プロセッサ２１０は、注目文字列テーブルＴｘと、原本文字列テーブルＴｏと、を比較することにより、不具合を有する文字列のリストを示す不具合文字列テーブルＴｄを生成する。原本文字列テーブルＴｏは、不具合の無いラベルシートによって表される文字列のリストを示しており、予め準備されている。プロセッサ２１０は、注目文字列テーブルＴｘと原本文字列テーブルＴｏとを比較し、文字列単位で、不具合を検出する。図１０の例では、不具合文字列テーブルＴｄは、第２文字列Ｔ２ｘと、第３文字列Ｔ３と、を示している。第２文字列Ｔ２ｘの最も右側の文字Ｔ２ｅは、誤った「９」である。

　このように、不具合文字列テーブルＴｄは、注目文字列テーブルＴｘに含まれる文字列であって、原本文字列テーブルＴｏに含まれる対応する文字列と少なくとも一部が異なる文字列（例えば、第２文字列Ｔ２ｘ）を、含んでいる。また、不具合文字列テーブルＴｄは、原本文字列テーブルＴｏに含まれ、かつ、注目文字列テーブルＴｘに含まれない文字列（例えば、第３文字列Ｔ３）を、含んでいる。図示を省略するが、注目文字列テーブルＴｘが、原本文字列テーブルＴｏに含まれない文字列を含む場合、不具合文字列テーブルＴｄは、その文字列を含んでいる。

　Ｓ５６０では、プロセッサ２１０（図１）は、不具合文字列テーブルＴｄによって示される文字列を、表示部２４０に表示する。図９（Ｂ）は、表示部２４０に表示される画像の例を示す概略図である。表示部２４０は、不具合文字列テーブルＴｄに含まれる文字列Ｔ２ｘ、Ｔ３を表している。作業者は、表示部２４０を観察することによって、注目ラベルシートＬＢｘに含まれる不具合を、容易に認識できる。

　Ｓ５３０－Ｓ５４５の処理とＳ５５０－Ｓ５６０の処理とが終了した場合、プロセッサ２１０は、図７の検査処理を終了する。なお、プロセッサ２１０は、Ｓ５３０－Ｓ５４５の処理と、Ｓ５５０－Ｓ５６０の処理とを、並行ではなく、順番に実行してよい。

　以上のように、本実施例では、画像処理装置２００のプロセッサ２１０は、以下の画像処理を実行する。図７のＳ５２０では、プロセッサ２１０は、光学的に読み取られた注目ラベルシートＬＢｘ（図８）を表す注目入力画像データＩｘ０ｄを第１生成モデル５１０に入力することによって、注目入力画像データＩｘ０ｄに対応する第１注目生成画像データＩｘ１ｄを生成する。図２、図４、図５で説明したように、第１生成モデル５１０は、光学的に読み取られたラベルシートの画像Ｉ５ｉ（図２）を表す画像データＩ５ｉｄを第１生成モデル５１０に入力することによって生成される画像データＩ５１ｄの画像Ｉ５１がラベルシートのコンピュータグラフィックス画像Ｉｏに近づくように訓練された生成モデルである。

　また、図７のＳ５３０では、プロセッサ２１０は、第１注目生成画像データＩｘ１ｄ（図８）を第２生成モデル６００に入力することによって、不具合の無い注目対象物の画像Ｉｘ２を表す第２注目生成画像データＩｘ２ｄを生成する。図６で説明したように、第２生成モデル６００は、ラベルシートの画像を表す画像データＩ６１ｄ（図３（Ａ））を第２生成モデル６００に入力することによって不具合の無いラベルシートの画像Ｉ６２を表す画像データＩ６２ｄを生成するように訓練された生成モデルである。

　また、図７のＳ５３５では、プロセッサ２１０は、第１注目生成画像データＩｘ１ｄ（図８）の画像Ｉｘ１と第２注目生成画像データＩｘ２ｄの画像Ｉｘ２との間の差分を示す差分画像Ｉｘ４の差分画像データＩｘ４ｄを生成する。

　図２、図５、図６で説明したように、第１生成モデル５１０は、第１生成モデル５１０と第１識別モデル５２０とを有する第１モデル５００の訓練によって生成される。ここで、第１生成モデル５１０は、生成ネットワークの例であり、第１識別モデル５２０は、識別ネットワークの例であり、第１モデル５００は、生成ネットワークと識別ネットワークとを有する敵対的生成ネットワークの例である。

　図４のＳ２５０、Ｓ２６０、図２で説明したように、第１識別モデル５２０は、第１部分画像データＰＡ１ｄと第２部分画像データＰＡ２ｄとを第１識別モデル５２０に入力することによって、訓練されている。Ｓ２３５－Ｓ２４５、図２で説明したように、第１部分画像データＰＡ１ｄは、訓練用の入力画像データＩ５ｉｄを第１生成モデル５１０に入力することによって生成された画像データＩ５１ｄの画像である第１画像Ｉ５１の一部分である第１部分画像ＰＡ１を表している。Ｓ２５０－Ｓ２６０、図２で説明したように、第２部分画像データＰＡ２ｄは、訓練用のコンピュータグラフィックス画像Ｉｏである第２画像Ｉｏの一部分である第２部分画像ＰＡ２を表している。

　以上により、識別ネットワークの例である第１識別モデル５２０へ入力される画像データＰＡ１ｄ、ＰＡ２ｄ（図２）の多様性が増加し、第１識別モデル５２０の訓練の速度が抑制されるので、生成ネットワークの例である第１生成モデル５１０の訓練と第１識別モデル５２０の訓練とのバランスをとることができる。従って、図８に示すように、第１生成モデル５１０は、光学的に読み取られたラベルシートＬＢｘの画像Ｉｘ０を表す画像データＩｘ０ｄを第１生成モデル５１０に入力することによって生成される画像データＩｘ１ｄの画像Ｉｘ１がラベルシートのコンピュータグラフィックス画像に近づくように適切に訓練される。このような第１生成モデル５１０によって生成される第１注目生成画像データＩｘ１ｄが第２生成モデル６００に入力されるので、第２生成モデル６００は、不具合の無い注目ラベルシートの画像を表す第２注目生成画像データＩｘ２ｄを適切に生成できる。従って、第１注目生成画像データＩｘ１ｄの画像Ｉｘ１と第２注目生成画像データＩｘ２ｄの画像Ｉｘ２との間の差分を示す差分画像Ｉｘ４の差分画像データＩｘ４ｄは、注目ラベルシートＬＢｘの読取りの条件に拘わらずに、注目入力画像データＩｘ０ｄによって表される注目ラベルシートＬＢｘの不具合を、適切に表すことができる。

　さらに、本実施例では、Ｓ５４０（図７）で、プロセッサ２１０は、差分画像データＩｘ４ｄの次元削減処理を実行することによって、注目入力画像データＩｘ０ｄによって表される注目ラベルシートＬＢｘの異常度ＤＡを算出する。上述したように、差分画像データＩｘ４ｄは、注目ラベルシートＬＢｘの不具合を適切に表すので、プロセッサ２１０は、差分画像データＩｘ４ｄを使用して、適切な異常度ＤＡを算出できる。

　また、図４のＳ２４０、Ｓ２５５、図２で説明したように、第１画像Ｉ５１上の第１部分領域Ａ１の第１位置Ｐ１は、ランダムに決定されており、第２画像Ｉｏ上の第２部分領域Ａ２の第２位置Ｐ２は、ランダムに決定されている。第１モデル５００の訓練では（図４、図５）、プロセッサ２１０は、種々の位置Ｐ１、Ｐ２の部分領域Ａ１、Ａ２の部分画像ＰＡ１、ＰＡ２の部分画像データＰＡ１ｄ、ＰＡ２ｄを、第１識別モデル５２０に入力する。これにより、第１識別モデル５２０へ入力される画像データの多様性が増加するので、第１生成モデル５１０と第１識別モデル５２０との適切な訓練が、可能である。

　また、上述したように、図４、図５は、生成ネットワークと識別ネットワークとを有する敵対的生成ネットワークの訓練処理の例を示している。この訓練処理は、以下の処理を備えている。Ｓ２３５では、プロセッサ２１０は、訓練用の入力画像データＩ５ｉｄを生成ネットワークの例である第１生成モデル５１０に入力することによって、第１画像Ｉ５１の第１画像データＩ５１ｄを生成する。Ｓ２４０では、プロセッサ２１０は、第１画像Ｉ５１中の第１部分領域Ａ１をランダムに決定する（本実施例では、第１部分領域Ａ１の第１位置Ｐ１が、ランダムに決定される）。Ｓ２４５では、プロセッサ２１０は、第１画像Ｉ５１中の第１部分領域Ａ１の画像の少なくとも一部を示す第１部分画像ＰＡ１を表す第１部分画像データＰＡ１ｄを、第１画像データＩ５１ｄと第１部分領域Ａ１とを使用して取得する。Ｓ２５０では、プロセッサ２１０は、第１部分画像データＰＡ１ｄを識別ネットワークの例である第１識別モデル５２０に入力することによって、第１識別データ５２９ｆを取得する。Ｓ２５５では、プロセッサ２１０は、入力画像データＩ５ｉｄに対応付けられた第２画像データＩｏｄの第２画像Ｉｏ中の第２部分領域Ａ２をランダムに決定する（本実施例では、第２部分領域Ａ２の第２位置Ｐ２が、ランダムに決定される）。Ｓ２６０では、プロセッサ２１０は、第２画像Ｉｏ中の第２部分領域Ａ２の画像の少なくとも一部を示す第２部分画像ＰＡ２を表す第２部分画像データＰＡ２ｄを、第２画像データＩｏｄと第２部分領域Ａ２とを使用して取得する。Ｓ２６５では、プロセッサ２１０は、第２部分画像データＰＡ２ｄを第１識別モデル５２０に入力することによって、第２識別データ５２９ｒを取得する。Ｓ２７０、Ｓ２７５では、プロセッサ２１０は、第１識別データ５２９ｆと第２識別データ５２９ｒとを使用することによって、第１識別モデル５２０のパラメータを調整する。以上により、敵対的生成ネットワークの訓練のために識別ネットワークに入力される画像の多様性が向上するので、識別ネットワーク、ひいては、識別ネットワークと生成ネットワークを有する敵対的生成ネットワークを、適切に訓練できる。なお、敵対的生成ネットワークの用途は、ラベルシートなどの対象物の不具合に関する検査に限らず、任意の用途であってよい。

Ｂ．変形例：
（１）第１モデル５００の訓練（図４、図５）には、互いに異なる画像を表す複数の入力画像データが使用されることが好ましい。複数の入力画像データは、ラベルシートの互いに異なる不具合を示す複数の入力画像データを含むことが好ましい。また、複数の入力画像データは、互いに異なる読取条件に対応する複数の入力画像データを含むことが好ましい。

　また、入力画像データに対応付けられるコンピュータグラフィックス画像のデータは、入力画像データによって表されるラベルシートと同じラベルシートを表してよい。すなわち、入力画像データが不具合を有するラベルシートを表す場合、その入力画像データに対応付けられるコンピュータグラフィックス画像のデータは、同じ不具合を有するラベルシートを表してよい。このような注目入力画像データとコンピュータグラフィックス画像のデータとのペアを訓練に用いることによって、訓練済の第１生成モデル５１０は、不具合を有するラベルシートを表す画像データが入力される場合に、同じ不具合を有するラベルシートのコンピュータグラフィックス画像を表すデータを、適切に生成できる。

（２）第１モデル５００の訓練（図４、図５）では、プロセッサ２１０は、互いに異なる複数の第１位置Ｐ１（図２）の複数の第１部分領域Ａ１の複数の画像を示す複数の第１部分画像ＰＡ１の複数のデータＰＡ１ｄを、第１識別モデル５２０に入力することが好ましい。ここで、プロセッサ２１０は、複数の第１生成画像データを使用して複数の第１部分画像ＰＡ１のデータを取得することが好ましい。これに代えて、プロセッサ２１０は、１個の第１生成画像データを使用して複数の第１部分画像ＰＡ１のデータを取得してもよい。ここで、Ｓ２４０（図４）では、プロセッサ２１０は、１個の第１生成画像から取得される第１部分画像ＰＡ１の数（すなわち、第１生成画像上の第１部分領域Ａ１の数）を、ランダムに決定してよい。互いに異なる複数の第１位置Ｐ１は、ランダムに決定される代わりに、予め決められていてもよい。また、Ｓ２４０では、プロセッサ２１０は、第１生成画像上の第１部分領域Ａ１の大きさ（単位は、例えば、予め決められた方向（例えば、幅方向）の画素数）を、ランダムに決定してよい。また、プロセッサ２１０は、予め決められた複数の形状（例えば、四角形、長方形、菱形、円、楕円など）から、第１生成画像上の第１部分領域Ａ１の形状をランダムに決定してよい。一般的には、プロセッサ２１０は、Ｓ２４０で、第１生成画像上の第１部分領域Ａ１の位置と形状と大きさと数とを含む複数のパラメータのうちの１以上のパラメータを、ランダムに決定してよい。これにより、第１識別モデル５２０に入力される画像データの多様性は、更に向上する。なお、残りのパラメータは、予め決められてよい。ここで、プロセッサ２１０は、Ｓ２４０で、複数のパラメータのうちのランダムに決定すべきパラメータを、ランダムに決定してよい。

　また、Ｓ２４５の第１取得処理は、第１生成画像中の第１部分領域Ａ１の画像の少なくとも一部を示す第１部分画像ＰＡ１の第１部分画像データＰＡ１ｄを取得する種々の処理であってよい。第１取得処理は、例えば、画像の回転と画像のスケーリング（拡大、または、縮小）の一方または両方を含んでよい。画像のスケーリングは、画像の画素密度を変更する。第１取得処理は、回転とスケーリングとに限らず、他の種々の画像処理を含んでよい。第１取得処理は、第１取得処理によって生成された第１部分画像ＰＡ１が第１部分領域Ａ１の画像の少なくとも一部と同じ画像を示すように構成されていることが好ましい。第１取得処理では、プロセッサ２１０は、第１取得処理の画像処理で使用される１以上のパラメータ（例えば、回転角度とスケーリング比率とを含む複数のパラメータ）のうちの予め選択された１以上のパラメータ（例えば、回転角度とスケーリング比率との一方または両方）を、ランダムに決定してよい。スケーリング比率は、スケーリングの前の画像の大きさ（単位は、例えば、予め決められた方向（例えば、幅方向）の画素数）に対するスケーリングの後の画像の大きさの比率である。第１取得処理では、プロセッサ２１０は、回転とスケーリングとを含む複数の画像処理から、実行すべき画像処理を、ランダムに選択してよい。第１取得処理では、プロセッサ２１０は、第１取得処理の画像処理で使用される１以上のパラメータのうちのランダムに決定すべきパラメータを、ランダムに選択してよい。ランダムに決定されたパラメータを第１取得処理の画像処理で使用することによって、第１識別モデル５２０に入力される画像データの多様性は、更に向上する。なお、残りのパラメータは、予め決められてよい。

　いずれの場合も、第１取得処理は、第１部分画像ＰＡ１を、第１識別モデル５２０によって受け入れられる画像である識別入力画像に調整する処理を含んでよい。プロセッサ２１０は、例えば、画素密度の調整、または、畳込処理によって、第１部分画像ＰＡ１の大きさ（より一般的には、画素密度）を調整してよい。また、調整前の第１部分画像ＰＡ１の形状が識別入力画像の形状と異なる場合、プロセッサ２１０は、調整前の第１部分画像ＰＡ１から、識別入力画像の形状と同じ形状を有する部分を抽出することによって、調整済の第１部分画像ＰＡ１を生成してよい。このように、第１部分画像ＰＡ１は、第１生成画像中の第１部分領域Ａ１の画像の全体または一部を示してよい。スケーリングを含む第１取得処理が実行される場合、調整済の第１部分画像ＰＡ１の中の、第１部分領域Ａ１の画像の大きさが、スケーリング比率が大きいほど大きくなるように、第１部分画像ＰＡ１が調整されてよい。

　同様に、プロセッサ２１０は、互いに異なる複数の第２位置Ｐ２（図２）の複数の第２部分領域Ａ２の複数の画像を示す複数の第２部分画像ＰＡ２の複数のデータＰＡ２ｄを、第１識別モデル５２０に入力することが好ましい。ここで、プロセッサ２１０は、１個のコンピュータグラフィックス画像データ（例えば、画像データＩｏｄ）を使用して複数の第２部分画像ＰＡ２のデータを取得してよい。ここで、Ｓ２５５（図４）では、プロセッサ２１０は、１個のコンピュータグラフィックス画像から取得される第２部分画像ＰＡ２の数（すなわち、コンピュータグラフィックス画像上の第２部分領域Ａ２の数）を、ランダムに決定してよい。これに代えて、プロセッサ２１０は、複数のコンピュータグラフィックス画像データを使用して複数の第２部分画像ＰＡ２のデータを取得してもよい。互いに異なる複数の第２位置Ｐ２は、ランダムに決定される代わりに、予め決められていてもよい。また、Ｓ２５５では、プロセッサ２１０は、コンピュータグラフィックス画像上の第２部分領域Ａ２の大きさ（単位は、例えば、予め決められた方向（例えば、幅方向）の画素数）を、ランダムに決定してよい。また、プロセッサ２１０は、予め決められた複数の形状（例えば、四角形、長方形、菱形、円、楕円など）から、コンピュータグラフィックス画像上の第２部分領域Ａ２の形状をランダムに決定してよい。一般的には、プロセッサ２１０は、Ｓ２５５で、コンピュータグラフィックス画像上の第２部分領域Ａ２の位置と形状と大きさと数とを含む複数のパラメータのうちの１以上のパラメータを、ランダムに決定してよい。これにより、第１識別モデル５２０に入力される画像データの多様性は、更に向上する。なお、残りのパラメータは、予め決められてよい。ここで、プロセッサ２１０は、Ｓ２５５で、複数のパラメータのうちのランダムに決定すべきパラメータを、ランダムに決定してよい。

　また、Ｓ２６０の第２取得処理は、コンピュータグラフィックス画像中の第２部分領域Ａ２の画像の少なくとも一部を示す第２部分画像ＰＡ２の第２部分画像データＰＡ２ｄを取得する種々の処理であってよい。第２取得処理は、第２取得処理によって生成された第２部分画像ＰＡ２が第２部分領域Ａ２の画像の少なくとも一部と同じ画像を示すように構成されていることが好ましい。第２取得処理は、第１取得処理と同じであってよく、例えば、画像の回転と画像のスケーリングの一方または両方を含んでよい。第２取得処理では、プロセッサ２１０は、第２取得処理の画像処理で使用される１以上のパラメータ（例えば、回転角度とスケーリング比率とを含む複数のパラメータ）のうちの予め選択された１以上のパラメータ（例えば、回転角度とスケーリング比率との一方または両方）を、ランダムに決定してよい。第２取得処理では、プロセッサ２１０は、回転とスケーリングとを含む複数の画像処理から、実行すべき画像処理を、ランダムに選択してよい。第２取得処理では、プロセッサ２１０は、第２取得処理の画像処理で使用される１以上のパラメータのうちのランダムに決定すべきパラメータを、ランダムに選択してよい。ランダムに決定されたパラメータを第２取得処理の画像処理で使用することによって、第１識別モデル５２０に入力される画像データの多様性は、更に向上する。なお、残りのパラメータは、予め決められてよい。

　いずれの場合も、第２取得処理は、第２部分画像ＰＡ２を、第１識別モデル５２０によって受け入れられる識別入力画像に調整する処理を含んでよい。プロセッサ２１０は、例えば、画素密度の調整、または、畳込処理によって、第２部分画像ＰＡ２の大きさ（より一般的には、画素密度）を調整してよい。また、調整前の第２部分画像ＰＡ２の形状が識別入力画像の形状と異なる場合、プロセッサ２１０は、調整前の第２部分画像ＰＡ２から、識別入力画像の形状と同じ形状を有する部分を抽出することによって、調整済の第２部分画像ＰＡ２を生成してよい。このように、第２部分画像ＰＡ２は、コンピュータグラフィックス画像中の第２部分領域Ａ２の画像の全体または一部を示してよい。スケーリングを含む第２取得処理が実行される場合、調整済の第２部分画像ＰＡ２の中の、第２部分領域Ａ２の画像の大きさが、スケーリング比率が大きいほど大きくなるように、第２部分画像ＰＡ２が調整されてよい。

（３）第１モデル５００は、図２等で説明したネットワークに代えて、生成ネットワークと識別ネットワークとを有する種々の敵対的生成ネットワークであってよい。例えば、第１生成モデル５１０に入力される画像の高さと幅とは、予め決められた任意の高さと幅とであってよい。第１生成モデル５１０の第１エンコーダ５１２の畳込層の総数は、１以上の任意の数であってよい。各畳込層のフィルタのサイズは、種々のサイズであってよい。第１エンコーダ５１２は、全結合層を含んでよい。第１エンコーダ５１２からは、畳込層が、省略されてよい。同様に、第１生成モデル５１０の第１デコーダ５１７の転置畳込層の総数は、１以上の任意の数であってよい。各転置畳込層のフィルタのサイズは、種々のサイズであってよい。第１デコーダ５１７は、全結合層を含んでよい。第１デコーダ５１７からは、転置畳込層が、省略されてよい。

　第１識別モデル５２０の畳込層群５２２の畳込層の総数は、１以上の任意の数であってよい。各畳込層のフィルタのサイズは、種々のサイズであってよい。全結合層群５２７の全結合層の総数は、１以上の任意の数であってよい。各全結合層のノード数は、種々の値であってよい。畳込層群５２２とグローバル平均プーリング層５２５と全結合層群５２７との３個のモジュールのうち１個または２個のモジュールが、省略されてよい。

　バッチノーマライゼーションは、第１モデル５００の種々の層に適用されてよい。ドロップアウトは、第１モデル５００の種々の層に適用されてよい。

（４）第２生成モデル６００は、図３（Ａ）、図３（Ｂ）等で説明したネットワークに限らず、入力された画像から不具合のない画像を生成する任意のネットワークであってよい。例えば、第２生成モデル６００の構成は、第１生成モデル５１０の構成と異なってよい。また、第２生成モデル６００は、生成ネットワークと識別ネットワークとを有する敵対的生成ネットワークの訓練によって生成された生成ネットワークであってよい。バッチノーマライゼーションは、第２生成モデル６００の種々の層に適用されてよい。ドロップアウトは、第２生成モデル６００の種々の層に適用されてよい。

（５）差分画像データＩｘ４ｄから異常度ＤＡを算出する処理（図７：Ｓ５４０）は、不具合の度合いを示す異常度ＤＡを算出する種々の処理であってよい。例えば、プロセッサ２１０は、ｔ－ＳＮＥを使用して差分画像データＩｘ４ｄから３次元データを生成し、３次元空間における基準点と注目点との間の距離を使用して異常度ＤＡを算出してよい。また、プロセッサ２１０は、ｔ－ＳＮＥを使用して、差分画像データＩｘ４ｄから１個の値を直接的に算出してよい。そして、プロセッサ２１０は、算出された１個の値を評価関数に入力することによって、異常度ＤＡを算出してよい。また、プロセッサ２１０は、ｔ－ＳＮＥに代えて、種々の次元削減処理（例えば、主成分解析）を使用してよい。

（６）検査処理は、図７に示す処理に代えて、ラベルシートの不具合に関する情報（例えば、差分画像Ｉｘ４、異常度ＤＡ、不具合文字列テーブルＴｄなど）を生成する任意の処理であってよい。例えば、Ｓ５４０は、省略されてよい。この場合、Ｓ５４５では、プロセッサ２１０は、差分画像Ｉｘ４を表示部２４０に表示してよい。また、差分画像データを生成する処理（Ｓ５３５）において、中間差分画像データＩｘ３ｄの二値化処理（図８）が省略され、中間差分画像データＩｘ３ｄが、差分画像データとして使用されてよい。また、Ｓ５５０－Ｓ５６０の処理は、省略されてよい。これに代えて、Ｓ５３０－Ｓ５４５の処理が省略されてよい。

　また、Ｓ５４５、Ｓ５６０において、ユーザに情報を提示する方法は、情報の表示に代えて、ユーザに情報を伝達可能な任意の方法であってよい。例えば、プロセッサ２１０は、情報を説明する音声を出力してよい。

（７）ラベルシートの形状は、任意の形状であってよく、例えば、三角形、四角形、５以上の角を有する多角形、円、または、楕円であってよい。いずれの場合も、画像データは、矩形状の画像を表してよい。図４のＳ２４０、Ｓ２５５では、プロセッサ２１０は、抽出される部分画像の全体がラベルシートに含まれるように、部分画像の領域を決定することが好ましい。

（８）画像処理の対象である対象物は、プリンタなどの製品に貼られるラベルシートに限らず、製品に直接的に印刷されるラベルであってよい。対象物は、ラベルに限らず、製品に取り付けられる札でもよい。対象物は、製品を収容する容器、または、製品を包む包装紙であってよい。対象物に関連する製品は、プリンタに限らず、ミシン、カッティングマシンなどの任意の製品であってよい。一般的に、対象物は、文字を表す任意の対象物であってよい。対象物によって表される文字の数は、１以上の任意の整数であってよい。

（９）対象物を光学的に読み取る読取装置は、デジタルカメラ１００に限らず、ＣＣＤやＣＭＯＳなどの光電変換素子を用いて光学的に対象物を読み取るように構成された任意の読取装置であってよい（例えば、スキャナ）。

（１０）第１訓練処理（例えば、図４、図５）、第２訓練処理（例えば、図６）、検査処理（例えば、図７）は、互いに異なる画像処理装置によって実行されてよい。いずれの画像処理装置も、パーソナルコンピュータとは異なる種類の装置（例えば、デジタルカメラ、スキャナ、スマートフォン）であってもよい。また、ネットワークを介して互いに通信可能な複数の装置（例えば、コンピュータ）が、画像処理装置による画像処理の機能を一部ずつ分担して、全体として、画像処理の機能を提供してもよい（これらの装置を備えるシステムが画像処理装置に対応する）。

　上記各実施例において、ハードウェアによって実現されていた構成の一部をソフトウェアに置き換えるようにしてもよく、逆に、ソフトウェアによって実現されていた構成の一部あるいは全部をハードウェアに置き換えるようにしてもよい。例えば、図１の第１生成モデル５１０は、専用のハードウェア回路によって実現されてよい。

　また、本発明の機能の一部または全部がコンピュータプログラムで実現される場合には、そのプログラムは、コンピュータ読み取り可能な記録媒体（例えば、一時的ではない記録媒体）に格納された形で提供することができる。プログラムは、提供時と同一または異なる記録媒体（コンピュータ読み取り可能な記録媒体）に格納された状態で、使用され得る。「コンピュータ読み取り可能な記録媒体」は、メモリーカードやＣＤ－ＲＯＭのような携帯型の記録媒体に限らず、各種ＲＯＭ等のコンピュータ内の内部記憶装置や、ハードディスクドライブ等のコンピュータに接続されている外部記憶装置も含み得る。

　以上、実施例、変形例に基づき本発明について説明してきたが、上記した発明の実施の形態は、本発明の理解を容易にするためのものであり、本発明を限定するものではない。本発明は、その趣旨を逸脱することなく、変更、改良され得ると共に、本発明にはその等価物が含まれる。

１００…デジタルカメラ、２００…画像処理装置、２１０…プロセッサ、２１５…記憶装置、２２０…揮発性記憶装置、２３０…不揮発性記憶装置、２３１…第１プログラム、２３２…第２プログラム、２３３…第３プログラム、２４０…表示部、２５０…操作部、２７０…通信インタフェース、５００…第１モデル、５１０…第１生成モデル、５１２…第１エンコーダ、５１５…第１特徴データ、５１７…第１デコーダ、５１９…コネクション、５２０…第１識別モデル、５２２…畳込層群、５２５…グローバル平均プーリング層、５２７…全結合層群、５２９…識別データ、５２９ｆ…第１識別データ、５２９ｒ…第２識別データ、５９０…第１種訓練データ、６００…第２生成モデル、６０２…第２エンコーダ、６０７…第２デコーダ、６０９…コネクション、６９０…第２種訓練データ

Claims

　画像データを処理する画像処理方法であって、
　光学的に読み取られた注目対象物を表す注目入力画像データを第１生成モデルに入力することによって、前記注目入力画像データに対応する第１注目生成画像データを生成する第１生成工程であって、前記第１生成モデルは、光学的に読み取られた対象物の画像を表す画像データを前記第１生成モデルに入力することによって生成される画像データの画像が前記対象物のコンピュータグラフィックス画像に近づくように訓練された生成モデルである、前記第１生成工程と、
　前記第１注目生成画像データを第２生成モデルに入力することによって、不具合の無い注目対象物の画像を表す第２注目生成画像データを生成する第２生成工程であって、前記第２生成モデルは、対象物の画像を表す画像データを前記第２生成モデルに入力することによって不具合の無い対象物の画像を表す画像データを生成するように訓練された生成モデルである、前記第２生成工程と、
　前記第１注目生成画像データの画像と前記第２注目生成画像データの画像との間の差分を示す差分画像の差分画像データを生成する第３生成工程と、
　を備え、
　前記第１生成モデルは、生成ネットワークと識別ネットワークとを有する敵対的生成ネットワークの訓練によって生成された前記生成ネットワークであり、
　前記識別ネットワークは、訓練用の入力画像データを前記生成ネットワークに入力することによって生成された画像データの画像である第１画像中の第１部分領域の画像の少なくとも一部を示す第１部分画像を表す第１部分画像データと、訓練用のコンピュータグラフィックス画像である第２画像中の第２部分領域の画像の少なくとも一部を示す第２部分画像を表す第２部分画像データと、を前記識別ネットワークに入力することによって、訓練されている、
　画像処理方法。
　請求項１に記載の画像処理方法であって、さらに、
　前記差分画像データの次元削減処理を実行することによって、前記注目入力画像データによって表される前記注目対象物の異常度を算出する算出工程を備える、
　画像処理方法。
　請求項１または２に記載の画像処理方法であって、
　前記第１画像上の前記第１部分領域の位置は、ランダムに決定されており、
　前記第２画像上の前記第２部分領域の位置は、ランダムに決定されている、
　画像処理方法。
　請求項１から３のいずれかに記載の画像処理方法であって、
　前記第１画像上の前記第１部分領域の形状は、ランダムに決定されており、
　前記第２画像上の前記第２部分領域の形状は、ランダムに決定されている、
　画像処理方法。
　請求項１から４のいずれかに記載の画像処理方法であって、
　前記第１画像上の前記第１部分領域の大きさは、ランダムに決定されており、
　前記第２画像上の前記第２部分領域の大きさは、ランダムに決定されている、
　画像処理方法。
　請求項１から５のいずれかに記載の画像処理方法であって、
　前記第１画像から取得される前記第１部分画像の数は、ランダムに決定されており、
　前記第２画像から取得される前記第２部分画像の数は、ランダムに決定されている、
　画像処理方法。
　請求項１から６のいずれかに記載の画像処理方法であって、
　前記第１部分画像データは、ランダムに決定された角度による画像の回転を含む処理を実行することによって、取得されており、
　前記第２部分画像データは、ランダムに決定された角度による画像の回転を含む処理を実行することによって、取得されている、
　画像処理方法。
　請求項１から７のいずれかに記載の画像処理方法であって、
　前記第１部分画像データは、ランダムに決定されたスケーリング比率による画像のスケーリングを含む処理を実行することによって、取得されており、
　前記第２部分画像データは、ランダムに決定されたスケーリング比率による画像のスケーリングを含む処理を実行することによって、取得されている、
　画像処理方法。
　画像データを処理するコンピュータのためのコンピュータプログラムであって、
　光学的に読み取られた注目対象物を表す注目入力画像データを第１生成モデルに入力することによって、前記注目入力画像データに対応する第１注目生成画像データを生成する第１生成機能であって、前記第１生成モデルは、光学的に読み取られた対象物の画像を表す画像データを前記第１生成モデルに入力することによって生成される画像データの画像が前記対象物のコンピュータグラフィックス画像に近づくように訓練された生成モデルである、前記第１生成機能と、
　前記第１注目生成画像データを第２生成モデルに入力することによって、不具合の無い注目対象物の画像を表す第２注目生成画像データを生成する第２生成機能であって、前記第２生成モデルは、対象物の画像を表す画像データを前記第２生成モデルに入力することによって不具合の無い対象物の画像を表す画像データを生成するように訓練された生成モデルである、前記第２生成機能と、
　前記第１注目生成画像データの画像と前記第２注目生成画像データの画像との間の差分を示す差分画像の差分画像データを生成する第３生成機能と、
　をコンピュータに実現させ、
　前記第１生成モデルは、生成ネットワークと識別ネットワークとを有する敵対的生成ネットワークの訓練によって生成された前記生成ネットワークであり、
　前記識別ネットワークは、訓練用の入力画像データを前記生成ネットワークに入力することによって生成された画像データの画像である第１画像中の第１部分領域の画像の少なくとも一部を示す第１部分画像を表す第１部分画像データと、訓練用のコンピュータグラフィックス画像である第２画像中の第２部分領域の画像の少なくとも一部を示す第２部分画像を表す第２部分画像データと、を前記識別ネットワークに入力することによって、訓練されている、
　コンピュータプログラム。
　画像データを処理する画像処理装置であって、
　光学的に読み取られた注目対象物を表す注目入力画像データを第１生成モデルに入力することによって、前記注目入力画像データに対応する第１注目生成画像データを生成する第１生成部であって、前記第１生成モデルは、光学的に読み取られた対象物の画像を表す画像データを前記第１生成モデルに入力することによって生成される画像データの画像が前記対象物のコンピュータグラフィックス画像に近づくように訓練された生成モデルである、前記第１生成部と、
　前記第１注目生成画像データを第２生成モデルに入力することによって、不具合の無い注目対象物の画像を表す第２注目生成画像データを生成する第２生成部であって、前記第２生成モデルは、対象物の画像を表す画像データを前記第２生成モデルに入力することによって不具合の無い対象物の画像を表す画像データを生成するように訓練された生成モデルである、前記第２生成部と、
　前記第１注目生成画像データの画像と前記第２注目生成画像データの画像との間の差分を示す差分画像の差分画像データを生成する第３生成部と、
　を備え、
　前記第１生成モデルは、生成ネットワークと識別ネットワークとを有する敵対的生成ネットワークの訓練によって生成された前記生成ネットワークであり、
　前記識別ネットワークは、訓練用の入力画像データを前記生成ネットワークに入力することによって生成された画像データの画像である第１画像中の第１部分領域の画像の少なくとも一部を示す第１部分画像を表す第１部分画像データと、訓練用のコンピュータグラフィックス画像である第２画像中の第２部分領域の画像の少なくとも一部を示す第２部分画像を表す第２部分画像データと、を前記識別ネットワークに入力することによって、訓練されている、
　画像処理装置。
　生成ネットワークと識別ネットワークとを有する敵対的生成ネットワークの訓練方法であって、
　訓練用の入力画像データを生成ネットワークに入力することによって、第１画像の第１画像データを生成する工程と、
　前記第１画像中の第１部分領域をランダムに決定する工程と、
　前記第１画像中の前記第１部分領域の画像の少なくとも一部を示す第１部分画像を表す第１部分画像データを、前記第１画像データと前記第１部分領域とを使用して取得する工程と、
　前記第１部分画像データを識別ネットワークに入力することによって、第１識別データを取得する工程と、
　前記入力画像データに対応付けられた第２画像データの第２画像中の第２部分領域をランダムに決定する工程と、
　前記第２画像中の前記第２部分領域の画像の少なくとも一部を示す第２部分画像を表す第２部分画像データを、前記第２画像データと前記第２部分領域とを使用して取得する工程と、
　前記第２部分画像データを前記識別ネットワークに入力することによって、第２識別データを取得する工程と、
　前記第１識別データと前記第２識別データとを使用することによって、前記識別ネットワークのパラメータを調整する工程と、
　を備える、訓練方法。