WO2022250153A1

WO2022250153A1 - 学習済みモデル生成装置、学習済みモデル生成方法、及び認識装置

Info

Publication number: WO2022250153A1
Application number: PCT/JP2022/021814
Authority: WO
Inventors: 南己淺谷
Original assignee: 京セラ株式会社
Priority date: 2021-05-27
Filing date: 2022-05-27
Publication date: 2022-12-01
Also published as: EP4350613A1; CN117377986A; JPWO2022250153A1; US20240265669A1; JP2023099083A; JP7271810B2

Abstract

学習済みモデル生成装置は、制御部を備える。制御部は、第１情報を教師データとして学習することによって生成された、少なくとも第１ベースモデルを含むベースモデルを取得する。制御部は、第１ベースモデルを第１ターゲットモデルとして、第１ターゲットモデルに結合する第２ターゲットモデルを、第１ターゲットモデルに結合した状態で、第２情報を教師データとして学習することによって、第１ターゲットモデル及び第２ターゲットモデルを含むターゲットモデルを生成する。制御部は、ベースモデルに結合された状態で、少なくとも第３情報を教師データとして事前学習することによって生成されたアダプタを取得する。制御部は、ターゲットモデルにアダプタを結合することによって学習済みモデルを生成する。

Description

学習済みモデル生成装置、学習済みモデル生成方法、及び認識装置

関連出願へのクロスリファレンス

　本出願は、日本国特許出願２０２１－８９５６５号（２０２１年５月２７日出願）の優先権を主張するものであり、当該出願の開示全体を、ここに参照のために取り込む。

　本開示は、学習済みモデル生成装置、学習済みモデル生成方法、及び認識装置に関する。

　従来、対象標本を合成した学習画像を用いた学習によって生成された識別関数に被識別画像を入力することによって被識別画像に対象が含まれるか識別する装置が知られている（例えば特許文献１参照）。

特開２０１６－７１５０２号公報

　本開示の一実施形態に係る学習済みモデル生成装置は、入力情報に含まれる認識対象の認識結果を出力する学習済みモデルを生成する制御部を備える。前記制御部は、前記入力情報と同一又は関連する第１情報を教師データとして学習することによって生成された、少なくとも第１ベースモデルを含むベースモデルを取得する。前記制御部は、前記第１ベースモデルを第１ターゲットモデルとして、前記第１ターゲットモデルに結合する第２ターゲットモデルを、前記第１ターゲットモデルに結合した状態で、前記認識対象を表す第２情報を教師データとして学習することによって、前記第１ターゲットモデル及び前記第２ターゲットモデルを含むターゲットモデルを生成する。前記制御部は、前記ベースモデルに結合された状態で、少なくとも第３情報を教師データとして学習することによって生成されたアダプタを取得する。前記制御部は、前記ターゲットモデルに前記アダプタを結合することによって前記学習済みモデルを生成する。

　本開示の一実施形態に係る学習済みモデル生成方法は、入力情報に含まれる認識対象の認識結果を出力する学習済みモデルを生成する学習済みモデル生成装置によって実行される。前記学習済みモデル生成方法は、前記学習済みモデル生成装置が、前記入力情報と同一又は関連する第１情報を教師データとして学習することによって生成された、少なくとも第１ベースモデルを含むベースモデルを取得することを含む。前記学習済みモデル生成方法は、前記学習済みモデル生成装置が、前記第１ベースモデルを第１ターゲットモデルとして、前記第１ターゲットモデルに結合する第２ターゲットモデルを、前記第１ターゲットモデルに結合した状態で、前記認識対象を表す第２情報を教師データとして学習することによって、前記第１ターゲットモデル及び前記第２ターゲットモデルを含むターゲットモデルを生成することを含む。前記学習済みモデル生成方法は、前記学習済みモデル生成装置が、前記ベースモデルに結合された状態で、少なくとも第３情報を教師データとして学習することによって生成されたアダプタを取得することを含む。前記学習済みモデル生成方法は、前記学習済みモデル生成装置が、前記ターゲットモデルに前記アダプタを結合することによって前記学習済みモデルを生成することを含む。

　本開示の一実施形態に係る認識装置は、入力情報に含まれる認識対象の認識結果を出力する学習済みモデルを備える。前記学習済みモデルは、前記入力情報と同一又は関連する第１情報を教師データとして学習することによって生成された、少なくとも第１ベースモデルを含むベースモデルを含む。前記学習済みモデルは、前記第１ベースモデルを第１ターゲットモデルとして、前記第１ターゲットモデルに結合した状態で、前記認識対象を表す第２情報を教師データとして学習することによって生成した第２ターゲットモデルと前記第１ターゲットモデルとを含むターゲットモデルを含む。前記学習済みモデルは、前記ベースモデルに結合された状態で、少なくとも第３情報を教師データとして学習することによって生成されたアダプタを含む。前記アダプタは、前記ターゲットモデルに結合されている。

一実施形態に係る学習済みモデル生成システムの構成例を示すブロック図である。アダプタとしてイメージアダプタが結合される、汎用ライブラリと学習済みモデルとを示す模式図である。イメージアダプタの一例を示す図である。アダプタとしてウェイトアダプタが結合される、汎用ライブラリと学習済みモデルとを示す模式図である。ウェイトアダプタの一例を示す図である。学習による汎用ライブラリの生成と、学習及び汎用ライブラリの一部の学習済みモデルへの転移による学習済みモデルの生成とを示す模式図である。汎用ライブラリ生成方法の手順例を示すフローチャートである。学習済みモデル生成方法の手順例を示すフローチャートである。ロボット制御システムの構成例を示す模式図である。

　合成した学習画像を用いた学習によって生成された学習済みモデルを用いて実際の画像に含まれる対象を認識する場合、Sim-to-Realとも呼ばれるドメインギャップに起因して認識精度が低下し得る。また、Sim-to-Realに限られず、学習モデル転移時に生じるドメインギャップに起因して認識精度が低下し得る。種々のドメインギャップが存在する場合における認識精度の向上が求められる。本開示の一実施形態に係る学習済みモデル生成装置、学習済みモデル生成方法、及び認識装置によれば、認識精度が向上され得る。

（学習済みモデル生成システム１の構成例）
　本開示の一実施形態に係る学習済みモデル生成システム１は、入力情報に含まれる認識対象の認識結果を出力する学習済みモデル７０（図２又は図４等参照）を生成する。学習済みモデル生成システム１は、学習済みモデル７０を生成するための準備として汎用ライブラリ６０（図２又は図４等参照）を生成し、汎用ライブラリ６０に基づいて学習済みモデル７０を生成する。

　図１に示されるように、本開示の一実施形態に係る学習済みモデル生成システム１は、汎用ライブラリ生成装置１０と、学習済みモデル生成装置２０とを備える。学習済みモデル生成システム１は、汎用ライブラリ生成装置１０によって汎用ライブラリ６０を生成し、学習済みモデル生成装置２０によって学習済みモデル７０を生成する。学習済みモデル生成システム１は、汎用ライブラリ６０と学習済みモデル７０とを別の装置で生成することによって、学習済みモデル７０を生成する学習済みモデル生成装置２０の作業負荷を低減できる。

　汎用ライブラリ生成装置１０は、第１制御部１２と、第１インタフェース１４と、第１情報生成部１６とを備える。学習済みモデル生成装置２０は、第２制御部２２と、第２インタフェース２４と、第２情報生成部２６とを備える。「第１」及び「第２」の記載は、単に、異なる装置それぞれに含まれる構成を区別するために付されている。第１制御部１２及び第２制御部２２は、単に制御部とも称される。第１インタフェース１４及び第２インタフェース２４は、単にインタフェースとも称される。

＜第１制御部１２及び第２制御部２２＞
　汎用ライブラリ生成装置１０の第１制御部１２は、第１情報生成部１６から学習に適用される対象に関する情報を取得する。学習済みモデル生成装置２０の第２制御部２２は、第２情報生成部２６から学習に適用される対象に関する情報を取得する。学習に適用される対象は、学習対象とも称される。第１制御部１２及び第２制御部２２は、第１情報生成部１６及び第２情報生成部２６から取得した学習対象に関する情報を教師データとする学習を実行し、学習結果に基づく情報又はデータを出力する。例えば学習済みモデル７０が工業部品等の特定の物体を認識するモデルとして生成される場合、その学習済みモデル７０を生成するための学習対象は、認識する物体そのものを含んでもよいし、他の物体を含んでもよい。学習済みモデル７０が認識できる物体は、認識対象とも称される。

　第１制御部１２及び第２制御部２２は、種々の機能を実行するための制御及び処理能力を提供するために、少なくとも１つのプロセッサを含んで構成されてよい。プロセッサは、第１制御部１２及び第２制御部２２の種々の機能を実現するプログラムを実行してよい。プロセッサは、単一の集積回路として実現されてよい。集積回路は、ＩＣ（Integrated Circuit）とも称される。プロセッサは、複数の通信可能に接続された集積回路及びディスクリート回路として実現されてよい。プロセッサは、他の種々の既知の技術に基づいて実現されてよい。

　第１制御部１２及び第２制御部２２は、記憶部を備えてよい。記憶部は、磁気ディスク等の電磁記憶媒体を含んでよいし、半導体メモリ又は磁気メモリ等のメモリを含んでもよい。記憶部は、各種情報を格納する。記憶部は、第１制御部１２及び第２制御部２２で実行されるプログラム等を格納する。記憶部は、非一時的な読み取り可能媒体として構成されてもよい。記憶部は、第１制御部１２及び第２制御部２２のワークメモリとして機能してよい。記憶部の少なくとも一部は、第１制御部１２及び第２制御部２２とは別体として構成されてもよい。

＜第１インタフェース１４及び第２インタフェース２４＞
　汎用ライブラリ生成装置１０の第１インタフェース１４、及び、学習済みモデル生成装置２０の第２インタフェース２４は、互いに情報又はデータを入出力する。第１インタフェース１４及び第２インタフェース２４は、有線又は無線で通信可能に構成される通信デバイスを含んで構成されてよい。第１インタフェース１４及び第２インタフェース２４は、通信部とも称される。通信デバイスは、種々の通信規格に基づく通信方式で通信可能に構成されてよい。第１インタフェース１４及び第２インタフェース２４は、既知の通信技術により構成することができる。

　第１インタフェース１４は、第１制御部１２から取得した情報又はデータを学習済みモデル生成装置２０に出力し、学習済みモデル生成装置２０から取得した情報又はデータを第１制御部１２に出力する。第２インタフェース２４は、第２制御部２２から取得した情報又はデータを汎用ライブラリ生成装置１０に出力し、汎用ライブラリ生成装置１０から取得した情報又はデータを第２制御部２２に出力する。

＜第１情報生成部１６及び第２情報生成部２６＞
　汎用ライブラリ生成装置１０の第１情報生成部１６は、第１制御部１２における学習で用いられる教師データを第１制御部１２に出力する。学習済みモデル生成装置２０の第２情報生成部２６は、第２制御部２２における学習で用いられる教師データを第２制御部２２に出力する。第１情報生成部１６及び第２情報生成部２６は、教師データを生成してもよいし、外部装置から教師データを取得してもよい。

　第１情報生成部１６及び第２情報生成部２６は、教師データを生成又は取得するための制御及び処理能力を提供するために、少なくとも１つのプロセッサを含んで構成されてよい。プロセッサは、教師データを生成又は取得するプログラムを実行してよい。第１情報生成部１６及び第２情報生成部２６は、第１制御部１２及び第２制御部２２と同一又は類似に構成されてもよい。第１情報生成部１６は、第１制御部１２と一体に構成されてもよい。第２情報生成部２６は、第２制御部２２と一体に構成されてもよい。

　第１情報生成部１６は、教師データとして、学習対象の実際の態様を表す情報を生成してよい。学習対象の実際の態様を表す情報は、実情報とも称される。また、学習対象の実際の態様を表す情報は、入力情報と同一又は関連する情報ともいえる。第１情報生成部１６は、学習対象の実際の画像を撮影するカメラを備えてもよい。第１情報生成部１６は、学習対象の実際の画像に対してラベル等の情報を付与するアノテーションを実行してもよい。第１情報生成部１６は、アノテーションに関する操作入力をユーザから受け付けてよい。第１情報生成部１６は、あらかじめ準備されたアノテーションに関する学習モデルに基づいてアノテーションを実行してもよい。第１情報生成部１６は、学習対象の実際の画像に対してアノテーションを実行することによって実情報を生成できる。

　第１情報生成部１６及び第２情報生成部２６は、教師データとして、学習済みモデル７０に入力する入力情報と同一又は関連するタスクの情報として学習対象に関する情報を仮想的に生成する。例えば、タスクが画像に含まれる哺乳類の分類である場合、入力情報の一例としては、哺乳類を含む生物が描かれた画像となる。そして、入力情報と同一のタスクの情報として生成される学習対象に関する情報とは、哺乳類の画像である。また、入力情報と関連するタスクの情報として生成される学習対象に関する情報とは、例えば爬虫類の画像である。仮想的に生成された学習対象に関する情報は、疑似情報とも称される。第１情報生成部１６が生成する疑似情報は、第１疑似情報とも称される。第２情報生成部２６が生成する疑似情報は、第２疑似情報とも称される。なお、第１情報生成部１６及び第２情報生成部２６は、例えば、同一の手法、同一の仕様又は同一の環境等で、第１疑似情報及び第２疑似情報を生成してもよい。より具体的には、第１情報生成部１６及び第２情報生成部２６が第１疑似情報及び第２疑似情報を仮想的に生成する場合、例えば、同一のソフトウェア処理等によって生成されてもよい。

　タスクは、例えば、入力情報に含まれる認識対象を少なくとも２種類に分類する分類タスクを含んでよい。分類タスクは、例えば認識対象が犬であるか猫であるかを区別するタスク、又は、認識対象が牛であるか馬であるかを区別するタスクに細分化され得る。タスクは、分類タスクに限られず、他の種々の動作を実現するタスクを含んでよい。タスクは、特定の対象物に属する画素から判定するセグメンテーションを含んでよい。タスクは、内包する矩形領域を検出する物体検出を含んでよい。タスクは、対象物の姿勢推定を含んでよい。タスクは、ある特徴点を見つけるキーポイント検出を含んでよい。

　ここで、入力情報と学習対象に関する情報とが両方とも分類タスクの情報である場合、入力情報と学習対象に関する情報との間の関係は、関連するタスクの情報になっているとする。さらに、入力情報と学習対象に関する情報とが両方とも、認識対象が犬であるか猫であるかを区別するタスクの情報である場合、入力情報と学習対象に関する情報との間の関係は、同一のタスクの情報になっているとする。入力情報と学習対象に関する情報との間の関係は、これらの例に限られず、種々の条件で定められ得る。

　第１情報生成部１６及び第２情報生成部２６は、疑似情報を生成するために、学習対象の外観を仮想的に表す情報を生成してよい。第１情報生成部１６及び第２情報生成部２６は、学習対象の外観を仮想的に表す情報として、例えば学習対象の外観の三次元ＣＡＤ（Computer Aided Design）データ等のモデリングデータを生成してもよい。第１情報生成部１６及び第２情報生成部２６は、学習対象の外観を仮想的に表す情報として、学習対象の画像を生成してもよい。第１情報生成部１６及び第２情報生成部２６は、学習対象の外観を仮想的に表すモデリングデータ又は画像等に対してラベル等の情報を付与するアノテーションを実行してもよい。第１情報生成部１６及び第２情報生成部２６は、生成した学習対象の外観を仮想的に表す情報にアノテーションを実行することによって疑似情報を生成できる。

　第１情報生成部１６及び第２情報生成部２６は、学習対象の外観を仮想的に表す情報を外部装置から取得してもよい。第１情報生成部１６及び第２情報生成部２６は、モデリングデータに関する入力をユーザから受け付けてもよい。第１情報生成部１６及び第２情報生成部２６は、学習対象の外観を仮想的に表す情報に対してアノテーションが実行されたデータを取得してもよい。第１情報生成部１６及び第２情報生成部２６は、アノテーションに関する操作入力をユーザから受け付けてもよい。第１情報生成部１６及び第２情報生成部２６は、あらかじめ準備されたアノテーションに関する学習モデルに基づいて、学習対象の外観を仮想的に表す情報に対してアノテーションを実行してもよい。

（汎用ライブラリ６０及び学習済みモデル７０の例）
　学習済みモデル生成システム１は、汎用ライブラリ６０をあらかじめ生成し、汎用ライブラリ６０に基づいて学習済みモデル７０を生成する。具体的に、学習済みモデル生成システム１は、図２及び図３に例示されるように、汎用ライブラリ６０の一部を学習済みモデル７０に転移する。汎用ライブラリ６０は、ベースモデル３０にアダプタ５０を結合したモデルとして表される。ベースモデル３０は、第１ベースモデル３１と第２ベースモデル３２とを含む。また、学習済みモデル７０は、ターゲットモデル４０にアダプタ５０を結合したモデルとして表される。ターゲットモデル４０は、第１ターゲットモデル４１と第２ターゲットモデル４２とを含む。ベースモデル３０及びターゲットモデル４０は、複数の層を有するＣＮＮ（Convolution Neural Network）として構成される。ベースモデル３０及びターゲットモデル４０に入力された情報に対して、ＣＮＮの各層において所定の重みづけ係数に基づく畳み込みが実行される。ベースモデル３０及びターゲットモデル４０の学習において、重みづけ係数が更新される。ベースモデル３０及びターゲットモデル４０は、ＶＧＧ１６又はＲｅｓＮｅｔ５０によって構成されてもよい。ベースモデル３０及びターゲットモデル４０は、これらの例に限られず、他の種々のモデルとして構成されてもよい。

　汎用ライブラリ６０から学習済みモデル７０に転移される部分は、汎用ライブラリ６０と学習済みモデル７０とに共通に含まれ、バックボーンとも称される。本実施形態において、第１ベースモデル３１及び第１ターゲットモデル４１がバックボーンに対応する。一方で、汎用ライブラリ６０と学習済みモデル７０とで共通していない部分は、ヘッドとも称される。本実施形態において、第２ベースモデル３２及び第２ターゲットモデル４２は、ヘッドに対応する。ベースモデル３０及びターゲットモデル４０は、バックボーンとヘッドとを含む。また、汎用ライブラリ６０及び学習済みモデル７０は、バックボーンとヘッドとアダプタ５０とを含む。

　バックボーンは、入力情報の特徴量を抽出した結果を出力するように構成される。特徴量は、例えば学習対象の外観の特徴を数値として表す。ヘッドは、バックボーンの出力に基づいて入力情報についての所定の判断を行うように構成される。具体的に、ヘッドは、バックボーンが出力した入力情報の特徴量に基づいて、入力情報に含まれる認識対象の認識結果を出力してよい。つまり、ヘッドは、所定の判断として、認識対象の認識を実行するように構成される。例えば、馬とシマウマとを見分けるタスクにおいて、特徴量は、体表面における縞模様の面積の割合を表すパラメータであり得る。所定の判断は、体表面における縞模様の面積の割合を閾値と比較して認識対象が馬であるかシマウマであるか判断することであり得る。また、例えば、アワビとトコブシとを見分けるタスクにおいて、特徴量は、大きさ又は殻の穴の数を表すパラメータであり得る。所定の判断は、大きさ又は殻の穴の数を閾値と比較して認識対象がアワビであるかトコブシであるか判断することであり得る。

　汎用ライブラリ生成装置１０は、教師データに基づく学習によって第１ベースモデル３１と第２ベースモデル３２とを含むベースモデル３０を生成する。また、汎用ライブラリ生成装置１０は、アダプタ５０をベースモデル３０に結合させた状態で教師データに基づく学習を実行し、学習結果に基づいてアダプタ５０を更新することによってアダプタ５０を生成する。汎用ライブラリ生成装置１０は、ベースモデル３０にアダプタ５０を結合することによって、汎用ライブラリ６０を生成する。

　学習済みモデル生成装置２０は、第１ターゲットモデル４１として、汎用ライブラリ生成装置１０から第１ベースモデル３１を取得する。つまり、第１ターゲットモデル４１は、第１ベースモデル３１と同一である。学習済みモデル生成装置２０は、教師データに基づく学習によってターゲットモデル４０を生成する。学習済みモデル生成装置２０は、既に取得している第１ターゲットモデル４１に合わせて第２ターゲットモデル４２を生成する。また、学習済みモデル生成装置２０は、汎用ライブラリ生成装置１０からアダプタ５０を取得する。学習済みモデル生成装置２０は、汎用ライブラリ生成装置１０から取得したアダプタ５０を、生成したターゲットモデル４０に結合することによって、学習済みモデル７０を生成する。

　言い換えれば、学習済みモデル生成システム１は、汎用ライブラリ６０から学習済みモデル７０に第１ターゲットモデル４１として第１ベースモデル３１を転移する。また、学習済みモデル生成システム１は、汎用ライブラリ６０から学習済みモデル７０にアダプタ５０を転移する。なお、第１ベースモデル３１は、第１情報生成部１６が生成する第１疑似情報を教師データとして学習したベースモデル３０に含まれるものであってよい。

　図２に例示される汎用ライブラリ６０及び学習済みモデル７０は、アダプタ５０としてイメージアダプタ５１を含む。イメージアダプタ５１は、ベースモデル３０又はターゲットモデル４０の入力側に結合される。イメージアダプタ５１は、入力情報を、ベースモデル３０又はターゲットモデル４０に入力される前に変換可能に構成される。イメージアダプタ５１は、図４に例示されるように、複数の層を有するＣＮＮとして構成されてよい。

　図４の例において、イメージアダプタ５１は、ターゲットモデル４０の入力側に結合されているが、ベースモデル３０の入力側にも結合され得る。“Conv”と記載されているブロックは、畳み込みを実行することを表す。畳み込みは、ダウンサンプリングとも称される。また、“Conv Trans”と記載されているブロックは、転置畳み込みを実行することを表す。転置畳み込みは、アップサンプリングとも称される。転置畳み込みは、逆畳み込みと称されることもある。“Conv 4x4”と記載されているブロックは、２次元データに対して畳み込みを実行するために用いられるフィルタのサイズが４×４であることを表す。フィルタは、カーネルとも称され、ブロックに入力された情報の畳み込み又は逆畳み込みを実行する際の重みづけ係数の組に対応する。“Conv Trans 4x4”と記載されているブロックは、２次元データに対して転置畳み込みを実行するために用いられるフィルタのサイズが４×４であることを表す。“stride 2”と記載されているブロックは、畳み込み又は転置畳み込みを実行する際にフィルタを２要素ずつシフトさせることを表す。逆に、“stride 2”が記載されていないブロックは、畳み込み又は転置畳み込みを実行する際にフィルタを１要素ずつシフトさせることを表す。

　イメージアダプタ５１は、ベースモデル３０の入力側に結合された場合、学習のために入力される第１疑似情報又は実情報を変換してベースモデル３０に対して出力する。第１疑似情報又は実情報が画像である場合、イメージアダプタ５１は、入力される画像を変換してベースモデル３０に対して出力する。イメージアダプタ５１は、ターゲットモデル４０の入力側に結合された場合、学習済みモデル７０に入力される入力情報に含まれる認識対象の画像を変換して出力する。また、イメージアダプタ５１は、入力される画像の態様を変換して出力してもよい。イメージアダプタ５１は、入力される画像の態様を、例えば画像のエッジを強調したり、影となっている部分を明るくした態様に変換したりして出力してもよいがこれに限られない。イメージアダプタ５１は、接続されるターゲットモデル４０が、タスクを正しく処理できる態様に変換させる。例えば、タスクが画像に含まれる物体の認識である場合には、ベースモデル３０又はターゲットモデル４０が、認識対象を正しく認識した結果を出力できるように、態様を変換する。

　図３に例示される汎用ライブラリ６０及び学習済みモデル７０は、アダプタ５０としてウェイトアダプタ５２を含む。ウェイトアダプタ５２は、ベースモデル３０又はターゲットモデル４０の内部に結合される。ウェイトアダプタ５２は、ベースモデル３０又はターゲットモデル４０の内部に結合されることによって、ベースモデル３０又はターゲットモデル４０が出力する情報を変換可能に構成される。以下、図５を参照して、ウェイトアダプタ５２がターゲットモデル４０の内部に結合される構成が説明される。

　ターゲットモデル４０は、入力情報が入力される入力層４３と、中間層４４と、ターゲットモデル４０から情報を出力する出力層４５とを含む。中間層４４は、第１ターゲットモデル４１を介して入力層４３と結合される。第１ターゲットモデル４１は、入力層４３と中間層４４との結合の強さを表す第１の重みづけ係数で特定される第１の関係を表す。つまり、中間層４４は、第１ターゲットモデル４１を介して入力層４３と結合されることによって、第１の関係で入力層４３と結合される。入力層４３に入力された入力情報は、第１ターゲットモデル４１で第１の関係に基づいて変換される。入力情報を第１の関係に基づいて変換した情報は、変換情報とも称される。中間層４４は、変換情報を出力層４５に通過させる。

　出力層４５は、第２ターゲットモデル４２を介して中間層４４と結合される。第２ターゲットモデル４２は、中間層４４と出力層４５との結合の強さを表す第２の重みづけ係数で特定される第２の関係を表す。つまり、出力層４５は、第２ターゲットモデル４２を介して中間層４４と結合されることによって、第２の関係で中間層４４と結合される。中間層４４を通過した変換情報は、第２ターゲットモデル４２で第２の関係に基づいて変換される。変換情報を第２の関係に基づいて変換した情報は、出力情報とも称される。出力層４５は、学習済みモデル７０による入力情報に含まれる認識対象の認識結果として出力情報を出力する。

　図５の例において、ウェイトアダプタ５２は、第１ターゲットモデル４１に並列に結合されている。ウェイトアダプタ５２は、ターゲットモデル４０を構成するＣＮＮの少なくとも１つの層に並列に結合されてもよい。図５の例において、ウェイトアダプタ５２は、第１ターゲットモデル４１に結合されているが、第２ターゲットモデル４２に結合されてもよい。ウェイトアダプタ５２は、第１ベースモデル３１又は第２ベースモデル３２に結合されてもよい。ウェイトアダプタ５２は、１つの層として構成されてもよいし、２つ以上の層として構成されてもよい。“Conv 1x1”と記載されているブロックは、２次元データに対して畳み込みを実行することを表すとともに、畳み込みを実行するために用いられるフィルタのサイズが１×１であることを表す。“Conv 1x1”と記載されているブロックは、例えば“Conv 3x3”等の他の種々のブロックで置き換えられてもよい。

　ウェイトアダプタ５２は、第１ターゲットモデル４１に結合されることによって、入力情報から変換情報への変換に影響を及ぼす。つまり、ウェイトアダプタ５２は、変換情報を変換できる。ウェイトアダプタ５２は、第２ターゲットモデル４２に結合されることによって、変換情報から出力情報への変換に影響を及ぼす。つまり、ウェイトアダプタ５２は、出力情報を変換できる。以上のことからすると、ウェイトアダプタ５２は、変換情報及び出力情報のうち少なくとも一方を変換するように、ターゲットモデル４０の内部に結合されるといえる。ウェイトアダプタ５２は、入力情報に対するタスクを、ターゲットモデル４０が正しく処理できるよう、変換情報及び出力情報のうち少なくとも一方を変換させる。

（学習済みモデル生成システム１の動作例）
　学習済みモデル生成システム１は、例えば図６に模式的に示される動作を実行することによって学習済みモデル７０を生成できる。以下、図６を参照して学習済みモデル生成システム１の動作が説明される。

　学習済みモデル生成システム１は、第１ステップとして、汎用ライブラリ生成装置１０によってベースモデル３０を生成する。具体的に、汎用ライブラリ生成装置１０の第１制御部１２は、第１情報生成部１６から教師データとして第１疑似情報を取得する。第１制御部１２は、第１疑似情報に基づいて学習する。第１制御部１２は、学習中の第１ベースモデル３１ａ及び第２ベースモデル３２ａを含むベースモデル３０に第１疑似情報を入力する。第１制御部１２は、学習中のベースモデル３０から出力される情報が第１疑似情報に含まれる学習対象を表す情報となる確率を高めるように、ベースモデル３０を更新する。第１制御部１２は、重みづけ係数を更新することによってベースモデル３０を更新してよい。学習開始前の状態において、ベースモデル３０は、あらかじめ定められた初期状態とされてよい。つまり、ベースモデル３０の重みづけ係数は、あらかじめ定められた初期値とされてよい。学習によって更新される対象となっている第１ベースモデル３１ａ及び第２ベースモデル３２ａは、黒塗りの矩形で表されている。第１制御部１２は、第１ステップとして説明した動作を実行することによって、第１疑似情報に基づく学習によってベースモデル３０を生成できる。

　学習済みモデル生成システム１は、第２ステップとして、汎用ライブラリ生成装置１０によってアダプタ５０を生成する。具体的に、汎用ライブラリ生成装置１０の第１制御部１２は、第１情報生成部１６から教師データとして実情報を更に取得する。第１制御部１２は、第１ステップで生成した学習済みの第１ベースモデル３１ｂと第２ベースモデル３２ｂとを含むベースモデル３０に、アダプタ５０を結合した状態で、第１疑似情報及び実情報に基づいて学習し、アダプタ５０を更新する。第１制御部１２は、アダプタ５０の重みづけ係数を更新することによってアダプタ５０を更新してよい。学習開始前の状態において、ベースモデル３０に結合されるアダプタ５０は、あらかじめ定められた初期状態とされてよい。つまり、アダプタ５０の重みづけ係数は、あらかじめ定められた初期値とされてよい。第１制御部１２は、学習中のアダプタ５０ａを第１ステップで生成した学習済みのベースモデル３０に結合した汎用ライブラリ６０に、第１疑似情報及び実情報をそれぞれ入力する。第１制御部１２は、第１疑似情報を入力した汎用ライブラリ６０から出力される情報と、実情報を入力した汎用ライブラリ６０から出力される情報とが近づくように、アダプタ５０を更新する。第１制御部１２は、第１疑似情報を入力した汎用ライブラリ６０から出力される情報と、実情報を入力した汎用ライブラリ６０から出力される情報とが一致する確率を高めるように、アダプタ５０を更新してもよい。学習によって更新される対象となっているアダプタ５０ａは、黒塗りの矩形で表されている。第１制御部１２は、第２ステップとして説明した動作を実行することによって、第１疑似情報及び実情報に基づく学習によってアダプタ５０を生成できる。第１疑似情報及び実情報に基づく学習は、後述する第３ステップの学習に先立って実行されることから、事前学習とも称される。

　学習済みモデル生成システム１は、第３ステップとして、学習済みモデル生成装置２０によってターゲットモデル４０を生成する。具体的に、学習済みモデル生成装置２０の第２制御部２２は、第２情報生成部２６から教師データとして第２疑似情報を取得する。第２制御部２２は、第１ステップで生成された第１ベースモデル３１を第１ターゲットモデル４１として取得する。第２制御部２２は、取得した第１ターゲットモデル４１と、学習中の第２ターゲットモデル４２ａとを含むターゲットモデル４０に第２疑似情報を入力することによって学習し、学習中の第２ターゲットモデル４２ａを更新する。第２制御部２２は、第２ターゲットモデル４２ａの重みづけ係数を更新することによって第２ターゲットモデル４２ａを更新してよい。学習中の第２ターゲットモデル４２ａは、学習開始前の状態においてあらかじめ定められた初期状態とされてよい。つまり、学習中の第２ターゲットモデル４２ａの重みづけ係数は、あらかじめ定められた初期値とされてよい。第２制御部２２は、学習中のターゲットモデル４０から出力される情報が第２疑似情報に含まれる学習対象を表す情報となる確率を高めるように、第２ターゲットモデル４２ａを更新する。学習によって更新する対象とされている第２ターゲットモデル４２ａは、黒塗りの矩形で表されている。第２制御部２２は、第３ステップとして説明した動作を実行することによって、第２疑似情報に基づく学習によって第２ターゲットモデル４２を生成し、取得した第１ターゲットモデル４１と生成した第２ターゲットモデル４２とを含むターゲットモデル４０を生成できる。第２制御部２２は、第３ステップにおいて、第２ターゲットモデル４２のみを学習によって生成する。

　学習済みモデル生成システム１は、第４ステップとして、学習済みモデル生成装置２０によって学習済みモデル７０を生成する。具体的に、学習済みモデル生成装置２０の第２制御部２２は、第２ステップで生成されたアダプタ５０を取得する。第２制御部２２が取得したアダプタ５０は、学習済みのアダプタ５０ｂとして表されている。第２制御部２２は、第３ステップで取得した第１ターゲットモデル４１と、第３ステップで生成した学習済みの第２ターゲットモデル４２ｂとを含むターゲットモデル４０に、学習済みのアダプタ５０ｂを結合することによって、学習済みモデル７０を生成する。

　学習済みモデル生成システム１は、以上述べてきた動作を、学習済みモデル生成方法の手順として実行してよい。以上述べてきた動作は、汎用ライブラリ生成装置１０が実行する動作と、学習済みモデル生成装置２０が実行する動作とに分けられる。以下、汎用ライブラリ生成装置１０及び学習済みモデル生成装置２０それぞれが実行する動作の手順例が説明される。

＜汎用ライブラリ生成方法＞
　汎用ライブラリ生成装置１０は、図７に例示されるフローチャートの手順を含む汎用ライブラリ生成方法を実行してもよい。汎用ライブラリ生成方法は、汎用ライブラリ生成装置１０を構成するプロセッサに実行させる汎用ライブラリ生成プログラムとして実現されてもよい。汎用ライブラリ生成プログラムは、非一時的なコンピュータ読み取り可能な媒体に格納されてよい。

　汎用ライブラリ生成装置１０の第１制御部１２は、第１情報生成部１６から第１疑似情報を取得する（ステップＳ１）。第１制御部１２は、第１疑似情報に基づいて学習することによってベースモデル３０を生成する（ステップＳ２）。第１制御部１２は、第１情報生成部１６から実情報を更に取得する（ステップＳ３）。第１制御部１２は、第１疑似情報と実情報とに基づいて学習することによってアダプタ５０を生成する（ステップＳ４）。第１制御部１２は、ステップＳ４の手順の実行後、図７のフローチャートの手順の実行を終了する。第１制御部１２は、ステップＳ４の手順の実行後、生成した第１ベースモデル３１とアダプタ５０とを学習済みモデル生成装置２０に出力してもよい。

＜学習済みモデル生成方法＞
　学習済みモデル生成装置２０は、図８に例示されるフローチャートの手順を含む学習済みモデル生成方法を実行してもよい。学習済みモデル生成方法は、学習済みモデル生成装置２０を構成するプロセッサに実行させる学習済みモデル生成プログラムとして実現されてもよい。学習済みモデル生成プログラムは、非一時的なコンピュータ読み取り可能な媒体に格納されてよい。

　学習済みモデル生成装置２０の第２制御部２２は、汎用ライブラリ生成装置１０から第１ベースモデル３１を第１ターゲットモデル４１として取得する（ステップＳ１１）。第２制御部２２は、第２情報生成部２６から第２疑似情報を取得する（ステップＳ１２）。第２制御部２２は、第２疑似情報に基づいて学習することによって第２ターゲットモデル４２を生成する（ステップＳ１３）。第２制御部２２は、汎用ライブラリ生成装置１０からアダプタ５０を取得する（ステップＳ１４）。第２制御部２２は、取得した第１ターゲットモデル４１と生成した第２ターゲットモデル４２とを含むターゲットモデル４０にアダプタ５０を結合する（ステップＳ１５）。このようにすることで、第２制御部２２は、アダプタ５０とターゲットモデル４０とを含む学習済みモデル７０を生成できる。第２制御部２２は、ステップＳ１５の手順の実行後、図８のフローチャートの手順の実行を終了する。第２制御部２２は、ステップＳ１５の手順の実行後、生成した学習済みモデル７０に入力情報を入力し、入力情報に含まれる認識対象の認識精度を学習済みモデル７０の出力に基づいて評価してもよい。

＜小括＞
　以上述べてきたように、本実施形態に係る学習済みモデル生成システム１は、汎用ライブラリ生成方法と学習済みモデル生成方法とをそれぞれ別の装置で実行することによって、学習済みモデル７０を生成できる。学習済みモデル生成システム１は、汎用ライブラリ６０を生成するために実情報に基づいて学習することによって、学習済みモデル７０を生成するために実情報に基づいて学習しなくてよい。学習済みモデル生成システム１が学習済みモデル７０の生成の動作を学習済みモデル生成装置２０に実行させることによって、学習済みモデル生成装置２０は、実情報に基づく学習を含まない動作を実行するだけで済む。その結果、学習済みモデル生成装置２０の動作負荷が低減され得る。

　学習済みモデル生成システム１において、汎用ライブラリ生成装置１０は、上流装置とも称される。上流装置である汎用ライブラリ生成装置１０で学習することによって生成される汎用ライブラリ６０は、上流タスクとも称される。上流タスクは、サービス提供者が事前に学習を行うことによって生成される。学習済みモデル生成装置２０は、下流装置とも称される。下流装置である学習済みモデル生成装置２０で学習することによって生成される学習済みモデル７０は、下流タスクとも称される。下流タスクは、サービスのエンドユーザが所望の認識対象に合わせて学習することによって、所望の認識対象の認識精度を向上できるように生成される。

　下流タスクにおいて、データ取得の手間が少なく、又は、短い学習時間で学習済みモデル７０を生成して早くシステムを稼働させることが求められる。一方で、上流タスクにおいて、転移学習が高速かつ汎化性能が高い高品質なメタモデルを提供するために、事前に多くのデータと計算リソースをかけることができる。本実施形態に係る学習済みモデル生成システム１は、上流装置において多くのデータと計算リソースをかけて上流タスクを生成することによって、下流装置において実情報よりも少ない負荷で準備できる疑似情報に基づく学習のみで下流タスクを生成し、システムを早期に稼働できる。

　下流タスクで実情報に基づいて学習しない場合、Sim-to-Realと呼ばれるドメインギャップが問題になり得る。本実施形態に係る学習済みモデル生成システム１は、ドメイン適応のためのアダプタ５０を上流タスクから下流タスクに転移することによって、実情報に基づいて学習していない下流タスクにおいても実情報に対する認識精度を高めることができる。つまり、上流タスクに含まれるベースモデル３０は、疑似情報に対する認識精度を高めるように学習によって生成される。この場合、実情報に対する認識精度は、疑似情報に対する認識精度よりも低下するものの、アダプタ５０による修正によって向上され得る。

　学習済みモデル生成システム１は、以上述べてきたように構成されることによって、下流タスクの代替として上流タスクを学習する新しい枠組みを提案できるといえる。本実施形態に係る学習済みモデル生成システム１が提案できる新しい枠組みは、Task Rehearsal Bridging（ＴＲＢ）とも称される。

　また、本実施形態に係る学習済みモデル生成システム１は、アダプタ５０としてイメージアダプタ５１又はウェイトアダプタ５２を適用できる。学習済みモデル生成システム１は、アダプタ５０を疑似情報と実情報とに基づいて学習した結果に基づいて上流タスクを生成することによって、上流タスクで下流タスクを代替できる。上流装置が実情報に基づいて学習する一方で下流装置が実情報に基づいて学習しなくてもよいことによって、下流装置における計算負荷が低減する。その結果、下流タスクの迅速な稼働が実現され得る。

＜認識精度の比較＞
　疑似情報である生成画像のみに基づく学習によって生成したモデルで実画像を含む入力情報から認識対象を認識する場合、生成画像と実画像との差異に起因して、認識精度は低下する。具体的に、生成画像に対して１００％に近い確率で認識対象を認識できるモデルにおいて、実画像に対して認識対象を認識できる確率は７０％程度に低下し得る。

　本実施形態に係る学習済みモデル７０は、アダプタ５０をターゲットモデル４０に結合したモデルとして生成される。アダプタ５０は、生成画像と実画像との差異に起因する認識結果の誤差を修正できる。その結果、実画像に対して認識対象を認識できる確率が９０％程度にまで高められ得る。つまり、アダプタ５０を結合した場合、アダプタ５０を結合しない場合と比較して、認識対象を認識できる確率が高められ得る。

（ロボット制御システム１００の構成例）
　図９に示されるように、一実施形態に係るロボット制御システム１００は、ロボット２と、ロボット制御装置１１０とを備える。本実施形態において、ロボット２は、作業対象物８を作業開始地点６から作業目標地点７へ移動させるとする。つまり、ロボット制御装置１１０は、作業対象物８が作業開始地点６から作業目標地点７へ移動するようにロボット２を制御する。作業対象物８は、作業対象とも称される。ロボット制御装置１１０は、ロボット２が作業を実施する空間に関する情報に基づいて、ロボット２を制御する。空間に関する情報は、空間情報とも称される。

＜ロボット２＞
　ロボット２は、アーム２Ａと、エンドエフェクタ２Ｂとを備える。アーム２Ａは、例えば、６軸又は７軸の垂直多関節ロボットとして構成されてよい。アーム２Ａは、３軸又は４軸の水平多関節ロボット又はスカラロボットとして構成されてもよい。アーム２Ａは、２軸又は３軸の直交ロボットとして構成されてもよい。アーム２Ａは、パラレルリンクロボット等として構成されてもよい。アーム２Ａを構成する軸の数は、例示したものに限られない。言い換えれば、ロボット２は、複数の関節で接続されるアーム２Ａを有し、関節の駆動によって動作する。

　エンドエフェクタ２Ｂは、例えば、作業対象物８を把持できるように構成される把持ハンドを含んでよい。把持ハンドは、複数の指を有してよい。把持ハンドの指の数は、２つ以上であってよい。把持ハンドの指は、１つ以上の関節を有してよい。エンドエフェクタ２Ｂは、作業対象物８を吸着できるように構成される吸着ハンドを含んでもよい。エンドエフェクタ２Ｂは、作業対象物８を掬うことができるように構成される掬いハンドを含んでもよい。エンドエフェクタ２Ｂは、ドリル等の工具を含み、作業対象物８に穴を開ける作業等の種々の加工を実施できるように構成されてもよい。エンドエフェクタ２Ｂは、これらの例に限られず、他の種々の動作ができるように構成されてよい。図１に例示される構成において、エンドエフェクタ２Ｂは、把持ハンドを含むとする。

　ロボット２は、アーム２Ａを動作させることによって、エンドエフェクタ２Ｂの位置を制御できる。エンドエフェクタ２Ｂは、作業対象物８に対して作用する方向の基準となる軸を有してもよい。エンドエフェクタ２Ｂが軸を有する場合、ロボット２は、アーム２Ａを動作させることによって、エンドエフェクタ２Ｂの軸の方向を制御できる。ロボット２は、エンドエフェクタ２Ｂが作業対象物８に作用する動作の開始及び終了を制御する。ロボット２は、エンドエフェクタ２Ｂの位置、又は、エンドエフェクタ２Ｂの軸の方向を制御しつつ、エンドエフェクタ２Ｂの動作を制御することによって、作業対象物８を動かしたり加工したりすることができる。図１に例示される構成において、ロボット２は、作業開始地点６でエンドエフェクタ２Ｂに作業対象物８を把持させ、エンドエフェクタ２Ｂを作業目標地点７へ移動させる。ロボット２は、作業目標地点７でエンドエフェクタ２Ｂに作業対象物８を解放させる。このようにすることで、ロボット２は、作業対象物８を作業開始地点６から作業目標地点７へ移動させることができる。

＜センサ３＞
　図２に示されるように、ロボット制御システム１００は、更にセンサ３を備える。センサ３は、ロボット２の物理情報を検出する。ロボット２の物理情報は、ロボット２の各構成部の現実の位置若しくは姿勢、又は、ロボット２の各構成部の速度若しくは加速度に関する情報を含んでよい。ロボット２の物理情報は、ロボット２の各構成部に作用する力に関する情報を含んでよい。ロボット２の物理情報は、ロボット２の各構成部を駆動するモータに流れる電流又はモータのトルクに関する情報を含んでよい。ロボット２の物理情報は、ロボット２の実際の動作の結果を表す。つまり、ロボット制御システム１００は、ロボット２の物理情報を取得することによって、ロボット２の実際の動作の結果を把握することができる。

　センサ３は、ロボット２の物理情報として、ロボット２に作用する力、分布圧、若しくはすべり等を検出する力覚センサ又は触覚センサを含んでよい。センサ３は、ロボット２の物理情報として、ロボット２の位置若しくは姿勢、又は、速度若しくは加速度を検出するモーションセンサを含んでよい。センサ３は、ロボット２の物理情報として、ロボット２を駆動するモータに流れる電流を検出する電流センサを含んでよい。センサ３は、ロボット２の物理情報として、ロボット２を駆動するモータのトルクを検出するトルクセンサを含んでよい。

　センサ３は、ロボット２の関節、又は、関節を駆動する関節駆動部に設置されてよい。センサ３は、ロボット２のアーム２Ａ又はエンドエフェクタ２Ｂに設置されてもよい。

　センサ３は、検出したロボット２の物理情報をロボット制御装置１１０に出力する。センサ３は、所定のタイミングでロボット２の物理情報を検出して出力する。センサ３は、ロボット２の物理情報を時系列データとして出力する。

＜カメラ４＞
　図１に示される構成例において、ロボット制御システム１００は、２台のカメラ４を備えるとする。カメラ４は、ロボット２の動作に影響を及ぼす可能性がある影響範囲５に位置する物品又は人間等を撮影する。カメラ４が撮影する画像は、モノクロの輝度情報を含んでもよいし、ＲＧＢ（Red, Green and Blue）等で表される各色の輝度情報を含んでもよい。影響範囲５は、ロボット２の動作範囲を含む。影響範囲５は、ロボット２の動作範囲を更に外側に広げた範囲であるとする。影響範囲５は、ロボット２の動作範囲の外側から動作範囲の内側へ向かって移動する人間等がロボット２の動作範囲の内側に入るまでにロボット２を停止できるように設定されてよい。影響範囲５は、例えば、ロボット２の動作範囲の境界から所定距離だけ外側まで拡張された範囲に設定されてもよい。カメラ４は、ロボット２の影響範囲５若しくは動作範囲又はこれらの周辺の領域を俯瞰的に撮影できるように設置されてもよい。カメラ４の数は、２つに限られず、１つであってもよいし、３つ以上であってもよい。

＜ロボット制御装置１１０＞
　ロボット制御装置１１０は、学習済みモデル生成装置２０で生成された学習済みモデル７０を取得する。ロボット制御装置１１０は、カメラ４で撮影した画像と学習済みモデル７０とに基づいて、ロボット２が作業を実施する空間に存在する、作業対象物８、又は作業開始地点６若しくは作業目標地点７等を認識する。言い換えれば、ロボット制御装置１１０は、カメラ４で撮影した画像に基づいて作業対象物８等を認識するために生成された学習済みモデル７０を取得する。ロボット制御装置１１０は、認識装置とも称される。

　ロボット制御装置１１０は、種々の機能を実行するための制御及び処理能力を提供するために、少なくとも１つのプロセッサを含んで構成されてよい。ロボット制御装置１１０の各構成部は、少なくとも１つのプロセッサを含んで構成されてもよい。ロボット制御装置１１０の各構成部のうち複数の構成部が１つのプロセッサで実現されてもよい。ロボット制御装置１１０の全体が１つのプロセッサで実現されてもよい。プロセッサは、ロボット制御装置１１０の種々の機能を実現するプログラムを実行しうる。プロセッサは、単一の集積回路として実現されてよい。集積回路は、ＩＣ（Integrated Circuit）とも称される。プロセッサは、複数の通信可能に接続された集積回路及びディスクリート回路として実現されてよい。プロセッサは、他の種々の既知の技術に基づいて実現されてよい。

　ロボット制御装置１１０は、記憶部を備えてよい。記憶部は、磁気ディスク等の電磁記憶媒体を含んでよいし、半導体メモリ又は磁気メモリ等のメモリを含んでもよい。記憶部は、各種情報及びロボット制御装置１１０で実行されるプログラム等を格納する。記憶部は、非一時的な読み取り可能媒体として構成されてもよい。記憶部は、ロボット制御装置１１０のワークメモリとして機能してよい。記憶部の少なくとも一部は、ロボット制御装置１１０とは別体として構成されてもよい。

（ロボット制御システム１００の動作例）
　ロボット制御装置１１０（認識装置）は、学習済みモデル７０をあらかじめ取得する。ロボット制御装置１１０は、学習済みモデル７０を記憶部に格納してよい。ロボット制御装置１１０は、カメラ４から作業対象物８を撮影した画像を取得する。ロボット制御装置１１０は、作業対象物８を撮影した画像を入力情報として学習済みモデル７０に入力する。ロボット制御装置１１０は、学習済みモデル７０から入力情報の入力に応じて出力される出力情報を取得する。ロボット制御装置１１０は、出力情報に基づいて作業対象物８を認識し、作業対象物８を把持したり移動したりする作業を実行する。

＜小括＞
　以上述べてきたように、ロボット制御システム１００は、学習済みモデル生成システム１から学習済みモデル７０を取得し、学習済みモデル７０によって作業対象物８を認識できる。

（他の実施形態）
　以下、他の実施形態が説明される。

＜種々のドメインギャップへの対応＞
　以上述べてきた実施形態において、疑似データによって学習したモデルを実際のデータの認識用に転移する場合に生じ得るSim to Realのドメインギャップが認識精度に対して及ぼす影響を低減する構成が説明された。学習済みモデル７０の転移において、上述してきた例に限られず、種々のドメインギャップが生じ得る。本実施形態に係る学習済みモデル生成システム１は、種々のドメインギャップが認識精度に対して及ぼす影響を低減するように構成され得る。例えば、上流の学習において用いた教師データと異なるデータを認識するためにモデルが転移される場合に生じ得るドメインギャップが認識精度に対して及ぼす影響が低減され得る。

　例えば、上流の学習において実画像を教師データとして学習したモデルが生成されたと仮定する。このモデルは、教師データの画像を撮影したときの環境と異なる環境で撮影した画像を認識するために転移され得る。例えば、環境としては、照明環境の変化等が挙げられる。この場合において、例えば照明の変化等の撮影環境の変化によるドメインギャップが生じ得る。本実施形態に係る学習済みモデル生成システム１は、撮影環境の変化によって生じ得るドメインギャップ等の種々のドメインギャップが認識精度に対して及ぼす影響を低減できる。

　以上述べてきたように、本実施形態においてモデルの学習のために用いられるデータは、疑似データだけでなく実際のデータも含んでもよいし、疑似データの代わりに実際のデータを含んでもよい。例えば、上記のように、撮影環境の変化に起因するドメインギャップが問題になる場合、例えば、ベースモデル３０及びターゲットモデル４０は、学習対象となる実物の画像データであってもよい。アダプタ５０は、学習対象となる実物に対する作業が行われる実環境にて得られた画像データ、又は実環境を模して得られた画像データであってもよい。この場合、上述してきた実施形態において説明されている第１疑似情報及び第２疑似情報は、それぞれ第１情報及び第２情報とも称される。また、疑似情報と区別されていた実情報は、第１情報及び第２情報と区別するために第３情報とも称される。また、この場合、第１情報生成部１６及び第２情報生成部２６は、同一の仕様を有するカメラ等によって、第１情報及び第２情報等を生成してもよい。

　汎用ライブラリ生成装置１０の第１制御部１２は、第１情報を教師データとして学習することによって、少なくとも第１ベースモデル３１を含むベースモデル３０を生成してよい。第１制御部１２は、アダプタ５０をベースモデル３０に結合させた状態で学習することによって、アダプタ５０を生成してよい。学習済みモデル生成装置２０の第２制御部２２は、少なくとも第１ベースモデル３１を含むベースモデル３０と、アダプタ５０とを取得してよい。第２制御部２２は、第１ベースモデル３１を第１ターゲットモデル４１として、第１ターゲットモデル４１に結合する第２ターゲットモデル４２を、第１ターゲットモデル４１に結合した状態で、第２情報を教師データとして学習することによって、第１ターゲットモデル４１及び第２ターゲットモデル４２を含むターゲットモデル４０を生成してよい。第２制御部２２は、生成したターゲットモデル４０に、取得したアダプタ５０を結合することによって学習済みモデル７０を生成してよい。

＜損失関数＞
　学習済みモデル生成システム１は、生成した学習済みモデル７０に対して入力情報を入力した場合における出力が教師データを入力した場合における出力に近づくように損失関数を設定してよい。本実施形態において、損失関数として交差エントロピーが用いられ得る。交差エントロピーは、２つの確率分布の間の関係を表す値として算出される。具体的に、本実施形態において、交差エントロピーは、入力する疑似情報又は実情報と、バックボーン、ヘッド又はアダプタ５０との間の関係を表す値として算出される。

　学習済みモデル生成システム１は、損失関数の値が小さくなるように学習する。損失関数の値が小さくなるように学習することによって生成した学習済みモデル７０において、入力情報の入力に応じた出力が教師データの入力に応じた出力に近づき得る。損失関数として、例えば、Discrimination Loss、又は、Contrastive Lossが利用されてもよい。Discrimination Lossは、生成画像についての真贋を、完全に真であることを表す１から完全に贋であることを表す０までの間の数値でラベル付けして学習するために用いられる損失関数である。

　以上、学習済みモデル生成システム１及びロボット制御システム１００の実施形態を説明してきたが、本開示の実施形態としては、システム又は装置を実施するための方法又はプログラムの他、プログラムが記録された記憶媒体（一例として、光ディスク、光磁気ディスク、ＣＤ－ＲＯＭ、ＣＤ－Ｒ、ＣＤ－ＲＷ、磁気テープ、ハードディスク、又はメモリカード等）としての実施態様をとることも可能である。

　また、プログラムの実装形態としては、コンパイラによってコンパイルされるオブジェクトコード、インタプリタにより実行されるプログラムコード等のアプリケーションプログラムに限定されることはなく、オペレーティングシステムに組み込まれるプログラムモジュール等の形態であっても良い。さらに、プログラムは、制御基板上のＣＰＵにおいてのみ全ての処理が実施されるように構成されてもされなくてもよい。プログラムは、必要に応じて基板に付加された拡張ボード又は拡張ユニットに実装された別の処理ユニットによってその一部又は全部が実施されるように構成されてもよい。

　本開示に係る実施形態について、諸図面及び実施例に基づき説明してきたが、当業者であれば本開示に基づき種々の変形又は改変を行うことが可能であることに注意されたい。従って、これらの変形又は改変は本開示の範囲に含まれることに留意されたい。例えば、各構成部等に含まれる機能等は論理的に矛盾しないように再配置可能であり、複数の構成部等を１つに組み合わせたり、或いは分割したりすることが可能である。

　本開示に記載された構成要件の全て、及び／又は、開示された全ての方法、又は、処理の全てのステップについては、これらの特徴が相互に排他的である組合せを除き、任意の組合せで組み合わせることができる。また、本開示に記載された特徴の各々は、明示的に否定されない限り、同一の目的、同等の目的、または類似する目的のために働く代替の特徴に置換することができる。したがって、明示的に否定されない限り、開示された特徴の各々は、包括的な一連の同一、又は、均等となる特徴の一例にすぎない。

　さらに、本開示に係る実施形態は、上述した実施形態のいずれの具体的構成にも制限されるものではない。本開示に係る実施形態は、本開示に記載された全ての新規な特徴、又は、それらの組合せ、あるいは記載された全ての新規な方法、又は、処理のステップ、又は、それらの組合せに拡張することができる。

　本開示において「第１」及び「第２」等の記載は、当該構成を区別するための識別子である。本開示における「第１」及び「第２」等の記載で区別された構成は、当該構成における番号を交換することができる。例えば、第１疑似情報は、第２疑似情報と識別子である「第１」と「第２」とを交換することができる。識別子の交換は同時に行われる。識別子の交換後も当該構成は区別される。識別子は削除してよい。識別子を削除した構成は、符号で区別される。本開示における「第１」及び「第２」等の識別子の記載のみに基づいて、当該構成の順序の解釈、小さい番号の識別子が存在することの根拠に利用してはならない。

　１　学習済みモデル生成システム
　１０　汎用ライブラリ生成装置（１２：第１制御部、１４：第１インタフェース、１６：第１情報生成部）
　２０　学習済みモデル生成装置（２２：第２制御部、２４：第２インタフェース、２６：第２情報生成部）
　３０　ベースモデル（３１：第１ベースモデル（３１ａ：学習中、３１ｂ：学習済）、３２：第２ベースモデル（３２ａ：学習中、３２ｂ：学習済）
　４０　ターゲットモデル（４１：第１ターゲットモデル、４２：第２ターゲットモデル（４２ａ：学習中、４２ｂ：学習済））
　５０　アダプタ（５０ａ：学習中、５０ｂ：学習済）
　６０　汎用ライブラリ
　７０　学習済みモデル
　１００　ロボット制御システム（２：ロボット、２Ａ：アーム、２Ｂ：エンドエフェクタ、３：センサ、４：カメラ、５：ロボットの影響範囲、６：作業開始台、７：作業目標台、８：作業対象物、１１０：ロボット制御装置（認識装置）

Claims

　入力情報に含まれる認識対象の認識結果を出力する学習済みモデルを生成する制御部を備え、
　前記制御部は、
　前記入力情報と同一又は関連する第１情報を教師データとして学習することによって生成された、少なくとも第１ベースモデルを含むベースモデルを取得し、
　前記第１ベースモデルを第１ターゲットモデルとして、前記第１ターゲットモデルに結合する第２ターゲットモデルを、前記第１ターゲットモデルに結合した状態で、前記入力情報と同一又は関連する第２情報を教師データとして学習することによって、前記第１ターゲットモデル及び前記第２ターゲットモデルを含むターゲットモデルを生成し、
　前記ベースモデルに結合された状態で、少なくとも前記入力情報と同一又は関連する第３情報を教師データとして学習することによって生成されたアダプタを取得し、
　前記ターゲットモデルに前記アダプタを結合することによって前記学習済みモデルを生成する、
学習済みモデル生成装置。
　前記アダプタは、前記ターゲットモデルの入力側に結合されることによって、前記入力情報を前記ターゲットモデルに入力する前に変換可能に構成される、請求項１に記載の学習済みモデル生成装置。
　前記ターゲットモデルは、前記入力情報が入力される入力層と、前記入力層と結合される中間層と、前記中間層に結合される出力層とを有し、
　前記中間層は、前記入力層との結合の強さを表す第１の重みづけ係数で特定される第１の関係で前記入力層と結合され、前記入力情報を前記第１の関係に基づいて変換した変換情報を前記出力層に通過させ、
　前記出力層は、前記中間層との結合の強さを表す第２の重みづけ係数で特定される第２の関係で前記中間層と結合され、前記変換情報を前記第２の関係に基づいて変換した出力情報を、前記学習済みモデルによる前記入力情報に含まれる認識対象の認識結果として出力し、
　前記アダプタは、前記変換情報及び前記出力情報のうち少なくとも一方を変換するように、前記ターゲットモデルの内部に結合される、請求項１に記載の学習済みモデル生成装置。
　前記アダプタは、前記第３情報及び前記第１情報を教師データとして事前学習することによって生成される、請求項１から３までのいずれか一項に記載の学習済みモデル生成装置。
　前記第２ターゲットモデルは、前記第１ターゲットモデルに結合された第２ベースモデルのみを前記第２情報を教師データとして学習したものである、請求項１から４までのいずれか一項に記載の学習済みモデル生成装置。
　前記第１情報、前記第２情報、前記第３情報、及び入力情報は画像を含み、
　前記ベースモデルに結合された前記アダプタは、入力される前記第１情報又は前記第３情報の画像を変換して出力し、
　前記ターゲットモデルに結合された前記アダプタは、入力される前記入力情報に含まれる前記認識対象の画像を変換して出力する、請求項１から５までのいずれか一項に記載の学習済みモデル生成装置。
　前記第１ターゲットモデルは、前記入力情報の特徴量を抽出した結果を出力し、前記第２ターゲットモデルは、前記第１ターゲットモデルの出力に基づき、前記入力情報についての所定の判断を行う、請求項１から６までのいずれか一項に記載の学習済みモデル生成装置。
　前記第１情報、前記第２情報、前記第３情報、及び入力情報は画像を含み、
　前記アダプタは、入力される画像の態様を変換して出力する、請求項１から７までのいずれか一項に記載の学習済みモデル生成装置。
　入力情報に含まれる認識対象の認識結果を出力する学習済みモデルを生成する学習済みモデル生成装置が実行する学習済みモデル生成方法であって、
　前記学習済みモデル生成装置が、前記入力情報と同一又は関連する第１情報を教師データとして学習することによって生成された、少なくとも第１ベースモデルを含むベースモデルを取得することと、
　前記学習済みモデル生成装置が、前記第１ベースモデルを第１ターゲットモデルとして、前記第１ターゲットモデルに結合する第２ターゲットモデルを、前記第１ターゲットモデルに結合した状態で、前記認識対象を表す第２情報を教師データとして学習することによって、前記第１ターゲットモデル及び前記第２ターゲットモデルを含むターゲットモデルを生成することと、
　前記学習済みモデル生成装置が、前記ベースモデルに結合された状態で、少なくとも第３情報を教師データとして学習することによって生成されたアダプタを取得することと、
　前記学習済みモデル生成装置が、前記ターゲットモデルに前記アダプタを結合することによって前記学習済みモデルを生成することと
を含む学習済みモデル生成方法。
　入力情報に含まれる認識対象の認識結果を出力する学習済みモデルを備えた認識装置であって、
　前記学習済みモデルは、
　前記入力情報と同一又は関連する第１情報を教師データとして学習することによって生成された、少なくとも第１ベースモデルを含むベースモデルと、
　前記第１ベースモデルを第１ターゲットモデルとして、前記第１ターゲットモデルに結合した状態で、前記認識対象を表す第２情報を教師データとして学習することによって生成した第２ターゲットモデルと前記第１ターゲットモデルとを含むターゲットモデルと、
　前記ベースモデルに結合された状態で、少なくとも第３情報を教師データとして学習することによって生成されたアダプタと
を含み、
　前記ターゲットモデルに前記アダプタを結合されている、
認識装置。