WO2023008171A1

WO2023008171A1 - データ作成装置、データ作成方法、プログラムおよび記録媒体

Info

Publication number: WO2023008171A1
Application number: PCT/JP2022/027338
Authority: WO
Inventors: 俊輝小林; 祐也西尾; 健吉林; 奨騎笠原
Original assignee: 富士フイルム株式会社
Priority date: 2021-07-30
Filing date: 2022-07-12
Publication date: 2023-02-02
Also published as: US20240161466A1; JPWO2023008171A1; CN117730315A

Abstract

本発明のデータ作成装置、データ作成方法、プログラムおよび記録媒体においては、複数の画像データの中から、付帯情報に基づいて第１選別画像データを選別するための第１条件を設定し、複数の画像データの中から、第１条件に適合する付帯情報が記録された第１選別画像データを選別し、複数の画像データのうち、第１条件に適合しない非選別画像データの中から、付帯情報に基づいて第２選別画像データを選別するための第２条件を提案し、ユーザが第２条件を採用しなかった場合には、第１選別画像データに基づいて教師データを作成し、ユーザが第２条件を採用した場合には、第１選別画像データおよび第２選別画像データに基づいて教師データを作成する。これにより、機械学習の目的及び用途に応じて、膨大な画像データの中から、ユーザの意図に沿った多種、多様な画像データを選別して教師データを作成することができる。

Description

データ作成装置、データ作成方法、プログラムおよび記録媒体

　本発明の一つの実施形態は、人工知能に機械学習をさせるための教師データを作成するデータ作成装置、データ作成方法、プログラムおよび記録媒体に関する。

　教師データを用いて人工知能に機械学習をさせる場合、機械学習の目的及び用途（人工知能の目的及び用途）に応じて、適切な教師データを選別するためのアノテーションの作業が重要となる。しかし、膨大な画像データの中から、機械学習の目的及び用途に応じて、適切な教師データを作成するための画像データを選別し、選別された画像データに基づいて教師データを作成するには、相当の手間及び処理時間を要し、その結果、教師データを作成するためのコストが高騰する。

　これに対し、近年では、膨大な画像データの中から画像データを自動で選別し、選別された画像データに基づいて教師データを作成することが提案されている（例えば、特許文献１，２参照）。

特開２０１１－１５０３８１号公報特開２０１９－１１４２４３号公報

　しかし、特許文献１，２においては、膨大な画像データの中から、教師データを作成するための画像データが自動で選別されるため、ユーザの意図に沿った画像データが選別されない場合があるという問題があった。

　これに対し、ユーザ自身が選別条件を設定することにより、膨大な画像データの中から、ユーザの意図に沿った画像データを選別することができる。しかし、この場合、ユーザが設定した選別条件に適合する画像データのみが選別され、ユーザが設定していない選別条件に適合する画像データは選別されないため、機械学習の目的及び用途に応じて、膨大な画像データの中から、多種、多様な画像データを幅広く選別することは難しいという問題点がある。

　従って、本発明の一つの実施形態に係る目的は、機械学習の目的及び用途に応じて、膨大な画像データの中から、ユーザの意図に沿った多種、多様な画像データを選別して教師データを作成することができるデータ作成装置、データ作成方法、プログラムおよび記録媒体を提供することにある。

　上記目的を達成するために、本発明は、付帯情報が記録された複数の画像データから、機械学習をさせるための教師データを作成するデータ作成装置であって、プロセッサを備え、プロセッサは、複数の画像データの中から、付帯情報に基づいて第１選別画像データを選別するための第１条件を設定する設定処理と、複数の画像データの中から、第１条件に適合する付帯情報が記録された第１選別画像データを選別する選別処理と、複数の画像データのうち、第１条件に適合しない非選別画像データの中から、付帯情報に基づいて第２選別画像データを選別するための第２条件を提案する提案処理と、ユーザが第２条件を採用しなかった場合には、第１選別画像データに基づいて教師データを作成し、ユーザが第２条件を採用した場合には、第１選別画像データおよび第２選別画像データに基づいて教師データを作成する作成処理と、を実行する、データ作成装置を提供する。

　ここで、プロセッサは、ユーザが第２条件を採用した場合に、非選別画像データの中から、第２条件に適合する付帯情報が記録された第２選別画像データを選別する第２選別処理を実行することが好ましい。

　また、プロセッサは、ユーザが第２条件を採用したか否かの採用結果に基づいて機械学習を実行させ、提案処理は、採用結果の機械学習に基づいて、第２条件を提案することが好ましい。

　また、プロセッサは、第２条件に関する情報を通知する通知処理を実行することが好ましい。

　また、第１条件および第２条件は、付帯情報に関する項目と、項目に関する内容と、を含むことが好ましい。

　また、第１条件および第２条件は、項目が同一であり、かつ、内容が異なることが好ましい。

　また、項目は、画像データを教師データとして使用することに関する可否情報であることが好ましい。

　また、可否情報は、画像データの使用に関する使用者情報、画像データの使用目的の制限に関する制限情報、および、画像データの著作権者情報の少なくとも１つを含むことが好ましい。

　また、第１条件の内容は、可否情報に基づいて画像データを選別する内容であり、第２条件の内容は、可否情報が未記録の画像データ、または、画像データの使用に制限がない旨の可否情報が記録された画像データを選別する内容であることが好ましい。

　また、項目は、画像データに基づく画像に写っている被写体の種類に関する項目であることが好ましい。

　また、第１条件は、画像データに基づく画像に写っている被写体に関する条件であり、提案処理は、第１条件の被写体の特徴に基づいて第２条件を提案する処理であることが好ましい。

　また、提案処理は、第１条件を抽象化させた上位概念の第２条件を提案する処理であることが好ましい。

　また、本発明は、付帯情報が記録された複数の画像データから、機械学習をさせるための教師データを作成するデータ作成方法であって、複数の画像データの中から、付帯情報に基づいて第１選別画像データを選別するための第１条件を設定する設定工程と、複数の画像データの中から、第１条件に適合する付帯情報が記録された第１選別画像データを選別する選別工程と、複数の画像データのうち、第１条件に適合しない非選別画像データの中から、付帯情報に基づいて第２選別画像データを選別するための第２条件を提案する提案工程と、ユーザが第２条件を採用しなかった場合には、第１選別画像データに基づいて教師データを作成し、ユーザが第２条件を採用した場合には、第１選別画像データおよび第２選別画像データに基づいて教師データを作成する作成工程と、を含む、データ作成方法を提供する。

　また、本発明は、上記のいずれかのデータ作成装置の各々の処理をコンピュータに実行させるためのプログラムを提供する。

　また、本発明は、上記のいずれかのデータ作成装置の各々の処理をコンピュータに実行させるためのプログラムが記録されたコンピュータ読み取り可能な記録媒体を提供する。

　本発明によれば、機械学習の目的及び用途に応じて、膨大な画像データの中から、ユーザの意図に沿った多種、多様な画像データを選別して教師データを作成することができるデータ作成装置、データ作成方法、プログラムおよび記録媒体を提供することができる。

本発明の一つの実施形態に係るデータ処理システムの構成を表すブロック図である。図１に示すデータ作成装置の内部構成を表す一実施形態のブロック図である。画像データの内部構成を表す一実施形態の概念図である。複数の画像データの中から、第１条件に適合する付帯情報が記録された第１選別画像データを選別する選別処理を表す一実施形態の概念図である。非選別画像データの中から、第２条件に適合する付帯情報が記録された第２選別画像データを選別する第２選別処理を表す一実施形態の概念図である。付帯情報の構成を表す一実施形態の概念図である。撮影条件情報の構成を表す一実施形態の概念図である。被写体情報の構成を表す一実施形態の概念図である。画質情報の構成を表す一実施形態の概念図である。可否情報の構成を表す一実施形態の概念図である。履歴情報の構成を表す一実施形態の概念図である。図１に示すデータ処理システムの動作を表す一実施形態のフローチャートである。ユーザが選別条件を入力するための入力画面を表す一実施形態の概念図である。第２条件を提案する提示画面を表す一実施形態の概念図である。

　以下に、添付の図面に示す好適な実施形態に基づいて、本発明の一つの実施形態に係るデータ作成装置、データ作成方法、プログラムおよび記録媒体を詳細に説明する。ただし、以下に説明する実施形態は、本発明の理解を容易にするために挙げた一例に過ぎず、本発明をこれに限定するものではない。すなわち、本発明は、その趣旨を逸脱しない限りにおいて、以下に説明する実施形態から変更又は改良され得る。また、本発明には、その等価物が含まれる。

　また、本明細書において、「装置」という概念には、特定の機能を発揮する単一の装置の他、分散して互いに独立して存在するが、特定の機能を発揮するために協働する複数の装置等も含まれる。また、本明細書において、「者」は、特定の行為を行う主体を意味し、その概念には、個人、グループ、法人及び団体が含まれる他、人工知能を構成するコンピュータ及びデバイス等も含まれる。

　図１は、本発明の一つの実施形態に係るデータ処理システムの構成を表すブロック図である。図１に示すデータ処理システム１０は、データ作成装置１２と、機械学習装置１４と、複数のユーザ端末装置１６（１６ａ、１６ｂ、…）と、を備えている。
　データ作成装置１２と、機械学習装置１４と、複数のユーザ端末装置１６の各々とは、インターネットまたはモバイルデータ通信回線等のネットワーク１８を介して双方向に接続され、互いに各種のデータの送受信が可能である。

　なお、データ作成装置１２および機械学習装置１４は、本実施形態のように、別々の装置として構成してもよいし、これらを一体化して１つの装置として構成してもよい。また、データ処理システム１０は、本実施形態のように、複数のユーザ端末装置１６を備えていてもよいが、複数のユーザ端末装置１６を備えることは必須ではなく、少なくとも１つのユーザ端末装置１６を備えていればよい。

　データ作成装置１２は、付帯情報が記録（付与）された複数の画像データから、人工知能に機械学習をさせるための教師データを作成するアノテーションの作業を行うものであり、例えば、PC（Personal Computer：パーソナルコンピュータ）、ワークステーション、サーバ等のコンピュータによって構成され、入力装置、ディスプレイ、メモリ（記憶装置）、通信装置、制御装置等を備える。

　人工知能は、推論、予測及び判断等の知的な機能をハードウェア資源及びソフトウェア資源を使って実現したものである。人工知能は、任意のアルゴリズム、例えば、エキスパートシステム、事例ベース推論（ＣＢＲ：Case-Based Reasoning）、ベイジアンネットワーク又は包摂アーキテクチャ等によって実現される。機械学習は、データから規則性および判断基準を学習し、それに基づき未知のものを予測、判断する技術及び人工知能に関わる分析技術等である。

　図２は、図１に示すデータ作成装置の内部構成を表す一実施形態のブロック図である。データ作成装置１２は、図２に示すように、取得処理部２０と、画像メモリ２２と、設定処理部２４と、選別処理部２６と、提案処理部２８と、通知処理部３０と、第２選別処理部３２と、作成処理部３４と、を備えている。

　画像データが取得処理部２０に入力され、取得処理部２０には画像メモリ２２が接続されている。第１条件が設定処理部２４に入力され、設定処理部２４には選別処理部２６が接続されている。画像メモリ２２には、選別処理部２６および第２選別処理部３２のそれぞれが接続され、選別処理部２６および第２選別処理部３２には作成処理部３４が接続されている。作成処理部３４からは教師データが出力される。第２条件の採用結果が第２選別処理部３２および提案処理部２８に入力され、提案処理部２８からは第２条件が出力される。提案処理部２８には通知処理部３０が接続され、通知処理部３０からは通知が出力される。

　取得処理部２０は、画像データの複数の供給元の少なくとも１つから、複数の画像データを取得する取得処理を実行する。

　画像データの供給元は、特に限定されないが、例えば、取得処理部２０は、ユーザ端末装置１６において、ユーザによって選択（指定）された画像データ、SNS（Social Networking Service：ソーシャルネットワーキングサービス）等のように、画像の公開または共有が可能なウェブサイトにおいて投稿された画像データ、オンラインストレージまたは画像サーバ等に記憶された画像データ等を取得することができる。

　複数の画像データの各々には、図３に示すように、付帯情報が記録されている。付帯情報としては、様々なタグ情報（ラベル情報）が含まれる。付帯情報は、例えば、画像データのヘッダ情報として記録されていてもよいし、付帯情報を画像データとは別の付帯情報データとして用意しておき、画像データとこの画像データに対応する付帯情報データとが関連付けて記録されていてもよい。なお、付帯情報についての詳細な説明は後述する。

　画像メモリ２２は、複数の画像データを記憶する。

　画像メモリ２２は、取得処理部２０によって取得された複数の画像データを取得してもよいし、予め複数の画像データが画像メモリ２２に記憶されていてもよい。
　画像メモリ２２は、特に限定されないが、例えば、フラッシュメモリ、ＨＤＤ（Hard Disk Drive：ハードディスクドライブ）、ＳＳＤ（Solid State Drive：ソリッドステートドライブ）、ＲＡＭ（Random Access Memory：ランダムアクセスメモリ）、ＳＤカード（Secure Digital card：セキュアデジタルカード）、ＵＳＢメモリ（Universal Serial Bus memory：ユニバーサルシリアルバスメモリ）等の各種の記録メディアでもよいし、あるいは、オンラインストレージまたは画像サーバ等を利用してもよい。

　設定処理部２４は、付帯情報に関する第１条件を設定する設定処理を実行する。

　第１条件は、画像メモリ２２に記憶された複数の画像データの中から、付帯情報に基づいて第１選別画像データを選別（検索）するための選別条件である。なお、第１条件についての詳細な説明は後述する。

　第１条件の設定方法は、特に限定されないが、例えば、設定処理部２４は、ユーザが入力した選別条件を第１条件として設定することができる。ユーザは、例えば、画像に写っている被写体が「リンゴ」なのか否かを推定するという用途（使用目的）の人工知能を作成する場合、第１条件として、「リンゴ」という選別条件を入力する。この場合、設定処理部２４は、ユーザが入力した「リンゴ」という選別条件を第１条件として設定する。
　第１条件は、１つの選別条件でもよいし、２以上の選別条件のＡＮＤ条件またはＯＲ条件でもよい。

　あるいは、設定処理部２４は、機械学習の目的及び用途毎に、用途とその用途に対応する第１条件とを関連付けて記憶したテーブルを用意しておき、このテーブルを用いて、ユーザが入力した機械学習の目的及び用途に関連付けられた第１条件を設定することができる。この場合、ユーザは、選別条件として、機械学習の目的及び用途を手動で入力してもよいし、プルダウンメニュー等を用いて、前述のテーブルに記憶された機械学習の目的及び用途のリストの中から所望の用途を選択できるようにしてもよい。

　選別処理部２６は、図４に示すように、複数の画像データの中から、設定処理部２４によって設定された第１条件に適合する付帯情報が記録された画像データ（第１選別画像データ）を選別する選別処理を実行する。

　第１選別画像データの選別方法は、特に限定されないが、例えば、選別処理部２６は、第１条件と複数の画像データの各々に記録された付帯情報とを比較することにより、複数の画像データの中から、第１条件に適合する付帯情報が記録された第１選別画像データを選別することができる。選別処理部２６は、例えば、第１条件が「リンゴ」である場合、「リンゴ」に対応する付帯情報が記録された第１選別画像データを選別する。

　第１条件に適合する付帯情報は、第１条件と完全に一致する付帯情報の他、第１条件を包含する付帯情報を含んでいてもよい。例えば、第１条件が「リンゴ」である場合、「リンゴ」に対応する付帯情報の他、「赤いリンゴ」等に対応する付帯情報を含んでいてもよい。

　提案処理部２８は、複数の画像データのうち、第１条件に適合しない非選別画像データ、すなわち、第１選別画像データとして選別されなかった非選別画像データの中から、付帯情報に関する第２条件を提案する提案処理を実行する。

　非選別画像データは、複数の画像データのうち、第１選別画像データとして選別された画像データ以外の画像データであり、１つまたは２以上の画像データを含む。
　第２条件は、第１条件とは異なる選別条件であって、非選別画像データの中から、付帯情報に基づいて、第１選別画像データとは異なる第２選別画像データを選別するための選別条件である。また、第２条件は、ユーザからの指示に係わらず、提案処理部２８によって自動で設定され、ユーザに提案される選別条件である。なお、第２条件についての詳細な説明は後述する。

　第２条件の提案方法は、特に限定されないが、例えば、提案処理部２８は、第１条件毎に、第１条件とこの第１条件に対応する第２条件とを関連付けて記憶したテーブルを用意しておき、このテーブルを用いて、第１条件に関連付けられた第２条件を提案することができる。例えば、第１条件が「リンゴ」である場合に、リンゴと外見が似ている桃の画像データを加えることで人工知能による推定結果の精度を向上させることができるため、テーブルにおいて「リンゴ」と「桃」が関連付けられている場合、設定処理部２４は、第２条件として「桃」を提案する。

　第２条件の提案タイミングは、特に限定されないが、例えば、第１条件を提案する提案処理と第１選別画像データを選別する選別処理の間、又は、当該選別処理と後述する教師データを作成する作成処理の間がある。

　あるいは、提案処理部２８は、提案処理を行うための人工知能を用いて第１条件から推定された第２条件を提案してもよい。
　第２条件は、第１条件の場合と同様に、１つの選別条件でもよいし、２以上の選別条件のＡＮＤ条件またはＯＲ条件でもよい。

　通知処理部３０は、提案処理部２８によって提案された第２条件に関する情報を通知する通知処理を実行する。

　第２条件に関する情報は、特に限定されないが、第２条件の提案理由、過去に同じ第２条件が採用された回数又は採用率、および、人工知能による第２条件の提案内容（推定結果）の精度等を例示することができる。
　通知処理部３０は、例えば、第１条件が「リンゴ」である場合に、提案処理部２８が第２条件として「桃」を提案した場合、「リンゴと外見が似ている桃の画像データを加えることにより人工知能による推定結果の精度が向上します」等の提案理由をユーザに対して通知する。このように、提案理由を通知することにより、ユーザは、第２条件の提案理由を知ることができるため、この提案理由に基づいて、第２条件を採用するか否かを容易に判断することができる。

　通知方法は、特に限定されないが、例えば、ユーザ端末装置１６において、テキストメッセージを表示させてもよいし、このテキストメッセージを音声合成によって音声で読み上げてもよいし、この両方を行ってもよい。

　第２選別処理部３２は、提案処理部２８による第２条件の提案に応じて、ユーザが第２条件を採用した場合に、図５に示すように、非選別画像データの中から、第２条件に適合する付帯情報が記録された画像データ（第２選別画像データ）を選別する第２選別処理を実行する。言い換えると、第２選別処理部３２は、ユーザが第２条件を採用しなかった場合には第２選別処理を実行せず、第２選別画像データを選別しない。

　第２選別処理部３２は、選別処理部２６が、複数の画像データの中から第１選別画像データを選別する場合と同様にして、非選別画像データの中から第２選別画像データを選別することができる。

　作成処理部３４は、提案処理部２８による第２条件の提案に応じて、ユーザが第２条件を採用しなかった場合には、第２選別画像データが選別されないため、第１選別画像データに基づいて教師データを作成する作成処理を実行する。一方、作成処理部３４は、ユーザが第２条件を採用した場合には、第２選別画像データが選別されるため、第１選別画像データおよび第２選別画像データに基づいて教師データを作成する作成処理を実行する。

　作成処理部３４は、第１選別画像データまたは第２選別画像データ自身を教師データとしてもよいし、第１選別画像データおよび第２選別画像データの少なくとも一方に対して各種の画像処理を施すことにより教師データを作成してもよい。

　本実施形態の場合、取得処理部２０、設定処理部２４、選別処理部２６、提案処理部２８、通知処理部３０、第２選別処理部３２および作成処理部３４は、プロセッサおよびこのプロセッサによって実行されるプログラムによって構成されている。

　機械学習装置１４は、データ作成装置１２によって作成された複数の教師データを用いて人工知能に機械学習をさせることにより、機械学習済みの推論モデルを作成する。

　機械学習によって構築される推論モデルは、任意の数理モデルであり、例えば、ニューラルネットワーク、畳み込みニューラルネットワーク、リカレントニューラルネットワーク、アテンション、トランスフォーマー、敵対的生成ネットワーク、ディープラーニングニューラルネットワーク、ボルツマンマシン、マトリクス・ファクトーリゼーション、ファクトーリゼーション・マシーン、エムウエイ・ファクトーリゼーション・マシーン、フィールド認識型ファクトーリゼーション・マシーン、フィールド認識型ニューラル・ファクトーリゼーション・マシーン、サポートベクタマシン、ベイジアンネットワーク、決定木、又はランダムフォレスト等が利用可能である。

　ユーザ端末装置１６は、ユーザから入力された指示に応じて、データ作成装置１２および機械学習装置１４等に各種の処理を行わせる。本実施形態の場合、ユーザ端末装置１６は、ユーザから入力された指示に応じて、データ作成装置１２により、機械学習の目的及び用途に応じた教師データを作成させ、機械学習装置１４により、教師データを用いて人工知能に機械学習を行わせて学習済みの推定モデルを作成させ、学習済みの推定モデルを用いて機械学習の目的及び用途に応じた推定を行わせる。

　ユーザ端末装置１６は、例えば、デスクトップPC、ノートPC、タブレットPC、またはスマートフォン等をはじめとするコンピュータによって構成され、入力装置、ディスプレイ、メモリ（記憶装置）、通信装置、および制御装置等を備える。

　次に、付帯情報について説明する。

　付帯情報は、複数の画像データの中から、第１条件に適合する第１選別画像データを選別し、非選別画像データの中から、第２条件に適合する第２選別画像データを選別するために用いられる各種のタグ情報（ラベル情報）を含む。付帯情報は、特に限定されないが、図６に示すように、タグ情報として、撮影条件情報、被写体情報、画質情報、可否情報、履歴情報および用途情報等の少なくとも１つを含む。

　撮影条件情報は、画像データに基づく画像の撮影条件に関する情報であり、Exif（Exchangeable Image File Format）形式のタグ情報として、図７に示すように、撮影機器情報、撮影環境情報および画像処理情報等の少なくとも１つを含む。

　撮影機器情報は、撮影機器（カメラ）に関する情報であり、撮影機器の製造メーカ、撮影機器の機種名、及び、撮影機器が有する光源の種類等の情報を含む。
　撮影環境情報は、画像の撮影環境に関する情報であり、撮影日時、撮影時の季節、撮影場所、撮影場所の地名、撮影時の露光条件（ｆ値、ＩＳＯ感度、及びシャッタスピード等）、撮影時の天候、並びに撮影時の照度（日射量）等の情報を含む。
　画像処理情報は、撮影機器が画像に対して実施する画像処理に関する情報であり、画像処理の名称、画像処理の特徴、画像処理を実施可能な機器の機種、及び、画像内において処理が実施された領域等の情報を含む。

　被写体情報は、画像データに基づく画像に写っている被写体に関する情報であり、図８に示すように、画像内の被写体の識別情報、位置情報およびサイズ情報等の少なくとも１つを含む。

　識別情報は、画像内の被写体の種類（種別）、状態、特徴（色、形、模様等）等に関する情報である。例えば、被写体の種類が「リンゴ」であり、その状態が、食べごろの状態であり、その特徴が、赤くて丸い等の情報が識別情報に該当する。
　位置情報は、画像内の被写体の位置に関する情報であり、例えば、画像内の被写体をバウンディングボックスによって囲んだ際の矩形領域の所定位置（例えば、矩形領域における一つの頂角の座標位置）の情報等を含む。
　サイズ情報は、画像内の被写体が占める領域のサイズに関する情報であり、例えば、上記の矩形領域の対角線上における二つの頂角の座標位置の情報等を含む。

　画質情報は、画像データに基づく画像に写っている被写体の画質に関する情報であり、図９に示すように、被写体の解像感情報、明るさ情報およびノイズ情報等の少なくとも１つを含む。

　解像感情報は、画像内の被写体の解像感に関する情報であり、例えば、被写体のボケ及びブレ度合い、および、被写体の解像度等の情報を含む。被写体のボケ及びブレ度合いは、画素数で表したもの、１～５のランク又は等級等のように段階評価したもの、スコアで評価したもの、あるいは、人間の感性に基づく尺度にて段階評価した官能評価の結果でもよい。
　明るさ情報は、画像内の被写体の明るさ（輝度値）に関する情報であり、例えば、被写体を囲む矩形領域内の各画素におけるＲＧＢ（赤緑青）各色の輝度値等の情報を含む。
　ノイズ情報は、画像内の被写体のノイズに関する情報であり、例えば、被写体を囲む矩形領域内のＳ／Ｎ値（信号雑音比）の情報等を含む。

　被写体情報および画質情報は、画像内の被写体毎に付与される。すなわち、画像内に複数の被写体が写っている場合には、被写体毎に、その被写体に対応する被写体情報および画質情報が付与される。

　可否情報は、画像データが教師データとして使用することに関する情報であり、図１０に示すように、使用者情報、制限情報および著作権者情報等の少なくとも１つを含む。

　使用者情報は、画像データの使用者に関する情報であり、例えば、「Ａさんに限り使用可能」又は「Ｂ社に限り使用可能」等のように、特定の使用者（ユーザ）に画像データの使用を制限する情報、及び、「誰でも使用可能」等のように、画像データの使用者制限がない旨の情報等を含む。使用者情報は、画像データの使用が認められている使用者の情報又は使用が認められていない使用者の情報の少なくとも一方を含む。

　制限情報は、画像データの使用目的の制限に関する情報であり、例えば、「商用利用を制限する」等のように、画像データの使用目的を制限する情報、および、「あらゆる目的で使用可能」等のように、画像データの使用目的に制限がない旨の情報等を含む。

　著作権者情報は、画像データの著作権者に関する情報であり、例えば、「著作権者はＢ社である」等のように、画像データの著作権者を特定する情報、および、「著作権者なし」等のように、画像データの著作権者がいない旨の情報等を含む。なお、著作権者情報は、画像データの著作権者に限らず、ID（Identification：識別情報）、ニックネーム等のように、画像データの作成者に関する情報であってもよい。

　可否情報、すなわち、使用者情報、制限情報および著作権者情報のそれぞれは、さらに、画像データを使用可能な期間に関する期間情報を含んでいてもよい。すなわち、使用者情報、制限情報および著作権者情報のそれぞれは、画像データの使用時期の制限に関する情報、例えば、画像データを使用可能な有効期限、無料又は有料で画像データが使用できる期間等の情報を含んでいてもよい。

　なお、可否情報は、暗号化又はハッシュ化する等の方法により、無断の改竄を回避してセキュリティ性を担保することが望ましい。

　履歴情報は、画像データを用いた過去の機械学習の際の学習履歴に関する情報であり、図１１に示すように、回数情報、利用者情報、正解タグ情報、不正解タグ情報、採用情報および精度情報等の少なくとも１つを含む。

　回数情報は、過去の機械学習において、画像データが教師データを作成するために用いられた回数に関する情報である。
　利用者情報は、過去の機械学習において、教師データを作成するために画像データ利用した利用者（ユーザ）に関する情報である。
　正解タグ情報及び不正解タグ情報は、過去の機械学習において、画像データに基づいて作成された教師データが正解データとして用いられたか、不正解データとして用いられたかに関する情報である。
　採用情報は、過去の機械学習において、画像データに基づいて作成された教師データが不正解データとして採用されたか否かに関する情報である。
　精度情報は、過去の機械学習において、画像データに基づいて作成された教師データを用いて機械学習された人工知能による推定結果の精度に関する情報である。

　用途情報は、機械学習の学習用途（人工知能の学習用途）に関する情報であり、詳しくは、画像データに基づいて作成される教師データが、どのような用途の人工知能の機械学習に利用できるのかを表す情報である。従って、用途情報を参照することにより、画像データが、どのような用途の人工知能の機械学習のための教師データを作成するために利用できるのかを特定することができる。

　付帯情報のうち、撮影条件情報、被写体情報および画質情報は、例えば、画像を撮影した撮影機器によって自動でタグ情報を生成して画像データに付与することができる。また、全ての付帯情報、すなわち、撮影条件情報、被写体情報、画質情報、可否情報、履歴情報および用途情報等は、ユーザがユーザ端末装置１６においてタグ情報を手動で入力することによって画像データに付与してもよい。あるいは、タグ情報を付与するための人工知能を用いて画像データからタグ情報を自動で推定し、推定されたタグ情報を画像データに付与してもよい。

　次に、第１条件および第２条件について説明する。

　第１条件および第２条件としては、機械学習の目的及び用途に応じて、任意の選別条件を使用することができる。画像内の被写体が「リンゴ」なのか否かを推定するという用途の人工知能を作成する場合、第１条件として、例えば、「リンゴ」が設定することができ、第２条件として、例えば、第１条件とは異なる「桃」を提案することができる。

　また、第１条件および第２条件は、付帯情報に関する項目と、この項目に関する内容と、を含んでいてもよい。言い換えると、第１条件および第２条件は、項目および内容という２つの選別条件のＡＮＤ条件であってもよい。

　項目とは、同種の複数のタグ情報を包括する上位概念のカテゴリを表し、内容とは、カテゴリ毎に、そのカテゴリに属する下位概念の個別の要素を表す。例えば、項目が、「果物」である場合、その内容は、「リンゴ」、「桃」、「ミカン」等である。項目が、「自動車」である場合、その内容は、「乗用車」、「バス」、「トラック」等である。項目が、「海藻」である場合、その内容は、「昆布」、「わかめ」、「もずく」等である。

　上記のように、第１条件および第２条件は、項目および内容によって規定され、第１条件および第２条件としては、例えば、項目が同一であり、かつ、内容が異なる条件を用いることができる。
　また、項目には、上記のように被写体の種類に関する項目を含めることができる。また、項目には、被写体の特徴、画像における被写体の位置及びサイズ等に関する項目を含めることができる。さらに、項目には、画像データの可否情報に関する項目、撮影条件に関する項目、及び、画質に関する項目、画像データの履歴情報に関する項目のうち、少なくとも一つを含めることができる。

　いくつかの具体例を挙げて説明すると、第１条件の項目および内容として、「使用者情報」および「Ｂ社に限り使用可能」が設定された場合、第２条件の項目および内容として、第１条件と同じ「使用者情報」および第１条件とは異なる「誰でも使用可能」を提案することができる。以下同様に、第１条件の項目および内容として、「果物」および「リンゴ」が設定された場合、第２条件の項目および内容として、「果物」および「桃」を提案することができる。第１条件の項目および内容として、「果物」および「リンゴ」と、「天候」および「晴れ」と、のＡＮＤ条件が設定された場合、第２条件の項目および内容として、「果物」および「桃」と、「天候」および「曇り」と、のＡＮＤ条件を提案することができる。第１条件の項目および内容として、「樹木」および「木」が設定された場合、第２条件の項目および内容として、「樹木」および「森」を提案することができる。第１条件の項目および内容として、「車」および「乗用車」が設定された場合、第２条件の項目および内容として、「車」および「バス」を提案することができる。

　このように、第２条件を提案することにより、教師データの作成のために用いられる第２選別画像データの選別を促進し、教師データの数を増やすことができるため、その結果、人工知能による推定結果の精度を向上させることができる。

　上記の例のうち、「果物」、「樹木」、「車」等の例は、第２条件として、第１条件との類似性が高い選別条件を提案するものである。このように、第１条件との類似性が高い第２条件を提案することにより、例えば、第１選別画像データに基づいて正解データとなる教師データを作成し、第２選別画像データに基づいて不正解データとなる教師データを作成し、これらの教師データを用いて人工知能に機械学習をさせた結果、類似物を正しく区別できるようになり、人工知能による推定結果の精度を向上させることができる。

　なお、第１条件および第２条件としては、項目が異なり、かつ、内容が同一の選別条件を用いてもよいし、項目および内容の両方ともが異なる選別条件を用いてもよい。

　また、項目は、前述の「使用者情報」の例のように、可否情報であってもよい。また、第１条件の内容が、可否情報に基づいて画像データを選別する内容である場合、第２条件の内容は、可否情報が未記録の画像データ、または、画像データの使用に制限がない旨の可否情報が記録された画像データを選別する内容としてもよい。

　例えば、第１条件として、項目「使用者情報」について「Ｂ社に限り使用可能」という内容の条件が設定された場合、第２条件として、項目「使用者情報」について「誰でも使用可能」という内容の条件を提案することができる。以下同様に、第１条件として、項目「制限情報」について「商用利用を制限する」という内容の条件が設定された場合、第２条件として、項目「制限情報」について「あらゆる目的で使用可能」という内容の条件を提案することができる。また、第１条件として、項目「著作権者情報」について「著作権者はＢ社である」という内容の条件が設定された場合、第２条件として、項目「著作権者情報」について「著作権者なし」という内容の条件を提案することができる。

　このように、可否情報が未記録の画像データ、または、画像データの使用に制限がない旨の可否情報が記録された画像データを選別する内容の第２条件を提案することにより、第１選別画像データに加えて、可否情報によって制限されない第２選別画像データの選別を促進し、教師データの作成のために用いられる選別画像データの数を増やすことができるため、その結果、人工知能による推定結果の精度を向上させることができる。

　また、項目は、画像データに基づく画像に写っている被写体の種類に関する項目であってもよい。

　例えば、第１条件として、項目「果物」について「リンゴ」という内容の条件が設定された場合に、第２条件として、項目「果物」について「イチゴ」という内容の条件を提案することができる。すなわち、第１条件および第２条件の項目である被写体の種類は「果物」であり、その内容は、「リンゴ」および「イチゴ」である。この場合、例えば、第１選別画像データは正解データの教師データ、第２選別画像データは不正解データの教師データを作成するために使用される。

　また、上記のように、項目が、画像内の被写体の種類に関する項目であり、かつ、その内容が、被写体の特性を含む場合、提案処理部２８は、第２条件の内容として、第１条件の被写体の特性とは異なる特性を提案してもよい。

　例えば、第１条件として、項目「果物」について「Ａ県産のＢ品種のリンゴ」という内容の条件が設定された場合、第２条件として、項目「果物」について「Ｃ県産のＤ品種のリンゴ」という内容の条件を提案することができる。すなわち、第１条件および第２条件の項目である被写体の種類は「果物」であり、その内容は「リンゴ」、被写体の特性は「産地」および「品種」である。
　これにより、教師データの作成のための選別画像データを選別する上で、被写体の特性に起因するデータの偏りを防止することができ、かつ、選別画像データの数を増やすことができる。

　また、提案処理部２８は、第１条件が、画像データに基づく画像に写っている被写体に関する条件である場合、第１条件の被写体の特徴、例えば、色、形、模様等に基づいて第２条件を提案する提案処理を行ってもよい。

　例えば、第１条件が「ミカン」である場合、第２条件として、「ミカン」の特徴に基づいて、「楕円形でオレンジ色の物体」等を提案することができる。すなわち、第１条件の被写体は「ミカン」であり、その特徴は、「楕円形」、「オレンジ色」である。
　この場合、第２選別画像データは、「ミカン」のタグ情報が記録されていない「ミカン」の画像データ、および、「ミカン」の特徴に類似する「ミカン」ではない画像データ、例えば、オレンジ色のボール等を含む。これにより、例えば、「ミカン」のタグ情報が記録されていない「ミカン」の画像データに基づいて、正解データとなる教師データを作成し、「ミカン」の特徴に類似する「ミカン」ではない画像データに基づいて、不正解データとなる教師データを作成することができる。この場合、例えば、「ミカン」に類似する「楕円形でオレンジ色の物体」というタグ情報が付与されている画像データに基づく画像を人間が見て、「ミカン」（正解データ）、「ミカン」ではない（不正解データ）と判断する。

　また、提案処理部２８は、第１条件を抽象化させた上位概念の第２条件を提案する提案処理を行ってもよい。

　例えば、第１条件として、「昆布」が設定された場合、提案処理部２８は、第２条件として、「昆布」の上位概念となる「海藻」を提案することができる。

　この場合、第１条件である「昆布」によって選別された第１選別画像データとして、「昆布」のタグ情報が記録された画像データが選別されるが、「わかめ」、「もずく」のタグ情報が記録された画像データは選別されない。

　これに対し、第１条件の「昆布」の上位概念となる第２条件の「海藻」を提案することにより、言葉、食文化等の違いを補うことができる。詳しく説明すると、「海藻」を食べる国の人は、「昆布」、「わかめ」、「もずく」等の言葉を区別して使用する場合が多いが、「海藻」を食べない国の人は、「昆布」、「わかめ」、「もずく」等の言葉を一括りにして、「海藻」と表現する場合が多い。この点を踏まえて、第２条件を「海藻」と設定することにより、複数の画像データの中から、「昆布」のタグ情報が記録されていなくても、「海藻」および「わかめ」、「海藻」および「もずく」等のタグ情報が記録された画像データを選別することができるため、「昆布」に関連性のある、より多くの選別画像データを選別することができる。

　また、別の例としては、第１条件として、「しじみ」、「あさり」、「はまぐり」等が設定された場合に、提案処理部２８は、第２条件として、これらの上位概念となる「貝」を提案することができる。これ以外の例についても同様である。

　次に、図１２に示すフローチャートを参照しながら、データ処理システム１０の動作を説明する。

　まず、取得処理部２０により、画像データの複数の供給元の少なくとも１つから、複数の画像データを取得する取得処理（取得工程）が実行される（ステップS1）。取得処理部２０によって取得された画像データは、画像メモリ２２に記憶される。

　一方、ユーザは、例えば、ユーザ端末装置１６において、機械学習の目的及び用途に応じて画像データを選別するための選別条件を入力する。ユーザから入力された選別条件の指示は、ユーザ端末装置１６からデータ作成装置１２に送信される。

　これに応じて、設定処理部２４により、付帯情報に関する第１条件を設定する設定処理（設定工程）が実行される（ステップS2）。

　続いて、選別処理部２６により、画像メモリ２２に記憶された複数の画像データの中から、設定処理部２４によって設定された第１条件に適合する付帯情報が記録された第１選別画像データを選別する選別処理（選別工程）が実行される（ステップS3）。

　続いて、提案処理部２８により、付帯情報に関する第２条件を提案する提案処理（提案工程）が実行される（ステップS4）。また、通知処理部３０により、提案処理部２８によって提案された第２条件に関する情報を通知する通知処理（通知工程）が実行される（ステップS5）。

　その結果、提案処理部２８による第２条件の提案に応じて、ユーザが第２条件を採用しなかった場合（ステップS6においてNo）、第２選別処理部３２による第２選別処理（第２選別工程）は実行されない。すなわち、第２選別画像データは選別されない。
　この場合、作成処理部３４により、第１選別画像データに基づいて教師データを作成する作成処理（作成工程）が実行される（ステップS7）。

　一方、ユーザが第２条件を採用した場合（ステップS6においてYes）、第２選別処理部３２により、非選別画像データの中から、第２条件に適合する付帯情報が記録された第２選別画像データを選別する第２選別処理（第２選別工程）が実行される（ステップS8）。
　この場合、作成処理部３４により、第１選別画像データおよび第２選別画像データに基づいて教師データを作成する作成処理（作成工程）が実行される（ステップS9）。この教師データは、データ作成装置１２から機械学習装置１４に送信される。

　なお、提案処理部２８は、ユーザが第２条件を採用しなかった場合に、ユーザからの指示に応じて、第２条件を提案する提案処理（提案工程）を繰り返し実行してもよい。

　続いて、機械学習装置１４において、データ作成装置１２から送信されてくる教師データを用いて人工知能が機械学習され、機械学習済みの推論モデルが作成される（ステップS10）。

　続いて、ユーザは、ユーザ端末装置１６において、この人工知能を用いて、その用途に対応する推定を行わせるための推定対象の画像データを入力する。この推定対象の画像データを入力する指示は、ユーザ端末装置１６から機械学習装置１４に送信される。

　ユーザから入力された推定対象の画像データの指示に応じて、機械学習装置１４において、ユーザ端末装置１６から送信されてくる推定対象の画像データが人工知能に入力され、人工知能により、学習済みの推定モデルを用いて、推定対象の画像データについて、機械学習の目的及び用途に応じた推定が行われる。人工知能による推定結果は、機械学習装置１４からユーザ端末装置１６に送信される。

　続いて、ユーザ端末装置１６において、機械学習装置１４から送信されてくる人工知能による推定結果を利用して各種の処理が行われる。

　上述した一連のステップについての具体例として、画像内の被写体が「ミカン」なのか否かを推定するという用途の人工知能を作成する場合、言い換えると、人工知能に「ミカン」を機械学習させる場合を例に挙げて説明する。

　前述のように、取得処理部２０により、複数の画像データを取得する取得処理（取得工程）が実行される。一方、ユーザは、ユーザ端末装置１６において、人工知能に「ミカン」を機械学習させるために使用する画像データを選別するための選別条件を入力する。

　この場合、図１３に示すように、ユーザが選別条件を入力するための入力画面が、ユーザ端末装置１６のディスプレイにおいて表示される。図１３に示す例の場合、選別条件の入力画面には、その上部に、「画像データの選別条件を入力して下さい」というメッセージが表示され、このメッセージの下側に、被写体の種類、商用利用の可否、および、使用者の情報等を入力するための入力欄が順次表示されている。

　ユーザは、例えば、選別条件の入力画面において、図１３に示すように、例えば、被写体の種類が「ミカン」であり、かつ、商用利用が可能で、Ｂ社のみが使用可能である画像データを選別するための選別条件を入力する。

　これに応じて、設定処理部２４により、第１条件を設定する設定処理（設定工程）が実行され、選別処理部２６により、複数の画像データの中から、第１条件に適合する付帯情報が記録された第１選別画像データを選別する選別処理（選別工程）が実行される。

　続いて、提案処理部２８により、第２条件を提案する提案処理（提案工程）が実行され、通知処理部３０により、第２条件に関する情報を通知する通知処理（通知工程）が実行される。

　この場合、図１４に示すように、ユーザ端末装置１６のディスプレイにおいて、第１条件とは異なる第２条件を提案する提案画面が表示される。図１４に示す例の場合、第２条件の提案画面には、第２条件として提案する選別条件、第２条件の提案理由、および、第２条件を採用するか否かの入力欄等が順次表示されている。

　図１４に示す例の場合、第２条件として、同じく被写体の種類が「ミカン」であり、かつ、被写体である「ミカン」が画像の中央部にあり、「著作権者なし」である画像データを選別するための選別条件が表示されている。また、第２条件の提案理由として、「機械学習で使用する教師データを増やすことができます」というメッセージが表示されている。さらに、第２条件を採用するか否かの入力欄には、「この選別条件を採用しますか？」というメッセージが表示され、その下側に、「はい」および「いいえ」のボタンが表示されている。

　図１４に示す例とは異なる例を挙げると、提案処理部２８は、第２条件として、例えば、被写体の種類が「柿」であり、かつ、被写体である「柿」が画像の中央部以外にあり、「著作権者なし」である画像データを選別するための選別条件を提案してもよい。この場合、第２条件の提案理由としては、例えば、「類似物を正しく区別できるようになります」というメッセージが表示される。

　ユーザは、第２条件を採用するか否かの入力欄において、この提案を採用する場合には「はい」のボタンを押し、この提案を採用しない場合には「いいえ」のボタンを押す。

　その結果、ユーザが「いいえ」のボタンを押して第２条件を採用しなかった場合、作成処理部３４により、第１選別画像データに基づいて教師データが作成される。
　一方、ユーザが「はい」のボタンを押して第２条件を採用した場合、第２選別処理部３２により、非選別画像データの中から、第２条件に適合する付帯情報が記録された第２選別画像データが選別され、作成処理部３４により、第１選別画像データおよび第２選別画像データに基づいて教師データが作成される。

　この例の場合、付帯情報として、「ミカン」のタグ情報が記録された第１選別画像データおよび第２選別画像データは、人工知能に「ミカン」を機械学習させるための正解データとなる教師データを作成するために使用される。一方、付帯情報として、「柿」のタグ情報が記録された第２選別画像データは、人工知能に「柿」が「ミカン」ではないことを機械学習させるための不正解データとなる教師データを作成するために使用される。

　これ以後の動作は、前述の通りである。

　これにより、データ作成装置１２によれば、機械学習の目的及び用途に応じて、膨大な画像データの中から、ユーザの意図に沿った多種、多様な画像データを選別することができる。そして、膨大な画像データの中から選別された多種、多様な画像データに基づいて、適切な教師データを短時間のうちに自動で作成することができるため、教師データの作成コストを大幅に削減することができ、かつ、人工知能による推定結果の精度を大幅に向上させることができる。

　なお、提案処理部２８は、ユーザが第２条件を採用したか否か、すなわち第２条件の採用結果に基づいて、提案処理を行うための人工知能に機械学習を実行させ、第２条件の採用結果の機械学習に基づいて第２条件を提案してもよい。この場合、推定対象となる第１条件が、人工知能に入力され、この人工知能により、学習済みの推定モデルを用いて第１条件から第２条件が推定される。

　第２条件を提案する際に、ユーザが過去に採用した第２条件は、ユーザが過去に採用しなかった第２条件よりも、ユーザが採用する可能性が高いと考えられる。従って、提案処理部２８は、ユーザが過去に採用しなかった第２条件よりも、ユーザが過去に採用した第２条件を優先して提案する。また、提案処理部２８は、ユーザが過去に採用した回数が少ない第２条件よりも、ユーザが過去に採用した回数が多い第２条件を優先して提案してもよい。さらに言えば、ユーザが過去に採用しなかった第２条件は提案しなくてもよい。

　第２条件の採用結果の機械学習に基づいて、例えば、ユーザが過去に採用した第２条件の回数に基づいて、採用回数が多い第２条件を提案することを繰り返すことにより、ユーザが第２条件を採用する可能性を次第に高めていくことができる。

　なお、この場合のユーザは同じユーザでもよいし、異なるユーザでもよい。また、ユーザは、一人のユーザでもよいし、複数のユーザでもよい。
　提案処理部２８は、例えば、ユーザが第２条件を採用したか否かに関する情報およびユーザが第２条件を採用した回数に関する情報の履歴を、この第２条件に対応する第１条件に関連付けて記憶しておき、第１条件に関連付けて記憶された、ユーザが第２条件を採用したか否かに関する情報およびユーザが第２条件を採用した回数に関する情報の履歴を取得することができる。

　また、提案処理部２８は、人工知能による推定結果の精度に基づいて、提案処理を行うための人工知能に機械学習を実行させ、推定結果の機械学習に基づいて第２条件を提案してもよい。

　人工知能に機械学習をさせる際に、第１ユーザが過去に第２条件を採用した場合の第１人工知能による推定結果の精度が、第２ユーザが過去に同じ第２条件を採用しなかった場合の第２人工知能による推定結果の精度よりも高い場合、この第２条件を採用しない場合よりも、この第２条件を採用した場合の方が、人工知能による推定結果の精度を高めることができると考えられる。

　従って、提案処理部２８は、第１ユーザが第２条件を採用した場合の第１人工知能による推定結果の精度が、第２ユーザがこの第２条件を採用しなかった場合の第２人工知能による推定結果の精度よりも高い場合に、第１ユーザが過去に採用した第１人工知能のための第２条件を提案する。言い換えると、提案処理部２８は、ユーザが過去に採用したことによって人工知能による推定結果の精度が低くなった第２条件よりも、ユーザが過去に採用したことによって人工知能による推定結果の精度が高くなった第２条件を優先して提案する。さらに言えば、ユーザが過去に採用したことによって人工知能による推定結果の精度が低くなった第２条件は提案しなくてもよい。

　人工知能による推定結果の精度の履歴に基づいて、ユーザが過去に採用したことによって人工知能による推定結果の精度が高くなった第２条件を提案することを繰り返すことにより、人工知能による推定結果の精度を次第に高めていくことができる。

　なお、この場合の第１ユーザおよび第２ユーザは、同じユーザでもよいし、異なるユーザでもよい。また、第１ユーザおよび第２ユーザは、一人のユーザでもよいし、複数のユーザでもよい。
　提案処理部２８は、例えば、人工知能による推定結果の精度の履歴を、この人工知能のための第２条件に関連付けて記憶しておき、第２条件に関連付けられた、人工知能による推定結果の精度の履歴を取得してもよい。

　本発明の装置において、取得処理部２０、設定処理部２４、選別処理部２６、提案処理部２８、通知処理部３０、第２選別処理部３２および作成処理部３４等の各種の処理を実行する処理部（Processing Unit）のハードウェア的な構成は、専用のハードウェアであってもよいし、プログラムを実行する各種のプロセッサまたはコンピュータであってもよい。

　各種のプロセッサには、ソフトウェア（プログラム）を実行して各種の処理部として機能する汎用的なプロセッサであるＣＰＵ（Central Processing Unit）、ＦＰＧＡ（Field Programmable Gate Array）等の製造後に回路構成を変更可能なプロセッサであるプログラマブルロジックデバイス（Programmable Logic Device：ＰＬＤ）、ＡＳＩＣ（Application Specific Integrated Circuit）等の特定の処理をさせるために専用に設計された回路構成を有するプロセッサである専用電気回路等が含まれる。

　１つの処理部を、これら各種のプロセッサのうちの１つで構成してもよいし、同種または異種の２つ以上のプロセッサの組み合わせ、例えば、複数のＦＰＧＡの組み合わせ、または、ＦＰＧＡおよびＣＰＵの組み合わせ等によって構成してもよい。また、複数の処理部を、各種のプロセッサのうちの１つで構成してもよいし、複数の処理部のうちの２以上をまとめて１つのプロセッサを用いて構成してもよい。

　例えば、サーバおよびクライアント等のコンピュータに代表されるように、１つ以上のＣＰＵとソフトウェアの組み合わせで１つのプロセッサを構成し、このプロセッサが複数の処理部として機能する形態がある。また、システムオンチップ（System on Chip：ＳｏＣ）等に代表されるように、複数の処理部を含むシステム全体の機能を１つのＩＣ（Integrated Circuit）チップで実現するプロセッサを使用する形態がある。

　さらに、これらの各種のプロセッサのハードウェア的な構成は、より具体的には、半導体素子などの回路素子を組み合わせた電気回路（Circuitry）である。

　また、本発明の方法は、例えば、その各々のステップをコンピュータに実行させるためのプログラムにより実施することができる。また、このプログラムが記録されたコンピュータ読み取り可能な記録媒体を提供することもできる。

　１０　データ処理システム
　１２　データ作成装置
　１４　機械学習装置
　１６　ユーザ端末装置
　１８　ネットワーク
　２０　取得処理部
　２２　画像メモリ
　２４　設定処理部
　２６　選別処理部
　２８　提案処理部
　３０　通知処理部
　３２　第２選別処理部
　３４　作成処理部

Claims

　付帯情報が記録された複数の画像データから、機械学習をさせるための教師データを作成するデータ作成装置であって、
　プロセッサを備え、
　前記プロセッサは、
　前記複数の画像データの中から、前記付帯情報に基づいて第１選別画像データを選別するための第１条件を設定する設定処理と、
　前記複数の画像データの中から、前記第１条件に適合する付帯情報が記録された前記第１選別画像データを選別する選別処理と、
　前記複数の画像データのうち、前記第１条件に適合しない非選別画像データの中から、前記付帯情報に基づいて第２選別画像データを選別するための第２条件を提案する提案処理と、
　ユーザが前記第２条件を採用しなかった場合には、前記第１選別画像データに基づいて前記教師データを作成し、ユーザが前記第２条件を採用した場合には、前記第１選別画像データおよび前記第２選別画像データに基づいて前記教師データを作成する作成処理と、を実行する、データ作成装置。
　前記プロセッサは、ユーザが前記第２条件を採用した場合に、前記非選別画像データの中から、前記第２条件に適合する付帯情報が記録された前記第２選別画像データを選別する第２選別処理を実行する、請求項１に記載のデータ作成装置。
　前記プロセッサは、ユーザが前記第２条件を採用したか否かの採用結果に基づいて機械学習を実行させ、
　前記提案処理は、前記採用結果の前記機械学習に基づいて、前記第２条件を提案する、請求項１または２に記載のデータ作成装置。
　前記プロセッサは、前記第２条件に関する情報を通知する通知処理を実行する、請求項１または２に記載のデータ作成装置。
　前記第１条件および前記第２条件は、前記付帯情報に関する項目と、前記項目に関する内容と、を含む、請求項１または２に記載のデータ作成装置。
　前記第１条件および前記第２条件は、前記項目が同一であり、かつ、前記内容が異なる、請求項５に記載のデータ作成装置。
　前記項目は、画像データを前記教師データとして使用することに関する可否情報である、請求項６に記載のデータ作成装置。
　前記可否情報は、画像データの使用に関する使用者情報、画像データの使用目的の制限に関する制限情報、および、画像データの著作権者情報の少なくとも１つを含む、請求項７に記載のデータ作成装置。
　前記第１条件の内容は、前記可否情報に基づいて画像データを選別する内容であり、
　前記第２条件の内容は、前記可否情報が未記録の画像データ、または、画像データの使用に制限がない旨の前記可否情報が記録された画像データを選別する内容である、請求項７に記載のデータ作成装置。
　前記項目は、画像データに基づく画像に写っている被写体の種類に関する項目である、請求項６に記載のデータ作成装置。
　前記第１条件は、画像データに基づく画像に写っている被写体に関する条件であり、
　前記提案処理は、前記第１条件の被写体の特徴に基づいて前記第２条件を提案する処理である、請求項１または２に記載のデータ作成装置。
　前記提案処理は、前記第１条件を抽象化させた上位概念の前記第２条件を提案する処理である、請求項１または２に記載のデータ作成装置。
　付帯情報が記録された複数の画像データから、機械学習をさせるための教師データを作成するデータ作成方法であって、
　前記複数の画像データの中から、前記付帯情報に基づいて第１選別画像データを選別するための第１条件を設定する設定工程と、
　前記複数の画像データの中から、前記第１条件に適合する付帯情報が記録された前記第１選別画像データを選別する選別工程と、
　前記複数の画像データのうち、前記第１条件に適合しない非選別画像データの中から、前記付帯情報に基づいて第２選別画像データを選別するための第２条件を提案する提案工程と、
　ユーザが前記第２条件を採用しなかった場合には、前記第１選別画像データに基づいて前記教師データを作成し、ユーザが前記第２条件を採用した場合には、前記第１選別画像データおよび前記第２選別画像データに基づいて前記教師データを作成する作成工程と、を含む、データ作成方法。
　請求項１または２に記載のデータ作成装置の各々の処理をコンピュータに実行させるためのプログラム。
　請求項１または２に記載のデータ作成装置の各々の処理をコンピュータに実行させるためのプログラムが記録されたコンピュータ読み取り可能な記録媒体。