WO2023139750A1

WO2023139750A1 - データセット作成装置及びコンピュータ読み取り可能な記録媒体

Info

Publication number: WO2023139750A1
Application number: PCT/JP2022/002188
Authority: WO
Inventors: 直登小林
Original assignee: ファナック株式会社
Priority date: 2022-01-21
Filing date: 2022-01-21
Publication date: 2023-07-27

Abstract

本開示によるデータセット作成装置は、アノテーション済みの複数のデータを取得するデータ取得部と、データ取得部が取得した複数の前記データからそれぞれ特徴量を抽出する特徴量抽出部と、複数の前記データと、該データから特徴量抽出部が抽出した特徴量とを紐付ける紐付け部と、それぞれのデータに紐付けられた特徴量を基準として複数のデータの間の距離を計算する距離計算部と、距離計算部が計算した複数のデータの間の距離に基づいて、互いに乖離した複数のデータで構成される所定のデータセットを作成するデータセット作成部と、を備える。

Description

データセット作成装置及びコンピュータ読み取り可能な記録媒体

　本発明は、データセット作成装置及びコンピュータ読み取り可能な記録媒体に関する。

　工場などの製造現場では、工作機械やロボットなどの産業機械の動作状態の判定、製品の良品／不良品判定等が行われている。このような判定を必要とする作業は、従来は経験を積んだ作業者が目視で、又はセンサが検知した値を参照しながら行っていた。しかしながら、人手による作業では、各作業者の経験の違いに基づく判断基準の違いや、体調変化により集中力を欠いたりする等の理由で、判定の精度にブレが生じるという問題が生じる。そのため、多くの製造現場では様々な判定作業に、センサ等により検知したデータに基づいて機械学習の技術を用いて自動判定する装置を導入している。

　機械学習では、学習のために収集したデータから作成した学習用のデータセットを用いた学習によりモデルを生成する。生成したモデルは、対象のデータに基づく推論処理に用いられる。そして、その推論処理に結果に基づいて、状態の判定が行われる。また、作成したモデルの質を評価するために、収集したデータから作成した検証用のデータセットを用いた検証を行う（例えば、特許文献１など）。

特開２０１９－２２０２２６号公報

　機械学習で判定の精度が高い良モデルを生成するためには、学習に用いるデータセットが、データのとり得る値の範囲を適度に網羅している偏りのないデータセットである必要がある。また、学習に用いたデータセットとは異なるデータセットであって、データがとり得る値の範囲を適度に網羅している偏りのないデータセットをモデルの検証に用いることが望ましい。

　図６は、産業機械から取得したデータ群の分布図を例示している。なお、図６では、説明を簡単にするために産業機械の動作状態を２種類のパラメータＡ，Ｂで判定する例としている。図６において、白丸は産業機械の動作が正常である時に取得されたデータを示している。また、白三角は産業機械の動作が異常であるときに取得されたデータを示している。正常であるときに取得されたデータは、正常なデータであることがアノテーション済み（ラベル付与済み）である。また、異常であるときに取得されたデータは、それぞれの異常モードに対応するアノテーション済み（ラベル付与済み）である。図６に例では、産業機械の動作状態を示すデータ群は、データの取り得る値の範囲内で、正常モード、異常モードの種類ごとにクラスタを形成している。

　図７は、取得したデータ群の中から学習用のデータをサンプリングした例である。図７の例では、正常時に取得したデータの内、パラメータＢの値が低いデータのみが学習用のデータとしてサンプリングされている。また、異常時に取得したデータの内、パラメータＢの値が高い異常モードに属するデータが学習用データとしてサンプリングされていない。このようにサンプリングした学習用データを用いて学習をしたモデルは、正常な状態を部分的にしか学習しない。また、一部の異常モードを学習しない。

　図８は、取得したデータ群の中から学習用のデータをサンプリングした他の例である。図８の例では、異常時に取得したデータの内、パラメータＢの値が高い異常モードに属するデータが全て学習用データとしてサンプリングされている。このように学習用データをサンプリングすると、パラメータＢの値が高い異常モードに属するデータから検証用データをサンプリングすることができない。そのため、この異常モードについて作成したモデルの検証をすることができない。

　このように、学習用に用いるデータセットや検証用に用いるデータセットに偏りがあると、学習により生成したモデルの精度が低下する、モデルの検証ができないといった問題が起こる。ランダムにデータを選択する方法では、このような偏りを完全に避けることはできない。また、人手でデータセットを作成するようにすればこのような事態は避けることができるが、膨大なデータからデータセットを作成する作業には大きな労力が必要となる。これは、取得したデータ群から学習用、検証用といった２組のデータセットを作成する時だけでなく、３組以上のデータセットを作成する場合も同様である。
　そのため、取得したデータから偏りの少ないデータセットを作成する手法が望まれている。

　本発明によるデータセット作成装置は、取得したデータから所定のデータセットを作成する際に、既に該データセットに選択された各データに対して距離が遠いデータを、該データセットに順次加えていく。この処理を繰り返すことで、所定のデータセットを作成する。

　そして、本開示の一態様は、機械学習におけるモデルの生成に係るデータセットを作成するデータセット作成装置であって、アノテーション済みの複数のデータを取得するデータ取得部と、前記データ取得部が取得した複数の前記データからそれぞれ特徴量を抽出する特徴量抽出部と、複数の前記データと、該データから前記特徴量抽出部が抽出した特徴量とを紐付ける紐付け部と、それぞれのデータに紐付けられた特徴量を基準として複数の前記データの間の距離を計算する距離計算部と、前記距離計算部が計算した複数の前記データの間の距離に基づいて、互いに乖離した複数のデータで構成される所定のデータセットを作成するデータセット作成部と、を備えるデータセット作成装置である。

　本開示の他の態様は、機械学習におけるモデルの生成に係るデータセットを作成する処理をコンピュータに実行させるプログラムが記録されたコンピュータ読み取り可能な記録媒体であって、アノテーション済みの複数のデータを取得するデータ取得部、前記データ取得部が取得した複数の前記データからそれぞれ特徴量を抽出する特徴量抽出部、複数の前記データと、該データから前記特徴量抽出部が抽出した特徴量とを紐付ける紐付け部、それぞれのデータに紐付けられた特徴量を基準として複数の前記データの間の距離を計算する距離計算部、前記距離計算部が計算した複数の前記データの間の距離に基づいて、互いに乖離した複数のデータで構成される所定のデータセットを作成するデータセット作成部、としてコンピュータを動作させるプログラムを記録したコンピュータ読み取り可能な記録媒体である。

　本開示の他の態様は、機械学習におけるモデルの生成に係るデータセットを作成するデータセット作成装置で実行されるデータ作成方法あって、アノテーション済みの複数のデータを取得するステップと、取得した複数の前記データからそれぞれ特徴量を抽出するステップと、複数の前記データと、該データから抽出された特徴量とを紐付けるステップと、それぞれのデータに紐付けられた特徴量を基準として複数の前記データの間の距離を計算するステップと、計算した複数の前記データの間の距離に基づいて、互いに乖離した複数のデータで構成される所定のデータセットを作成するステップと、を実行するデータセット作成方法である。

　本開示の一態様により、取得したデータから偏りの少ないデータセットを作成することが可能となる。

本発明の一実施形態によるデータセット作成装置の概略的なハードウェア構成図である。本発明の第１実施形態によるデータセット作成装置の概略的な機能を示すブロック図である。データの間の距離の計算方法の例を示す図である。データセット作成部が備える概略的な機能を示すブロック図である。データを平面上にプロットした例である。産業機械から取得したデータ群の分布図である。取得したデータ群の中から学習用のデータをサンプリングした例を示す図である。取得したデータ群の中から学習用のデータをサンプリングした他の例を示す図である。

　以下、本発明の実施形態を図面と共に説明する。
　図１は本発明の一実施形態によるデータセット作成装置の要部を示す概略的なハードウェア構成図である。本実施形態によるデータセット作成装置１は、工場などの製造現場に設置されたパソコンや、サーバなどのコンピュータ上に実装することができる。本実施形態によるデータセット作成装置１は、有線乃至無線のネットワーク５を介して少なくとも１つの産業機械４と接続されている。

　本発明のデータセット作成装置１が備えるＣＰＵ１１は、データセット作成装置１を全体的に制御するプロセッサである。ＣＰＵ１１は、バス２２を介してＲＯＭ１２に格納されたシステム・プログラムを読み出し、該システム・プログラムに従ってデータセット作成装置１全体を制御する。ＲＡＭ１３には一時的な計算データや表示データ、及び外部から入力された各種データ等が一時的に格納される。

　不揮発性メモリ１４は、例えば図示しないバッテリでバックアップされたメモリやＳＳＤ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ）等で構成され、データセット作成装置１の電源がオフされても記憶状態が保持される。不揮発性メモリ１４には、インタフェース１５を介して外部機器７２から読み込まれたデータやプログラム、入力装置７１を介して入力されたデータやプログラム、産業機械４から取得したデータ等が記憶される。不揮発性メモリ１４に記憶されたデータやプログラムは、実行時／利用時にはＲＡＭ１３に展開されても良い。また、ＲＯＭ１２には、公知の解析プログラムなどの各種システム・プログラムが予め書き込まれている。

　インタフェース１５は、データセット作成装置１のＣＰＵ１１とＵＳＢ装置等の外部機器７２と接続するためのインタフェースである。外部機器７２側からは、例えばデータセット作成装置１の機能に係るプログラムや、サービス提供に係る各種データ等を読み込むことができる。また、データセット作成装置１内で編集したプログラムや各種データ等は、外部機器７２を介して外部記憶手段に記憶させることができる。

　表示装置７０には、メモリ上に読み込まれた各データ、プログラムやシステム・プログラム等が実行された結果として得られたデータ等が、インタフェース１８を介して出力されて表示される。また、キーボードやポインティングデバイス等から構成される入力装置７１は、インタフェース１９を介して作業者による操作に基づく指令、データ等をＣＰＵ１１に渡す。

　インタフェース２０は、データセット作成装置１のＣＰＵ１１とネットワーク５とを接続するためのインタフェースである。ネットワーク５は、専用線などで構成されるＷＡＮ（Wide Area Network）であってもよいし、インターネットなどの広域ネットワークであってもよい。ネットワーク５には、工場などに設置された工作機械やロボットなどの産業機械４や、図示しないフォグコンピュータ、クラウドサーバ等が接続されている。これらの各装置は、ネットワーク５を介してデータセット作成装置１との間で相互にデータのやり取りを行っている。

　図２は、本発明の第１実施形態によるデータセット作成装置１が備える機能を概略的なブロック図として示したものである。本実施形態によるデータセット作成装置１が備える各機能は、図１に示したデータセット作成装置１が備えるＣＰＵ１１がシステム・プログラムを実行し、データセット作成装置１の各部の動作を制御することにより実現される。

　本実施形態のデータセット作成装置１は、データ取得部１００、特徴量抽出部１１０、紐付け部１２０、距離計算部１３０、データセット作成部１４０、出力部１５０を備える。また、データセット作成装置１のＲＡＭ１３乃至不揮発性メモリ１４には、データ取得部１００が取得したデータを記憶するための領域であるデータ記憶部１８０が用意されている。

　データ取得部１００は、所定の状態を示す複数のデータを取得してデータ記憶部１８０に記憶する。データ取得部１００が取得するデータは、例えば産業機械４の動作時において検出されたデータであってよい。この場合、当該データは産業機械４の動作状態を示すデータとして扱うことができる。また、産業機械４により製造された製品の外観検査や音響検査において取得されたデータであってよい。この場合、当該データは産業機械４で製造された製品の仕上がり状態を示すデータとして扱うことができる。また、産業機械４が設置された製造現場において取得できるその他のデータであってよい。この場合、当該データは製造現場の環境状態を示すデータとして扱うことができる。データ取得部１００が取得するデータは、所定の状態を示す１以上の値の組である。データ取得部１００は、所定の状態を示すラベルが付与されているアノテーション済みのデータであることが望ましい。アノテーションは、作業者が手作業で行ったものであってよい。また、産業機械４が自動的に付与するものであってもよい。この場合、例えば産業機械４が問題なく動作している場合は正常状態のデータであるとラベル付けされ、また、警告信号が発生している場合には、その警告信号に対応するラベル付けがされる。

　データ取得部１００は、有線乃至無線のネットワーク５を介して産業機械４や、図示しないフォグコンピュータ、クラウドサーバなどからデータを取得してもよい。また、コンパクトフラッシュ（登録商標）などのメモリに記憶されたデータを外部機器７２を介して取得するようにしてもよい。更に、作業者が入力装置７１から手作業でデータを入力するようにしてもよい。

　特徴量抽出部１１０は、データ取得部１００が取得したデータから特徴量を抽出する。特徴量抽出部１１０が抽出する特徴量としては、例えばデータ取得部１００が取得したデータが信号の値や加工パラメータの設定値などの所定の値を示すデータである場合、その値そのものを特徴量として扱ってよい。また、例えばデータ取得部１００が取得したデータが電流値、振動値等の時系列データである場合、その波形の特徴を示す値や統計値であってよい。例えばデータ取得部１００が取得したデータが製品の外観などを示す画像データである場合、その画像に対して所定の画像処理を行うことで抽出される値であってよい。また、画像や音声などの高次元のデータについては、特徴的なところを残してデータの次元を削減するようにしてもよい。特徴量抽出部１１０は、１つの所定の状態を示すデータから複数の値を特徴量として抽出してよい。

　紐付け部１２０は、特徴量抽出部１１０が抽出した特徴量を、抽出元のデータと紐付けてデータ記憶部１８０に記憶する。

　距離計算部１３０は、データ記憶部１８０に記憶されているデータに紐付けられた特徴量を基準として、それぞれのデータ間の距離を計算する。距離計算部１３０は、例えば特徴量をベクトルとみなし、そのベクトル間の距離を各特徴量間の距離として計算する。そして、その特徴量間の距離をそれぞれの特徴量に紐付けられたデータの間の距離とする。

　図３は、産業機械４から取得した所定のＤＡＴＡ１とＤＡＴＡ２をグラフ上にプロットしたものである。図３の例では説明を簡単にするために、それぞれのデータの特徴はパラメータＡ及びパラメータＢの２次元で表すことができるものとしている。ＤＡＴＡ１の特徴量は（Ｐ_a1，Ｐ_b1）で、ＤＡＴＡ２の特徴量は（Ｐ_a2，Ｐ_b2）であるとする。この時、距離計算部１３０は、例えばＤＡＴＡ１とＤＡＴＡ２の間の距離ｄ₁₂を、以下の数１式で計算する。

　距離計算部１３０が計算する距離は、必ずしも上記で例示したベクトル間のユークリッド距離に限定されない。それぞれのデータの間の距離を何らかの形で定義できるものであればどのようなものであってもよい。例えば、公知のマンハッタン距離、チェビシェフ距離、マハラノビス距離などを用いるようにしてもよい。

　データセット作成部１４０は、距離計算部１３０が計算したそれぞれのデータの間の距離に基づいて、互いに乖離した複数のデータで構成される所定のデータセットを作成し、データ記憶部１８０に記憶する。本明細書において、互いに乖離した複数のデータは、選択された１乃至複数のデータに対して、該データから見て最も遠くにあるデータを追加する処理を再帰的に繰り返すことで作成されたデータ群のことを意味する。

　データセット作成部１４０が、互いに乖離した複数のデータで構成される所定のデータセットを作成する手順としては、以下の手順が考えられる。なお、以下の手順は、Ｎ個のデータを含むデータセットを作成する場合を示している。
●手順１）データ取得部１００が取得したデータの中から任意の初期データを選択する。このデータの選択は、作業者が手作業で選択するようにしてもよいし、ランダムに１つのデータを選択するようにしてもよい。
●手順２）手順１で選択されたデータをデータセット候補に入れる。
●手順３）データセット候補に入っていない各データ対して、データセット候補に入っている各データとの距離の中で最も近い距離を割り振る。
●手順４）手順３で特定した各データの内で、最も距離が遠いデータをデータセット候補に入れる。
●手順５）手順３～４を、データセット候補に入っているデータの個数がＮ個になるまで繰り返す。

　なお、上記した手順は一例である。互いに乖離した複数のデータで構成される所定のデータセットは、他の手順で作成することも可能である。

　図４は、上記手順により互いに乖離した複数のデータで構成される所定のデータセットを作成する場合における、データセット作成部１４０が備える概略的なブロック図として示したものである。データセット作成部１４０は、初期データ選択部１４２、乖離データ特定部１４４を備える。

　初期データ選択部１４２は、データ取得部１００が取得したデータの中から、データセット候補に追加するデータを選択する。データの選択は、作業者が手作業で選択するようにしてもよいし、ランダムに１つのデータを選択するようにしてもよい。

　乖離データ特定部１４４は、データセット候補に入っているデータからみて、最も遠いデータを特定する。乖離データ特定部１４４は、データセット候補に入っていないそれぞれのデータについて、データセット候補との距離を計算する。データセット候補との距離は、データセット候補となっているそれぞれのデータとの間の距離を計算し、その中で最も距離が近いデータとの間の距離とする。そして、全てのデータセット候補に入っていないデータについて、データセット候補との距離を計算し、その中で最もデータセット候補との距離が遠いデータを、データセット候補に入っているデータから見て、最も遠いデータとする。

　図５は、データを平面上にプロットした例である。図５において、データＰ１～Ｐ４は、既にデータセット候補に入っているものとする。また、データＱ１～Ｑ２はデータセット候補には入っていないものとする。この時、データＱ１のデータセット候補との距離は、距離Ｑ１Ｐ１、距離Ｑ１Ｐ２、距離Ｑ１Ｐ３、距離Ｑ１Ｐ４の中で最も短い距離Ｑ１Ｐ１となる。また、データＱ２のデータセット候補との距離は、距離Ｑ２Ｐ１、距離Ｑ２Ｐ２、距離Ｑ２Ｐ３、距離Ｑ２Ｐ４の中で最も短い距離Ｑ２Ｐ４となる。そして、データＱ１のデータセット候補との距離Ｑ１Ｐ１と、データＱ２のデータセット候補との距離Ｑ２Ｐ４とを比較すると、データＱ２のデータセット候補との距離の方が遠いので、乖離データ特定部１４４は、データＱ２をデータセット候補に入っているデータから見て最も遠いデータであるとする。

　データセット作成部１４０は、初期データ選択部１４２により初期のデータセット候補を作成する。そして、乖離データ特定部１４４により特定したデータをデータセット候補に入れることを繰り返して、互いに乖離した複数のデータで構成される所定のデータセットを作成する。

　出力部１５０は、データセット作成部１４０が作成した所定のデータセットを出力する。出力部１５０は、例えば作業者の要求に応じて、所定のデータセットを表示装置７０に表示出力するようにしてもよい。また、外部機器７２を介して外部メモリに対して出力するようにしてもよい。或いは、ネットワーク５を介して、産業機械４や、図示しないフォグコンピュータ、クラウドサーバなどに送信出力するようにしてもよい。

　上記構成を備えた本実施形態によるデータセット作成装置１は、取得したデータから偏りのないデータセットを自動で作成することができるようになる。データセット作成装置１を用いて、取得した複数のデータからデータの値がとり得る範囲で偏りが小さいデータセットが作成されるので、これを学習用に用いることで、データが取り得る値の全域にわたって偏りなく学習をすることができる。また、残ったデータから評価用のデータセットを作成することで、同様にデータがとりあえる値の全域にわたって偏りなく評価をすることができる。

　以上、本発明の実施形態について説明したが、本発明は上述した実施の形態の例のみに限定されることなく、適宜の変更を加えることにより様々な態様で実施することができる。
　例えば、上記した実施形態では、取得した複数のデータから学習用のデータセットと、評価用のデータセットを作成する例を示している。しかしながら、これに限定されるものでは無く、所定の目的で使用される偏りのない１以上のデータセットを作成するために用いるようにしてよい。

　　　１　データセット作成装置
　　　４　産業機械
　　１１　ＣＰＵ
　　１２　ＲＯＭ
　　１３　ＲＡＭ
　　１４　不揮発性メモリ
　　１５，１８，１９，２０　インタフェース
　　２２　バス
　　７０　表示装置
　　７１　入力装置
　　７２　外部機器
　１００　データ取得部
　１１０　特徴量抽出部
　１２０　紐付け部
　１３０　距離計算部
　１４０　データセット作成部
　１４２　初期データ選択部
　１４４　乖離データ特定部
　１８０　データ記憶部

Claims

　機械学習におけるモデルの生成に係るデータセットを作成するデータセット作成装置であって、
　アノテーション済みの複数のデータを取得するデータ取得部と、
　前記データ取得部が取得した複数の前記データからそれぞれ特徴量を抽出する特徴量抽出部と、
　複数の前記データと、該データから前記特徴量抽出部が抽出した特徴量とを紐付ける紐付け部と、
　それぞれのデータに紐付けられた特徴量を基準として複数の前記データの間の距離を計算する距離計算部と、
　前記距離計算部が計算した複数の前記データの間の距離に基づいて、互いに乖離した複数のデータで構成される所定のデータセットを作成するデータセット作成部と、
を備えるデータセット作成装置。
　前記データセット作成部は、
　複数の前記データの中からデータセット候補に入れるデータを選択する初期データ選択部と、
　前記データセット候補に入っているデータからみて、最も遠いデータを特定する乖離データ特定部と、を備え、
　前記乖離データ特定部により特定されたデータを前記データセット候補に入れることを繰り返すことで、前記所定のデータセットを作成する、
請求項１に記載のデータセット作成装置。
　機械学習におけるモデルの生成に係るデータセットを作成する処理をコンピュータに実行させるプログラムが記録されたコンピュータ読み取り可能な記録媒体であって、
　アノテーション済みの複数のデータを取得するデータ取得部、
　前記データ取得部が取得した複数の前記データからそれぞれ特徴量を抽出する特徴量抽出部、
　複数の前記データと、該データから前記特徴量抽出部が抽出した特徴量とを紐付ける紐付け部、
　それぞれのデータに紐付けられた特徴量を基準として複数の前記データの間の距離を計算する距離計算部、
　前記距離計算部が計算した複数の前記データの間の距離に基づいて、互いに乖離した複数のデータで構成される所定のデータセットを作成するデータセット作成部、
としてコンピュータを動作させるプログラムを記録したコンピュータ読み取り可能な記録媒体。
　機械学習におけるモデルの生成に係るデータセットを作成するデータセット作成装置で実行されるデータ作成方法あって、
　アノテーション済みの複数のデータを取得するステップと、
　取得した複数の前記データからそれぞれ特徴量を抽出するステップと、
　複数の前記データと、該データから抽出された特徴量とを紐付けるステップと、
　それぞれのデータに紐付けられた特徴量を基準として複数の前記データの間の距離を計算するステップと、
　計算した複数の前記データの間の距離に基づいて、互いに乖離した複数のデータで構成される所定のデータセットを作成するステップと、
を実行するデータセット作成方法。