WO2023139750A1 - データセット作成装置及びコンピュータ読み取り可能な記録媒体 - Google Patents

データセット作成装置及びコンピュータ読み取り可能な記録媒体 Download PDF

Info

Publication number
WO2023139750A1
WO2023139750A1 PCT/JP2022/002188 JP2022002188W WO2023139750A1 WO 2023139750 A1 WO2023139750 A1 WO 2023139750A1 JP 2022002188 W JP2022002188 W JP 2022002188W WO 2023139750 A1 WO2023139750 A1 WO 2023139750A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
unit
data set
distance
feature amount
Prior art date
Application number
PCT/JP2022/002188
Other languages
English (en)
French (fr)
Inventor
直登 小林
Original Assignee
ファナック株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ファナック株式会社 filed Critical ファナック株式会社
Priority to PCT/JP2022/002188 priority Critical patent/WO2023139750A1/ja
Publication of WO2023139750A1 publication Critical patent/WO2023139750A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Definitions

  • the present invention relates to a dataset creation device and a computer-readable recording medium.
  • a model is generated by learning using a learning dataset created from the data collected for learning.
  • the generated model is used for inference processing based on target data.
  • the state is determined based on the result of the inference processing.
  • verification is performed using a verification data set created from collected data (for example, Patent Document 1, etc.).
  • the dataset used for learning In order to generate a good model with high judgment accuracy in machine learning, the dataset used for learning must be an unbiased dataset that appropriately covers the range of values that the data can take. In addition, it is desirable to use a data set that is different from the data set used for learning and has no bias and appropriately covers the range of possible values for model verification.
  • FIG. 6 illustrates a distribution map of data groups acquired from industrial machines. Note that FIG. 6 shows an example in which two types of parameters A and B are used to determine the operating state of the industrial machine for the sake of simplicity.
  • white circles indicate data acquired when the industrial machine operates normally.
  • white triangles indicate data acquired when the operation of the industrial machine is abnormal.
  • Data acquired when normal is annotated (labeled) as normal data.
  • data acquired when abnormal is annotated (labeled) corresponding to each abnormal mode.
  • a group of data indicating the operating state of the industrial machine forms clusters for each type of normal mode and abnormal mode within the range of possible values of the data.
  • Fig. 7 is an example of sampling data for learning from the acquired data group.
  • only data with a low value of parameter B among the data acquired during normal operation are sampled as data for learning.
  • data belonging to an abnormal mode with a high parameter B value is not sampled as learning data.
  • a model trained using such sampled learning data only partially learns a normal state. Also, some abnormal modes are not learned.
  • Fig. 8 is another example of sampling data for learning from the acquired data group.
  • all the data belonging to an abnormal mode with a high value of parameter B among the data acquired at the time of abnormality are sampled as learning data. If learning data is sampled in this manner, verification data cannot be sampled from data belonging to an abnormal mode with a high parameter B value. Therefore, the model created for this abnormal mode cannot be verified.
  • the data set creation device When creating a predetermined data set from acquired data, the data set creation device according to the present invention sequentially adds to the data set data that is farther from each data that has already been selected for the data set. By repeating this process, a predetermined data set is created.
  • One aspect of the present disclosure is a dataset creation device that creates a dataset related to model generation in machine learning, comprising: a data acquisition unit that acquires a plurality of annotated data; a feature amount extraction unit that extracts feature amounts from the plurality of data acquired by the data acquisition unit; a linking unit that links the plurality of data and the feature amount extracted from the data by the feature amount extraction unit;
  • the data set creation device includes a calculation unit and a data set creation unit that creates a predetermined data set composed of a plurality of data that are separated from each other based on the distance between the plurality of data calculated by the distance calculation unit.
  • Another aspect of the present disclosure is a computer-readable recording medium storing a program that causes a computer to execute processing for creating a data set related to model generation in machine learning, comprising: a data acquisition unit that acquires a plurality of annotated data; a feature extraction unit that extracts feature amounts from the plurality of data acquired by the data acquisition unit; A computer-readable recording medium recording a program for causing a computer to operate as a distance calculation unit that calculates distances between data and a data set creation unit that creates a predetermined data set composed of a plurality of data that are separated from each other based on the distances between the plurality of data calculated by the distance calculation unit.
  • Another aspect of the present disclosure is a data creation method executed by a data set creation device for creating a data set related to model generation in machine learning, comprising: acquiring a plurality of annotated data; extracting feature amounts from the acquired plurality of data; linking the plurality of data with the feature amounts extracted from the data; calculating distances between the plurality of data based on the feature amounts linked to each data; a step of creating a predetermined data set composed of a plurality of data separated from each other based on the data set creation method.
  • FIG. 1 is a schematic hardware configuration diagram of a data set creation device according to an embodiment of the present invention
  • FIG. 1 is a block diagram showing schematic functions of a data set creation device according to a first embodiment of the present invention
  • FIG. 4 is a diagram showing an example of a method of calculating distances between data
  • 4 is a block diagram showing schematic functions of a data set creation unit
  • FIG. It is an example of plotting data on a plane.
  • 4 is a distribution map of data groups acquired from industrial machines;
  • FIG. It is a figure which shows the example which sampled the data for learning from the acquired data group.
  • FIG. 10 is a diagram showing another example of sampling data for learning from the acquired data group;
  • FIG. 1 is a schematic hardware configuration diagram showing essential parts of a data set creation device according to one embodiment of the present invention.
  • the data set creation device 1 according to this embodiment can be implemented on a personal computer installed at a manufacturing site such as a factory, or on a computer such as a server.
  • a data set creation device 1 according to this embodiment is connected to at least one industrial machine 4 via a wired or wireless network 5 .
  • the CPU 11 provided in the dataset creation device 1 of the present invention is a processor that controls the dataset creation device 1 as a whole.
  • the CPU 11 reads a system program stored in the ROM 12 via the bus 22 and controls the entire data set creation apparatus 1 according to the system program.
  • the RAM 13 temporarily stores calculation data, display data, various data input from the outside, and the like.
  • the non-volatile memory 14 is composed of, for example, a memory backed up by a battery (not shown) or an SSD (Solid State Drive), etc., and retains the storage state even when the data set creation device 1 is powered off.
  • the nonvolatile memory 14 stores data and programs read from the external device 72 via the interface 15, data and programs input via the input device 71, data obtained from the industrial machine 4, and the like.
  • the data and programs stored in the nonvolatile memory 14 may be developed in the RAM 13 at the time of execution/use.
  • various system programs such as a known analysis program are pre-written in the ROM 12 .
  • the interface 15 is an interface for connecting the CPU 11 of the data set creation device 1 and an external device 72 such as a USB device. From the external device 72 side, for example, programs related to the functions of the data set creation device 1 and various data related to service provision can be read. Programs and various data edited in the data set creation apparatus 1 can be stored in external storage means via the external device 72 .
  • each data read into the memory data obtained as a result of executing programs, system programs, etc. are output and displayed via the interface 18.
  • An input device 71 composed of a keyboard, a pointing device, and the like passes commands, data, and the like based on operations by the operator to the CPU 11 via the interface 19 .
  • the interface 20 is an interface for connecting the CPU 11 of the dataset creation device 1 and the network 5 .
  • the network 5 may be a WAN (Wide Area Network) configured by a leased line or the like, or may be a wide area network such as the Internet.
  • the network 5 is connected to industrial machines 4 such as machine tools and robots installed in factories, a fog computer (not shown), a cloud server, and the like. Each of these devices exchanges data with the data set creation device 1 via the network 5 .
  • FIG. 2 is a schematic block diagram of the functions provided by the data set creation device 1 according to the first embodiment of the present invention. Each function of the dataset creation device 1 according to the present embodiment is implemented by the CPU 11 of the dataset creation device 1 shown in FIG.
  • the dataset creation device 1 of this embodiment includes a data acquisition unit 100, a feature quantity extraction unit 110, a linking unit 120, a distance calculation unit 130, a dataset creation unit 140, and an output unit 150.
  • the RAM 13 to the nonvolatile memory 14 of the data set creation device 1 are provided with a data storage section 180 which is an area for storing data acquired by the data acquisition section 100 .
  • the data acquisition unit 100 acquires a plurality of data indicating predetermined states and stores them in the data storage unit 180 .
  • the data acquired by the data acquisition unit 100 may be data detected during operation of the industrial machine 4, for example.
  • the data can be treated as data indicating the operating state of the industrial machine 4 .
  • the data may be data acquired in visual inspection or acoustic inspection of a product manufactured by the industrial machine 4 .
  • the data can be treated as data indicating the finished state of the product manufactured by the industrial machine 4 .
  • other data that can be acquired at a manufacturing site where the industrial machine 4 is installed may be used. In this case, the data can be treated as data indicating the environmental conditions of the manufacturing site.
  • the data acquired by the data acquisition unit 100 is a set of one or more values indicating a predetermined state.
  • the data acquisition unit 100 is preferably annotated data with a label indicating a predetermined state. Annotations may be manually made by an operator.
  • the industrial machine 4 may give automatically. In this case, for example, if the industrial machine 4 is operating without any problem, the data is labeled as normal data, and if a warning signal is generated, the label corresponding to the warning signal is given.
  • the data acquisition unit 100 may acquire data from the industrial machine 4, a fog computer (not shown), a cloud server, or the like via a wired or wireless network 5.
  • data stored in a memory such as compact flash (registered trademark) may be acquired via the external device 72 .
  • an operator may manually input data from the input device 71 .
  • the feature amount extraction unit 110 extracts feature amounts from the data acquired by the data acquisition unit 100 .
  • the feature amount extracted by the feature amount extraction unit 110 for example, when the data acquired by the data acquisition unit 100 is data indicating a predetermined value such as a signal value or a processing parameter setting value, the value itself may be treated as a feature amount. Further, for example, when the data acquired by the data acquisition unit 100 is time-series data such as current values and vibration values, it may be a value or a statistical value indicating characteristics of the waveform. For example, if the data acquired by the data acquisition unit 100 is image data representing the appearance of a product, the value may be extracted by performing predetermined image processing on the image. Also, for high-dimensional data such as images and sounds, the dimensions of the data may be reduced while leaving characteristic portions.
  • the feature amount extraction unit 110 may extract a plurality of values as feature amounts from data representing one predetermined state.
  • the linking unit 120 stores the feature amount extracted by the feature amount extraction unit 110 in the data storage unit 180 by linking it with the data of the extraction source.
  • the distance calculation unit 130 calculates the distance between each data based on the feature amount linked to the data stored in the data storage unit 180 .
  • the distance calculation unit 130 regards, for example, feature amounts as vectors, and calculates the distance between the vectors as the distance between each feature amount. Then, the distance between the feature amounts is set as the distance between data linked to each feature amount.
  • FIG. 3 plots predetermined DATA1 and DATA2 obtained from the industrial machine 4 on a graph.
  • the characteristics of each data can be expressed two-dimensionally with parameters A and B for ease of explanation. It is assumed that the feature amount of DATA1 is (P a1 , P b1 ) and the feature amount of DATA2 is (P a2 , P b2 ).
  • the distance calculation unit 130 calculates, for example, the distance d12 between DATA1 and DATA2 using the following equation (1).
  • the distance calculated by the distance calculation unit 130 is not necessarily limited to the Euclidean distance between the vectors illustrated above. Anything can be used as long as the distance between each data can be defined in some way. For example, known Manhattan distance, Chebyshev distance, Mahalanobis distance, etc. may be used.
  • the data set creation unit 140 Based on the distance between the data calculated by the distance calculation unit 130, the data set creation unit 140 creates a predetermined data set composed of a plurality of data that are separated from each other, and stores it in the data storage unit 180.
  • a plurality of data separated from each other means a data group created by recursively repeating the process of adding the farthest data from the selected one or more data.
  • the following procedure is conceivable as a procedure for the dataset creating unit 140 to create a predetermined dataset composed of a plurality of pieces of data that are separated from each other.
  • the following procedure shows the case where the data set containing N pieces of data is created.
  • ⁇ Procedure 1) Select arbitrary initial data from the data acquired by the data acquisition unit 100 . The data may be selected manually by the operator, or one data may be selected at random.
  • ⁇ Procedure 2) Put the data selected in Procedure 1 into the data set candidates.
  • ⁇ Procedure 3) Allocate the closest distance from each data included in the dataset candidate to each data not included in the dataset candidate.
  • ⁇ Procedure 4) Among the data specified in Procedure 3, the data with the longest distance is included in the data set candidates.
  • Procedure 5) Procedures 3 and 4 are repeated until the number of data in the data set candidate reaches N.
  • a predetermined data set composed of a plurality of mutually deviated data can also be created by other procedures.
  • FIG. 4 is a schematic block diagram of the data set creation unit 140 when creating a predetermined data set composed of a plurality of data separated from each other by the above procedure.
  • the data set creation unit 140 includes an initial data selection unit 142 and a divergence data identification unit 144 .
  • the initial data selection unit 142 selects data to be added to the dataset candidates from the data acquired by the data acquisition unit 100 .
  • Data may be selected manually by the operator, or one data may be selected at random.
  • the divergence data identification unit 144 identifies the farthest data from the data in the dataset candidates.
  • the deviation data specifying unit 144 calculates the distance from each data set candidate that is not included in the data set candidates.
  • the distance to the data set candidate is calculated by calculating the distance to each data set candidate, and making the distance to the data with the shortest distance among them. Then, for the data not included in all the data set candidates, distances from the data set candidates are calculated, and the data with the longest distance from the data set candidates is regarded as the farthest data from the data included in the data set candidates.
  • Fig. 5 is an example of data plotted on a plane.
  • data P1 to P4 are already included in the data set candidates.
  • the data Q1 and Q2 are not included in the data set candidates.
  • the distance between the data Q1 and the data set candidate is the shortest distance Q1P1 among the distances Q1P1, Q1P2, Q1P3, and Q1P4.
  • the distance between the data Q2 and the data set candidate is the shortest distance Q2P4 among the distances Q2P1, Q2P2, Q2P3, and Q2P4.
  • the divergence data specifying unit 144 determines that the data Q2 is the farthest data among the data included in the data set candidates.
  • the data set creation unit 140 creates initial data set candidates using the initial data selection unit 142 . Then, the data specified by the divergence data specifying unit 144 is repeatedly included in the data set candidates to create a predetermined data set composed of a plurality of mutually divergent data.
  • the output unit 150 outputs a predetermined data set created by the data set creation unit 140.
  • the output unit 150 may display and output a predetermined data set to the display device 70, for example, in response to a worker's request.
  • the data may be output to an external memory via the external device 72 .
  • the data may be transmitted and output to the industrial machine 4, a fog computer (not shown), a cloud server, or the like via the network 5.
  • the dataset creation device 1 can automatically create a balanced dataset from the acquired data.
  • a data set with a small bias is created from a plurality of acquired data within the range that the data values can take, and by using this for learning, learning can be performed without bias over the entire range of values that the data can take.
  • learning can be performed without bias over the entire range of values that the data can take.
  • by creating a data set for evaluation from the remaining data it is possible to similarly evaluate without bias over the entire range of values that the data can take.
  • the present invention is not limited to the above-described examples of the embodiments, and can be implemented in various modes by adding appropriate modifications.
  • an example is shown in which a learning data set and an evaluation data set are created from a plurality of acquired data.
  • a learning data set and an evaluation data set are created from a plurality of acquired data.
  • it is not limited to this, and may be used to create one or more unbiased data sets used for a predetermined purpose.
  • data set creation device 4 industrial machine 11 CPU 12 ROMs 13 RAM 14 nonvolatile memory 15, 18, 19, 20 interface 22 bus 70 display device 71 input device 72 external device 100 data acquisition unit 110 feature quantity extraction unit 120 linking unit 130 distance calculation unit 140 data set creation unit 142 initial data selection unit 144 divergence data identification unit 180 data storage unit

Abstract

本開示によるデータセット作成装置は、アノテーション済みの複数のデータを取得するデータ取得部と、データ取得部が取得した複数の前記データからそれぞれ特徴量を抽出する特徴量抽出部と、複数の前記データと、該データから特徴量抽出部が抽出した特徴量とを紐付ける紐付け部と、それぞれのデータに紐付けられた特徴量を基準として複数のデータの間の距離を計算する距離計算部と、距離計算部が計算した複数のデータの間の距離に基づいて、互いに乖離した複数のデータで構成される所定のデータセットを作成するデータセット作成部と、を備える。

Description

データセット作成装置及びコンピュータ読み取り可能な記録媒体
 本発明は、データセット作成装置及びコンピュータ読み取り可能な記録媒体に関する。
 工場などの製造現場では、工作機械やロボットなどの産業機械の動作状態の判定、製品の良品/不良品判定等が行われている。このような判定を必要とする作業は、従来は経験を積んだ作業者が目視で、又はセンサが検知した値を参照しながら行っていた。しかしながら、人手による作業では、各作業者の経験の違いに基づく判断基準の違いや、体調変化により集中力を欠いたりする等の理由で、判定の精度にブレが生じるという問題が生じる。そのため、多くの製造現場では様々な判定作業に、センサ等により検知したデータに基づいて機械学習の技術を用いて自動判定する装置を導入している。
 機械学習では、学習のために収集したデータから作成した学習用のデータセットを用いた学習によりモデルを生成する。生成したモデルは、対象のデータに基づく推論処理に用いられる。そして、その推論処理に結果に基づいて、状態の判定が行われる。また、作成したモデルの質を評価するために、収集したデータから作成した検証用のデータセットを用いた検証を行う(例えば、特許文献1など)。
特開2019-220226号公報
 機械学習で判定の精度が高い良モデルを生成するためには、学習に用いるデータセットが、データのとり得る値の範囲を適度に網羅している偏りのないデータセットである必要がある。また、学習に用いたデータセットとは異なるデータセットであって、データがとり得る値の範囲を適度に網羅している偏りのないデータセットをモデルの検証に用いることが望ましい。
 図6は、産業機械から取得したデータ群の分布図を例示している。なお、図6では、説明を簡単にするために産業機械の動作状態を2種類のパラメータA,Bで判定する例としている。図6において、白丸は産業機械の動作が正常である時に取得されたデータを示している。また、白三角は産業機械の動作が異常であるときに取得されたデータを示している。正常であるときに取得されたデータは、正常なデータであることがアノテーション済み(ラベル付与済み)である。また、異常であるときに取得されたデータは、それぞれの異常モードに対応するアノテーション済み(ラベル付与済み)である。図6に例では、産業機械の動作状態を示すデータ群は、データの取り得る値の範囲内で、正常モード、異常モードの種類ごとにクラスタを形成している。
 図7は、取得したデータ群の中から学習用のデータをサンプリングした例である。図7の例では、正常時に取得したデータの内、パラメータBの値が低いデータのみが学習用のデータとしてサンプリングされている。また、異常時に取得したデータの内、パラメータBの値が高い異常モードに属するデータが学習用データとしてサンプリングされていない。このようにサンプリングした学習用データを用いて学習をしたモデルは、正常な状態を部分的にしか学習しない。また、一部の異常モードを学習しない。
 図8は、取得したデータ群の中から学習用のデータをサンプリングした他の例である。図8の例では、異常時に取得したデータの内、パラメータBの値が高い異常モードに属するデータが全て学習用データとしてサンプリングされている。このように学習用データをサンプリングすると、パラメータBの値が高い異常モードに属するデータから検証用データをサンプリングすることができない。そのため、この異常モードについて作成したモデルの検証をすることができない。
 このように、学習用に用いるデータセットや検証用に用いるデータセットに偏りがあると、学習により生成したモデルの精度が低下する、モデルの検証ができないといった問題が起こる。ランダムにデータを選択する方法では、このような偏りを完全に避けることはできない。また、人手でデータセットを作成するようにすればこのような事態は避けることができるが、膨大なデータからデータセットを作成する作業には大きな労力が必要となる。これは、取得したデータ群から学習用、検証用といった2組のデータセットを作成する時だけでなく、3組以上のデータセットを作成する場合も同様である。
 そのため、取得したデータから偏りの少ないデータセットを作成する手法が望まれている。
 本発明によるデータセット作成装置は、取得したデータから所定のデータセットを作成する際に、既に該データセットに選択された各データに対して距離が遠いデータを、該データセットに順次加えていく。この処理を繰り返すことで、所定のデータセットを作成する。
 そして、本開示の一態様は、機械学習におけるモデルの生成に係るデータセットを作成するデータセット作成装置であって、アノテーション済みの複数のデータを取得するデータ取得部と、前記データ取得部が取得した複数の前記データからそれぞれ特徴量を抽出する特徴量抽出部と、複数の前記データと、該データから前記特徴量抽出部が抽出した特徴量とを紐付ける紐付け部と、それぞれのデータに紐付けられた特徴量を基準として複数の前記データの間の距離を計算する距離計算部と、前記距離計算部が計算した複数の前記データの間の距離に基づいて、互いに乖離した複数のデータで構成される所定のデータセットを作成するデータセット作成部と、を備えるデータセット作成装置である。
 本開示の他の態様は、機械学習におけるモデルの生成に係るデータセットを作成する処理をコンピュータに実行させるプログラムが記録されたコンピュータ読み取り可能な記録媒体であって、アノテーション済みの複数のデータを取得するデータ取得部、前記データ取得部が取得した複数の前記データからそれぞれ特徴量を抽出する特徴量抽出部、複数の前記データと、該データから前記特徴量抽出部が抽出した特徴量とを紐付ける紐付け部、それぞれのデータに紐付けられた特徴量を基準として複数の前記データの間の距離を計算する距離計算部、前記距離計算部が計算した複数の前記データの間の距離に基づいて、互いに乖離した複数のデータで構成される所定のデータセットを作成するデータセット作成部、としてコンピュータを動作させるプログラムを記録したコンピュータ読み取り可能な記録媒体である。
 本開示の他の態様は、機械学習におけるモデルの生成に係るデータセットを作成するデータセット作成装置で実行されるデータ作成方法あって、アノテーション済みの複数のデータを取得するステップと、取得した複数の前記データからそれぞれ特徴量を抽出するステップと、複数の前記データと、該データから抽出された特徴量とを紐付けるステップと、それぞれのデータに紐付けられた特徴量を基準として複数の前記データの間の距離を計算するステップと、計算した複数の前記データの間の距離に基づいて、互いに乖離した複数のデータで構成される所定のデータセットを作成するステップと、を実行するデータセット作成方法である。
 本開示の一態様により、取得したデータから偏りの少ないデータセットを作成することが可能となる。
本発明の一実施形態によるデータセット作成装置の概略的なハードウェア構成図である。 本発明の第1実施形態によるデータセット作成装置の概略的な機能を示すブロック図である。 データの間の距離の計算方法の例を示す図である。 データセット作成部が備える概略的な機能を示すブロック図である。 データを平面上にプロットした例である。 産業機械から取得したデータ群の分布図である。 取得したデータ群の中から学習用のデータをサンプリングした例を示す図である。 取得したデータ群の中から学習用のデータをサンプリングした他の例を示す図である。
 以下、本発明の実施形態を図面と共に説明する。
 図1は本発明の一実施形態によるデータセット作成装置の要部を示す概略的なハードウェア構成図である。本実施形態によるデータセット作成装置1は、工場などの製造現場に設置されたパソコンや、サーバなどのコンピュータ上に実装することができる。本実施形態によるデータセット作成装置1は、有線乃至無線のネットワーク5を介して少なくとも1つの産業機械4と接続されている。
 本発明のデータセット作成装置1が備えるCPU11は、データセット作成装置1を全体的に制御するプロセッサである。CPU11は、バス22を介してROM12に格納されたシステム・プログラムを読み出し、該システム・プログラムに従ってデータセット作成装置1全体を制御する。RAM13には一時的な計算データや表示データ、及び外部から入力された各種データ等が一時的に格納される。
 不揮発性メモリ14は、例えば図示しないバッテリでバックアップされたメモリやSSD(Solid State Drive)等で構成され、データセット作成装置1の電源がオフされても記憶状態が保持される。不揮発性メモリ14には、インタフェース15を介して外部機器72から読み込まれたデータやプログラム、入力装置71を介して入力されたデータやプログラム、産業機械4から取得したデータ等が記憶される。不揮発性メモリ14に記憶されたデータやプログラムは、実行時/利用時にはRAM13に展開されても良い。また、ROM12には、公知の解析プログラムなどの各種システム・プログラムが予め書き込まれている。
 インタフェース15は、データセット作成装置1のCPU11とUSB装置等の外部機器72と接続するためのインタフェースである。外部機器72側からは、例えばデータセット作成装置1の機能に係るプログラムや、サービス提供に係る各種データ等を読み込むことができる。また、データセット作成装置1内で編集したプログラムや各種データ等は、外部機器72を介して外部記憶手段に記憶させることができる。
 表示装置70には、メモリ上に読み込まれた各データ、プログラムやシステム・プログラム等が実行された結果として得られたデータ等が、インタフェース18を介して出力されて表示される。また、キーボードやポインティングデバイス等から構成される入力装置71は、インタフェース19を介して作業者による操作に基づく指令、データ等をCPU11に渡す。
 インタフェース20は、データセット作成装置1のCPU11とネットワーク5とを接続するためのインタフェースである。ネットワーク5は、専用線などで構成されるWAN(Wide Area Network)であってもよいし、インターネットなどの広域ネットワークであってもよい。ネットワーク5には、工場などに設置された工作機械やロボットなどの産業機械4や、図示しないフォグコンピュータ、クラウドサーバ等が接続されている。これらの各装置は、ネットワーク5を介してデータセット作成装置1との間で相互にデータのやり取りを行っている。
 図2は、本発明の第1実施形態によるデータセット作成装置1が備える機能を概略的なブロック図として示したものである。本実施形態によるデータセット作成装置1が備える各機能は、図1に示したデータセット作成装置1が備えるCPU11がシステム・プログラムを実行し、データセット作成装置1の各部の動作を制御することにより実現される。
 本実施形態のデータセット作成装置1は、データ取得部100、特徴量抽出部110、紐付け部120、距離計算部130、データセット作成部140、出力部150を備える。また、データセット作成装置1のRAM13乃至不揮発性メモリ14には、データ取得部100が取得したデータを記憶するための領域であるデータ記憶部180が用意されている。
 データ取得部100は、所定の状態を示す複数のデータを取得してデータ記憶部180に記憶する。データ取得部100が取得するデータは、例えば産業機械4の動作時において検出されたデータであってよい。この場合、当該データは産業機械4の動作状態を示すデータとして扱うことができる。また、産業機械4により製造された製品の外観検査や音響検査において取得されたデータであってよい。この場合、当該データは産業機械4で製造された製品の仕上がり状態を示すデータとして扱うことができる。また、産業機械4が設置された製造現場において取得できるその他のデータであってよい。この場合、当該データは製造現場の環境状態を示すデータとして扱うことができる。データ取得部100が取得するデータは、所定の状態を示す1以上の値の組である。データ取得部100は、所定の状態を示すラベルが付与されているアノテーション済みのデータであることが望ましい。アノテーションは、作業者が手作業で行ったものであってよい。また、産業機械4が自動的に付与するものであってもよい。この場合、例えば産業機械4が問題なく動作している場合は正常状態のデータであるとラベル付けされ、また、警告信号が発生している場合には、その警告信号に対応するラベル付けがされる。
 データ取得部100は、有線乃至無線のネットワーク5を介して産業機械4や、図示しないフォグコンピュータ、クラウドサーバなどからデータを取得してもよい。また、コンパクトフラッシュ(登録商標)などのメモリに記憶されたデータを外部機器72を介して取得するようにしてもよい。更に、作業者が入力装置71から手作業でデータを入力するようにしてもよい。
 特徴量抽出部110は、データ取得部100が取得したデータから特徴量を抽出する。特徴量抽出部110が抽出する特徴量としては、例えばデータ取得部100が取得したデータが信号の値や加工パラメータの設定値などの所定の値を示すデータである場合、その値そのものを特徴量として扱ってよい。また、例えばデータ取得部100が取得したデータが電流値、振動値等の時系列データである場合、その波形の特徴を示す値や統計値であってよい。例えばデータ取得部100が取得したデータが製品の外観などを示す画像データである場合、その画像に対して所定の画像処理を行うことで抽出される値であってよい。また、画像や音声などの高次元のデータについては、特徴的なところを残してデータの次元を削減するようにしてもよい。特徴量抽出部110は、1つの所定の状態を示すデータから複数の値を特徴量として抽出してよい。
 紐付け部120は、特徴量抽出部110が抽出した特徴量を、抽出元のデータと紐付けてデータ記憶部180に記憶する。
 距離計算部130は、データ記憶部180に記憶されているデータに紐付けられた特徴量を基準として、それぞれのデータ間の距離を計算する。距離計算部130は、例えば特徴量をベクトルとみなし、そのベクトル間の距離を各特徴量間の距離として計算する。そして、その特徴量間の距離をそれぞれの特徴量に紐付けられたデータの間の距離とする。
 図3は、産業機械4から取得した所定のDATA1とDATA2をグラフ上にプロットしたものである。図3の例では説明を簡単にするために、それぞれのデータの特徴はパラメータA及びパラメータBの2次元で表すことができるものとしている。DATA1の特徴量は(Pa1,Pb1)で、DATA2の特徴量は(Pa2,Pb2)であるとする。この時、距離計算部130は、例えばDATA1とDATA2の間の距離d12を、以下の数1式で計算する。
Figure JPOXMLDOC01-appb-M000001
 距離計算部130が計算する距離は、必ずしも上記で例示したベクトル間のユークリッド距離に限定されない。それぞれのデータの間の距離を何らかの形で定義できるものであればどのようなものであってもよい。例えば、公知のマンハッタン距離、チェビシェフ距離、マハラノビス距離などを用いるようにしてもよい。
 データセット作成部140は、距離計算部130が計算したそれぞれのデータの間の距離に基づいて、互いに乖離した複数のデータで構成される所定のデータセットを作成し、データ記憶部180に記憶する。本明細書において、互いに乖離した複数のデータは、選択された1乃至複数のデータに対して、該データから見て最も遠くにあるデータを追加する処理を再帰的に繰り返すことで作成されたデータ群のことを意味する。
 データセット作成部140が、互いに乖離した複数のデータで構成される所定のデータセットを作成する手順としては、以下の手順が考えられる。なお、以下の手順は、N個のデータを含むデータセットを作成する場合を示している。
●手順1)データ取得部100が取得したデータの中から任意の初期データを選択する。このデータの選択は、作業者が手作業で選択するようにしてもよいし、ランダムに1つのデータを選択するようにしてもよい。
●手順2)手順1で選択されたデータをデータセット候補に入れる。
●手順3)データセット候補に入っていない各データ対して、データセット候補に入っている各データとの距離の中で最も近い距離を割り振る。
●手順4)手順3で特定した各データの内で、最も距離が遠いデータをデータセット候補に入れる。
●手順5)手順3~4を、データセット候補に入っているデータの個数がN個になるまで繰り返す。
 なお、上記した手順は一例である。互いに乖離した複数のデータで構成される所定のデータセットは、他の手順で作成することも可能である。
 図4は、上記手順により互いに乖離した複数のデータで構成される所定のデータセットを作成する場合における、データセット作成部140が備える概略的なブロック図として示したものである。データセット作成部140は、初期データ選択部142、乖離データ特定部144を備える。
 初期データ選択部142は、データ取得部100が取得したデータの中から、データセット候補に追加するデータを選択する。データの選択は、作業者が手作業で選択するようにしてもよいし、ランダムに1つのデータを選択するようにしてもよい。
 乖離データ特定部144は、データセット候補に入っているデータからみて、最も遠いデータを特定する。乖離データ特定部144は、データセット候補に入っていないそれぞれのデータについて、データセット候補との距離を計算する。データセット候補との距離は、データセット候補となっているそれぞれのデータとの間の距離を計算し、その中で最も距離が近いデータとの間の距離とする。そして、全てのデータセット候補に入っていないデータについて、データセット候補との距離を計算し、その中で最もデータセット候補との距離が遠いデータを、データセット候補に入っているデータから見て、最も遠いデータとする。
 図5は、データを平面上にプロットした例である。図5において、データP1~P4は、既にデータセット候補に入っているものとする。また、データQ1~Q2はデータセット候補には入っていないものとする。この時、データQ1のデータセット候補との距離は、距離Q1P1、距離Q1P2、距離Q1P3、距離Q1P4の中で最も短い距離Q1P1となる。また、データQ2のデータセット候補との距離は、距離Q2P1、距離Q2P2、距離Q2P3、距離Q2P4の中で最も短い距離Q2P4となる。そして、データQ1のデータセット候補との距離Q1P1と、データQ2のデータセット候補との距離Q2P4とを比較すると、データQ2のデータセット候補との距離の方が遠いので、乖離データ特定部144は、データQ2をデータセット候補に入っているデータから見て最も遠いデータであるとする。
 データセット作成部140は、初期データ選択部142により初期のデータセット候補を作成する。そして、乖離データ特定部144により特定したデータをデータセット候補に入れることを繰り返して、互いに乖離した複数のデータで構成される所定のデータセットを作成する。
 出力部150は、データセット作成部140が作成した所定のデータセットを出力する。出力部150は、例えば作業者の要求に応じて、所定のデータセットを表示装置70に表示出力するようにしてもよい。また、外部機器72を介して外部メモリに対して出力するようにしてもよい。或いは、ネットワーク5を介して、産業機械4や、図示しないフォグコンピュータ、クラウドサーバなどに送信出力するようにしてもよい。
 上記構成を備えた本実施形態によるデータセット作成装置1は、取得したデータから偏りのないデータセットを自動で作成することができるようになる。データセット作成装置1を用いて、取得した複数のデータからデータの値がとり得る範囲で偏りが小さいデータセットが作成されるので、これを学習用に用いることで、データが取り得る値の全域にわたって偏りなく学習をすることができる。また、残ったデータから評価用のデータセットを作成することで、同様にデータがとりあえる値の全域にわたって偏りなく評価をすることができる。
 以上、本発明の実施形態について説明したが、本発明は上述した実施の形態の例のみに限定されることなく、適宜の変更を加えることにより様々な態様で実施することができる。
 例えば、上記した実施形態では、取得した複数のデータから学習用のデータセットと、評価用のデータセットを作成する例を示している。しかしながら、これに限定されるものでは無く、所定の目的で使用される偏りのない1以上のデータセットを作成するために用いるようにしてよい。
   1 データセット作成装置
   4 産業機械
  11 CPU
  12 ROM
  13 RAM
  14 不揮発性メモリ
  15,18,19,20 インタフェース
  22 バス
  70 表示装置
  71 入力装置
  72 外部機器
 100 データ取得部
 110 特徴量抽出部
 120 紐付け部
 130 距離計算部
 140 データセット作成部
 142 初期データ選択部
 144 乖離データ特定部
 180 データ記憶部

Claims (4)

  1.  機械学習におけるモデルの生成に係るデータセットを作成するデータセット作成装置であって、
     アノテーション済みの複数のデータを取得するデータ取得部と、
     前記データ取得部が取得した複数の前記データからそれぞれ特徴量を抽出する特徴量抽出部と、
     複数の前記データと、該データから前記特徴量抽出部が抽出した特徴量とを紐付ける紐付け部と、
     それぞれのデータに紐付けられた特徴量を基準として複数の前記データの間の距離を計算する距離計算部と、
     前記距離計算部が計算した複数の前記データの間の距離に基づいて、互いに乖離した複数のデータで構成される所定のデータセットを作成するデータセット作成部と、
    を備えるデータセット作成装置。
  2.  前記データセット作成部は、
     複数の前記データの中からデータセット候補に入れるデータを選択する初期データ選択部と、
     前記データセット候補に入っているデータからみて、最も遠いデータを特定する乖離データ特定部と、を備え、
     前記乖離データ特定部により特定されたデータを前記データセット候補に入れることを繰り返すことで、前記所定のデータセットを作成する、
    請求項1に記載のデータセット作成装置。
  3.  機械学習におけるモデルの生成に係るデータセットを作成する処理をコンピュータに実行させるプログラムが記録されたコンピュータ読み取り可能な記録媒体であって、
     アノテーション済みの複数のデータを取得するデータ取得部、
     前記データ取得部が取得した複数の前記データからそれぞれ特徴量を抽出する特徴量抽出部、
     複数の前記データと、該データから前記特徴量抽出部が抽出した特徴量とを紐付ける紐付け部、
     それぞれのデータに紐付けられた特徴量を基準として複数の前記データの間の距離を計算する距離計算部、
     前記距離計算部が計算した複数の前記データの間の距離に基づいて、互いに乖離した複数のデータで構成される所定のデータセットを作成するデータセット作成部、
    としてコンピュータを動作させるプログラムを記録したコンピュータ読み取り可能な記録媒体。
  4.  機械学習におけるモデルの生成に係るデータセットを作成するデータセット作成装置で実行されるデータ作成方法あって、
     アノテーション済みの複数のデータを取得するステップと、
     取得した複数の前記データからそれぞれ特徴量を抽出するステップと、
     複数の前記データと、該データから抽出された特徴量とを紐付けるステップと、
     それぞれのデータに紐付けられた特徴量を基準として複数の前記データの間の距離を計算するステップと、
     計算した複数の前記データの間の距離に基づいて、互いに乖離した複数のデータで構成される所定のデータセットを作成するステップと、
    を実行するデータセット作成方法。
PCT/JP2022/002188 2022-01-21 2022-01-21 データセット作成装置及びコンピュータ読み取り可能な記録媒体 WO2023139750A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/002188 WO2023139750A1 (ja) 2022-01-21 2022-01-21 データセット作成装置及びコンピュータ読み取り可能な記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/002188 WO2023139750A1 (ja) 2022-01-21 2022-01-21 データセット作成装置及びコンピュータ読み取り可能な記録媒体

Publications (1)

Publication Number Publication Date
WO2023139750A1 true WO2023139750A1 (ja) 2023-07-27

Family

ID=87348419

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/002188 WO2023139750A1 (ja) 2022-01-21 2022-01-21 データセット作成装置及びコンピュータ読み取り可能な記録媒体

Country Status (1)

Country Link
WO (1) WO2023139750A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210287136A1 (en) * 2020-03-11 2021-09-16 Synchrony Bank Systems and methods for generating models for classifying imbalanced data
JP2021179858A (ja) * 2020-05-14 2021-11-18 株式会社日立製作所 学習データセット作成支援装置および学習データセット作成支援方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210287136A1 (en) * 2020-03-11 2021-09-16 Synchrony Bank Systems and methods for generating models for classifying imbalanced data
JP2021179858A (ja) * 2020-05-14 2021-11-18 株式会社日立製作所 学習データセット作成支援装置および学習データセット作成支援方法

Similar Documents

Publication Publication Date Title
JP6693938B2 (ja) 外観検査装置
US11003178B2 (en) Facility diagnosis device, facility diagnosis method, and facility diagnosis program
US8515569B2 (en) Work support system, work support method, and storage medium
JP2018206362A (ja) 工程解析装置、工程解析方法、及び工程解析プログラム
US20190188110A1 (en) Industrial control system, and assistance apparatus, control assist method, and program thereof
CN109839915A (zh) 诊断装置、诊断方法及存储介质
US20200143292A1 (en) Signature enhancement for deviation measurement-based classification of a detected anomaly in an industrial asset
TWI584134B (zh) 製程異因分析方法與製程異因分析系統
CN106663086A (zh) 用于核回归模型的集体的设备和方法
US11568290B2 (en) Method for displaying, user interface unit, display device and inspection apparatus
US11138805B2 (en) Quantitative quality assurance for mixed reality
US20200394092A1 (en) Diagnostic apparatus
JPWO2020188696A1 (ja) 異常検知装置および異常検知方法
JP6795562B2 (ja) 検査装置及び機械学習方法
CN114841509A (zh) 一种产品制造方法、计算设备及可读存储介质
JP2020042668A (ja) 検査装置及び機械学習方法
JP7251955B2 (ja) 検出装置及び機械学習方法
WO2023139750A1 (ja) データセット作成装置及びコンピュータ読み取り可能な記録媒体
US20220414555A1 (en) Prediction system, information processing apparatus, and information processing program
JP7339063B2 (ja) 作業工程に関する学習を行う機械学習プログラム及び機械学習装置
JP2021086219A (ja) 協調作業システム、解析収集装置および解析プログラム
CN113590458A (zh) 用于检查技术系统的方法和设备
JPWO2020194716A1 (ja) 学習装置、学習方法及びプログラム
CN110895719A (zh) 验证装置
WO2022162957A1 (ja) 情報処理装置、制御システムおよびレポート出力方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22921907

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2023574997

Country of ref document: JP