WO2020026395A1 - モデル作成装置、モデル作成方法、及び、モデル作成プログラムが記録された記録媒体 - Google Patents

モデル作成装置、モデル作成方法、及び、モデル作成プログラムが記録された記録媒体 Download PDF

Info

Publication number
WO2020026395A1
WO2020026395A1 PCT/JP2018/028965 JP2018028965W WO2020026395A1 WO 2020026395 A1 WO2020026395 A1 WO 2020026395A1 JP 2018028965 W JP2018028965 W JP 2018028965W WO 2020026395 A1 WO2020026395 A1 WO 2020026395A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
label
model
model creation
observation
Prior art date
Application number
PCT/JP2018/028965
Other languages
English (en)
French (fr)
Inventor
あずさ 澤田
剛志 柴田
高橋 勝彦
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to PCT/JP2018/028965 priority Critical patent/WO2020026395A1/ja
Priority to US17/263,738 priority patent/US20210174231A1/en
Priority to JP2020533981A priority patent/JP7115546B2/ja
Publication of WO2020026395A1 publication Critical patent/WO2020026395A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Definitions

  • the present invention relates to, for example, a model creation device for creating a model for estimating the state of an observation target.
  • Machine learning is introduced, for example, as a technique for identifying whether or not a product manufactured in a factory has a defect.
  • data hereinafter, referred to as “learning data”
  • learning data is associated with data and a label indicating whether or not an event of interest (hereinafter, referred to as “attention event”) has occurred with respect to the data.
  • attention event an event of interest
  • the model is information indicating a relationship between the data and the label.
  • low-quality labels may be associated with (assigned to or assigned to) the data.
  • Machine learning optimizes a model so that data is given a label given to the data. For this reason, when a low-quality label is used, machine learning sometimes creates a model with low identification performance.
  • the defect or lesion can be detected as early as possible at the smallest possible stage.
  • giving a high-quality label to data leads to creating a model with high identification performance.
  • obtaining high quality labels requires detailed analysis of the data, which results in very high costs. Therefore, it is substantially difficult to assign a high-quality label to a large amount of data or correct the low-quality label to correct the data.
  • Non-Patent Document 1 discloses machine learning for creating a model for learning data including an erroneous label.
  • a label that is out of the tendency of the entire learning data is selected as an erroneous label, the selected erroneous label is corrected, and a model is created based on the corrected label.
  • the machine learning creates a model without emphasizing data on the erroneous label.
  • Patent Document 1 discloses a machine learning device that learns a failure prediction of a spindle or a motor that drives the spindle.
  • Patent Literature 1 weights data according to the length of time and learns a failure prediction based on the weighted data, but cannot detect an erroneous label.
  • Non-Patent Document 1 cannot always detect incorrect labels correctly. The reason for this is that the machine learning cannot detect, for example, erroneous labels having a consistent tendency in the learning data. Mislabels having a consistent tendency are likely to occur, for example, near identification boundaries in the model. As a result, if the machine learning is used in a system that predicts a defect or the like of the product while producing the product, there is a risk that the machine learning may miss the defect due to a wrong prediction.
  • one of the objects of the present invention is to provide a model creation device or the like that can reduce the risk of missing an attention event.
  • a model creation device includes: A label related to the first data and a label related to the second data are set based on the degree of similarity between the observation information indicating the situation where the first data is observed and the observation information indicating the situation where the second data is observed. Is determined whether or not are similar, label control means for giving a label related to the second data as a label related to the first data when it is determined that similar, A model creation unit that calculates a model representing a relationship between data information including the first data and the second data, and label information including the label regarding the assigned label and the second data.
  • the model creation method includes: Based on the degree of similarity between the observation information indicating the situation in which the first data is observed and the observation information indicating the situation in which the second data is observed, the information processing device determines a label for the first data and the It is determined whether or not the label relating to the second data is similar. If it is determined that the label is similar, a label relating to the second data is given as a label relating to the first data, and the first data and the second A model representing the relationship between the data information including the two data and the label information including the label regarding the assigned label and the second data is calculated.
  • a model creation program comprises: A label related to the first data and a label related to the second data are set based on the degree of similarity between the observation information indicating the situation where the first data is observed and the observation information indicating the situation where the second data is observed. It is determined whether or not are similar, a label control function of giving a label related to the second data as a label related to the first data when it is determined that they are similar, A computer realizes a model creation function for calculating a model representing a relationship between the data information including the first data and the second data and the label information including the label regarding the attached label and the second data. Let it.
  • the above object is further achieved by a computer-readable recording medium that records the program.
  • the risk of overlooking the event of interest can be reduced.
  • FIG. 2 is a block diagram illustrating a configuration of the model creation device according to the first embodiment of the present invention.
  • 5 is a flowchart illustrating a flow of processing in the model creation device according to the first embodiment. It is a figure which represents an example of a data series notionally. It is a block diagram showing composition which a model creation device concerning a 2nd embodiment of the present invention has. It is a flow chart which shows a flow of processing in a model creation device concerning a 2nd embodiment.
  • FIG. 3 is a block diagram schematically illustrating a hardware configuration example of a calculation processing device capable of realizing the model creation device according to each embodiment of the present invention.
  • FIG. 1 is a block diagram illustrating a configuration of a model creation device 101 according to the first embodiment of the present invention.
  • the model creation device 101 includes a label control unit 102 and a model creation unit 103.
  • the model creation device 101 is communicably connected to the data sequence storage unit 151, the label information storage unit 152, the observation information storage unit 153, the model information storage unit 154, and the parameter information storage unit 155.
  • the model information storage unit 154, the data series storage unit 151, the label information storage unit 152, the observation information storage unit 153, and the parameter information storage unit 155 may be a single storage device or a plurality of storage devices. It may be a device.
  • the data series storage unit 151 can store data observed (measured) in an observation environment where an observation target exists. Information indicating the observation environment is referred to as “observation information”.
  • the observation information indicates, for example, a certain time interval for observing the observation target.
  • the data is, for example, image data obtained by imaging the observation target.
  • the data may be text data or binary data.
  • the observation information represents, for example, the predetermined illumination angle when observing the observation target in a situation where the observation target is irradiated with light at a predetermined illumination angle.
  • the data is, for example, image data obtained by imaging the observation target in a situation where light is emitted at the predetermined illumination angle.
  • a series of data observed in a certain observation environment is referred to as a “data series”.
  • the data series includes, for example, a series of image data in which the observation target is imaged every 0.1 seconds in 10 seconds, a series of image data in which the observation target is imaged at a plurality of resolutions, or a plurality of angles of the observation target. Is a series of image data and the like imaged at.
  • the data series storage unit 151 may store data for each data series.
  • the data series is, for example, a temporal data series representing data observed with respect to the observation target over time, or a spatial data series representing data observed with respect to the observation target while changing the light irradiation angle. And so on.
  • the temporal data series is, for example, a collection of data obtained by measuring an observation target at a certain time interval.
  • a certain time interval may be a fixed time interval or a non-fixed time interval.
  • the temporal data series is, for example, a collection of image data obtained by imaging a certain patient's organ at certain time intervals.
  • the temporal data series may be, for example, a collection of data acquired at regular intervals, such as a moving image.
  • the time interval need not be in seconds, but may be in units of time, date, or age.
  • the certain time interval is not limited to the example described above.
  • a spatial data series is a collection of data obtained by observing an observation target in a certain observation environment.
  • a certain observation environment indicates that observation is performed while changing noise intensity, resolution, and the like at given intervals.
  • a certain observation environment indicates that the observation target is measured while changing the angle at which the observation target is irradiated with light.
  • a certain observation environment indicates that the observation target is measured while changing the altitude at which the observation target is imaged.
  • Certain observation environments are not limited to the examples described above.
  • the spatial data series is a group of image data acquired by imaging an observation target (for example, an inspection target) at a predetermined illumination angle.
  • the data in the data series does not necessarily need to be data representing only the observation target, but may be data containing the observation target.
  • the data series is a series of image data obtained by imaging the observation target
  • the data includes a region where the observation target is imaged and a region where the observation target is not imaged. May be image data including
  • the moving image processing technique is used to classify the image data into the observation target region and the region not including the observation target, and each region will be described with reference to FIG. Such a process may be performed, and thereafter, the respective results may be stored in association with each other.
  • the data sequence may be data representing a region between mutually associated regions in the image data of the data sequence.
  • the data series may be image data in which the associated regions are divided into one data series using a moving image processing technique.
  • the label information storage unit 152 can store label information indicating a label given to data.
  • the label may be given to each data in the data series, or may be given to some data in the data series.
  • the label information is information indicating a label such as a positive label and a negative label.
  • the positive label is, for example, a label indicating that an attention event has occurred in the observation target.
  • the negative label is, for example, a label indicating that no observed event has occurred in the observation target.
  • the label information may be a label (hereinafter, referred to as “soft label”) such as a numerical value indicating the possibility of being a positive label or a numerical value indicating the possibility of being a negative label.
  • the correct label is attached to data representing a product having a defect, for example.
  • the observation target is an organ
  • the positive label is given to, for example, data representing an organ having a lesion.
  • a negative label is a label different from a positive label.
  • the negative label is attached to, for example, data representing an organ in which a lesion is not detected or data representing a normal organ.
  • the primary label may be further subdivided into a plurality of primary labels.
  • the label, the positive label, and the negative label are not limited to the examples described above.
  • One data series may include positive data and negative data, may include only positive data, or may include only negative data.
  • One data series may include unlabeled data representing unlabeled data. Further, the label given to the data in one data series does not necessarily need to be a fixed label.
  • a plurality of parameters such as ranges may be provided.
  • the label control unit 102 assigns a positive label to the first data having the observation information within the first range from the observation information on the positive data.
  • the label control unit 102 assigns a “positive than negative” label as a soft label to the first data having the observation information within the second range wider than the first range.
  • the label control unit 102 assigns a negative label to the first data having the observation information in the other range.
  • the soft label is not limited to three types of labels, and may be four or more labels. Soft labels, ranges, and thresholds are not limited to the examples described above.
  • the label control unit 102 may assign a positive label to data relating to observation information that is similar to the time relating to the positive data in the temporal data series and is before the time when the positive data occurs. .
  • the label control unit 102 propagates (assigns) a positive label to data observed at a time similar to the time, out of data observed before the time when the positive data is generated. ) Execute the process. For example, the processing can be applied when the negative data changes to the positive data over time.
  • the data is observation data obtained when the observation target is observed in a certain observation environment (situation).
  • the observation information is information indicating the environment (situation) in which the data is observed.
  • the label is information indicating whether or not a noticeable event has occurred in the observation target (or a possibility of occurrence of the noticeable event) when the observation target is observed in the observation environment.
  • the label control unit 202 calculates the distance between the two numerical data, and based on the calculated distance, the label related to the first data and the label related to the second data are similar. Is determined.
  • the process of determining whether or not the labels are similar is not limited to the above-described example.
  • the label control unit 202 assigns a label about the second data as a label about the first data. (Step S202).
  • the model creating unit 203 reads the data information and the label information, and creates a model representing the relationship between the read data information and the read label information (Step S203).
  • the data information represents data including the first data and the second data.
  • the label information includes a label for the first data and a label for the second data.
  • Model creation device 101
  • Label control unit 102
  • Model creation unit 151
  • Data series storage unit 152
  • Label information storage unit 153
  • Observation information storage unit 154
  • Model information storage unit 155
  • Parameter information storage unit 301
  • Event 307 Event 308
  • Negative label 309 Negative label 310 Positive label 311 Positive label 312
  • Data series 313 Label information
  • Model creation unit 202
  • Model creation unit 20
  • Computing unit 21
  • CPU Reference Signs List 22
  • volatile storage device 23
  • disk non-volatile recording medium
  • input device 26
  • output device 27 communication IF

Abstract

注目事象を見逃すリスクを低減することができるモデル作成装置が開示される。モデル作成装置は、第1データが観測された状況を表す観測情報と、第2データが観測された状況を表す観測情報とが類似している程度に基づき、該第1データに関するラベルと該第2データに関するラベルとが類似しているか否かを判定し、類似していると判定した場合に該第1データに関するラベルとして、該第2データに関するラベルを付与し、該第1データ及び該第2データを含むデータ情報と、付与された該ラベル及び該第2データに関する該ラベルを含むラベル情報との関係性を表すモデルを算出する。

Description

モデル作成装置、モデル作成方法、及び、モデル作成プログラムが記録された記録媒体
 本発明は、たとえば、観測対象の状態を推定するモデルを作成するモデル作成装置等に関する。
 機械学習は、たとえば、工場にて生産された製品が欠陥を有しているか否かを識別する技術として導入されている。たとえば、機械学習は、データと、当該データに関して注目している事象(以降、「注目事象」と表す)が生じているか否かを表すラベルとが関連付けされたデータ(以降、「学習データ」と表す)に基づき、所与のデータに対するラベルを推定(予測する)モデルを作成する。当該モデルは、当該データと、当該ラベルとの関係性を表す情報である。
 学習データにおいて、データには、質の低いラベルが関連付けされて(割り当てられて、付与されて)いることもある。機械学習は、データに対して当該データに付与されたラベルを与えるようにモデルを最適化する。このため、質の低いラベルを用いた場合等に、機械学習は、低い識別性能のモデルを作成してしまうこともある。
 注目事象が、製品の欠陥、製品の劣化、または、器官の病巣等である場合には、欠陥や病巣等を、可能な限り小さな段階で、かつ、早期に検出できるのが望ましい。機械学習を用いて注目事象を検出する場合に、データに対して、質が高いラベルを付与することは、識別性能が高いモデルを作成することにつながる。しかし、質の高いラベルを得るためには、データを詳細に解析する必要があり、その結果、非常に高いコストが必要である。したがって、大量のデータに対して質が高いラベルを付与すること、または、質の低いラベルを修正することによって当該データに正しいラベル付与することは、実質的に困難である。
 非特許文献1には、誤ラベルを含む学習データに対してモデルを作成する機械学習が開示されている。当該機械学習は、学習データ全体の傾向から外れているラベルを誤ラベルとして選択し、選択した誤ラベルを修正し、修正後のラベルに基づきモデルを作成する。または、当該機械学習は、当該誤ラベルに関するデータを重視せずにモデルを作成する。
 特許文献1には、主軸または主軸を駆動するモータの故障予知を学習する機械学習装置が開示されている。
特許第6140331号公報
Daiki Tanaka, Daiki Ikami, Toshihiko Yamasaki and Kiyoharu Aizawa, "Joint Optimization Framework for Learning with Noisy Labels" Computer Vision and Pattern Recognition (CVPR), Salt Lake City, USA, Jun 19, 2018 - Jun 21, 2018.
 しかし、特許文献1に開示された機械学習装置は、時間の長さに応じてデータを重み付けし、重み付けされたデータに基づき故障予知を学習するものの、誤ラベルを検知することはできない。
 また、非特許文献1に開示された機械学習は、必ずしも誤ラベルを正しく検知できるとは限らない。この理由は、当該機械学習が、たとえば、学習データにおいて一貫した傾向を有する誤ラベルを検知することができないからである。一貫した傾向を有する誤ラベルは、たとえば、モデルにおける識別境界付近にて生じやすい。この結果、当該機械学習を、製品を生産しながら当該製品の欠陥等を予測するシステムにて用いた場合には、当該機械学習が予測を誤ることによって欠陥を見逃してしまうリスクがある。
 そこで、本発明の目的の1つは、注目事象を見逃すリスクを低減可能なモデル作成装置等を提供することである。
 本発明の1つの態様として、モデル作成装置は、
 第1データが観測された状況を表す観測情報と、第2データが観測された状況を表す観測情報とが類似している程度に基づき、前記第1データに関するラベルと前記第2データに関するラベルとが類似しているか否かを判定し、類似していると判定した場合に前記第1データに関するラベルとして、前記第2データに関するラベルを付与するラベル制御手段と、
 前記第1データ及び前記第2データを含むデータ情報と、付与された前記ラベル及び前記第2データに関する前記ラベルを含むラベル情報との関係性を表すモデルを算出するモデル作成手段と
 を備える。
 また、本発明の他の態様として、モデル作成方法は、
 情報処理装置によって、第1データが観測された状況を表す観測情報と、第2データが観測された状況を表す観測情報とが類似している程度に基づき、前記第1データに関するラベルと前記第2データに関するラベルとが類似しているか否かを判定し、類似していると判定した場合に前記第1データに関するラベルとして、前記第2データに関するラベルを付与し、前記第1データ及び前記第2データを含むデータ情報と、付与された前記ラベル及び前記第2データに関する前記ラベルを含むラベル情報との関係性を表すモデルを算出する。
 また、本発明の他の態様として、モデル作成プログラムは、
 第1データが観測された状況を表す観測情報と、第2データが観測された状況を表す観測情報とが類似している程度に基づき、前記第1データに関するラベルと前記第2データに関するラベルとが類似しているか否かを判定し、類似していると判定した場合に前記第1データに関するラベルとして、前記第2データに関するラベルを付与するラベル制御機能と、
 前記第1データ及び前記第2データを含むデータ情報と、付与された前記ラベル及び前記第2データに関する前記ラベルを含むラベル情報との関係性を表すモデルを算出するモデル作成機能と
 をコンピュータに実現させる。
 さらに、同目的は、係るプログラムを記録するコンピュータが読み取り可能な記録媒体によっても実現される。
 本発明に係るモデル作成装置等によれば、注目事象を見逃すリスクを低減することができる。
本発明の第1の実施形態に係るモデル作成装置が有する構成を示すブロック図である。 第1の実施形態に係るモデル作成装置における処理の流れを示すフローチャートである。 データ系列の一例を概念的に表す図である。 本発明の第2の実施形態に係るモデル作成装置が有する構成を示すブロック図である。 第2の実施形態に係るモデル作成装置における処理の流れを示すフローチャートである。 本発明の各実施形態に係るモデル作成装置を実現可能な計算処理装置のハードウェア構成例を概略的に示すブロック図である。
 次に、本発明を実施する実施形態について図面を参照しながら詳細に説明する。
 <第1の実施形態>
 図1を参照しながら、本発明の第1の実施形態に係るモデル作成装置101が有する構成について詳細に説明する。図1は、本発明の第1の実施形態に係るモデル作成装置101が有する構成を示すブロック図である。
 第1の実施形態に係るモデル作成装置101は、ラベル制御部102と、モデル作成部103とを有する。
 モデル作成装置101は、データ系列記憶部151と、ラベル情報記憶部152と、観測情報記憶部153と、モデル情報記憶部154と、パラメタ情報記憶部155とに通信可能に接続されている。モデル情報記憶部154と、データ系列記憶部151と、ラベル情報記憶部152と、観測情報記憶部153と、パラメタ情報記憶部155とは、1つの記憶装置であってもよいし、複数の記憶装置であってもよい。
 データ系列記憶部151は、観測対象がある観測環境にて観測(測定)されたデータを記憶することができる。当該観測環境を表す情報を「観測情報」と表す。
 該観測情報は、たとえば、観測対象を観測するある時間間隔を表す。この場合に、該データは、たとえば、観測対象が撮像された画像データである。該データは、テキストデータであってもよいし、バイナリデータであってもよい。該観測情報は、たとえば、観測対象に対して所定の照明角度にて光を照射した状況において当該観測対象を観測する場合における該所定の照明角度を表す。この場合に、該データは、たとえば、該所定の照明角度にて光を照射した状況において観測対象が撮像された画像データである。説明の便宜上、観測対象が、ある観測環境にて観測された一連のデータを「データ系列」と表す。データ系列は、たとえば、観測対象が10秒間に0.1秒ごとに撮像された一連の画像データ、観測対象が複数の解像度にて撮像された一連の画像データ、または、観測対象が複数の角度にて撮像された一連の画像データ等である。データ系列記憶部151は、データ系列ごとにデータが格納されていてもよい。
 データ系列は、たとえば、時間の経過に伴い観測対象に関して観測されたデータを表す時間的なデータ系列、または、光を照射する角度を変えながら観測対象に関して観測されたデータを表す空間的なデータ系列等である。
 時間的なデータ系列は、たとえば、ある時間間隔にて観測対象を測定することによって取得されたデータの集まりである。ある時間間隔は、一定時間間隔であっても、一定でない時間間隔であってもよい。時間的なデータ系列は、たとえば、ある患者の器官を、ある時間間隔にて撮像することによって取得される画像データの集まりである。時間的なデータ系列は、たとえば、動画像のように、一定時間ごとに取得されるデータの集まりであってもよい。時間間隔は、秒単位である必要はなく、時間、日付、または、年代等の単位であってもよい。ある時間間隔は、上述した例に限定されない。
 空間的なデータ系列は、観測対象を、ある観測環境にて観測することによって取得されたデータの集まりである。ある観測環境は、たとえば、ノイズ強度や、分解能等を所与の間隔で変えながら観測することを表す。ある観測環境は、たとえば、観測対象に対して光を照射する角度を変えながら、当該観測対象を測定することを表す。ある観測環境は、たとえば、観測対象を撮像する高度を変えながら、当該観測対象を測定することを表す。ある観測環境は、上述した例に限定されない。空間的なデータ系列は、観測対象(たとえば、検品対象)を所定の照明角度にて撮像することによって取得される画像データの集まりである。
 データ系列におけるデータは、必ずしも、観測対象だけを表すデータでなくともよく、観測対象を含んでいるデータであればよい。たとえば、データ系列が、観測対象が撮像されることによって得られた一連の画像データである場合に、データは、該観測対象が撮像されている領域、及び、該観測対象が撮像されていない領域を含む画像データであってもよい。このような場合には、動画像処理技術を用いて、画像データを該観測対象の領域、及び、該観測対象を含んでいない領域に分類し、それぞれの領域に図2を参照しながら説明するような処理を実行し、その後、それぞれの結果を関連付けて格納してもよい。または、データ系列は、当該データ系列における画像データにおいて、相互に対応付けされた領域間を表すデータであってもよい。言い換えると、この場合に、データ系列は、対応付けされた領域同士が、動画像処理技術を用いて、1つのデータ系列を成すように分割された画像データであってもよい。
 ラベル情報記憶部152は、データに対して付与されるラベルを表すラベル情報を記憶することができる。ラベルは、データ系列における各データに付与されていてもよいし、データ系列における一部のデータに付与されていてもよい。ラベル情報は、正ラベル、負ラベル等のラベルを表す情報である。該正ラベルは、たとえば、観測対象に注目事象が生じていることを表すラベルである。該負ラベルは、たとえば、観測対象に注目事象が生じていないことを表すラベルである。ラベル情報は、正ラベルである可能性を表す数値、または、負ラベルである可能性を表す数値等のラベル(以降、「ソフトラベル」と表す)であってもよい。
 観測対象が製品である場合に、注目事象が、当該製品における欠陥であるとする。この場合に、正ラベルは、たとえば、欠陥を有している製品を表すデータに付与される。観測対象が器官である場合に、注目事象が、当該器官に生じた病巣であるとする。この場合に、正ラベルは、たとえば、病巣を有する器官を表すデータに付与される。これに対して、負ラベルは、正ラベルとは異なるラベルである。観測対象が器官である場合に、負ラベルは、たとえば、病巣が検知されていない器官を表すデータ、または、正常な器官を表すデータに付与される。正ラベルは、さらに、複数の正ラベルに細分されていてもよい。ラベル、正ラベル、及び、負ラベルは、上述した例に限定されない。
 以降、正ラベルが付与された(割り当てられた)データを「正データ」と表す。負ラベルが付与された(割り当てられた)データを「負データ」と表す。
 1つのデータ系列は、正データと、負データとを含んでいてもよいし、正データのみを含んでいてもよいし、負データのみを含んでいてもよい。1つのデータ系列は、ラベルが付与されていないデータを表す未ラベルデータを含んでいてもよい。また、1つのデータ系列におけるデータに付与されるラベルは、必ずしも、一定のラベルである必要はない。
 以降、説明の便宜上、データ系列における各データには、正ラベル、または、負ラベルのいずれかが付与されているとする。
 観測情報記憶部153は、観測対象に関するデータが観測された観測環境(観測要件、観測条件)を表す観測情報を記憶することができる。観測情報は、たとえば、時刻や、角度等の数値データを用いて表すことができる。上述したように、観測情報は、たとえば、観測対象をある時間間隔にて観測する場合における、当該ある時間間隔を表す。該観測情報は、たとえば、観測対象に対して所定の照明角度にて光を照射した状況において、当該観測対象を観測する場合における、所定の照明角度を表す。該観測情報は、たとえば、観測対象をある時間間隔にて観測した時間順序を表す情報であってもよい。該観測情報は、たとえば、観測対象をある時間間隔にて観測した時間間隔を表す情報であってもよい。該観測環境は、ドローン、飛行機等の飛翔体から観測対象を撮像したときの高度を表す情報、または、自動車、二輪車等の移動体から観測対象を観測したときの移動距離を表す情報等であってもよい。観測情報は、たとえば、観測対象を撮像する場合の解像度や、観測対象を撮像する場合の位置等を表していてもよい。また、観測情報は、観測対象が観測された2つの観測環境の差異(間隔)を表していてもよい。この場合に、観測情報は、たとえば、2つの時刻の差異(すなわち、時間)を表している。観測情報は、たとえば、天気、曜日、文字列等の数値を用いて表すことができない情報であってもよい。
 複数の観測環境において、各観測環境を表す観測情報が類似しているほど、当該複数の観測環境が相互に類似していることを表す。複数の観測環境において、各観測環境を表す観測情報間の差異が大きいほど、当該複数の観測環境が相互に類似していないことを表す。したがって、複数の観測環境において各観測環境を表す観測情報が類似しているほど、各観測環境にて観測されたデータには、一定のラベルが付与される可能性が高い。また、複数の観測環境において各観測環境を表す観測情報間の差異が大きいほど、各観測環境にて観測されたデータには、相互に異なるラベルが付与される可能性が高い。
 データ系列が時間的なデータ系列である場合に、観測情報は、たとえば、各データが測定された時刻、各データが測定された順序、または、時刻の間隔等を表す情報である。データ系列が空間的なデータ系列である場合に、観測情報は、たとえば、ノイズ強度、または、照明角度等を表す情報である。観測情報は、上述した例に限定されない。
 また、観測情報は、必ずしも、明示的に示されている必要はなく、データ系列におけるデータの順序によって実現することができる。この例について説明する。
 データ系列記憶部151は、データが観測情報の順(昇順、または、降順)に並べられたデータ系列が格納されていてもよい。以降、説明の便宜上、観測情報は、数値データであるとする。また、データ系列記憶部151には、データが観測情報の順(昇順、または、降順)に並べられたデータ系列が格納されているとする。観測情報が時刻である場合に、データ系列においては、観測対象に関して観測されたデータが時系列の順に並べられている。また、観測情報が照明角度等の数値データである場合に、観測対象に関して観測されたデータが、観測情報が表す数値データの順に並べられている。すなわち、このような場合に、観測情報は、データ系列におけるデータの順序によって実現されているということもできる。このように、データ系列においてデータを観測情報の順(昇順、または、降順)に配置することによって、データに関するラベルを付与する処理を簡素化することができるという効果を奏する。データ系列については、図3を参照しながら後述する。
 モデル情報記憶部154は、学習データに格納されているデータと、ラベルとの関係性を表すモデルを記憶することができる。モデルは、たとえば、ニューラルネットワーク、サポートベクターマシン、または、決定木等のモデルである。モデルは、上述した例に限定されない。
 パラメタ情報記憶部155は、当該モデルに含まれているパラメタを記憶することができる。当該パラメタは、ニューラルネットワークにおける重み、または、バイアス等である。当該パラメタは、サポートベクターマシンが算出した識別境界を表すパラメタ等である。モデルは、上述した例に限定されない。パラメタは、上述した例に限定されない。
 図3を参照しながら、データ系列記憶部151に格納されているデータ系列について説明する。図3は、データ系列の一例を概念的に表す図である。
 図3に例示されたデータ系列記憶部151には、たとえば、データ301乃至データ304を含むデータ系列312が格納されている。この例の場合に、データ301乃至データ304は、それぞれ、データ系列312における画像データである。
 データ301乃至データ304には、それぞれ、ラベル情報が表すラベルが付与されている。図3における点線を用いて描かれた矩形が、データに対してラベルが付与されている(割り当てられている)ことを概念的に表している。データ301には、負ラベル308が付与されている。データ302には、負ラベル309が付与されている。データ303には、正ラベル310が付与されている。データ304には、正ラベル311が付与されている。負ラベル308、負ラベル309、正ラベル310、及び、正ラベル311は、ラベル情報313としてラベル情報記憶部152に格納される。
 図3に例示されたデータ系列においては、観測情報は、時刻を表している。データ系列312においては、時刻が矢印の方向に増加する順序(順)にて、データ301乃至データ304が配置されている。データ系列が時間的なデータ系列である場合に、矢印の方向は、時間が経過(推移)する方向(すなわち、時刻が増加する方向)を表す。したがって、この例において、データ301乃至データ304は、時間が経過するにつれ、観測対象に関して観測されたデータを表す。
 データ302は、観測対象に関して生じた事象305を表す情報を含む。事象305は、たとえば、観測対象に関して生じた事象であるものの、規模が小さい事象であることを表している。データ303は、観測対象に関して生じた事象306を表す情報を含む。データ304は、観測対象に関して生じた事象307を表す情報を含む。事象は、観測対象に生じた欠陥、または、病巣等の注目事象を表している。
 図3に示された例において、データ303は、事象306を表す情報を含んでおり、さらに、正ラベル310が付与されている。同様に、データ304は、事象307を表す情報を含んでおり、さらに、正ラベル311が付与されている。また、データ301は、事象を表す情報を含んでおらず、さらに、負ラベル308が付与されている。
 したがって、データ301、データ303、及び、データ304に関しては、正しいラベルが付与されている。これに対して、データ302は、事象305を表す情報を含んでいるものの、さらに、負ラベル309が付与されている。したがって、データ302に関しては、誤ラベルが付与されている。これは、たとえば、ラベル付けした人、または、ラベル付けした装置が、データ302が事象305を表す情報を含んでいるにもかかわらず、事象305を見逃したために、データ302に負ラベル309が付与されていたことを表す。
 次に、図2を参照しながら、本発明の第1の実施形態に係るモデル作成装置101における処理について詳細に説明する。図2は、第1の実施形態に係るモデル作成装置101における処理の流れを示すフローチャートである。
 ラベル制御部102は、範囲(または、閾値)等のパラメタ、及び、モデルのパラメタの値を初期化する(ステップS101)。当該範囲(または、閾値)は、データに関する観測情報に基づき、該データに対して付与するラベルを決定する基準を表す。
 ラベル制御部102は、データ系列記憶部151に格納されているデータ系列を読み取る。ラベル制御部102は、読み取ったデータ系列における各データに関して、ラベル情報記憶部152から当該データに関するラベル情報を読み取り、さらに、観測情報記憶部153から当該データに関する観測情報を読み取る。
 ラベル制御部102は、データに関して読み取った観測情報が範囲内にあるか否かに応じて、当該データに付与するラベルを決定する(ステップS102)。ラベル制御部102は、データに関して読み取った観測情報が範囲内にある場合に、当該データに対して正ラベルを付与する。ラベル制御部102は、データに関して読み取った観測情報が範囲外にある場合に、当該データに対して負ラベルを付与する。
 ラベル制御部102は、たとえば、正データに関する観測情報からの距離が、当該範囲内である観測情報を有するデータに対して正ラベルを付与する。ラベル制御部102は、たとえば、正データに関する観測情報からの距離が、当該範囲外である観測情報を有するデータに対して負ラベルを付与する。
 言い換えると、ラベル制御部102は、第2データ(たとえば、正データ)に関する観測情報に類似している(または、一致している)観測情報を有する第1データに対して、第2データに関するラベル(たとえば、正ラベル)を付与する。ラベル制御部102は、第2データ(たとえば、正データ)に関する観測情報に類似していない(または、一致していない)観測情報を有する第1データに対して、第2データに関するラベルとは異なるラベル(たとえば、負ラベル)を付与する。
 言い換えると、ラベル制御部102は、ステップS102にて、第2データ(たとえば、正データ)に関する観測情報から範囲内に含まれている観測情報を有する第1データに対して、第2データに関するラベル(たとえば、正ラベル)を付与する。ラベル制御部102は、ステップS102にて、第2データ(たとえば、正データ)に関する観測情報から、当該範囲外にある観測情報を有する第1データに対して、第2データに関するラベルとは異なるラベル(たとえば、負ラベル)を付与する。
 範囲等のパラメタは、複数であってもよい。たとえば、ラベル制御部102は、正データに関する観測情報から第1範囲内にある観測情報を有する第1データに対して正ラベルを付与する。ラベル制御部102は、第1範囲よりも広い第2範囲内にある観測情報を有する第1データに対して、「負よりの正」ラベルをソフトラベルとして付与する。ラベル制御部102は、それ以外の範囲にある観測情報を有する第1データに対して負ラベルを付与する。ソフトラベルは、3種類のラベルに限定されず、4つ以上のラベルであってもよい。ソフトラベル、範囲、及び、閾値は、上述した例に限定されない。
 以降、説明の便宜上、観測情報は、数値データであるとする。範囲は、正データに関する観測情報からの距離に関する範囲であるとする。データに関する数値データが当該範囲内である場合には、当該データに対して正ラベルが付与されるとする。データに関する数値データが当該範囲外である場合には、当該データに対して負ラベルが付与されるとする。ただし、距離は、類似度等の指標であってもよい。
 ラベル制御部102は、データ系列が正データを含んでいる場合に、該データ系列における各データに対して正ラベルを付与してもよい。この場合に、ラベル制御部102は、当該データ系列に含まれているデータに関する観測情報が相互に類似していると見なしている。
 ラベル制御部102は、データに対して、必ずしも、正ラベル、または、負ラベルのような離散的なものを付与する必要はなく、たとえば、正データに関する観測情報に対する類似度に応じて決定した連続値のソフトラベル(たとえば、正ラベルらしさを表す数値)を付与してもよい。すなわち、この場合に、ラベル制御部102は、類似度に応じたソフトラベルとして、たとえば、正ラベルらしさを表す数値データを付与する。モデル作成部103は、ラベル制御部102が付与したソフトラベルに基づき、データ系列におけるデータと、ソフトラベルとの関係性を表すモデルを算出する。
 ソフトラベルが付与されている場合に、ラベル制御部102が実行する処理について、説明する。たとえば、ラベル制御部102は、データ系列に含まれる、当該データより高い正ラベルらしさをもつデータとの観測情報の類似度に応じて、当該データの正ラベルらしさを、参照した高い正ラベルに近づけたソフトラベルを付与する。ただし、もとのソフトラベルを閾値処理により正ラベルと負ラベルに変換して、正ラベルあるいは負ラベルが与えられた場合の方法に帰着してもよい。
 ラベル制御部102は、付与するラベルを決定するのに用いる観測情報の範囲(または、閾値)を算出する。ラベル制御部102は、観測情報の類似度に関する閾値およびスケールパラメタ等のパラメタに関してグリッド探索を行い、探索した結果に基づき、範囲(たとえば、識別性能が高くなる場合における範囲)を決定する。グリッド探索は、たとえば、当該パラメタに関して所定の値を設定し、設定した値に基づきモデル作成部103がモデルを作成した場合に、作成した当該モデルの識別性能が向上する場合における値に基づき範囲を決定する手法である。
 ステップS102の後に、モデル作成部103は、ラベル制御部102が付与したラベルを読み取る。モデル作成部103は、読み取った当該ラベルとデータとが関連付けされている学習データに基づき、当該データとラベルとの関係性を表すモデルを作成する(ステップS103)。モデル作成部103は、たとえば、所定のモデル作成手順に従い、当該学習データを用いて当該モデルにおけるパラメタを算出する。該所定のモデル作成手順は、たとえば、ニューラルネットワークの作成手順、または、サポートベクターマシンの作成手順等である。モデル作成部103は、作成した当該モデルを、モデル情報記憶部154に格納する。モデル作成部103は、決定した当該パラメタの値を、パラメタ情報記憶部155に格納してもよい。
 モデルがニューラルネットワークである場合に、モデル作成部103は、たとえば、目的関数が最小である場合におけるパラメタを、勾配法に従い求める。目的関数は、たとえば、出力とラベルの交差エントロピー誤差関数である。モデル作成部103は、たとえば、算出した該ニューラルネットワークにおける重みとバイアスとを、パラメタ情報記憶部155に格納する。モデル作成部103は、たとえば、算出した該ニューラルネットワークを、モデル情報記憶部154に格納する。モデルがニューラルネットワークである場合には、重みやバイアス等のパラメタを、ステップS101にて初期化し、ラベル制御パラメタの更新後であるステップS103にて、前段での値を初期値とするファインチューニングを実行してもよい。
 モデル作成部103は、データ(または、当該データを表す特徴量)にモデルを適用することによって、データに関するラベルを予測する。モデル作成部103は、当該データに関して、各ラベル(たとえば、正ラベル、負ラベル)に対する確信度を算出してもよい。
 モデル作成部103は、たとえば、学習データ、または、モデルの識別性能を検証するためのデータを用いて、作成したモデルの識別性能を算出する。以降、識別性能を表す指標を「性能情報」と表す。したがって、モデル作成部103は、作成した当該モデルに関する性能情報を作成する。モデルの識別性能の検証に用いるデータは、ラベルが付与されたデータであればよい。言い換えればモデルの識別性能の検証に用いるデータは、モデルの算出に用いたデータ系列であっても、モデルの算出に用いたデータ系列とは異なるデータ系列であってもよい。モデル作成部103は、データに関するラベルと、モデル作成部103が作成したモデルに基づき当該データに関して予測したラベルとを用いて、識別性能として、たとえば、AUC(Area Under Curve)を算出する。曲線(Curve)は、たとえば、ROC曲線(receiver operating characteristic curve)等のモデルの識別性能が表された情報である。また、識別性能として、当該曲線の上側の面積を用いてもよい。識別性能は、AUCに限定されず、機械学習にて用いられる性能指標を用いることができる。識別性能は、たとえば、上述したような、範囲の広さを含む目的関数に基づく指標であってもよい。
 AUCは、たとえば、0.5から1までの値である。識別性能が高いほどAUCは1に近い値である。識別性能が低いほどAUCは0.5に近い値である。AUCは、一般に知られている指標であるため、本実施形態においては詳細な説明を省略する。
 モデル作成部103は、算出した性能情報(たとえば、AUC)をラベル制御部102に入力する。
 ラベル制御部102は、モデル作成部103が算出した識別性能を読み取る。ラベル制御部102は、読み取った該識別性能に基づき、該データ系列におけるデータに関して、識別性能が向上したか否かを判定する(ステップS104)。ラベル制御部102は、少なくとも2つの観測情報に関して、それぞれ算出された識別性能を比較することによって、識別性能が向上したか否かを判定する。モデル作成装置101は、ステップS102乃至ステップS105に処理を繰り返し実行することによって、当該2つの観測情報に関して識別性能を算出する。モデル作成装置101は、ステップS102乃至ステップS105に示された処理によって、識別性能が向上する場合のパラメタの値を探索する。
 識別性能が向上していた場合に(ステップS104にてYES)、ラベル制御部102は、範囲等のパラメタを更新する(ステップS105)。ラベル制御部102は、ステップS105にて、たとえば、正ラベルであると判定する範囲を広げる。すなわち、ラベル制御部102は、ステップS105にて、第2データに関するラベルであると判定する範囲を広げる。したがって、この場合に、第2データに関するラベルが付与される第1データの個数は増える。その後、ステップS102に示された処理が実行される。
 識別性能が向上していなかった場合に(ステップS104にてNO)、ラベル制御部102は、当該識別性能に関するモデル、または、前回の識別性能に関するモデルを出力する。ラベル制御部102は、さらに、モデルにおけるパラメタの値を算出してもよい。この処理について詳述する。
 ステップS105にて更新されたパラメタに基づき算出された識別性能を「第2識別性能」と表す。ステップS105にて更新する前のパラメタに基づき算出された識別性能を、「第1識別性能」と表す。
 ラベル制御部102は、該第1識別性能と、該第2識別性能とを比較する。第2識別性能が第1識別性能より高い場合に、ラベル制御部102は、さらに、正ラベルと判定する(すなわち、第2データに関するラベルであると判定する)範囲を広げ、広げた当該範囲に基づき、変更した当該範囲の場合における識別性能を算出する。以降同様に、識別性能が低下するまで、モデル作成装置101は、ステップS102乃至ステップS105に示された処理を繰り返す。
 第2識別性能が第1識別性能以下である場合に、ラベル制御部102は、たとえば、該識別性能が第1識別性能である場合における範囲を、正ラベルを判定する(すなわち、第2データに関するラベルであると判定する)範囲として決定する。第2識別性能が第1識別性能以下である場合に、ラベル制御部102は、たとえば、該識別性能が第2識別性能である場合における範囲を、正ラベルを判定する(すなわち、第2データに関するラベルであると判定する)範囲として決定してもよい。
 言い換えると、ラベル制御部102は、正ラベルであると判定する範囲を拡大しながら、当該識別性能に基づき、正ラベルであると判定する範囲を探索する。すなわち、モデル作成装置101は、該識別性能が上昇した場合に該範囲を更新し、該識別性能が低下した場合に該範囲を決定する。
 当該範囲を探索する処理は、上述した例に限定されない。たとえば、当該範囲を更新する処理と、更新した当該範囲の場合における識別性能を処理とを繰り返し、算出した識別性能の中から最も識別性能が高い場合における範囲を算出してもよい。
 目的関数は、さらに、正ラベルの伝播範囲に関する罰則項を含んでいてもよい。罰則項は、たとえば、正ラベルと判定する範囲が広いほど小さな値であり、当該範囲が狭いほど大きな値であるような項である。したがって、目的関数が罰則項を含む場合に、モデル作成部103、および、ラベル制御部102は、誤差が少なく、かつ、正ラベルと判定する範囲が広い場合におけるパラメタの値を求める。
 観測情報が時刻である場合の例を参照しながら、モデル作成装置101における処理について説明する。
 観測情報が時刻である場合に、ラベル制御部102は、時間的なデータ系列において、正データに関する時刻と類似している時刻を特定し、特定した該時刻に観測されたデータに対して正ラベルを付与する。
 ラベル制御部102は、時間的なデータ系列において、正データに関する時刻と類似している時刻であって、正データが生じた時刻以前の観測情報に関するデータに対して正ラベルを付与してもよい。この場合に、ラベル制御部102は、正データが生じた時刻以前に観測されたデータのうち、当該時刻に類似している時刻に観測されたデータに対して、正ラベルを伝播する(付与する)処理を実行する。たとえば、当該処理は、時間の経過とともに負データがから正データに変化が生じる場合に、適用することができる。
 観測情報が照明角度である場合の例を参照しながら、モデル作成装置101における処理について説明する。
 観測情報が照明角度である場合にも、観測情報が時刻である場合における処理と同様な処理が実行される。照明角度は、たとえば、0度から360度までの値である。この場合に、a(aは実数)度と、「a+360×N(ただし、Nは整数)」度とは同じ角度を表している。したがって、照明角度のような角度は、循環的な値を取るパラメタである。ここで、ある照明角度にて光を製品に照射した場合に欠陥(たとえば、傷、欠損、割れ)が検知された場合に、当該製品を表すデータに対して正ラベルを付与するとする。この場合に、ラベル制御部102は、欠陥が検知された照明角度に対する角度差がある範囲のデータに対して正ラベルを付与する。たとえば、当該ある範囲が、0度から10度までの範囲、及び、350度から360度までの範囲という2つの範囲から構成される場合もある。この場合に、ラベル制御部102は、正データに関する照明角度との角度差が350度以上である場合におけるデータ、及び、正データに関する照明角度との角度差が10度以下である場合におけるデータに対して正ラベルを付与する(伝播する)。
 ラベル制御部102が正ラベルを付与する方法は、上述した例に限定されない。
 また、データ系列は、未ラベルデータを含んでいてもよい。データ系列が未ラベルデータを含んでいる場合に、モデル作成装置101が実行する処理について説明する。
 説明の便宜上、観測情報は、数値データであるとする。データ系列に含まれているデータに関して観測情報が表す数値データが増加するにつれ、当該データに関するラベルが負ラベルから正ラベルに変化したとする。該データ系列に含まれているデータに関して、観測情報が表す数値データが、さらに増加した場合であっても、当該データに関するラベルが正ラベルから負ラベルに変化しないとする。この場合に、ラベル制御部102は、未ラベルデータに関する観測情報が、正ラベルを判定する範囲に含まれていた場合に、当該未ラベルデータに対して正ラベルを付与する。ラベル制御部102は、未ラベルデータに関する観測情報が、正ラベルを判定する範囲外である場合に、当該未ラベルデータに対して負ラベルを付与する。
 モデル作成部103が正ラベル及び負ラベルに関するモデルを作成する例を参照しながら、モデル作成装置101における処理について説明した。しかし、モデル作成部103が作成するモデルは、必ずしも2クラスの識別器である必要はなく、3クラス以上のマルチクラスの識別器や、回帰モデルであってもよい。モデルは、上述した例に限定されない。
 次に、本発明の第1の実施形態に係るモデル作成装置に関する効果について説明する。
 第1の実施形態に係るモデル作成装置101によれば、観測対象のリスクを低減することができる。この理由は、モデル作成装置101が観測対象に関して作成するモデルが高い識別性能を有している結果、当該観測対象等の観測対象に関して判定を誤るリスクが低減するからである。この理由について詳細に説明する。
 観測対象に生じている注目事象の規模が小さい場合、または、当該注目事象が生じているか否かを判別するのが難しい場合等に、当該注目事象が生じているか否かの判定を誤る可能性がある。当該観測対象に注目事象が生じているか否かを判定するモデルを、機械学習技術によって作成する場合に、当該モデルは、誤判定されたデータに基づき作成されてしまう。したがって、作成された当該モデルは、低い識別性能しか有していない可能性が高い。
 本願発明者は、観測対象が一連の観測環境にて観測された場合に、相互に類似している観測環境においては、当該観測対象に同一の事象が生じている可能性が高いという規則性を見出した。したがって、本願発明者は、当該観測環境にて観測されたデータには、当該事象が生じていることを表すラベルが付与される可能性が高いという規則性を見出した。モデル作成装置101は、当該規則性に基づき、図2を参照しながら上述したような処理を実行する。この結果、モデル作成装置101は、相互に類似している観測環境にて観測されたデータに対して同様なラベルを付与する。したがって、ラベルに誤ラベルが含まれている場合であっても、モデル作成装置101は、観測情報に基づき誤ラベルを更新することができる。よって、モデル作成装置101は、高い識別性能を有するモデルを作成することができる。すなわち、モデル作成装置101は、当該観測対象等の観測対象に関して判定を誤るリスクが低減する。
 <第2の実施形態>
 次に、本発明の第2の実施形態について説明する。
 図4を参照しながら、本発明の第2の実施形態に係るモデル作成装置201が有する構成について詳細に説明する。図4は、本発明の第2の実施形態に係るモデル作成装置201が有する構成を示すブロック図である。
 第2の実施形態に係るモデル作成装置201は、ラベル制御部202と、モデル作成部203とを有する。
 モデル作成装置201は、複数のデータを含むデータ系列と、観測情報と、データに関するラベルとを入力する。
 当該データは、観測対象が、ある観測環境(状況)にて観測された際に取得されたデータである観測情報は、当該データが観測された環境(状況)を表す情報である。ラベルは、当該観測対象が、当該ある観測環境にて観測された場合に、当該観測対象に注目事象が生じているか否か(または、注目事象が生じている可能性)を表す情報である。
 説明の便宜上、データ系列は、第1データと、第2データとを含むとする。観測情報は、第1データに関する観測情報と、第2データに関する観測情報とを含んでいるとする。第2データには、ラベルが付与されているとする。
 次に、図5を参照しながら、本発明の第2の実施形態に係るモデル作成装置201における処理について詳細に説明する。図5は、第2の実施形態に係るモデル作成装置201における処理の流れを示すフローチャートである。
 ラベル制御部202は、第1データが観測された状況を表す観測情報と、第2データが観測された状況を表す観測情報とが類似している程度に基づき、該第1データに関するラベルと該第2データに関するラベルとが類似しているか否かを判定する(ステップS201)。ラベル制御部202は、たとえば、当該2つの観測情報の間の類似度を算出し、当該類似度が、類似しているか否かを判定する判定条件を満たしているか否かを判定する。または、たとえば、データ系列において、データが観測情報に応じた順に並べられている場合に、ラベル制御部202は、当該データ系列において、第1データが、第2データから所定の範囲(すなわち、類似していると判定する範囲)内に配置されているか否かを判定することによって、該第1データに関するラベルと該第2データに関するラベルとが類似しているか否かを判定する。観測情報が数値データである場合に、ラベル制御部202は、当該2つの数値データの距離を算出し、算出した該距離に基づき該第1データに関するラベルと該第2データに関するラベルとが類似しているか否かを判定する。ラベルが類似しているか否かを判定する処理は、上述した例に限定されない。
 ラベル制御部202は、該第1データに関する観測情報と、該第2データに関する観測情報が類似していると判定する場合に、該第1データに関するラベルとして、該第2データに関するラベルを付与する(ステップS202)。
 次に、モデル作成部203は、データ情報と、ラベル情報とを読み取り、読み取った該データ情報と、読み取った該ラベル情報との関係性を表すモデルを作成する(ステップS203)。該データ情報は、該第1データと、該第2データとを含むデータを表す。該ラベル情報は、該第1データに関するラベルと、該第2データに関するラベルとを含む。
 ラベル制御部202は、図1に示されたラベル制御部102が有している機能と同様な機能によって実現することができる。モデル作成部203は、図1に示されたモデル作成部103が有している機能と同様な機能によって実現することができる。したがって、モデル作成装置201は、図1に示されたモデル作成装置101が有している機能と同様な機能によって実現することができる。
 次に、本発明の第2の実施形態に係るモデル作成装置201に関する効果について説明する。
 第2の実施形態に係るモデル作成装置201によれば、観測対象のリスクを低減することができる。この理由は、モデル作成装置201が観測対象に関して作成するモデルが高い識別性能を有している結果、当該観測対象等の観測対象に関して判定を誤るリスクが低減するからである。この理由について詳細に説明する。
 観測対象に生じている注目事象の規模が小さい場合、または、当該注目事象が生じているか否かを判別するのが難しい場合等に、当該注目事象が生じているか否かの判定を誤る可能性がある。当該観測対象に注目事象が生じているか否かを判定するモデルを、機械学習技術によって作成する場合に、当該モデルは、誤判定されたデータに基づき作成されてしまう。したがって、作成された当該モデルは、低い識別性能しか有していない可能性が高い。
 本願発明者は、観測対象が一連の観測環境にて観測された場合に、相互に類似している観測環境においては、当該観測対象に同一の事象が生じている可能性が高いという規則性を見出した。したがって、本願発明者は、当該観測環境にて観測されたデータには、当該事象が生じていることを表すラベルが付与される可能性が高いという規則性を見出した。モデル作成装置201は、当該規則性に基づき、図2を参照しながら上述したような処理を実行する。この結果、モデル作成装置201は、相互に類似している観測環境にて観測されたデータに対して同様なラベルを付与する。したがって、ラベルに誤ラベルが含まれている場合であっても、モデル作成装置201は、観測情報に基づき誤ラベルを更新することができる。よって、モデル作成装置201は、高い識別性能を有するモデルを作成することができる。すなわち、モデル作成装置201は、当該観測対象等の観測対象に関して判定を誤るリスクが低減する。
 (ハードウェア構成例)
 上述した本発明の各実施形態に係るモデル作成装置を、1つの計算処理装置(情報処理装置、コンピュータ)を用いて実現するハードウェア資源の構成例について説明する。但し、係るモデル作成装置は、物理的または機能的に少なくとも2つの計算処理装置を用いて実現されてもよい。また、係るモデル作成装置は、専用の装置として実現されてもよい。
 図6は、本発明の各実施形態に係るモデル作成装置を実現可能な計算処理装置のハードウェア構成例を概略的に示すブロック図である。計算処理装置20は、中央処理演算装置(Central_Processing_Unit、以降「CPU」と表す)21、揮発性記憶装置22、ディスク23、不揮発性記録媒体24、及び、通信インターフェース(以降、「通信IF」と表す)27を有する。計算処理装置20は、入力装置25、出力装置26に接続可能であってもよい。計算処理装置20は、通信IF27を介して、他の計算処理装置、及び、通信装置と情報を送受信することができる。
 不揮発性記録媒体24は、コンピュータが読み取り可能な、たとえば、コンパクトディスク(Compact_Disc)、デジタルバーサタイルディスク(Digital_Versatile_Disc)である。また、不揮発性記録媒体24は、ユニバーサルシリアルバスメモリ(USBメモリ)、ソリッドステートドライブ(Solid_State_Drive)等であってもよい。不揮発性記録媒体24は、電源を供給しなくても係るプログラムを保持し、持ち運びを可能にする。不揮発性記録媒体24は、上述した媒体に限定されない。また、不揮発性記録媒体24の代わりに、通信IF27、及び、通信ネットワークを介して係るプログラムを持ち運びしてもよい。
 揮発性記憶装置22は、コンピュータが読み取り可能であって、一時的にデータを記憶することができる。揮発性記憶装置22は、DRAM(dynamic random Access memory)、SRAM(static random Access memory)等のメモリ等である。
 すなわち、CPU21は、ディスク23に格納されているソフトウェア・プログラム(コンピュータ・プログラム:以下、単に「プログラム」と称する)を、実行する際に揮発性記憶装置22にコピーし、演算処理を実行する。CPU21は、プログラム実行に必要なデータを揮発性記憶装置22から読み取る。表示が必要な場合に、CPU21は、出力装置26に出力結果を表示する。外部からプログラムを入力する場合に、CPU21は、入力装置25からプログラムを読み取る。CPU21は、上述した図1、または、図4に示す各部が表す機能(処理)に対応するところの揮発性記憶装置22にあるモデル作成プログラム(図2、または、図5)を解釈し実行する。CPU21は、上述した本発明の各実施形態において説明した処理を順次実行する。
 すなわち、このような場合に、本発明の各実施形態は、係るモデル作成プログラムによっても成し得ると捉えることができる。さらに係るモデル作成プログラムが記録されたコンピュータが読み取り可能な不揮発性の記録媒体によっても、本発明の各実施形態は成し得ると捉えることができる。
 以上、上述した実施形態を模範的な例として本発明を説明した。しかし、本発明は、上述した実施形態には限定されない。すなわち、本発明は、本発明のスコープ内において、当業者が理解し得る様々な態様を適用することができる。
 101  モデル作成装置
 102  ラベル制御部
 103  モデル作成部
 151  データ系列記憶部
 152  ラベル情報記憶部
 153  観測情報記憶部
 154  モデル情報記憶部
 155  パラメタ情報記憶部
 301 データ
 302 データ
 303 データ
 304 データ
 305 事象
 306 事象
 307 事象
 308 負ラベル
 309 負ラベル
 310 正ラベル
 311 正ラベル
 312 データ系列
 313 ラベル情報
 201  モデル作成装置
 202  ラベル制御部
 203  モデル作成部
 20  計算処理装置
 21  CPU
 22  揮発性記憶装置
 23  ディスク
 24  不揮発性記録媒体
 25  入力装置
 26  出力装置
 27  通信IF

Claims (10)

  1.  第1データが観測された状況を表す観測情報と、第2データが観測された状況を表す観測情報とが類似している程度に基づき、前記第1データに関するラベルと前記第2データに関するラベルとが類似しているか否かを判定し、類似していると判定した場合に前記第1データに関するラベルとして、前記第2データに関するラベルを付与するラベル制御手段と、
     前記第1データ及び前記第2データを含むデータ情報と、付与された前記ラベル及び前記第2データに関する前記ラベルを含むラベル情報との関係性を表すモデルを算出するモデル作成手段と
     備えるモデル作成装置。
  2.  前記ラベル制御手段は、前記第1データ及び前記第2データを含んでいるデータ系列におけるデータについて、前記第2データに関する前記観測情報から類似している程度を算出し、算出された前記程度に基づき前記データと前記第2データが類似しているか否かを判定し、類似していると判定したデータに関するラベルとして、前記第2データに関する前記ラベルを付与する
     請求項1に記載のモデル作成装置。
  3.  前記モデル作成手段は、算出した前記モデルが有する識別性能を算出し、
     前記ラベル制御手段は、算出した前記識別性能に基づき、前記第1データに関するラベルとして、前記第2データに関するラベルを付与するか否かを決定する
     請求項1または請求項2に記載のモデル作成装置。
  4.  前記ラベル制御手段は、算出した前記程度に応じた値を前記第1データにソフトラベルとして付与し、前記モデル作成手段によって算出された前記識別性能に基づき、前記ソフトラベルを決定するのに用いる前記観測情報の範囲を算出し、算出した前記範囲に基づき前記第1データに付与するソフトラベルを決定する
     請求項3に記載のモデル作成装置。
  5.  前記第1データと、前記第2データとを含むデータ系列が、ラベルが付与されていない未ラベルデータを含んでいる場合に、算出した程度に応じて前記未ラベルデータに関するラベルを付与する
     請求項1乃至請求項4のいずれかに記載のモデル作成装置。
  6.  前記モデル作成手段は、前記モデルを算出する際に、前記モデルが有する識別性能と、前記範囲とを含む目的関数が減少する場合におけるモデルを算出し、
     前記目的関数は、前記識別性能が高いほど小さな値であり、第2データに関するラベルを付与する前記範囲が広いほど小さな値である
     請求項4に記載のモデル作成装置。
  7.  前記第1データ及び前記第2データを含むデータ系列においては、観測対象に関して観測されたデータが時系列の順に並べられ、
     前記ラベル制御手段は、前記データ系列において前記第2データに近い順に、前記第2データに関するラベルを付与するか否かを判定する
     請求項1乃至請求項6のいずれかにモデル作成装置。
  8.  前記観測情報は、数値データであり、
     前記第1データ及び前記第2データを含むデータ系列においては、観測対象に関して観測されたデータが、前記観測情報が表す数値データの順に並べられ、
     前記ラベル制御手段は、前記データ系列において前記第2データに近い順に、前記第2データに関するラベルを付与するか否かを判定する
     請求項1乃至請求項6のいずれかにモデル作成装置。
  9.  情報処理装置によって、第1データが観測された状況を表す観測情報と、第2データが観測された状況を表す観測情報とが類似している程度に基づき、前記第1データに関するラベルと前記第2データに関するラベルとが類似しているか否かを判定し、類似していると判定した場合に前記第1データに関するラベルとして、前記第2データに関するラベルを付与し、前記第1データ及び前記第2データを含むデータ情報と、付与された前記ラベル及び前記第2データに関する前記ラベルを含むラベル情報との関係性を表すモデルを算出するモデル作成方法。
  10.  第1データが観測された状況を表す観測情報と、第2データが観測された状況を表す観測情報とが類似している程度に基づき、前記第1データに関するラベルと前記第2データに関するラベルとが類似しているか否かを判定し、類似していると判定した場合に前記第1データに関するラベルとして、前記第2データに関するラベルを付与するラベル制御機能と、
     前記第1データ及び前記第2データを含むデータ情報と、付与された前記ラベル及び前記第2データに関する前記ラベルを含むラベル情報との関係性を表すモデルを算出するモデル作成機能と
     をコンピュータに実現させるモデル作成プログラムが記録された記録媒体。
PCT/JP2018/028965 2018-08-02 2018-08-02 モデル作成装置、モデル作成方法、及び、モデル作成プログラムが記録された記録媒体 WO2020026395A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
PCT/JP2018/028965 WO2020026395A1 (ja) 2018-08-02 2018-08-02 モデル作成装置、モデル作成方法、及び、モデル作成プログラムが記録された記録媒体
US17/263,738 US20210174231A1 (en) 2018-08-02 2018-08-02 Model generation device, model generation method, and non-transitory recoding medium
JP2020533981A JP7115546B2 (ja) 2018-08-02 2018-08-02 モデル作成装置、モデル作成方法、及び、モデル作成プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2018/028965 WO2020026395A1 (ja) 2018-08-02 2018-08-02 モデル作成装置、モデル作成方法、及び、モデル作成プログラムが記録された記録媒体

Publications (1)

Publication Number Publication Date
WO2020026395A1 true WO2020026395A1 (ja) 2020-02-06

Family

ID=69231629

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/028965 WO2020026395A1 (ja) 2018-08-02 2018-08-02 モデル作成装置、モデル作成方法、及び、モデル作成プログラムが記録された記録媒体

Country Status (3)

Country Link
US (1) US20210174231A1 (ja)
JP (1) JP7115546B2 (ja)
WO (1) WO2020026395A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11829871B2 (en) * 2019-08-20 2023-11-28 Lg Electronics Inc. Validating performance of a neural network trained using labeled training data

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001250101A (ja) * 2000-03-07 2001-09-14 Yamatake Corp データ領域の解析方法及び表現方法
JP2009046115A (ja) * 2007-07-20 2009-03-05 Denso It Laboratory Inc 車両用空調装置及び車両用空調装置の制御方法
JP2016157196A (ja) * 2015-02-23 2016-09-01 Kddi株式会社 学習データ生成システム、学習データ生成方法およびプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001250101A (ja) * 2000-03-07 2001-09-14 Yamatake Corp データ領域の解析方法及び表現方法
JP2009046115A (ja) * 2007-07-20 2009-03-05 Denso It Laboratory Inc 車両用空調装置及び車両用空調装置の制御方法
JP2016157196A (ja) * 2015-02-23 2016-09-01 Kddi株式会社 学習データ生成システム、学習データ生成方法およびプログラム

Also Published As

Publication number Publication date
US20210174231A1 (en) 2021-06-10
JPWO2020026395A1 (ja) 2021-08-02
JP7115546B2 (ja) 2022-08-09

Similar Documents

Publication Publication Date Title
US10818000B2 (en) Iterative defect filtering process
US10275691B2 (en) Adaptive real-time detection and examination network (ARDEN)
US11023822B2 (en) Classifier generation apparatus for generating a classifier identifying whether input data is included in a specific category based on machine learning, classifier generation method, and storage medium
WO2018035878A1 (zh) 缺陷分类方法和缺陷检查系统
JP7074460B2 (ja) 画像検査装置および方法
US8948500B2 (en) Method of automatically training a classifier hierarchy by dynamic grouping the training samples
WO2012141332A1 (en) Supervised and semi-supervised online boosting algorithm in machine learning framework
WO2023109208A1 (zh) 小样本目标检测方法及装置
JP2008262331A (ja) オブジェクト追跡装置およびオブジェクト追跡方法
JP2018045673A (ja) 分類器構築方法、画像分類方法、分類器構築装置および画像分類装置
JP2019197355A (ja) クラスタリング装置、クラスタリング方法およびプログラム
JP6988995B2 (ja) 画像生成装置、画像生成方法および画像生成プログラム
WO2020026395A1 (ja) モデル作成装置、モデル作成方法、及び、モデル作成プログラムが記録された記録媒体
US11507670B2 (en) Method for testing an artificial intelligence model using a substitute model
JP6632124B2 (ja) 画像分類方法および画像分類装置
JPWO2019215904A1 (ja) 予測モデル作成装置、予測モデル作成方法、および予測モデル作成プログラム
JP2020052475A (ja) 分類器構築方法、画像分類方法、分類器構築装置および画像分類装置
KR101919698B1 (ko) 실루엣을 적용한 그룹 탐색 최적화 데이터 클러스터링 방법 및 시스템
AU2021251463B2 (en) Generating performance predictions with uncertainty intervals
JP7120528B2 (ja) 分類器構築方法、画像分類方法、分類器構築装置および画像分類装置
KR20220143119A (ko) 인지 시스템용 훈련 데이터 후보의 자동 식별
JP5858817B2 (ja) 教師データ作成方法、並びに、画像分類方法および画像分類装置
JP7365261B2 (ja) コンピュータシステムおよびプログラム
US11860712B1 (en) Sensor fault prediction and resolution
JP2019057024A (ja) 分類器構築方法、画像分類方法、分類器構築装置および画像分類装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18928458

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2020533981

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18928458

Country of ref document: EP

Kind code of ref document: A1