WO2019026134A1 - 情報処理装置および情報処理方法 - Google Patents

情報処理装置および情報処理方法 Download PDF

Info

Publication number
WO2019026134A1
WO2019026134A1 PCT/JP2017/027706 JP2017027706W WO2019026134A1 WO 2019026134 A1 WO2019026134 A1 WO 2019026134A1 JP 2017027706 W JP2017027706 W JP 2017027706W WO 2019026134 A1 WO2019026134 A1 WO 2019026134A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
sample
learning
upper limit
information processing
Prior art date
Application number
PCT/JP2017/027706
Other languages
English (en)
French (fr)
Inventor
隆彦 増崎
隆顕 中村
督 那須
Original Assignee
三菱電機株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 三菱電機株式会社 filed Critical 三菱電機株式会社
Priority to JP2018508255A priority Critical patent/JP6362808B1/ja
Priority to PCT/JP2017/027706 priority patent/WO2019026134A1/ja
Priority to KR1020197016201A priority patent/KR20190072652A/ko
Priority to CN201780075997.9A priority patent/CN110352389B/zh
Priority to US16/463,398 priority patent/US10613960B2/en
Priority to DE112017005640.3T priority patent/DE112017005640T5/de
Priority to TW107124291A priority patent/TWI660277B/zh
Publication of WO2019026134A1 publication Critical patent/WO2019026134A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B19/00Programme-control systems
    • G05B19/02Programme-control systems electric
    • G05B19/418Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM]
    • G05B19/4183Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM] characterised by data acquisition, e.g. workpiece identification
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B23/00Testing or monitoring of control systems or parts thereof
    • G05B23/02Electric testing or monitoring
    • G05B23/0205Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults
    • G05B23/0218Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults characterised by the fault detection method dealing with either existing or incipient faults
    • G05B23/0224Process history based detection method, e.g. whereby history implies the availability of large amounts of data
    • G05B23/024Quantitative history assessment, e.g. mathematical relationships between available data; Functions therefor; Principal component analysis [PCA]; Partial least square [PLS]; Statistical classifiers, e.g. Bayesian networks, linear regression or correlation analysis; Neural networks
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B23/00Testing or monitoring of control systems or parts thereof
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B23/00Testing or monitoring of control systems or parts thereof
    • G05B23/02Electric testing or monitoring
    • G05B23/0205Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults
    • G05B23/0218Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults characterised by the fault detection method dealing with either existing or incipient faults
    • G05B23/0221Preprocessing measurements, e.g. data collection rate adjustment; Standardization of measurements; Time series or signal analysis, e.g. frequency analysis or wavelets; Trustworthiness of measurements; Indexes therefor; Measurements using easily measured parameters to estimate parameters difficult to measure; Virtual sensor creation; De-noising; Sensor fusion; Unconventional preprocessing inherently present in specific fault detection methods like PCA-based methods
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B23/00Testing or monitoring of control systems or parts thereof
    • G05B23/02Electric testing or monitoring
    • G05B23/0205Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults
    • G05B23/0218Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults characterised by the fault detection method dealing with either existing or incipient faults
    • G05B23/0224Process history based detection method, e.g. whereby history implies the availability of large amounts of data
    • G05B23/0227Qualitative history assessment, whereby the type of data acted upon, e.g. waveforms, images or patterns, is not relevant, e.g. rule based assessment; if-then decisions
    • G05B23/0235Qualitative history assessment, whereby the type of data acted upon, e.g. waveforms, images or patterns, is not relevant, e.g. rule based assessment; if-then decisions based on a comparison with predetermined threshold or range, e.g. "classical methods", carried out during normal operation; threshold adaptation or choice; when or how to compare with the threshold
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/321Display for diagnostics, e.g. diagnostic result display, self-test user interface
    • G06F11/322Display of waveforms, e.g. of logic analysers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0736Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in functional embedded systems, i.e. in a data processing system designed as a combination of hardware and software dedicated to performing a certain function
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/81Threshold
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing

Definitions

  • the present invention relates to an information processing apparatus and an information processing method that diagnose time series data using predetermined data.
  • a method of predetermining normal data as learning data and diagnosing whether the data to be diagnosed is normal based on whether or not a waveform similar to the data to be diagnosed exists in the learning data There is. For example, when sensor data acquired when a production facility is operating normally is used as learning data, and sensor data of a production facility in operation is used as diagnostic target data, an abnormality in the production facility can be detected.
  • Whether or not a waveform similar to diagnostic object data is present in the learning data can be determined using the degree of difference between partial sequences extracted from each of the learning data and the diagnostic object data. Slide the range for extracting subsequences from learning data little by little, calculate the degree of difference between all the subsequences and the subsequence extracted from the data to be diagnosed, and extract the lowest degree of difference from the data to be diagnosed And the difference between the subsequences.
  • the degree of difference needs to be calculated for all combinations of the subsequences of the diagnosis target data and all the subsequences of the learning data, so the calculation amount is large and it takes time to calculate the degree of difference There was a problem.
  • the partial sequences of learning data are clustered to generate a plurality of clusters within the upper limit of the sample error, in which the degree of difference between the partial sequences is predetermined. Integrate subsequences for each to generate sample subsequences. Then, by comparing the sample subsequence with the subsequence of the diagnosis target data, it is possible to reduce the amount of calculation and to shorten the time required to calculate the degree of difference.
  • Patent Document 1 does not describe details of a method of calculating a sample error upper limit which is an upper limit of the degree of difference between partial sequences to be integrated. If the sample error upper limit is too large, the diagnostic accuracy of the data to be diagnosed is degraded, and if the sample error upper limit is too small, the amount of calculation is large and processing time is required. There is a problem that it is difficult to generate an appropriate sample subsequence in which the diagnostic accuracy and the processing time are well balanced.
  • the present invention has been made in view of the above, and it is an object of the present invention to obtain an information processing apparatus capable of easily generating an appropriate sample subsequence.
  • the present invention uses a data acquisition unit that acquires input data that is time-series data, and a sample error that calculates a sample error upper limit using data extracted from the input data.
  • An upper limit calculation unit and a sample partial sequence generation unit that generates a sample partial sequence from learning data using a sample error upper limit are provided.
  • the sample error upper limit is a value obtained by combining learning subsequences that are similar among a plurality of learning subsequences that are subsequences extracted from learning data and generating a sample subsequence,
  • the information processing apparatus has an effect that it is possible to easily generate an appropriate sample subsequence.
  • a diagram showing a configuration of an information processing apparatus according to an embodiment of the present invention A diagram showing an outline of diagnosis of diagnosis target data using learning data performed by the information processing apparatus shown in FIG. The figure for demonstrating the outline
  • the figure for demonstrating the function of the data acquisition part shown in FIG. A diagram showing an outline of processing performed before the information processing apparatus shown in FIG. 1 makes a diagnosis Diagram showing the validity of the calculation formula used by the sample error upper limit calculation unit shown in FIG.
  • FIG. 1 The figure which shows the outline
  • a flowchart showing the entire flow of processing executed by the information processing apparatus shown in FIG. 1 A flowchart showing the detailed operation of step S12 shown in FIG. Flowchart showing detailed operation of step S121 shown in FIG. Flowchart showing detailed operation of step S13 shown in FIG.
  • FIG. 1 is a diagram showing the configuration of an information processing apparatus 10 according to the embodiment of the present invention.
  • the information processing apparatus 10 includes a data acquisition unit 101, a sample error upper limit calculation unit 102, a sample partial sequence generation unit 103, a statistical value calculation unit 104, a storage unit 105, a threshold calculation unit 106, and a diagnosis unit 107.
  • a data acquisition unit 101 a sample error upper limit calculation unit 102, a sample partial sequence generation unit 103, a statistical value calculation unit 104, a storage unit 105, a threshold calculation unit 106, and a diagnosis unit 107.
  • the information processing apparatus 10 has a function of diagnosing the diagnosis target data D1 based on whether or not a waveform similar to the diagnosis target data D1 exists in learning data D2 described later.
  • FIG. 2 is a diagram showing an outline of diagnosis of diagnosis target data D1 using learning data D2 performed by the information processing apparatus 10 shown in FIG.
  • the diagnosis target data D1 is data to be diagnosed.
  • the learning data D2 is data used as a reference of the above diagnosis and is data defined in advance as normal data, and is, for example, time-series data such as sensor data.
  • the diagnosis target data D1 is time series data of the same type as the learning data D2, and when the learning data D2 is temperature data, the diagnosis target data D1 is also temperature data.
  • the information processing apparatus 10 determines that the diagnosis target data D1 is normal. If there is no waveform similar to the diagnostic target data D1 in the learning data D2, the information processing apparatus 10 determines that the diagnostic target data D1 is abnormal.
  • sensor data including a waveform different from the sensor data acquired when the production facility is operating normally is often output.
  • the sensor data acquired when the production facility is operating normally is the learning data D2 and the sensor data of the production facility in operation is the diagnosis target data D1
  • an abnormality in the production facility can be detected. it can.
  • a process of acquiring sensor data of a production facility in operation by the information processing apparatus 10 and a diagnosis process of using the acquired sensor data as diagnosis target data D1 sequentially and repeatedly detect an abnormality of the production facility in real time can do.
  • FIG. 3 is a view for explaining an outline of the nearest neighbor search used to determine whether or not there is a waveform similar to the diagnosis target data D1 in the learning data D2 shown in FIG. Whether or not there is a waveform similar to the diagnostic object data D1 in the learning data D2 is determined using the degree of difference between the subsequences.
  • the degree of difference between the partial sequences is an index indicating the degree to which the partial sequences differ, and the lower the degree of difference, the higher the degree of coincidence of the waveforms of the partial sequences.
  • the degree of difference between the subsequences can be represented, for example, by a distance, and when the subsequence is represented by a point in the metric space, it is the distance between the points.
  • the nearest neighbor search is a method of searching for a point closest to a specific point in a set of points in the metric space, and in the present embodiment, a subsequence is regarded as a point and a set of subsequences is considered.
  • the subsequence closest to the particular subsequence, ie, the least dissimilarity is searched.
  • the learning partial sequence SS2 which is a partial sequence extracted from the learning data D2, is extracted while sliding an extraction range having a predetermined fixed value width (hereinafter, the size of this width is referred to as a window size) by sliding Ru.
  • diagnosis target partial sequence SS1 which is a partial sequence extracted from diagnostic object data D1 in an extraction range of the same window size as an extraction range of learning partial sequence SS2, and a difference from learning data D2 The degree is calculated.
  • the degree of difference between the diagnostic target subsequence SS1 and the learning data D2 is the learning subsequence SS2 of the waveform that is most similar to the target diagnostic target subsequence SS1 among the plurality of learning subsequences SS2 extracted from the learning data D2. It is indicated by the degree of difference from When the degree of difference is indicated by the distance between the subsequences, the shortest distance among the distances between all the extracted learning partial sequences SS2 and the diagnostic target partial sequence SS1 is the degree of difference of the diagnostic target partial sequence SS1. For example, consider the case where three learning subsequences SS2 are extracted.
  • the distance between the diagnosis target subsequence SS1 # 01 and the learning subsequence SS2 # 01 is 30.1, and the distance between the diagnosis target subsequence SS1 # 01 and the learning subsequence SS2 # 02 is 1.5. If the distance between the diagnosis target subsequence SS1 # 01 and the learning subsequence SS2 # 03 is 15.2, the degree of difference between the diagnosis target subsequence SS1 # 01 is 1.5. If the degree of difference of the diagnostic target partial sequence SS1 is equal to or less than the threshold value, it is determined that the learning data D2 includes a waveform similar to that of the diagnostic target partial sequence SS1.
  • the degree of difference is calculated for the combinations of all the learning partial sequences SS2 and all the diagnostic target partial sequences SS1, the amount of calculation increases and it takes time. For this reason, in the present embodiment, similar learning partial sequences SS2 are integrated to generate a sample partial sequence SS3 to be described later, and the nearest neighbor search is performed using the sample partial sequence SS3. Thus, the amount of calculation for calculating the degree of difference can be reduced, and the time required to calculate the degree of difference can be shortened.
  • FIG. 4 is a diagram showing the relationship between the sample subsequence SS3 generated by the information processing apparatus 10 shown in FIG. 1 and the sample error upper limit ⁇ .
  • the information processing apparatus 10 classifies the plurality of learning subsequences SS2 into clusters CL, and generates a sample subsequence SS3 which is a representative subsequence for each cluster CL.
  • the sample subsequence SS3 can also be said to be a subsequence obtained by integrating a plurality of similar learning subsequences SS2.
  • the upper limit of the distance d which is the degree of difference between the plurality of learning subsequences SS2 to be integrated, is called the sample error upper limit ⁇ .
  • the sample error upper limit ⁇ can also be said to be the upper limit of the degree of difference between the learning subsequences SS2 classified into the same cluster CL, and it is determined whether or not the plurality of learning subsequences SS2 are similar subsequences. It is set as a judgment standard for The range of the integrated learning subsequence SS2 changes according to the size of the sample error upper limit ⁇ . If the sample error upper limit ⁇ is too large, the degree of difference between the learning subsequences SS2 integrated to generate the sample subsequence SS3 becomes high, and the diagnostic accuracy of the diagnostic object data D1 is degraded.
  • sample error upper limit ⁇ is too small, the number of sample subsequences SS3 used when making a diagnosis will be large, and the amount of calculation will be large and processing time will be required. Therefore, there is a need for a method of easily acquiring an appropriate sample error upper limit ⁇ in which the diagnostic accuracy and the processing time are well balanced.
  • the information processing apparatus 10 has a function of calculating an appropriate sample error upper limit ⁇ based on normal data D3 which is time series data defined in advance as normal. For example, data acquired when a production facility is operating normally can be defined as normal data.
  • the data acquisition unit 101 acquires the normal data D3, and acquires learning data D2 and trial data D4 that is data for trial of diagnosis from the normal data D3.
  • FIG. 5 is a diagram for explaining the function of the data acquisition unit 101 shown in FIG.
  • the data acquisition unit 101 divides the normal data D3 into halves by the number of records, sets one as learning data D2, and the other as trial data D4.
  • the data acquisition unit 101 inputs the acquired learning data D2 to the sample error upper limit calculation unit 102 and the sample partial sequence generation unit 103, and the acquired trial data D4 is obtained as the sample error upper limit calculation unit 102, the sample partial sequence generation unit 103, and
  • the statistical value calculation unit 104 is input.
  • FIG. 6 is a diagram showing an outline of processing performed before the information processing apparatus 10 shown in FIG. 1 makes a diagnosis.
  • the sample error upper limit calculation unit 102 of the information processing apparatus 10 uses all the learning partial sequences SS2 extracted from the learning data D2 and the trial data D4. Then, the nearest neighbor search is performed to calculate the sample error upper limit ⁇ .
  • the sample subsequence generator 103 After calculating the sample error upper limit ⁇ , the sample subsequence generator 103 generates a sample subsequence SS3 using the calculated sample error upper limit ⁇ .
  • the statistical value calculation unit 104 performs nearest neighbor search using the generated sample partial sequence SS3 and trial data D4, and the degree of difference between the learning data D2 and the trial data D4, the statistical value of the degree of difference, Calculate
  • the statistical value includes the average value m of dissimilarities and the standard deviation ⁇ of the dissimilarities.
  • the threshold calculation unit 106 calculates the threshold used by the diagnosis unit 107 using the statistical value of the degree of difference calculated using the sample error upper limit ⁇ . The details of these processes will be described below.
  • the sample error upper limit calculation unit 102 calculates the sample error upper limit ⁇ using the learning data D2 and the trial data D4 which are input data. Specifically, the sample error upper limit calculation unit 102 calculates the sample error upper limit ⁇ using the learning partial sequence SS2 and the trial partial sequence SS4 which are data extracted from the input data. The sample error upper limit calculation unit 102 calculates the degree of difference for all combinations of the learning partial sequence SS2 and the trial partial sequence SS4, and the minimum degree of difference for each of the trial partial sequence SS4 is the difference degree of the trial partial sequence SS4. I assume. The sample error upper limit calculation unit 102 calculates a statistical value of the degree of difference based on the degree of difference of each trial partial sequence SS4.
  • the statistical value of the dissimilarity is an average value m_0 of the dissimilarity and a standard deviation ⁇ _0 of the dissimilarity.
  • the average value m_0 of the degrees of difference calculated using all the learning partial sequences SS2 is the following formula (1
  • the standard deviation .sigma..sub .-- 0 of the degree of difference is given by the following equation (2).
  • the sample error upper limit calculation unit 102 can calculate the sample error upper limit ⁇ by using these statistical values and a predetermined calculation formula.
  • a predetermined calculation formula is the following formula (3).
  • Equation (3) shows that there is a linear correlation between the sample error upper limit ⁇ and a value obtained by adding a real multiple, eg, three times, of the standard deviation ⁇ _0 of the dissimilarity to the average value m_0 of the dissimilarity.
  • FIG. 7 is a diagram showing the validity of the calculation formula used by the sample error upper limit calculation unit 102 shown in FIG.
  • the horizontal axis in FIG. 7 is “m — 0 + 3 ⁇ — 0”, and the vertical axis is the optimal sample error upper limit ⁇ .
  • the optimal sample error upper limit ⁇ is determined in advance by the difference between the degree of difference calculated using all learning partial sequences SS2 extracted from the learning data D2 and the degree of difference calculated using the sample partial sequence SS3.
  • the sample error upper limit calculation unit 102 inputs the calculated sample error upper limit ⁇ to the sample partial sequence generation unit 103 and causes the storage unit 105 to store the same.
  • the sample partial sequence generation unit 103 generates a sample partial sequence SS3 using the input sample error upper limit ⁇ , the learning data D2, and the trial data D4.
  • the sample subsequence SS3 is a subsequence obtained by integrating similar learning subsequences SS2.
  • the learning data D2 the learning subsequence SS2 close in time is likely to be a similar subsequence, and the similar subsequence is likely to appear repeatedly.
  • the sample partial sequence generation unit 103 first classifies the learning partial sequence SS2 having a degree of difference within a predetermined value in the same cluster CL among the learning partial sequences SS2 which are close in time to the learning data D2. Do the processing. Then, the sample partial sequence generation unit 103 performs a second integration process of integrating the plurality of clusters CL based on the degree of difference of the clusters CL.
  • FIG. 8 is a diagram showing an outline of the first integration process performed by the sample partial sequence generation unit 103 shown in FIG.
  • the sample partial sequence generation unit 103 integrates the learning partial sequences SS2 within a range in which the degree of difference is predetermined among the learning partial sequences SS2 whose times are close.
  • the degree of difference is indicated by the distance.
  • the sample partial sequence generation unit 103 calculates a distance d between a specific learning partial sequence SS2, for example, the learning partial sequence SS2 # 1 and the learning partial sequence SS2 # 2, and d ⁇ ⁇ / If the relationship of 2 holds, the learning subsequence SS2 # 1 and the learning subsequence SS2 # 2 are classified into the same cluster CL # 1.
  • the sample partial sequence generation unit 103 calculates the distance d between the learning partial sequence SS2 # 1 and the learning partial sequence SS2 # 3, and if the relationship of d ⁇ ⁇ / 2 holds, the learning partial sequence SS2 Classify # 3 into cluster CL # 1.
  • the sample subsequence generation unit 103 adds the learning subsequence SS2 # 4 to the new cluster CL #. It is classified into 2.
  • the sample subsequence generation unit 103 sets the distance d between the learning subsequence SS2 # 4 classified into the new cluster CL # 2 and the other learning subsequence SS2 to the time axis.
  • the learning subsequence SS2 is similarly clustered.
  • the sample partial sequence generation unit 103 generates a list of clusters CL which is the result of the first integration process.
  • FIG. 9 is a diagram showing an outline of the second integration process performed by the sample partial sequence generation unit 103 shown in FIG.
  • the sample subsequence generation unit 103 uses the plurality of learning subsequences SS2 classified into the respective clusters CL based on the list of the clusters CL which is the result of the first integration processing, to thereby execute the sample subsequence SS3 of each of the clusters CL. Generate -1. Specifically, the sample subsequence generation unit 103 calculates an average value of a plurality of values having the same index for the value included in the learning subsequence SS2 among the plurality of learning subsequences SS2 classified into the respective clusters CL. Then, a partial sequence composed of a series of average values is set as a sample partial sequence SS3-1 of each cluster CL.
  • the sample partial sequence generation unit 103 sorts the list of the sample partial sequence SS3-1 by the average value for the sample partial sequence SS3-1. Then, the sample subsequence generation unit 103 obtains the distance d between the subsequences in the same manner as in the first integration process for the list of rearranged sample subsequences SS3-1, and determines the distance between the sample subsequences SS3-1. Integrate a cluster CL in which d is ⁇ / 2 or less. The sample partial sequence generation unit 103 generates a sample partial sequence SS3 using the sample partial sequence SS3-1 classified into each of the integrated clusters CL.
  • the sample subsequence generation unit 103 obtains an average value of a plurality of values having the same index for the value included in the sample subsequence SS3-1 in the sample subsequence SS3-1, and A partial sequence composed of a series is set as a sample partial sequence SS3.
  • the sample partial sequence generation unit 103 obtains an average value of values having the same index with respect to values included in the learning partial sequence SS2 included in each cluster CL that has generated the sample partial sequence SS3-1, and generates a series of average values.
  • a partial sequence composed of the above may be used as the sample partial sequence SS3.
  • the sample partial sequence generation unit 103 inputs the generated sample partial sequence SS3 to the statistical value calculation unit 104 and causes the storage unit 105 to store the same.
  • the sample partial sequence generation unit 103 may obtain an average value of each sample partial sequence SS3 and store the average value together with the generated sample partial sequence SS3 in the storage unit 105.
  • the statistical value calculation unit 104 calculates a statistical value of the degree of difference between the learning data D2 and the trial data D4 using the generated sample partial sequence SS3 and the trial data D4.
  • the statistical value calculation unit 104 performs nearest neighbor search on the trial data D4 using the sample subsequence SS3 to obtain the degree of difference.
  • the statistical value calculation unit 104 calculates the average value m and the standard deviation ⁇ of the degree of difference, and stores the average value m and the standard deviation ⁇ in the storage unit 105.
  • the threshold calculation unit 106 uses the average value m and the standard deviation ⁇ of the dissimilarity calculated by the statistical value calculation unit 104, and a waveform similar to the diagnosis target data D1 exists in the learning data D2 of the diagnosis unit 107.
  • the diagnosis unit 107 diagnoses whether or not a waveform similar to the diagnosis target data D1 exists in the learning data D2 using the threshold Th calculated by the threshold calculation unit 106. If the learning data D2 has a waveform similar to the diagnosis target data D1, the diagnosis unit 107 determines that the diagnosis target data D1 is normal, and the learning data D2 has a waveform similar to the diagnosis target data D1. If the diagnosis target data D1 does not exist, it is determined that the diagnosis target data D1 is abnormal.
  • FIG. 10 is a flow chart showing the overall flow of processing executed by the information processing apparatus 10 shown in FIG.
  • the data acquisition unit 101 of the information processing device 10 acquires the learning data D2 and the trial data D4 from the normal data D3 (step S11).
  • the sample error upper limit calculation unit 102 calculates the sample error upper limit ⁇ using the learning data D2 acquired by the data acquisition unit 101 and the trial data D4 (step S12). Details of the method of calculating the sample error upper limit ⁇ will be described later.
  • the sample partial sequence generation unit 103 generates a sample partial sequence SS3 using the calculated sample error upper limit ⁇ and the learning data D2 (step S13). Details of the method of generating the sample subsequence SS3 will be described later.
  • the threshold calculation unit 106 calculates a threshold Th for diagnosis of the diagnosis target data D1 using the generated sample subsequence SS3 (step S14). Details of the method of calculating the threshold Th will be described later.
  • the diagnosis unit 107 diagnoses the diagnosis target data D1 (step S15).
  • step S11 to step S13 may be performed as a preparatory work in advance.
  • the threshold value calculation process of step S14 may be performed before the diagnosis process of step S15 is performed. The detailed operation of each step shown in FIG. 10 will be described below.
  • FIG. 11 is a flowchart showing a detailed operation of step S12 shown in FIG.
  • the sample error upper limit calculation unit 102 performs nearest neighbor search processing on the trial data D4 using all the learning partial sequences SS2 extracted from the learning data D2 to calculate the degree of difference (step S121).
  • FIG. 12 is a flowchart showing the detailed operation of step S121 shown in FIG.
  • the sample error upper limit calculation unit 102 extracts the trial partial sequence SS4 from the trial data D4 (step S201). Specifically, the sample error upper limit calculation unit 102 extracts waveform data of a predetermined window size w as trial partial sequence SS4 from trial data D4 of length p while sliding the extraction region little by little.
  • the sample error upper limit calculation unit 102 sets the minimum value min_i of the distance to the initial value infinity (step S202).
  • the sample error upper limit calculation unit 102 extracts waveform data of the window size w from the learning data D2 of the length q as the learning partial sequence SS2 (step S203).
  • the sample error upper limit calculation unit 102 calculates the distance d_ij between the trial subsequence SS4 and the learning subsequence SS2 (step S204).
  • the sample error upper limit calculation unit 102 updates the value of the minimum value min_i to the value of the distance d_ij (step S205).
  • the sample error upper limit calculation unit 102 repeats the processing from step S203 to step S205 until the evaluation of all the learning partial sequences SS2 is completed while sliding the range of the learning partial sequence SS2 to be extracted little by little in step S203.
  • the sample error upper limit calculation unit 102 sets the minimum value min_i to the difference degree of the trial partial sequence SS4 that is the target here (step S206).
  • the sample error upper limit calculation unit 102 repeats the process from step S201 to step S206 until the evaluation of all trial partial sequences SS4 is completed while sliding the range of the trial partial sequence SS4 extracted in step S201 little by little.
  • the sample error upper limit calculation unit 102 can acquire the degree of difference of each trial partial sequence SS4.
  • the sample error upper limit calculation unit 102 acquires the degree of difference of each trial subsequence SS4, the sample error upper limit calculation unit 102 calculates an average value m_0 and a standard deviation ⁇ _0 of the degrees of difference which are statistical values of the acquired degree of difference (step S122).
  • the sample error upper limit calculation unit 102 calculates the sample error upper limit ⁇ using the statistical value of the degree of difference and a predetermined calculation formula (step S123).
  • FIG. 13 is a flowchart showing the detailed operation of step S13 shown in FIG.
  • the sample partial sequence generation unit 103 extracts a plurality of learning partial sequences SS2 from the learning data D2 (step S131).
  • the sample partial sequence generation unit 103 clusters the learning partial sequence SS2 in time order and classifies the learning partial sequence SS2 into a plurality of clusters CL (step S132). Thereafter, the sample partial sequence generation unit 103 integrates the clusters CL to generate a sample partial sequence SS3 for each cluster CL (step S133).
  • FIG. 14 is a flowchart showing details of the first integration process of step S132 shown in FIG.
  • the sample partial sequence generation unit 103 calculates the distance between the i-th learning partial sequence SS2 and the j-th learning partial sequence SS2 (step S302).
  • the sample partial sequence generation unit 103 determines whether the calculated distance is equal to or less than ⁇ / 2 (step S303).
  • step S303: No the sample subsequence generation unit 103 determines the cluster CL and adds the cluster CL to the list of the cluster CL.
  • the sample partial sequence generation unit 103 classifies the j-th learning partial sequence SS2 into a new cluster CL (step S305).
  • the sample partial sequence generation unit 103 determines whether it is the final learning partial sequence SS2 (step S307). When it is not the last learning partial sequence SS2 (step S307: No), the sample partial sequence generation unit 103 repeats the process from step S302.
  • step S307 If it is the last learning partial sequence SS2 (step S307: Yes), the sample partial sequence generation unit 103 ends the process.
  • the process shown in FIG. 14 is executed, as shown in FIG. 8, among the learning subsequences SS2 close in time, the learning subsequence SS2 having a distance of ⁇ / 2 or less is classified into the cluster CL.
  • FIG. 15 is a flowchart showing details of the second integration process of step S133 shown in FIG.
  • the sample partial sequence generation unit 103 generates a sample partial sequence SS3-1 of each cluster CL from the learning partial sequence SS2 in each cluster CL generated in step S132 (step S311).
  • the sample partial sequence generation unit 103 sorts the list of the sample partial sequence SS3-1 by the average value of the sample partial sequence SS3-1 (step S312).
  • the sample partial sequence generation unit 103 calculates the distance d between the l-th sample partial sequence SS3-1 and the m-th sample partial sequence SS3-1 (step S314).
  • the sample partial sequence generation unit 103 determines whether the calculated distance d is equal to or smaller than ⁇ / 2 (step S315). If the distance d is equal to or smaller than ⁇ / 2 (step S315: Yes), the sample subsequence generation unit 103 integrates the clusters CL and deletes the mth sample subsequence SS3-1 from the list (step S316) .
  • the sample subsequence generator 103 determines the cluster CL and generates a sample subsequence SS3 of the integrated cluster CL (step S317).
  • the sample partial string generation unit 103 deletes the l-th sample partial string SS3-1 from the list, and sets the minimum index in the list to l (step S318).
  • the sample partial sequence generation unit 103 determines whether it is the final sample partial sequence SS3-1 (step S320). If it is not the final sample subsequence SS3-1 (step S320: No), the sample subsequence generator 103 repeats the process from step S314. If it is the last sample subsequence SS3-1 (step S320: Yes), the sample subsequence generator 103 generates a sample subsequence SS3 of each cluster CL after integration (step S321). The sample partial sequence generation unit 103 calculates an average value of the sample partial sequence SS3 and sorts the average value (step S322). The above-described operation generates a sample subsequence SS3.
  • FIG. 16 is a flowchart showing a detailed operation of step S14 shown in FIG.
  • the statistical value calculation unit 104 performs nearest neighbor search of the trial data D4 using the generated sample partial sequence SS3 and calculates the degree of difference (step S141).
  • the statistical value calculation unit 104 calculates a statistical value of the calculated difference degree (step S142).
  • the statistical values are the mean value m and the standard deviation ⁇ .
  • the threshold calculation unit 106 calculates the threshold Th based on the calculated statistical value of the degree of difference (step S143).
  • FIG. 17 is a flowchart showing a detailed operation of step S141 shown in FIG. Here, the lower bound calculation is used to speed up the nearest neighbor search processing.
  • the statistical value calculator 104 extracts the trial subsequence SS4 from the trial data D4 (step S401).
  • the minimum value min_i of the distance is set to the initial value infinity (step S402).
  • the statistical value calculation unit 104 selects one sample subsequence SS3 that has not been evaluated from the sample subsequence SS3 (step S403).
  • the statistical value calculation unit 104 uses the extracted trial partial sequence SS4 and the selected sample partial sequence SS3 to obtain an average lower bound (step S404).
  • the average lower bound can be expressed by the following equation (5), assuming that the window size is w and the average values of the time series data T and S are respectively attached to the bars T and S.
  • the statistical value calculation unit 104 determines whether the obtained lower average is larger than the minimum value min_i of the distance (step S405). If the average lower bound is larger than the minimum value min_i of the distance (step S405: Yes), the statistical value calculation unit 104 omits the following processing, and sets the minimum value min_i of the distance as the dissimilarity (step S410). If the average lower bound is equal to or less than the minimum value min_i of the distances (step S405: No), the statistical value calculation unit 104 obtains the average deviation lower bound (step S406). Assuming that the standard deviations of the time-series data T and S are Std (T) and Std (S), respectively, the lower bound of the mean deviation can be expressed by the following equation (6).
  • the statistical value calculation unit 104 determines whether the obtained lower limit of the mean deviation is larger than the minimum value min_i of the distance (step S407).
  • the statistical value calculation unit 104 ends the processing of the target sample subsequence SS3 and completes the evaluation of all sample subsequences SS3. If not, the process returns to the process of step S403.
  • the statistical value calculation unit 104 calculates the distance d_ij between the trial subsequence SS4 and the sample subsequence SS3 (step S408).
  • the distance d_ij can be expressed by the following equation (7), where S is a diagnostic target subsequence and T j is a sample subsequence.
  • the statistic value calculation unit 104 updates the minimum value min_i of the distance with the value of the distance d_ij (step S409).
  • the statistical value calculation unit 104 repeats the process from step S403 to step S409 until the evaluation of all sample partial sequences SS3 is completed.
  • the statistical value calculation unit 104 sets the minimum value min_i of the distance as the degree of difference (step S410).
  • the statistical value calculation unit 104 repeats the process from step S401 to step S410 until the evaluation of all trial partial sequences SS4 is completed.
  • the process of calculating the distance can be omitted.
  • the calculation process of the average lower bound and the average deviation lower bound has a smaller amount of calculation than the processing of calculating the distance between the subsequences, so the nearest neighbor search processing can be speeded up.
  • the nearest neighbor search process shown in step S141 is not limited to the one using lower-order calculation as shown in FIG. 17, but may be one not using lower-order calculation as shown in FIG.
  • the learning partial sequence SS2 may be replaced with the sample partial sequence SS3
  • the process of extracting the learning partial sequence SS2 from the learning data D2 may be replaced with the process of selecting one from the sample partial sequence SS3.
  • diagnosis target data D1 even in the diagnosis target data D1 to be determined to be normal, there is no waveform similar to the learning data D2, and it is determined that the data is abnormal. is there. In this case, it is desirable to add diagnosis target data D1 determined to be abnormal to learning data D2. Therefore, when the data acquiring unit 101 receives an instruction to add dissimilarity data, which is diagnostic target data D1 determined that the similar waveform is not present in the learning data D2, to the learning data D2, the data acquiring unit 101 is dissimilar. Add data to training data D2.
  • the diagnosis target data D1 to be judged to be normal is sensor data for detecting the state of the production facility
  • the sensor acquired when there is no abnormality to be detected in the production facility It is data.
  • the instruction to add the dissimilarity data to the learning data D2 is a message indicating that no abnormality has occurred in the production facility even though the diagnosis unit 107 determines that an abnormality has occurred in the production facility.
  • an instruction to add dissimilar data to the learning data D2 may be input to the information processing apparatus 10 by the input operation of the user of the information processing apparatus 10.
  • an instruction to add dissimilar data to the learning data D2 may be generated by another system that diagnoses an abnormality of a production facility and may be input to the information processing apparatus 10.
  • the sample error upper limit calculation unit 102 calculates the sample error upper limit ⁇ using the learning data D2 after the dissimilar data is added. Further, the sample partial sequence generation unit 103 uses the learning data D2 after the addition of the dissimilar data and the sample error upper limit ⁇ calculated using the learning data D2 after the addition of the dissimilar data to obtain the sample partial sequence SS3 It will be generated. Further, the statistical value calculation unit 104 performs nearest neighbor search using the sample partial sequence SS3 and trial data D4 generated using the learning data D2 after the addition of dissimilar data, and learn data D2 and trial data D4. And the statistical value of the degree of difference.
  • the threshold calculation unit 106 calculates the threshold Th using the sample subsequence SS3 generated using the learning data D2 after the addition of the dissimilar data.
  • the diagnosis unit 107 performs a diagnosis process using the learning data D2 after the addition of the dissimilar data. Therefore, even if it is determined that the diagnosis target data D1 to be determined to be normal is abnormal, the added dissimilarity data is determined to be normal after the next diagnosis process.
  • a sample subsequence SS3 is generated by integrating similar learning subsequences among a plurality of learning subsequences SS2 which are subsequences extracted from the learning data D2
  • a sample error upper limit ⁇ which is the upper limit of the degree of difference between the plurality of learning partial sequences SS2 to be integrated, is calculated based on input data that is time-series data.
  • a sample partial sequence SS3 is generated from the learning data D2 using the calculated sample error upper limit ⁇ .
  • a user who uses the information processing apparatus 10 can easily set an appropriate sample error upper limit ⁇ in which the diagnostic accuracy and the processing time are well balanced by merely inputting time-series data without trial and error. It becomes possible to easily generate an appropriate sample subsequence SS3. In addition, by generating an appropriate sample subsequence SS3, it is possible to perform high-speed diagnostic processing while maintaining diagnostic accuracy.
  • the configuration shown in the above embodiment shows an example of the contents of the present invention, and can be combined with another known technique, and one of the configurations is possible within the scope of the present invention. Parts can be omitted or changed.
  • Reference Signs List 10 information processing apparatus 101 data acquisition unit 102 sample error upper limit calculation unit 103 sample partial sequence generation unit 104 statistic value calculation unit 105 storage unit 106 threshold calculation unit 107 diagnosis unit D1 data to be diagnosed D2 learning Data, D3 normal data, D4 trial data, SS1 diagnosis target subsequence, SS2 learning subsequence, SS3, SS3-1 sample subsequence, SS4 trial subsequence, CL cluster, ⁇ sample error upper limit, d distance, m, m_0 average Values, ⁇ , ⁇ _0 standard deviation.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Automation & Control Theory (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Pure & Applied Mathematics (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Human Computer Interaction (AREA)
  • Probability & Statistics with Applications (AREA)
  • Operations Research (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Manufacturing & Machinery (AREA)
  • Testing And Monitoring For Control Systems (AREA)
  • Complex Calculations (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

情報処理装置(10)は、時系列データである入力データを取得するデータ取得部(101)と、時系列データである学習データから抽出した部分列である複数の学習部分列の中で類似する学習部分列を統合して標本部分列を生成する際に、統合される複数の学習部分列の間の相違度の上限である標本誤差上限を、入力データから取出したデータを用いて算出する標本誤差上限算出部(102)と、標本誤差上限を用いて、学習データから標本部分列を生成する標本部分列生成部(103)と、を備えることを特徴とする。

Description

情報処理装置および情報処理方法
 本発明は、予め定めたデータを用いて時系列データを診断する情報処理装置および情報処理方法に関する。
 正常なデータを予め定義して学習データとし、学習データの中に診断対象データと類似している波形が存在するか否かに基づいて、診断対象データが正常であるか否かを診断する方法がある。例えば、生産設備が正常に稼働しているときに取得されたセンサデータを学習データとして、稼働中の生産設備のセンサデータを診断対象データとすると、生産設備の異常を検知することができる。
 学習データの中に診断対象データと類似している波形が存在するか否かは、学習データおよび診断対象データのそれぞれから抽出した部分列同士の相違度を用いて判断することができる。学習データから部分列を抽出する範囲を少しずつスライドして、全ての部分列と、診断対象データから抽出した部分列との相違度を計算して、最も低い相違度をその診断対象データから抽出した部分列の相違度とする。しかしながら、この方法では、診断対象データの部分列と、学習データの全ての部分列との全ての組み合わせについて相違度を計算する必要があるため、計算量が多く相違度の計算に時間がかかるという問題があった。
 上記の方法に対して、特許文献1に記載の方法では、学習データの部分列をクラスタリングして、部分列間の相違度が予め定められた標本誤差上限以内の複数のクラスタを生成し、クラスタごとに部分列を統合して標本部分列を生成する。そして標本部分列と診断対象データの部分列とを比較することで、計算量を減らして相違度の計算にかかる時間を短縮することができる。
国際公開第2016/117086号
 しかしながら、特許文献1には、統合する部分列の間の相違度の上限である標本誤差上限を算出する方法の詳細については記載がない。標本誤差上限が大きすぎると、診断対象データの診断精度が低下してしまい、標本誤差上限が小さすぎると、計算量が多く処理時間がかかってしまう。診断精度と処理時間のバランスがとれた適切な標本部分列を生成することが困難であるという問題があった。
 本発明は、上記に鑑みてなされたものであって、適切な標本部分列を容易に生成することが可能な情報処理装置を得ることを目的とする。
 上述した課題を解決し、目的を達成するために、本発明は、時系列データである入力データを取得するデータ取得部と、入力データから取出したデータを用いて標本誤差上限を算出する標本誤差上限算出部と、標本誤差上限を用いて、学習データから標本部分列を生成する標本部分列生成部とを備えることを特徴とする。標本誤差上限は、学習データから抽出した部分列である複数の学習部分列の中で類似する学習部分列を統合して標本部分列を生成する際に、統合される複数の学習部分列の間の相違度の上限である。
 本発明にかかる情報処理装置は、適切な標本部分列を容易に生成することが可能であるという効果を奏する。
本発明の実施の形態にかかる情報処理装置の構成を示す図 図1に示す情報処理装置が行う学習データを用いた診断対象データの診断の概要を示す図 図2に示す学習データの中に診断対象データと類似の波形があるか否かを判断するために用いる最近傍探索の概要を説明するための図 図1に示す情報処理装置が生成する標本部分列と標本誤差上限との関係を示す図 図1に示すデータ取得部の機能を説明するための図 図1に示す情報処理装置が診断を行う前に行う処理の概要を示す図 図1に示す標本誤差上限算出部が用いる計算式の妥当性を示す図 図1に示す標本部分列生成部が行う第1統合処理の概要を示す図 図1に示す標本部分列生成部が行う第2統合処理の概要を示す図 図1に示す情報処理装置が実行する処理の全体の流れを示すフローチャート 図10に示すステップS12の詳細な動作を示すフローチャート 図11に示すステップS121の詳細な動作を示すフローチャート 図10に示すステップS13の詳細な動作を示すフローチャート 図13に示すステップS132の第1統合処理の詳細を示すフローチャート 図13に示すステップS133の第2統合処理の詳細を示すフローチャート 図10に示すステップS14の詳細な動作を示すフローチャート 図16に示すステップS141の詳細な動作を示すフローチャート
 以下に、本発明の実施の形態にかかる情報処理装置および情報処理方法を図面に基づいて詳細に説明する。なお、この実施の形態によりこの発明が限定されるものではない。
実施の形態.
 図1は、本発明の実施の形態にかかる情報処理装置10の構成を示す図である。情報処理装置10は、データ取得部101と、標本誤差上限算出部102と、標本部分列生成部103と、統計値算出部104と、記憶部105と、閾値算出部106と、診断部107とを有する。
 情報処理装置10は、診断対象データD1と類似している波形が、後述する学習データD2の中に存在するか否かに基づいて、診断対象データD1を診断する機能を有する。図2は、図1に示す情報処理装置10が行う学習データD2を用いた診断対象データD1の診断の概要を示す図である。診断対象データD1は、診断の対象とするデータである。学習データD2は、上記の診断の基準として用いられるデータであって予め正常なデータであると定義されたデータであり、例えばセンサデータなどの時系列データである。診断対象データD1は、学習データD2と同じ種類の時系列データであり、学習データD2が温度データである場合、診断対象データD1も温度データである。学習データD2の中に、診断対象データD1と類似の波形がある場合、情報処理装置10は、その診断対象データD1が正常であると判断する。学習データD2の中に、診断対象データD1と類似の波形がない場合、情報処理装置10は、その診断対象データD1が異常であると判断する。
 生産設備に異常が生じた場合には、生産設備が正常に稼働しているときに取得されたセンサデータと異なる波形を含むセンサデータが出力されることが多い。この場合、生産設備が正常に稼働しているときに取得されたセンサデータを学習データD2として、稼働中の生産設備のセンサデータを診断対象データD1とすると、生産設備の異常を検知することができる。情報処理装置10が稼働中の生産設備のセンサデータを取得する処理と、取得したセンサデータを診断対象データD1とする診断処理とをシーケンシャルに繰り返して行うことで、リアルタイムに生産設備の異常を検知することができる。
 図3は、図2に示す学習データD2の中に診断対象データD1と類似の波形があるか否かを判断するために用いる最近傍探索の概要を説明するための図である。学習データD2の中に診断対象データD1と類似の波形があるか否かは、部分列間の相違度を用いて判断される。部分列間の相違度は、部分列同士が相違している度合いを示す指標であり、相違度が低いほど部分列の波形の一致度が高い。部分列間の相違度は、例えば距離で表すことができ、部分列を距離空間における点で表した場合、点と点との間の距離である。最近傍探索は、距離空間における点の集合の中で特定の点に最も距離が近い点を探す方法であり、本実施の形態では、部分列を点と見なして、部分列の集合の中で特定の部分列に最も近い、すなわち最も相違度が低い部分列が探索される。学習データD2から抽出した部分列である学習部分列SS2は、予め定められた固定値の幅(以下、この幅の大きさをウインドウサイズと称する)を有する抽出範囲を少しずつスライドしながら抽出される。そして、診断対象データD1から学習部分列SS2の抽出範囲と同じウインドウサイズの抽出範囲で抽出した部分列である診断対象部分列SS1のそれぞれについて、最近傍探索が行われて学習データD2との相違度が算出される。
 診断対象部分列SS1と学習データD2との間の相違度は、学習データD2から抽出される複数の学習部分列SS2の中で対象の診断対象部分列SS1と最も類似する波形の学習部分列SS2との相違度で示される。相違度を部分列の間の距離で示す場合、抽出された全ての学習部分列SS2と診断対象部分列SS1との間の距離のうち、最短距離が診断対象部分列SS1の相違度となる。例えば、3つの学習部分列SS2が抽出された場合について考える。診断対象部分列SS1#01と学習部分列SS2#01との間の距離が30.1であり、診断対象部分列SS1#01と学習部分列SS2#02との間の距離が1.5であり、診断対象部分列SS1#01と学習部分列SS2#03との間の距離が15.2である場合、診断対象部分列SS1#01の相違度は1.5である。診断対象部分列SS1の相違度が閾値以下である場合、学習データD2の中に診断対象部分列SS1と類似の波形が含まれると判断される。
 ここで、全ての学習部分列SS2と全ての診断対象部分列SS1との組み合わせについて、相違度を算出する場合、計算量が増大して時間がかかってしまう。このため、本実施の形態では、類似した学習部分列SS2を統合して、後述する標本部分列SS3を生成し、標本部分列SS3を用いて最近傍探索を行う。これにより、相違度を算出するための計算量を減らすことができ、相違度の計算にかかる時間を短縮することができる。
 図4は、図1に示す情報処理装置10が生成する標本部分列SS3と標本誤差上限εとの関係を示す図である。情報処理装置10は、複数の学習部分列SS2をクラスタCLに分類して、クラスタCLごとに、代表的な部分列である標本部分列SS3を生成する。標本部分列SS3は、類似する複数の学習部分列SS2を統合した部分列であると言うこともできる。統合する複数の学習部分列SS2の間の相違度である距離dの上限は、標本誤差上限εと呼ばれる。標本誤差上限εは、同一のクラスタCLに分類される学習部分列SS2の間の相違度の上限と言うこともでき、複数の学習部分列SS2を類似する部分列であるか否かを判断するための判断基準として設定される。標本誤差上限εの大きさによって、統合する学習部分列SS2の範囲が変化する。標本誤差上限εが大きすぎると、標本部分列SS3を生成するために統合する学習部分列SS2間の相違度が高くなるため、診断対象データD1の診断精度が低下してしまう。標本誤差上限εが小さすぎると、診断を行う際に用いる標本部分列SS3の数が多くなり、計算量が多く処理時間がかかってしまう。このため、診断精度と処理時間とのバランスがとれた適切な標本誤差上限εを容易に取得する方法が求められている。
 図1の説明に戻る。情報処理装置10は、予め正常であると定義した時系列データである正常データD3に基づいて、適切な標本誤差上限εを算出する機能を有する。例えば、生産設備が正常に稼働しているときに取得されたデータを正常なデータと定義することができる。データ取得部101は、正常データD3を取得して、正常データD3から学習データD2と、診断の試行用のデータである試行データD4とを取得する。
 図5は、図1に示すデータ取得部101の機能を説明するための図である。データ取得部101は、正常データD3を取得すると、正常データD3をレコード数で2分の1ずつに分割して、一方を学習データD2とし、他方を試行データD4とする。データ取得部101は、取得した学習データD2を標本誤差上限算出部102と標本部分列生成部103とに入力し、取得した試行データD4を標本誤差上限算出部102、標本部分列生成部103および統計値算出部104に入力する。
 図6は、図1に示す情報処理装置10が診断を行う前に行う処理の概要を示す図である。データ取得部101が学習データD2および試行データD4を取得した後、情報処理装置10の標本誤差上限算出部102は、学習データD2から抽出した全ての学習部分列SS2と、試行データD4とを用いて最近傍探索を行い、標本誤差上限εを算出する。標本誤差上限εを算出した後、標本部分列生成部103は、算出された標本誤差上限εを用いて、標本部分列SS3を生成する。そして統計値算出部104は、生成された標本部分列SS3と試行データD4とを用いて最近傍探索を行い、学習データD2と試行データD4との間の相違度と、相違度の統計値とを算出する。統計値は、相違度の平均値mおよび相違度の標準偏差σを含む。閾値算出部106は、標本誤差上限εを用いて算出された相違度の統計値を用いて、診断部107が用いる閾値を算出する。以下、これらの処理の詳細について説明する。
 図1の説明に戻る。標本誤差上限算出部102は、入力データである学習データD2および試行データD4を用いて、標本誤差上限εを算出する。具体的には、標本誤差上限算出部102は、入力データから取出したデータである学習部分列SS2および試行部分列SS4を用いて、標本誤差上限εを算出する。標本誤差上限算出部102は、学習部分列SS2と試行部分列SS4との全ての組み合わせについて相違度を算出し、試行部分列SS4のそれぞれについて、最小の相違度をその試行部分列SS4の相違度とする。標本誤差上限算出部102は、それぞれの試行部分列SS4の相違度に基づいて、相違度の統計値を算出する。相違度の統計値は、具体的には相違度の平均値m_0および相違度の標準偏差σ_0である。試行部分列SS4の数をn、i番目の試行部分列SS4の相違度をa_iとした場合、全ての学習部分列SS2を用いて計算された相違度の平均値m_0は、下記の数式(1)で示され、相違度の標準偏差σ_0は、下記の数式(2)で示される。
Figure JPOXMLDOC01-appb-M000001
Figure JPOXMLDOC01-appb-M000002
 標本誤差上限算出部102は、これらの統計値と、予め定められた計算式とを用いて、標本誤差上限εを算出することができる。kを正の実数とした場合、予め定められた計算式は、下記の数式(3)である。
 ε=k(m_0+3σ_0) ・・・(3)
 数式(3)は、相違度の平均値m_0に、相違度の標準偏差σ_0の実数倍、例えば3倍を加算した値と、標本誤差上限εとの間に線形の相関があることを示している。図7は、図1に示す標本誤差上限算出部102が用いる計算式の妥当性を示す図である。図7の横軸は、「m_0+3σ_0」であり、縦軸は、最適な標本誤差上限εである。ここでは、最適な標本誤差上限εは、学習データD2から抽出された全ての学習部分列SS2を用いて算出した相違度と、標本部分列SS3を用いて算出した相違度との差が予め定められた割合以下となる値と定義している。学習データD2と試行データD4とを用いて、様々な条件で相違度を求めた結果、図7に示すように、「m_0+3σ_0」の値と、最適な標本誤差上限εの値との間には、線形の相関があることが確認できた。標本誤差上限算出部102は、算出した標本誤差上限εを標本部分列生成部103に入力し、記憶部105に記憶させる。
 標本部分列生成部103は、入力された標本誤差上限εと、学習データD2と、試行データD4とを用いて、標本部分列SS3を生成する。標本部分列SS3は、類似する学習部分列SS2を統合した部分列である。学習データD2の中で時間が近い学習部分列SS2は類似した部分列となる可能性が高く、類似した部分列は、繰り返して出現する可能性が高い。このため、標本部分列生成部103は、まず、学習データD2から時間が近い学習部分列SS2のうち相違度が予め定められた値以内の学習部分列SS2を同じクラスタCLに分類する第1統合処理を行う。そして、標本部分列生成部103は、クラスタCLの相違度に基づいて、複数のクラスタCLを統合する第2統合処理を行う。
 図8は、図1に示す標本部分列生成部103が行う第1統合処理の概要を示す図である。標本部分列生成部103は、時間が近い学習部分列SS2のうち相違度が予め定められた範囲内の学習部分列SS2を統合する。ここでは相違度は距離で示される。具体的には、標本部分列生成部103は、特定の学習部分列SS2、例えば学習部分列SS2#1と、学習部分列SS2#2との間の距離dを算出して、d≦ε/2の関係が成り立つ場合、学習部分列SS2#1と学習部分列SS2#2とを同じクラスタCL#1に分類する。同様に、標本部分列生成部103は、学習部分列SS2#1と学習部分列SS2#3との間の距離dを算出して、d≦ε/2の関係が成り立つ場合、学習部分列SS2#3をクラスタCL#1に分類する。学習部分列SS2#1と学習部分列SS2#4との間の距離dがd>ε/2となった場合、標本部分列生成部103は、学習部分列SS2#4を新たなクラスタCL#2に分類する。分類するクラスタCLが変わると、標本部分列生成部103は、新たなクラスタCL#2に分類された学習部分列SS2#4と、他の学習部分列SS2との間の距離dを、時間軸に沿って順に算出して、同様に学習部分列SS2をクラスタリングする。標本部分列生成部103は、第1統合処理の結果であるクラスタCLのリストを生成する。
 図9は、図1に示す標本部分列生成部103が行う第2統合処理の概要を示す図である。標本部分列生成部103は、第1統合処理の結果であるクラスタCLのリストに基づいて、それぞれのクラスタCLに分類された複数の学習部分列SS2を用いて、各クラスタCLの標本部分列SS3-1を生成する。具体的には、標本部分列生成部103は、それぞれのクラスタCLに分類された複数の学習部分列SS2の中で学習部分列SS2に含まれる値に対するインデックスが同一の複数の値の平均値を求めて、平均値の系列から構成される部分列を、各クラスタCLの標本部分列SS3-1とする。
 標本部分列生成部103は、標本部分列SS3-1のリストを標本部分列SS3-1に対する平均値でソートする。そして標本部分列生成部103は、並べ替えた標本部分列SS3-1のリストについて、第1統合処理と同様に部分列の間の距離dを求めて、標本部分列SS3-1の間の距離dがε/2以下のクラスタCLを統合する。標本部分列生成部103は、統合されたクラスタCLのそれぞれに分類された標本部分列SS3-1を用いて、標本部分列SS3を生成する。具体的には、標本部分列生成部103は、標本部分列SS3-1の中で標本部分列SS3-1に含まれる値に対するインデックスが同一の複数の値の平均値を求めて、平均値の系列から構成される部分列を標本部分列SS3とする。標本部分列生成部103は、標本部分列SS3-1を生成した各クラスタCLに含まれていた学習部分列SS2に含まれる値に対するインデックスが同一の値の平均値を求めて、平均値の系列から構成される部分列を標本部分列SS3としてもよい。標本部分列生成部103は、生成した標本部分列SS3を統計値算出部104に入力すると共に、記憶部105に記憶させる。また標本部分列生成部103は、各標本部分列SS3の平均値を求めて、生成した標本部分列SS3と共に記憶部105に記憶させてもよい。
 図1の説明に戻る。統計値算出部104は、生成された標本部分列SS3と、試行データD4とを用いて、学習データD2と試行データD4との間の相違度の統計値を算出する。統計値算出部104は、標本部分列SS3を使用して試行データD4で最近傍探索を実行し、相違度を求める。統計値算出部104は、相違度の平均値mおよび標準偏差σを算出して、記憶部105に記憶させる。
 閾値算出部106は、統計値算出部104が算出した、相違度の平均値mおよび標準偏差σを用いて、診断部107が学習データD2の中に診断対象データD1と類似の波形が存在するか否かを診断するための閾値Thを算出する。診断部107は、閾値算出部106が算出した閾値Thを用いて、学習データD2の中に診断対象データD1と類似の波形が存在するか否かを診断する。診断部107は、学習データD2の中に診断対象データD1と類似の波形が存在する場合、診断対象データD1は正常であると判断し、学習データD2の中に診断対象データD1と類似の波形が存在しない場合、診断対象データD1は異常であると判断する。
 図10は、図1に示す情報処理装置10が実行する処理の全体の流れを示すフローチャートである。情報処理装置10のデータ取得部101は、正常データD3から学習データD2と試行データD4とを取得する(ステップS11)。標本誤差上限算出部102は、データ取得部101によって取得された学習データD2と試行データD4とを用いて、標本誤差上限εを算出する(ステップS12)。標本誤差上限εの算出方法の詳細は、後述される。
 標本部分列生成部103は、算出された標本誤差上限εと、学習データD2とを用いて、標本部分列SS3を生成する(ステップS13)。標本部分列SS3の生成方法の詳細は、後述される。閾値算出部106は、生成された標本部分列SS3を用いて、診断対象データD1の診断のための閾値Thを算出する(ステップS14)。閾値Thの算出方法の詳細は、後述される。診断部107は、診断対象データD1の診断を行う(ステップS15)。
 図10に示した処理の流れは、必ずしも連続的に実行される必要はない。例えば、ステップS11からステップS13までの処理は、事前の準備作業として実行されてもよい。また、ステップS14の閾値算出処理は、ステップS15の診断処理を実行する前に行われればよい。以下、図10に示した各ステップの詳細な動作について説明する。
 図11は、図10に示すステップS12の詳細な動作を示すフローチャートである。標本誤差上限算出部102は、学習データD2から抽出した全ての学習部分列SS2を用いて、試行データD4の最近傍探索処理を行って、相違度を算出する(ステップS121)。図12は、図11に示すステップS121の詳細な動作を示すフローチャートである。標本誤差上限算出部102は、試行データD4から試行部分列SS4を抽出する(ステップS201)。具体的には、標本誤差上限算出部102は、抽出領域を少しずつスライドさせながら、長さpの試行データD4から予め定められたウインドウサイズwの波形データを試行部分列SS4として抽出する。標本誤差上限算出部102は、距離の最小値min_iを初期値の無限大に設定する(ステップS202)。
 標本誤差上限算出部102は、長さqの学習データD2からウインドウサイズwの波形データを学習部分列SS2として抽出する(ステップS203)。標本誤差上限算出部102は、試行部分列SS4と学習部分列SS2との間の距離d_ijを算出する(ステップS204)。距離d_ijは、試行部分列SS4の時系列データS[i:i+w-1](i=1,2,3,...,p-w+1)として、学習部分列SS2の時系列データT[j:j+w-1](j=1,2,3,...,q-w+1)とした場合、以下の数式(4)によって求めることができる。
Figure JPOXMLDOC01-appb-M000003
 標本誤差上限算出部102は、d_ij<min_iの関係が成り立つ場合、最小値min_iの値を距離d_ijの値に更新する(ステップS205)。標本誤差上限算出部102は、ステップS203において、抽出する学習部分列SS2の範囲を少しずつスライドしながら、ステップS203からステップS205の処理を、全ての学習部分列SS2の評価が完了するまで繰り返す。
 全ての学習部分列SS2を評価完了すると、標本誤差上限算出部102は、最小値min_iを、ここで対象としている試行部分列SS4の相違度とする(ステップS206)。標本誤差上限算出部102は、ステップS201で抽出する試行部分列SS4の範囲を少しずつスライドしながら、ステップS201からステップS206の処理を、全ての試行部分列SS4の評価が完了するまで繰り返す。ステップS121に示す処理により、標本誤差上限算出部102は、それぞれの試行部分列SS4の相違度を取得することができる。
 図11の説明に戻る。標本誤差上限算出部102は、それぞれの試行部分列SS4の相違度を取得すると、取得した相違度の統計値である相違度の平均値m_0および標準偏差σ_0を算出する(ステップS122)。標本誤差上限算出部102は、相違度の統計値と予め定められた計算式とを用いて、標本誤差上限εを算出する(ステップS123)。
 図13は、図10に示すステップS13の詳細な動作を示すフローチャートである。標本部分列生成部103は、学習データD2から複数の学習部分列SS2を抽出する(ステップS131)。標本部分列生成部103は、学習部分列SS2を時間の順にクラスタリングして、複数のクラスタCLに分類する(ステップS132)。その後、標本部分列生成部103は、クラスタCLを統合して、クラスタCLごとの標本部分列SS3を生成する(ステップS133)。
 図14は、図13に示すステップS132の第1統合処理の詳細を示すフローチャートである。まず標本部分列生成部103は、学習部分列SS2の順番を示す序数であるiおよびjをi=1,j=i+1に設定する(ステップS301)。標本部分列生成部103は、i番目の学習部分列SS2とj番目の学習部分列SS2との間の距離を算出する(ステップS302)。標本部分列生成部103は、算出した距離がε/2以下であるか否かを判断する(ステップS303)。距離がε/2以下である場合(ステップS303:Yes)、標本部分列生成部103は、j番目の学習部分列SS2をi番目の学習部分列SS2と同じクラスタCLに分類して、j=j+1とする(ステップS304)。
 距離がε/2を超える場合(ステップS303:No)、標本部分列生成部103は、クラスタCLを確定して、クラスタCLのリストに追加する。また標本部分列生成部103は、j番目の学習部分列SS2を新たなクラスタCLに分類する(ステップS305)。標本部分列生成部103は、i=j,j=j+1に設定する(ステップS306)。ステップS304の処理を行った後、またはステップS306の処理を行った後、標本部分列生成部103は、最後の学習部分列SS2であるか否かを判断する(ステップS307)。最後の学習部分列SS2でない場合(ステップS307:No)、標本部分列生成部103は、ステップS302から処理を繰り返す。最後の学習部分列SS2である場合(ステップS307:Yes)、標本部分列生成部103は、処理を終了する。図14に示す処理が実行されると、図8に示したように、時間が近い学習部分列SS2のうち距離がε/2以下の学習部分列SS2がクラスタCLに分類される。
 図15は、図13に示すステップS133の第2統合処理の詳細を示すフローチャートである。標本部分列生成部103は、ステップS132において生成された各クラスタCL内の学習部分列SS2から、各クラスタCLの標本部分列SS3-1を生成する(ステップS311)。標本部分列生成部103は、標本部分列SS3-1のリストを、標本部分列SS3-1の平均値でソートする(ステップS312)。標本部分列生成部103は、標本部分列SS3-1の順序を示す序数l=1、m=l+1に設定する(ステップS313)。
 標本部分列生成部103は、l番目の標本部分列SS3-1と、m番目の標本部分列SS3-1との間の距離dを算出する(ステップS314)。標本部分列生成部103は、算出した距離dがε/2以下であるか否かを判断する(ステップS315)。距離dがε/2以下である場合(ステップS315:Yes)、標本部分列生成部103は、クラスタCLを統合して、m番目の標本部分列SS3-1をリストから削除する(ステップS316)。距離dがε/2を超える場合(ステップS315:No)、標本部分列生成部103は、クラスタCLを確定して、統合したクラスタCLの標本部分列SS3を生成する(ステップS317)。標本部分列生成部103は、l番目の標本部分列SS3-1をリストから削除して、リスト中の最小インデックスをlに設定する(ステップS318)。ステップS316の処理またはステップS318の処理が終わると、標本部分列生成部103は、m=m+1に設定する(ステップS319)。
 標本部分列生成部103は、最後の標本部分列SS3-1であるか否かを判断する(ステップS320)。最後の標本部分列SS3-1でない場合(ステップS320:No)、標本部分列生成部103は、ステップS314から処理を繰り返す。最後の標本部分列SS3-1である場合(ステップS320:Yes)、標本部分列生成部103は、統合後の各クラスタCLの標本部分列SS3を生成する(ステップS321)。標本部分列生成部103は、標本部分列SS3の平均値を算出して、平均値でソートする(ステップS322)。上記の動作により、標本部分列SS3が生成される。
 図16は、図10に示すステップS14の詳細な動作を示すフローチャートである。統計値算出部104は、生成された標本部分列SS3を用いて、試行データD4の最近傍探索を行い、相違度を算出する(ステップS141)。統計値算出部104は、算出された相違度の統計値を算出する(ステップS142)。統計値は、平均値mおよび標準偏差σである。閾値算出部106は、算出された相違度の統計値に基づいて、閾値Thを算出する(ステップS143)。
 図17は、図16に示すステップS141の詳細な動作を示すフローチャートである。ここでは、下界計算を用いて、最近傍探索処理を高速化している。
 統計値算出部104は、試行データD4から試行部分列SS4を抽出する(ステップS401)。距離の最小値min_iを初期値の無限大に設定する(ステップS402)。統計値算出部104は、標本部分列SS3の中から未評価の標本部分列SS3を1つ選択する(ステップS403)。統計値算出部104は、抽出した試行部分列SS4と、選択した標本部分列SS3とを用いて、平均下界を求める(ステップS404)。平均下界は、ウインドウサイズをw、時系列データT,Sの平均値をそれぞれT,Sのそれぞれにバーを付したものとすると、以下の数式(5)で示すことができる。
Figure JPOXMLDOC01-appb-M000004
 統計値算出部104は、求めた平均下界が距離の最小値min_iよりも大きいか否かを判断する(ステップS405)。平均下界が距離の最小値min_iよりも大きい場合(ステップS405:Yes)、統計値算出部104は、以下の処理を省略して、距離の最小値min_iを相違度とする(ステップS410)。平均下界が距離の最小値min_i以下である場合(ステップS405:No)、統計値算出部104は、平均偏差下界を求める(ステップS406)。時系列データT,Sの標準偏差をそれぞれStd(T),Std(S)とすると、平均偏差下界は、以下の数式(6)で示すことができる。
Figure JPOXMLDOC01-appb-M000005
 統計値算出部104は、求めた平均偏差下界が距離の最小値min_iよりも大きいか否かを判断する(ステップS407)。平均偏差下界が距離の最小値min_iよりも大きい場合(ステップS407:Yes)、統計値算出部104は、対象の標本部分列SS3の処理を終了し、全標本部分列SS3の評価を完了していない場合、ステップS403の処理に戻る。平均偏差下界が距離の最小値min_i以下である場合(ステップS407:No)、統計値算出部104は、試行部分列SS4と標本部分列SS3との間の距離d_ijを算出する(ステップS408)。
 距離d_ijは、診断対象部分列をS,標本部分列をTとした場合、以下の数式(7)で示すことができる。
Figure JPOXMLDOC01-appb-M000006
 算出した距離d_ijが距離の最小値min_iよりも小さい場合、統計値算出部104は、距離の最小値min_iを距離d_ijの値で更新する(ステップS409)。統計値算出部104は、全ての標本部分列SS3の評価が完了するまで、ステップS403からステップS409の処理を繰り返す。全ての標本部分列SS3の評価が完了すると、統計値算出部104は、距離の最小値min_iを相違度とする(ステップS410)。統計値算出部104は、全ての試行部分列SS4の評価が完了するまで、ステップS401からステップS410の処理を繰り返す。
 平均下界および平均偏差下界を用いることで、部分列間の距離を算出するまでもなく、部分列間の距離が距離の最小値min_iよりも大きくなると判断することができる場合には、部分列間の距離を算出する処理を省略することができる。平均下界および平均偏差下界の算出処理は、部分列間の距離を算出する処理よりも計算量が少ないため、最近傍探索処理を高速化することができる。なお、ステップS141に示す最近傍探索処理は、図17に示すような下界計算を用いるものに限らず、図12に示すように、下界計算を用いないものであってもよい。この場合、学習部分列SS2を標本部分列SS3に置き換えて、学習データD2から学習部分列SS2を抽出する処理を、標本部分列SS3から1つを選択する処理に置き換えればよい。
 なお、上記の情報処理装置10によれば、正常であると判断されるべき診断対象データD1であっても、学習データD2に類似した波形が存在せず、異常であると判断されることがある。この場合、異常であると判断された診断対象データD1を学習データD2に追加することが望ましい。このためデータ取得部101は、診断部107が学習データD2の中に類似の波形が存在しないと判定した診断対象データD1である非類似データを学習データD2に追加する指示を受け付けると、非類似データを学習データD2に追加する。
 正常であると判断されるべき診断対象データD1とは、診断対象データD1が生産設備の状態を検知するセンサデータである場合、生産設備に検出するべき異常が生じていないときに取得されたセンサデータである。この場合、非類似データを学習データD2に追加する指示は、診断部107が生産設備に異常が生じていると判断したにも関わらず、生産設備に異常が生じていないことを示すメッセージである。例えば、非類似データを学習データD2に追加する指示は、情報処理装置10の使用者の入力操作によって情報処理装置10に入力されてもよい。或いは非類似データを学習データD2に追加する指示は、生産設備の異常を診断する他のシステムで生成されて、情報処理装置10に入力されてもよい。
 非類似データが学習データD2に追加されると、標本誤差上限算出部102は、非類似データを追加後の学習データD2を用いて標本誤差上限εを算出することになる。また標本部分列生成部103は、非類似データを追加後の学習データD2と、非類似データを追加後の学習データD2を用いて算出された標本誤差上限εとを用いて標本部分列SS3を生成することになる。さらに統計値算出部104は、非類似データを追加後の学習データD2を用いて生成された標本部分列SS3と試行データD4とを用いて最近傍探索を行い、学習データD2と試行データD4との間の相違度と、相違度の統計値とを算出する。閾値算出部106は、非類似データを追加後の学習データD2を用いて生成された標本部分列SS3を用いて、閾値Thを算出することになる。診断部107は、非類似データを追加後の学習データD2を用いて診断処理を行うことになる。したがって、正常であると判断されるべき診断対象データD1が異常であると判断されても、次回の診断処理以降では、追加した非類似データは正常であると判断されるようになる。
 以上説明したように、本発明の実施の形態によれば、学習データD2から抽出した部分列である複数の学習部分列SS2の中で類似する学習部分列を統合して標本部分列SS3を生成する際に、統合される複数の学習部分列SS2の間の相違度の上限である標本誤差上限εが、時系列データである入力データに基づいて算出される。そして算出された標本誤差上限εを用いて、学習データD2から標本部分列SS3が生成される。このため情報処理装置10を使用する使用者は、試行錯誤しなくても時系列データを入力するだけで、診断精度と処理時間のバランスがとれた適切な標本誤差上限εを容易に設定することが可能になり、適切な標本部分列SS3を容易に生成することが可能になる。また、適切な標本部分列SS3が生成されることで、診断精度を保ちつつ高速な診断処理を行うことが可能である。
 以上の実施の形態に示した構成は、本発明の内容の一例を示すものであり、別の公知の技術と組み合わせることも可能であるし、本発明の要旨を逸脱しない範囲で、構成の一部を省略、変更することも可能である。
 10 情報処理装置、101 データ取得部、102 標本誤差上限算出部、103 標本部分列生成部、104 統計値算出部、105 記憶部、106 閾値算出部、107 診断部、D1 診断対象データ、D2 学習データ、D3 正常データ、D4 試行データ、SS1 診断対象部分列、SS2 学習部分列、SS3,SS3-1 標本部分列、SS4 試行部分列、CL クラスタ、ε 標本誤差上限、d 距離、m,m_0 平均値、σ,σ_0 標準偏差。

Claims (13)

  1.  時系列データである入力データを取得するデータ取得部と、
     前記時系列データである学習データから抽出した部分列である複数の学習部分列の中で類似する前記学習部分列を統合して標本部分列を生成する際に、統合される複数の前記学習部分列の間の相違度の上限である標本誤差上限を、前記入力データから取出したデータを用いて算出する標本誤差上限算出部と、
     前記標本誤差上限を用いて、前記学習データから前記標本部分列を生成する標本部分列生成部と、
     を備えることを特徴とする情報処理装置。
  2.  前記時系列データは、稼働中の生産設備から取得したデータであることを特徴とする請求項1に記載の情報処理装置。
  3.  前記標本部分列を用いて、前記学習データの中に診断対象データと類似の波形が存在するか否かを診断するための閾値を算出する閾値算出部、
     をさらに備えることを特徴とする請求項1または2に記載の情報処理装置。
  4.  前記標本部分列と前記閾値とを用いて、前記学習データの中に前記診断対象データと類似の波形が存在するか否かを診断する診断部、
     をさらに備えることを特徴とする請求項3に記載の情報処理装置。
  5.  前記データ取得部は、前記入力データを分割して前記学習データと試行データとを生成し、
     前記標本誤差上限算出部は、前記試行データと前記学習データとの間の前記相違度に基づいて、前記標本誤差上限を算出することを特徴とする請求項1から4のいずれか1項に記載の情報処理装置。
  6.  前記標本誤差上限算出部は、前記試行データと前記学習データとの間の前記相違度の統計値と、予め定められた計算式とを用いて、前記標本誤差上限を算出することを特徴とする請求項5に記載の情報処理装置。
  7.  前記計算式は、前記標本誤差上限が、前記相違度の平均値と前記相違度の標準偏差の正の実数倍との和に正の実数を乗じたものであることを示していることを特徴とする請求項6に記載の情報処理装置。
  8.  前記標本誤差上限算出部は、前記試行データと前記学習データとの間の前記相違度の統計値に基づいて前記標本誤差上限を算出し、前記標本誤差上限が、前記相違度の平均値と前記相違度の標準偏差の正の実数倍との和に正の実数を乗じたものであることを特徴とする請求項5に記載の情報処理装置。
  9.  前記試行データと前記学習データとの間の前記相違度は、前記試行データから抽出された部分列である試行部分列のそれぞれに対応して求められ、
     複数の前記試行部分列のそれぞれに対応する前記相違度は、抽出範囲をずらしながら前記学習データから抽出された複数の部分列である学習部分列のそれぞれと前記試行部分列との間の前記相違度のうち最小の値であることを特徴とする請求項6または7に記載の情報処理装置。
  10.  前記データ取得部は、前記診断部が前記学習データの中に類似の波形が存在しないと判定した前記診断対象データである非類似データを前記学習データに追加する指示を受け付けると、前記非類似データを前記学習データに追加することを特徴とする請求項4に記載の情報処理装置。
  11.  前記時系列データは、設備の状態を検知するセンサデータであり、
     前記診断部は、前記学習データの中に前記診断対象データと類似の波形が存在しない場合、前記設備に異常が生じていると判断することを特徴とする請求項4に記載の情報処理装置。
  12.  前記データ取得部は、前記診断部が前記設備に異常が生じていると判断したにも関わらず、前記設備に異常が生じていないことを示すメッセージを受け付けると、前記異常を検知した前記診断対象データである非類似データを前記学習データに追加することを特徴とする請求項11に記載の情報処理装置。
  13.  情報処理装置が実行する方法であって、
     時系列データである入力データを取得するステップと、
     前記時系列データである学習データから抽出した部分列である複数の学習部分列の中で類似する前記学習部分列を統合して標本部分列を生成する際に、統合される複数の前記学習部分列の間の相違度の上限である標本誤差上限を、前記入力データを用いて算出するステップと、
     前記標本誤差上限を用いて、前記学習データから前記標本部分列を生成するステップと、
     を含むことを特徴とする情報処理方法。
PCT/JP2017/027706 2017-07-31 2017-07-31 情報処理装置および情報処理方法 WO2019026134A1 (ja)

Priority Applications (7)

Application Number Priority Date Filing Date Title
JP2018508255A JP6362808B1 (ja) 2017-07-31 2017-07-31 情報処理装置および情報処理方法
PCT/JP2017/027706 WO2019026134A1 (ja) 2017-07-31 2017-07-31 情報処理装置および情報処理方法
KR1020197016201A KR20190072652A (ko) 2017-07-31 2017-07-31 정보 처리 장치 및 정보 처리 방법
CN201780075997.9A CN110352389B (zh) 2017-07-31 2017-07-31 信息处理装置及信息处理方法
US16/463,398 US10613960B2 (en) 2017-07-31 2017-07-31 Information processing apparatus and information processing method
DE112017005640.3T DE112017005640T5 (de) 2017-07-31 2017-07-31 Informationsverarbeitungsvorrichtung und Informationsverarbeitungsverfahren
TW107124291A TWI660277B (zh) 2017-07-31 2018-07-13 資訊處理裝置及資訊處理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2017/027706 WO2019026134A1 (ja) 2017-07-31 2017-07-31 情報処理装置および情報処理方法

Publications (1)

Publication Number Publication Date
WO2019026134A1 true WO2019026134A1 (ja) 2019-02-07

Family

ID=62976627

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2017/027706 WO2019026134A1 (ja) 2017-07-31 2017-07-31 情報処理装置および情報処理方法

Country Status (7)

Country Link
US (1) US10613960B2 (ja)
JP (1) JP6362808B1 (ja)
KR (1) KR20190072652A (ja)
CN (1) CN110352389B (ja)
DE (1) DE112017005640T5 (ja)
TW (1) TWI660277B (ja)
WO (1) WO2019026134A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020149466A (ja) * 2019-03-14 2020-09-17 株式会社日立製作所 時系列データ監視システム、および時系列データ監視方法
WO2021090357A1 (ja) * 2019-11-05 2021-05-14 日本電信電話株式会社 データ分析装置、データ分析方法及びプログラム
JP7460381B2 (ja) 2020-01-30 2024-04-02 株式会社Screenホールディングス データ処理方法、データ処理装置およびプログラム
US12008022B2 (en) 2020-01-30 2024-06-11 SCREEN Holdings Co., Ltd. Data processing method, data processing device, and storage medium

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020021587A1 (ja) * 2018-07-23 2020-01-30 三菱電機株式会社 時系列データ診断装置、追加学習方法およびプログラム
WO2020026441A1 (ja) 2018-08-03 2020-02-06 三菱電機株式会社 データ解析装置、システム、方法、及びプログラム
KR102455758B1 (ko) * 2020-01-30 2022-10-17 가부시키가이샤 스크린 홀딩스 데이터 처리 방법, 데이터 처리 장치 및 기억 매체
JP2021189964A (ja) * 2020-06-03 2021-12-13 日立グローバルライフソリューションズ株式会社 異常診断装置及び異常診断方法
CN116601650A (zh) * 2020-12-08 2023-08-15 三菱电机株式会社 学习装置、异状检测装置及异状检测方法
WO2022260906A1 (en) * 2021-06-07 2022-12-15 Visa International Service Association Error-bounded approximate time series join using compact dictionary representation of time series
CN116910493B (zh) * 2023-09-12 2023-12-08 山东能源数智云科技有限公司 基于多源特征提取的设备故障诊断模型的构建方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007072752A (ja) * 2005-09-07 2007-03-22 Nippon Telegr & Teleph Corp <Ntt> 類似時系列データ計算方法、類似時系列データ計算装置、および類似時系列データ計算プログラム
JP2009217555A (ja) * 2008-03-11 2009-09-24 Mitsubishi Electric Corp ネットワーク異常判定装置
WO2011036809A1 (ja) * 2009-09-28 2011-03-31 株式会社 東芝 異常判定システムおよびその方法
JP2017016522A (ja) * 2015-07-03 2017-01-19 Kddi株式会社 端末ユーザの関係を抽出する装置、プログラム及び方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5301364A (en) * 1988-11-30 1994-04-05 Motorola, Inc. Method and apparatus for digital automatic gain control in a receiver
US10620105B2 (en) * 2004-03-06 2020-04-14 Michael Trainer Methods and apparatus for determining characteristics of particles from scattered light
TWI349867B (en) * 2008-05-20 2011-10-01 Univ Nat Cheng Kung Server and system and method for automatic virtual metrology
JP5178471B2 (ja) 2008-11-19 2013-04-10 株式会社東芝 最適部分波形データ生成装置及び方法ならびにロープ状態判定装置及び方法
JP2011192097A (ja) 2010-03-16 2011-09-29 Hitachi Ltd 異常検知方法およびそれを用いた情報処理システム
JP5880916B2 (ja) * 2011-06-03 2016-03-09 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
US10264437B2 (en) * 2013-01-16 2019-04-16 Interdigital Patent Holdings, Inc. Discovery signal generation and reception
US9182358B2 (en) * 2013-03-15 2015-11-10 Kla-Tencor Corporation Multi-spot defect inspection system
US9779361B2 (en) 2014-06-05 2017-10-03 Mitsubishi Electric Research Laboratories, Inc. Method for learning exemplars for anomaly detection
JP6165367B2 (ja) * 2015-01-22 2017-07-19 三菱電機株式会社 時系列データ検索装置および時系列データ検索プログラム
US10114450B2 (en) * 2015-08-31 2018-10-30 Semiconductor Energy Laboratory Co., Ltd. Information processing device
JP6464983B2 (ja) * 2015-10-08 2019-02-06 京セラドキュメントソリューションズ株式会社 現像装置、画像形成装置
US10044386B2 (en) * 2016-04-30 2018-08-07 Analog Devices, Inc. Designing FIR filters with globally minimax-optimal magnitude response

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007072752A (ja) * 2005-09-07 2007-03-22 Nippon Telegr & Teleph Corp <Ntt> 類似時系列データ計算方法、類似時系列データ計算装置、および類似時系列データ計算プログラム
JP2009217555A (ja) * 2008-03-11 2009-09-24 Mitsubishi Electric Corp ネットワーク異常判定装置
WO2011036809A1 (ja) * 2009-09-28 2011-03-31 株式会社 東芝 異常判定システムおよびその方法
JP2017016522A (ja) * 2015-07-03 2017-01-19 Kddi株式会社 端末ユーザの関係を抽出する装置、プログラム及び方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020149466A (ja) * 2019-03-14 2020-09-17 株式会社日立製作所 時系列データ監視システム、および時系列データ監視方法
JP7030072B2 (ja) 2019-03-14 2022-03-04 株式会社日立製作所 時系列データ監視システム、および時系列データ監視方法
WO2021090357A1 (ja) * 2019-11-05 2021-05-14 日本電信電話株式会社 データ分析装置、データ分析方法及びプログラム
JP7460381B2 (ja) 2020-01-30 2024-04-02 株式会社Screenホールディングス データ処理方法、データ処理装置およびプログラム
US12008022B2 (en) 2020-01-30 2024-06-11 SCREEN Holdings Co., Ltd. Data processing method, data processing device, and storage medium

Also Published As

Publication number Publication date
CN110352389B (zh) 2021-02-23
US10613960B2 (en) 2020-04-07
US20190310927A1 (en) 2019-10-10
TWI660277B (zh) 2019-05-21
DE112017005640T5 (de) 2019-08-22
JP6362808B1 (ja) 2018-07-25
JPWO2019026134A1 (ja) 2019-08-08
TW201911074A (zh) 2019-03-16
KR20190072652A (ko) 2019-06-25
CN110352389A (zh) 2019-10-18

Similar Documents

Publication Publication Date Title
JP6362808B1 (ja) 情報処理装置および情報処理方法
Gazalba et al. Comparative analysis of k-nearest neighbor and modified k-nearest neighbor algorithm for data classification
JP6708385B2 (ja) 識別器作成装置、識別器作成方法、およびプログラム
CN111459700B (zh) 设备故障的诊断方法、诊断装置、诊断设备及存储介质
EP3438842B1 (en) Preprocessor and abnormality predictor diagnosis system
EP2905665B1 (en) Information processing apparatus, diagnosis method, and program
CN102112933B (zh) 异常检测方法及系统
US20230238081A1 (en) Artificial intelligence analysis of rna transcriptome for drug discovery
JP2019207685A (ja) 観測変数間の因果関係を推定するための方法、装置、およびシステム
CN104471501A (zh) 用于设备状态监测中故障诊断的归纳的模式识别
EP3311311A1 (en) Automatic entity resolution with rules detection and generation system
CN111079836A (zh) 基于伪标签方法和弱监督学习的过程数据故障分类方法
JP6892606B2 (ja) 位置特定装置、位置特定方法及びコンピュータプログラム
JP2016200435A (ja) マススペクトル解析システム,方法およびプログラム
CN113298146A (zh) 一种基于特征检测的图像匹配方法、装置、设备及介质
CN110717602B (zh) 一种基于噪音数据的机器学习模型鲁棒性评估方法
CN105590026A (zh) 基于主成分分析的卫星遥测回归方法
US20210374403A1 (en) Image recognition device and method
CN117319223A (zh) 一种基于数字孪生技术的领导驾驶舱可视化方法及系统
CN111782805A (zh) 一种文本标签分类方法及系统
JP2002099319A (ja) プラント診断装置
JP2020086786A (ja) 検出装置及び機械学習方法
CN115757365A (zh) 多维时序数据异常检测方法、模型训练方法及装置
CN110265151B (zh) 一种基于ehr中异构时态数据的学习方法
CN104463137A (zh) 基于特征空间分裂的异常人脸图像检测方法及系统

Legal Events

Date Code Title Description
ENP Entry into the national phase

Ref document number: 2018508255

Country of ref document: JP

Kind code of ref document: A

ENP Entry into the national phase

Ref document number: 20197016201

Country of ref document: KR

Kind code of ref document: A

122 Ep: pct application non-entry in european phase

Ref document number: 17920299

Country of ref document: EP

Kind code of ref document: A1