WO2018150616A1 - 異常音検出装置、異常度計算装置、異常音生成装置、異常音検出学習装置、異常信号検出装置、異常信号検出学習装置、これらの方法及びプログラム - Google Patents

異常音検出装置、異常度計算装置、異常音生成装置、異常音検出学習装置、異常信号検出装置、異常信号検出学習装置、これらの方法及びプログラム Download PDF

Info

Publication number
WO2018150616A1
WO2018150616A1 PCT/JP2017/033275 JP2017033275W WO2018150616A1 WO 2018150616 A1 WO2018150616 A1 WO 2018150616A1 JP 2017033275 W JP2017033275 W JP 2017033275W WO 2018150616 A1 WO2018150616 A1 WO 2018150616A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound
abnormal
function
normal
abnormal sound
Prior art date
Application number
PCT/JP2017/033275
Other languages
English (en)
French (fr)
Inventor
悠馬 小泉
翔一郎 齊藤
尚 植松
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to JP2019500181A priority Critical patent/JP6704084B2/ja
Priority to CN201780086118.2A priority patent/CN110352349B/zh
Priority to US16/485,334 priority patent/US11609115B2/en
Priority to EP17896482.1A priority patent/EP3584573B1/en
Priority to ES17896482T priority patent/ES2940314T3/es
Publication of WO2018150616A1 publication Critical patent/WO2018150616A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N29/00Investigating or analysing materials by the use of ultrasonic, sonic or infrasonic waves; Visualisation of the interior of objects by transmitting ultrasonic or sonic waves through the object
    • G01N29/44Processing the detected response signal, e.g. electronic circuits specially adapted therefor
    • G01N29/4409Processing the detected response signal, e.g. electronic circuits specially adapted therefor by comparison
    • G01N29/4427Processing the detected response signal, e.g. electronic circuits specially adapted therefor by comparison with stored values, e.g. threshold values
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01HMEASUREMENT OF MECHANICAL VIBRATIONS OR ULTRASONIC, SONIC OR INFRASONIC WAVES
    • G01H17/00Measuring mechanical vibrations or ultrasonic, sonic or infrasonic waves, not provided for in the preceding groups
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N29/00Investigating or analysing materials by the use of ultrasonic, sonic or infrasonic waves; Visualisation of the interior of objects by transmitting ultrasonic or sonic waves through the object
    • G01N29/14Investigating or analysing materials by the use of ultrasonic, sonic or infrasonic waves; Visualisation of the interior of objects by transmitting ultrasonic or sonic waves through the object using acoustic emission techniques
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N29/00Investigating or analysing materials by the use of ultrasonic, sonic or infrasonic waves; Visualisation of the interior of objects by transmitting ultrasonic or sonic waves through the object
    • G01N29/44Processing the detected response signal, e.g. electronic circuits specially adapted therefor
    • G01N29/4445Classification of defects
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N29/00Investigating or analysing materials by the use of ultrasonic, sonic or infrasonic waves; Visualisation of the interior of objects by transmitting ultrasonic or sonic waves through the object
    • G01N29/44Processing the detected response signal, e.g. electronic circuits specially adapted therefor
    • G01N29/4472Mathematical theories or simulation
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N29/00Investigating or analysing materials by the use of ultrasonic, sonic or infrasonic waves; Visualisation of the interior of objects by transmitting ultrasonic or sonic waves through the object
    • G01N29/44Processing the detected response signal, e.g. electronic circuits specially adapted therefor
    • G01N29/46Processing the detected response signal, e.g. electronic circuits specially adapted therefor by spectral analysis, e.g. Fourier analysis or wavelet analysis
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N29/00Investigating or analysing materials by the use of ultrasonic, sonic or infrasonic waves; Visualisation of the interior of objects by transmitting ultrasonic or sonic waves through the object
    • G01N29/44Processing the detected response signal, e.g. electronic circuits specially adapted therefor
    • G01N29/52Processing the detected response signal, e.g. electronic circuits specially adapted therefor using inversion methods other that spectral analysis, e.g. conjugated gradient inversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N2291/00Indexing codes associated with group G01N29/00
    • G01N2291/02Indexing codes associated with the analysed material
    • G01N2291/025Change of phase or condition
    • G01N2291/0258Structural degradation, e.g. fatigue of composites, ageing of oils

Definitions

  • the present invention relates to a learning technique for detecting abnormal waves such as abnormal sounds from signals such as acoustic signals.
  • An abnormal sound detection based on a statistical method is well known as a method for solving this problem (for example, see Non-Patent Document 1).
  • Abnormal sound detection based on statistical methods can be broadly divided into supervised abnormal sound detection and unsupervised abnormal sound detection.
  • supervised abnormal sound detection a discriminator is learned from normal sound and abnormal sound learning data
  • unsupervised abnormal sound detection a discriminator is learned only from normal sound learning data.
  • the learning / detection flow for unsupervised abnormal sound detection is shown in FIG.
  • an acoustic feature amount obtained from sound data (learning data) during normal operation is extracted.
  • a normal sound model probability density function
  • an acoustic feature amount is extracted with respect to the newly obtained observation, and negative log likelihood (i.e. abnormal degree) is evaluated using a learned normal sound model. If this value is smaller than the threshold, it is judged normal, and if it is larger, it is judged abnormal. This means that the goodness of the normal sound model of the observed sound is evaluated.
  • the problem of abnormal sound detection is a problem of determining whether the observed signal X ⁇ , ⁇ C ⁇ ⁇ T is normal or abnormal.
  • ⁇ ⁇ 1, ..., ⁇ and ⁇ ⁇ 1, ..., T ⁇ are frequency and time indexes, respectively.
  • the acoustic feature quantity f ⁇ ⁇ R D is extracted from the observed signal.
  • F is a feature quantity extraction function.
  • X ⁇ is a vector in which X ⁇ and ⁇ necessary for the extraction of acoustic features are arranged, and is set as follows, for example.
  • T represents transposition
  • P b and P f represent the number of past and future frames included in x ⁇ , respectively.
  • L (f ⁇ ) is larger than the threshold value ⁇ , it is judged abnormal, and if it is smaller, it is judged normal.
  • H (L ⁇ , ⁇ ) is an abnormality determination function.
  • the problem with unsupervised anomaly detection is the design of the feature extraction function F (•).
  • supervised abnormal sound detection an acoustic feature quantity that allows a discrimination target to be well identified is manually designed. For example, if the normal sound is known as a 1000 Hz sine wave and the abnormal sound is known as a 2000 Hz sine wave, the tone color is different, so the logarithmic power (log-MFBO) of the mel filter bank is extracted for each frame. If the normal sound is a steady engine sound and the abnormal sound is a sound that the devices collide with each other, the abnormal sound is a sudden sound, so the time difference ( ⁇ MFBO) of the power of the Mel filter bank is extracted. . In addition, it is said that in “deep learning”, which is one of supervised learning, acoustic features can be automatically designed from learning data.
  • unsupervised anomaly detection does not know what kind of sound anomalous sound is generated. Therefore, it is difficult to manually design a feature quantity extraction function, and it is also difficult to use deep learning. For example, since the normal sound was a 1000 Hz sine wave, assuming that the abnormal sound was a 2000 Hz sine wave and using log-MFBO as an acoustic feature, it would not be possible to detect an abnormal sound that would cause devices to collide with each other. . The reverse is also true. For this reason, a mel filter bank cepstrum coefficient (MFCC), which is a general acoustic feature, must be used, and the detection accuracy is inferior to supervised learning.
  • MFCC mel filter bank cepstrum coefficient
  • An object of the present invention is to detect an abnormal sound detection learning device capable of generating a feature amount extraction function for detecting an abnormal signal regardless of the presence or absence of abnormal signal learning data, and detect an abnormal sound using the feature amount extraction function.
  • An apparatus, an abnormality degree calculation device, an abnormal sound generation device, an abnormal sound detection learning device, an abnormal signal detection device, an abnormal signal detection learning device, and a method and a program thereof are provided.
  • An abnormal sound detection device is an abnormal sound detection device that detects whether an input sound that is input is an abnormal sound, and that extracts an acoustic feature amount of the input sound using a feature amount extraction function.
  • a feature amount extraction unit, an abnormality degree calculation unit that calculates the degree of abnormality of the input sound using the extracted acoustic feature amount, and a determination that determines whether the input sound is an abnormal sound based on the obtained degree of abnormality and a threshold value
  • the feature quantity extraction function models a probability distribution that models sounds that can include normal sounds and abnormal sounds, a probability distribution that models normal sounds, and an input abnormal sound Based on the probability distribution, the threshold is set using the degree of abnormality obtained from normal sound.
  • An abnormality degree calculation apparatus is an abnormality degree calculation apparatus that calculates an abnormality degree of an input sound in order to detect whether the input sound that has been input is an abnormal sound.
  • An acoustic feature amount extraction unit that extracts an amount using a feature amount extraction function, and an abnormality degree calculation unit that calculates an abnormality degree of an input sound using the extracted acoustic feature amount. Is based on a probability distribution that models sounds that can include normal sounds and abnormal sounds, a probability distribution that models normal sounds, and a probability distribution that models input abnormal sounds. It is set using the degree of abnormality obtained from the sound.
  • An abnormal sound generating device is an abnormal sound generating device that generates an abnormal sound based on a normal sound and a sound that can include the abnormal sound, and models the sound that can include the normal sound and the abnormal sound.
  • An abnormal sound generation unit that generates an abnormal sound using a probability distribution, a feature inverse transform function that is an inverse function of the feature extraction function, and a threshold, and the feature inverse transform function includes normal sounds and abnormal sounds. It is an inverse transformation function of a feature quantity transformation function based on a probability distribution that models sounds that can be included, a probability distribution that models normal sounds, and a probability distribution that models input abnormal sounds. It is set using the degree of abnormality obtained from normal sound.
  • An abnormal sound detection learning device is input with a first function update unit that updates an input feature quantity extraction function and a feature quantity inverse transform function based on an optimization index of a variational auto encoder.
  • the acoustic feature extraction unit that extracts the acoustic feature of the normal sound based on the normal sound learning data, and the normal sound that updates the normal sound model using the extracted acoustic feature
  • a model update unit a threshold update unit for obtaining a threshold ⁇ ⁇ corresponding to a false positive rate ⁇ , which is a predetermined value, using normal sound learning data and an input feature amount extraction function, and an extracted normal sound
  • a second function update unit that updates the updated feature quantity extraction function based on the Neiman Pearson-type optimization index determined by the obtained threshold ⁇ ⁇ using the acoustic feature quantity and the acoustic feature quantity of the input abnormal sound; , Including the second function And inputs the feature quantity extraction function which is updated by the new parts, the first function updating
  • An abnormal signal detection device is an abnormal signal detection device that detects whether an input signal is an abnormal signal, and extracts a feature amount of the input signal using a feature amount extraction function.
  • the feature quantity extraction function is based on a probability distribution that models a signal that can include normal signals and abnormal signals, a probability distribution that models normal signals, and a probability distribution that models input abnormal signals.
  • the threshold is set using the degree of abnormality obtained from the normal signal.
  • An abnormal signal detection learning device is input with a first function update unit that updates an input feature quantity extraction function and a feature quantity inverse transform function based on an optimization index of a variational auto encoder.
  • a feature amount extraction unit that extracts the feature amount of the normal signal based on the learning data of the normal signal using the feature amount extraction function, and a normal signal model update unit that updates the normal signal model using the extracted feature amount
  • a threshold update unit that obtains a threshold ⁇ ⁇ corresponding to a false positive rate ⁇ that is a predetermined value using the normal signal learning data and the input feature amount extraction function, and a feature amount of the extracted normal signal and
  • a second function updating unit that updates the feature extraction function updated using the feature value of the input abnormal signal based on a Neiman Pearson-type optimization index determined by the obtained threshold ⁇ ⁇ , and Dual function update An input of updated feature extraction function, the first function updating unit, repeated feature extraction unit, the process of the normal signal model updating section and the second function updating unit performed by.
  • a feature extraction function for detecting an abnormal signal can be generated regardless of the presence or absence of abnormal signal learning data. Moreover, abnormal sound detection, abnormality degree calculation, abnormal sound generation, abnormal sound detection learning, abnormal signal detection, and abnormal signal detection learning can be performed using this feature amount extraction function.
  • the block diagram for demonstrating the example of an abnormal sound detection learning apparatus The flowchart for demonstrating the example of the abnormal sound detection learning method.
  • the block diagram for demonstrating the example of an abnormal sound detection apparatus The flowchart for demonstrating the example of the abnormal sound detection method.
  • the figure for demonstrating the image of the extraction of a feature-value, and its distribution The figure for demonstrating the intuitive image of a learning procedure.
  • the most powerful hypothesis test function is the true positive rate (TPR: True Positive Rate), with the false positive rate (FPR: False Positive Rate) as ⁇ . It is known to be a function that maximizes. FPR and TPR can be calculated by the following formulas.
  • the false positive rate is a probability that a normal sound is mistakenly detected as an abnormal sound.
  • the true positive rate is the probability of detecting an abnormal sound as an abnormal sound.
  • the false positive rate or the true positive rate is also called a false detection rate.
  • the optimal feature quantity extraction function F can be obtained by the following equation, taking note that ⁇ is a constant unrelated to F.
  • the feature quantity extraction function F is set so that FPR (F, ⁇ ) is small and TPR (F, ⁇ ) is large.
  • FPR (F, ⁇ ⁇ ) is small corresponds to the degree of abnormality calculated from acoustic features of a normal sound obtained by using the feature amount extraction function F is smaller than the threshold value phi [rho.
  • TPR (F, ⁇ ⁇ ) is large corresponds to the degree of abnormality calculated from acoustic features of the feature extraction function F inputted abnormal sounds obtained using greater than the threshold value phi [rho ing.
  • the feature extraction function abnormality degree calculated from acoustic features of normal resulting sound by employing the F is smaller than the threshold value phi [rho, acoustic feature of the feature extraction function F inputted abnormal sounds obtained using as abnormality degree that is calculated from the amount is larger than the threshold value phi [rho, feature extraction function F is said to be set.
  • Equation (9) the optimization index of Equation (9) is referred to as “Neyman Pearson-type optimization index”.
  • F the optimization index of Equation (9)
  • x ⁇ and x k are learning data of normal sound and abnormal sound, respectively.
  • z ⁇ 0) that the abnormal sounds follow must be known.
  • information on what kind of abnormal sound is generated is often unknown, and it is difficult to directly estimate p (F (x), x
  • All sounds refers to all machine sounds recorded at various factories if, for example, anomaly is detected in the machine sounds at the factory.
  • all sounds are sounds that can include normal sounds and abnormal sounds. More specifically, all sounds are sounds in the environment where the abnormal sound detection device is used, and can include normal sounds and abnormal sounds. According to Bayes' theorem, p (F (x), x) can be decomposed as follows. “ ⁇ ” means proportionality.
  • the class prior distribution p (z) is assumed to be constant, and transformed from Equation (12) to Equation (13). That is, by estimating p (F (x), x) and p (F (x), x
  • z 0), the probability distribution followed by sounds other than normal sounds, in other words, the probability distribution p followed by abnormal sounds (F (x), x
  • the probability distribution that abnormal sounds follow is p (F (x)
  • the probability distribution that all sounds follow is p (F (x))
  • the probability distribution that normal sounds follow is p (F (x)
  • z 0).
  • the “probability distribution according to sound” is also expressed as “probability distribution modeling sound”.
  • z ⁇ 0) modeling abnormal sounds is a probability distribution p (F (x)) modeling all sounds (sounds that can include normal sounds and abnormal sounds). ) To remove the probability distribution p (F (x)
  • z 0) that models normal sound.
  • the feature quantity extraction function is a probability distribution modeling all sounds (sounds that can include normal sounds and abnormal sounds).
  • p (F (x)) probability distribution p (F (x)
  • z 0) that models normal sound
  • b] is the KL divergence of probability distributions a and b.
  • N ( ⁇ , ⁇ ) is a multidimensional normal distribution having a mean vector ⁇ and a covariance matrix ⁇
  • ID is a D-dimensional unit matrix.
  • f s is a value sampled from Equation (18), and the probability distribution of the second term of Equation (16) is
  • the abnormal sound data x k may be generated.
  • the abnormal sound data x k includes a probability distribution p (F (x)) that models normal sounds and sounds that can include abnormal sounds, and a probability distribution p (F (x)
  • z 0) and the feature amount inverse transformation function G are generated at least.
  • abnormal sounds are acoustic features that follow a probability distribution p (F (x))-p (F (x)
  • z 0) that models abnormal sounds. It can be said that it is generated by sampling the quantity and using the sampled acoustic feature quantity f k and the feature quantity inverse transformation function G.
  • optimization of the feature quantity extraction function is performed by alternately using the variation index auto encoder optimization index of Equation (16) and the Neiman Pearson optimization index of Equation (10). This can be achieved by optimizing the conversion function.
  • abnormal sound data used for optimization of Expression (10) is generated by Expressions (23) and (24).
  • FIG. 6 shows an intuitive image of the execution procedure of the present embodiment. This embodiment is realized by repeating a four-step learning procedure.
  • F and G are learned according to the optimization index of the variational auto encoder.
  • F and G can be implemented by, for example, a fully coupled multilayer perceptron or a multilayer convolutional neural network.
  • sound data recorded at various factories may be used, or human voice data may be used.
  • an acoustic feature is extracted from the normal sound learning data x ⁇ ( ⁇ ⁇ 1,..., T ⁇ ).
  • a normal sound model is learned from the data. This includes, for example, a mixed Gaussian distribution
  • Etc. can be used.
  • C is the number of mixtures
  • w c , ⁇ c , and ⁇ c are the mixture ratio, average vector, and covariance matrix of the c-th distribution, respectively.
  • This learning can be realized using, for example, an EM algorithm (see, for example, Reference 3).
  • the threshold ⁇ ⁇ is determined using ⁇ which is an FPR set in advance.
  • the degree of abnormality L (F (x)) is calculated using all the normal sound learning data, sorted in descending order, and the ⁇ T- th degree of abnormality is used.
  • the abnormal sound includes a probability distribution p (F (x)) that models normal sound and sound that can include abnormal sound, a feature amount inverse transformation function G that is an inverse function of the feature extraction function, and a threshold value. It may be generated using ⁇ .
  • the abnormal sound detection learning device includes a frequency domain conversion unit 1, an initialization unit 2, a first function update unit 3, an acoustic feature quantity extraction unit 4, a normal sound model update unit 5, a threshold update.
  • Unit 6 abnormal sound data sampling unit 7, and second function updating unit 9.
  • the abnormal sound detection learning method is realized by each unit of the abnormal sound detection learning device executing the processing of steps S1 to S8 described below with reference to FIG.
  • the abnormal sound data sampling unit 7 is also an abnormal sound generation device.
  • Normal sound data and all sound data are input to the abnormal sound detection learning device.
  • These sampling frequencies are appropriately set according to the nature of the sound to be analyzed. For example, the sampling frequency is about 16 kHz.
  • the frequency domain transform unit 1 transforms each of the input normal sound learning data and any sound data into the frequency domain (step S1).
  • a short-time Fourier transform or the like can be used.
  • the Fourier transform length may be set to about 512 points, and the shift length may be set to about 256 points.
  • the normal sound learning data converted to the frequency domain is input to the acoustic feature quantity extraction unit 4.
  • the normal sound learning data converted into the frequency domain is input to the first function update unit 3.
  • the initialization unit 2 initializes the feature quantity extraction function, the feature quantity inverse transformation function, and the normal sound model according to the input parameters (step S2).
  • the initialized feature quantity extraction function is input to the feature quantity extraction unit 4.
  • the initialized feature quantity extraction function and feature quantity inverse transform function are input to the first function update unit 3.
  • the normal sound model that has been initialized is input to the normal sound model update unit 5.
  • the first function updating unit 3 updates the input feature quantity extraction function and feature quantity inverse transform function based on, for example, the optimization index of the variational autoencoder of Expression (16) (step S3).
  • the feature quantity extraction function is first updated based on the optimum index of the variational auto encoder.
  • the batch size (data amount used for one update) at this time may be about 512, for example.
  • the updated feature quantity extraction function and feature quantity inverse transformation function are input to the second function update unit 8.
  • the acoustic feature quantity extraction unit 4 extracts the acoustic feature quantity of the normal sound based on the input learning data of the normal sound using the inputted feature quantity extraction function (step S4).
  • the extracted acoustic feature quantity of the normal sound is output to the normal sound model update unit 5 and the second function generation unit 8.
  • the first process of the acoustic feature quantity extraction unit 4 is performed using the feature quantity extraction function initialized by the initial unit 2.
  • the second and subsequent processes of the acoustic feature quantity extraction unit 4 are performed using the feature quantity extraction function updated by the second function update unit 7.
  • ⁇ Normal sound model update unit 5 updates the normal sound model using the acoustic feature amount extracted by the acoustic feature amount extraction unit 4 (step S5).
  • the updated normal sound model is input to the second function update unit 8.
  • Threshold update unit 6 by using the learning data and the input feature amount extraction function of the input normal sound, calculate a threshold phi [rho corresponding to the false positive rate [rho which is a predetermined value (step S6).
  • the obtained threshold ⁇ ⁇ is input to the abnormal sound data sampling unit 7 and the second update unit 8.
  • the threshold updating unit 6 calculates the degree of abnormality L (F (x)) using all the normal sound learning data, and uses the Nth degree of abnormality from the top when the descending order is used as the threshold ⁇ ⁇ .
  • N is a predetermined positive integer.
  • N round ( ⁇ T).
  • round ( ⁇ ) represents rounding processing to an integer. • is an arbitrary number.
  • the threshold value phi [rho, the threshold phi [rho is set using the degree of abnormality obtained from normal sounds. More specifically, the degree of abnormality obtained from the normal sound is used so that the probability of detecting the learning data of the input normal sound as an abnormal sound becomes a preset false positive rate (false detection rate) ⁇ .
  • the threshold value ⁇ is set.
  • the degree of abnormality obtained from the normal sound is set so that the probability of detecting the learning data of the input abnormal sound as the abnormal sound becomes a preset true positive rate (false detection rate) ⁇ .
  • threshold phi may be set using.
  • the first processing of the threshold update unit 6 is performed using the feature quantity extraction function initialized by the initial unit 2.
  • the second and subsequent processing of the threshold update unit 6 is performed using the feature quantity extraction function updated by the second function update unit 7.
  • the abnormal sound data sampling unit 7 generates and samples abnormal sound data (step S7).
  • the sampled abnormal sound data is input to the second function update unit 8.
  • the abnormal sound data sampling unit 7 performs the procedure 1. To 3. Accordingly, by using the threshold value phi [rho feature quantity inverse transform function, the abnormal sound data pseudo generate, the sampling. Specifically, the abnormal sound data sampling unit 7 performs procedures 1. As a result, a value ⁇ f k s approximating the acoustic feature quantity f k s according to the probability distribution P (F (x)) modeling the sound that can include normal sound and abnormal sound is generated. Then, the abnormal sound data sampling unit 7 performs the procedure 2. Accordingly, to calculate the degree of abnormality L ( ⁇ f k s) based on ⁇ f k s. Then, the abnormal sound data sampling unit 7 performs the procedure 3.
  • the abnormal sound data sampling unit 7 calculates an output value when ⁇ f k s received as the acoustic feature quantity f k s is input to the feature quantity inverse transformation function G based on the equation (24). For example, the abnormal sound data sampling unit 7 generates abnormal sound data in this way.
  • the abnormal sound data sampling unit 7 may perform sampling of the abnormal sound by generating the abnormal sound data using the equations (23) and (24).
  • abnormal sound learning data exists, in other words, in the case of supervised learning, sampling is not performed.
  • the abnormal sound learning data may be processed as a sampling result.
  • it may be used in combination with sampling.
  • the second function update unit 8 receives the acoustic feature amount of abnormal sound as abnormal sound data. For this reason, the abnormal sound data sampling unit 7 may perform an acoustic feature amount extraction process for extracting the acoustic feature amount of the sampled abnormal sound.
  • the first process of the acoustic feature quantity extraction process is performed using the feature quantity extraction function initialized by the initial unit 2.
  • the second and subsequent processes of the acoustic feature quantity extraction process are performed using the feature quantity extraction function updated by the second function update unit 7.
  • the second function update unit 8 uses the acoustic feature amount of the normal sound extracted by the acoustic feature amount extraction unit 4 and the input acoustic feature amount of the abnormal sound, and the feature amount updated by the first function update unit 3.
  • the extraction function is updated based on the Neiman Pearson-type optimization index of Expression (10) determined by the threshold ⁇ ⁇ obtained by the threshold update unit 6 (step S8).
  • the second function updating unit 8 performs the second update of the feature quantity extraction function based on an index determined by the acoustic feature quantity of normal sound, the acoustic feature quantity of abnormal sound, and a threshold value.
  • the second function update section 8 may similarly update the feature quantity inverse transformation function.
  • the updated feature quantity extraction function is input to the first function update section 3, the acoustic feature quantity extraction section 4, the threshold update section 6 and the abnormal sound data sampling section 7.
  • the updated feature quantity inverse transformation function is sent to the first function update unit 3, the acoustic feature quantity extraction unit 4, the threshold update unit 6, and the abnormal sound data sampling unit 7. Entered.
  • the feature quantity extraction function and the normal sound model updated last after the repeated control by the control unit 9 are output as a final learning result by the abnormal sound detection learning device and method.
  • Control unit 9 receives the feature amount extraction function updated by the second function update unit 8 as an input, the first function update unit 3, the acoustic feature amount extraction unit 4, the normal sound model update unit 5, and the second function update unit. 8 and the processes of the threshold update unit 6 and the abnormal sound data sampling unit 7 are repeated.
  • the control unit 9 inputs the feature amount extraction function and the feature amount inverse transformation function updated by the second function update unit 8.
  • the processing of the first function update unit 3, the acoustic feature quantity extraction unit 4, the normal sound model update unit 5 and the second function update unit 8, the threshold update unit 6 and the abnormal sound data sampling unit 7 is repeatedly performed. These iterative processes are performed until the feature quantity extraction function and the normal sound model converge (step S9).
  • the control unit 9 performs the above iterative process until the first convergence condition is satisfied. Take control.
  • Other conditions may be used as the first convergence determination condition.
  • the abnormal sound detection apparatus includes a spectrum calculation unit 11, an acoustic feature amount extraction unit 12, an abnormality degree calculation unit 13, and a determination unit 148.
  • the abnormal sound detection method is realized by causing each part of the abnormal sound detection device to execute the processes of steps S11 to S14 described below with reference to FIG.
  • the abnormality degree calculation device 13 is also an abnormality degree calculation device.
  • ⁇ Spectrum calculation unit 11> The operation sound of the machine that detects the abnormal sound is picked up by the microphone. The sampling rate at this time is the same as that used during learning. The collected acoustic signal is input to the spectrum calculation unit 11.
  • the spectrum calculation unit 11 obtains an acoustic feature quantity based on the collected acoustic signal in the same manner as the frequency domain conversion unit 1 (step S11).
  • the obtained acoustic feature quantity is output to the feature quantity extraction unit 12.
  • the acoustic feature amount extraction unit 12 uses the obtained acoustic feature amount, and based on the feature amount extraction function output as a final learning result by the abnormal sound detection learning device and method, An acoustic feature amount is extracted (step S12). In other words, the acoustic feature quantity extraction unit 12 extracts the acoustic feature quantity of the input sound using the feature quantity extraction function. The extracted acoustic feature amount is output to the abnormality degree calculation unit 13.
  • the abnormality degree calculation unit 13 uses the extracted acoustic feature amount and the normal sound model output as the final learning result by the abnormal sound detection learning apparatus and method, and the abnormality degree L that is a negative logarithmic likelihood. (F (x)) is calculated (step S13). In other words, the abnormality degree calculation unit 13 calculates the abnormality degree of the input sound using the extracted acoustic feature amount. The calculated degree of abnormality is output to the determination unit 14.
  • ⁇ Determining unit 14 The determination unit 14 outputs “abnormal” if the abnormality level of the current frame is equal to or greater than the threshold ⁇ (step S14). In other words, the determination unit 14 determines whether the input sound is an abnormal sound based on the obtained degree of abnormality and the threshold value.
  • the threshold should be adjusted according to the machine and environment, but can be set to about 1500, for example.
  • hangover that suppresses discrimination errors with heuristic rules can be used. Although various hangover processes can be considered, the hangover process should be set according to the type of false detection of abnormal sound.
  • musical noise generated during noise suppression may be determined as a sudden abnormal sound. Sudden impact noises and the like often change in the spectrum shape for 100 ms or more, and therefore the degree of abnormality exceeds the threshold value continuously for ⁇ (100 / STFT frame shift width) ⁇ frames. However, since an abnormal amplitude spectrum value is generated only in the frame of the musical noise, the degree of abnormality continuously exceeds the threshold in several frames at most. Therefore, the abnormality determination rule is output as “abnormal” if the abnormality degree is continuously greater than or equal to F 1 frames. "Can be set.
  • the determination rule for sustained abnormal sounds "if the sum of the degree of abnormality last F 2 frames phi l or more, for detecting the abnormal sound.”
  • an abnormal sound detection device and method By using such an abnormal sound detection device and method to detect abnormal sounds from large-scale manufacturing machines and molding machines installed in factories and the like, it becomes possible to speed up the response to failures and predict failures. . Thereby, for example, it can contribute to efficiency improvement of industry, especially manufacturing industry.
  • the program describing the processing contents can be recorded on a computer-readable recording medium.
  • a computer-readable recording medium for example, any recording medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory may be used.
  • each processing means may be configured by executing a predetermined program on a computer, or at least a part of these processing contents may be realized by hardware.
  • the processing described in the abnormal sound detection learning device, abnormal sound detection device, abnormality degree calculation device, or abnormal sound generation device is not only executed in time series according to the description order, but also the processing capability or necessity of the device that executes the processing. May be executed in parallel or individually depending on In the above description, only the sound has been described. However, the present invention can be applied to other time series data such as a signal obtained by a temperature sensor or an acceleration sensor. In that case, the input sound data may be changed to sensor data. That is, the abnormal sound detection learning device, the abnormal sound detection device, and the abnormal sound generation device described so far may be an abnormal signal detection learning device, an abnormal signal detection device, and an abnormal signal generation device, respectively.
  • the “sound” in the description of the abnormal sound detection learning device, the abnormal sound detection device, and the abnormal sound generation device performed so far is referred to as “signal”.
  • ”And“ acoustic feature amount ” are replaced with“ feature amount ”, and therefore, a duplicate description is omitted here.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Pathology (AREA)
  • Immunology (AREA)
  • Biochemistry (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Acoustics & Sound (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Analysis (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Testing And Monitoring For Control Systems (AREA)
  • Investigating Or Analyzing Materials By The Use Of Ultrasonic Waves (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Emergency Alarm Devices (AREA)

Abstract

異常音の学習データの有無に関わらず、異常音検出のための特徴量抽出関数を生成することができる異常音検出学習技術を提供する。異常音検出学習装置は、変分オートエンコーダの最適化指標に基づいて、入力された特徴量抽出関数及び特徴量逆変換関数を更新する第一関数更新部3と、正常音の学習データに基づいて正常音の音響特徴量を抽出する音響特徴量抽出部4と、抽出された音響特徴量を用いて正常音モデルを更新する正常音モデル更新部5と、正常音の学習データ及び入力された特徴量抽出関数を用いて、所定の値である偽陽性率ρに対応する閾値φρを求める閾値更新部6と、更新された特徴量抽出関数を、求まった閾値φρにより定まるネイマンピアソン型最適化指標に基づいて更新する第二関数更新部8と、を含み、上記各部の処理を繰り返し行う。

Description

異常音検出装置、異常度計算装置、異常音生成装置、異常音検出学習装置、異常信号検出装置、異常信号検出学習装置、これらの方法及びプログラム
 この発明は、音響信号等の信号から異常音等の異常波検出するための学習技術に関する。
 工場などに設置された大型の製造機・造型機などの業務用機器は、故障により稼働がストップするだけで、業務に大きな支障をもたらす。そのため、その動作状況を日常的に監視し、異常が発生し次第ただちに対処を行う必要がある。解決案として、業務用機器の管理業者が、定期的に現場へ整備員を派遣し、パーツの摩耗などを確認する方法がある。しかし、多大な人件費や移動費、労力がかかるため、すべての業務用機器や工場でこれを実施するのは難しい。
 この解決手段として機械内部にマイクロホンを設置し、その動作音を日常的に監視する方法がある。その動作音を解析し、異常と思われる音(i.e. 異常音)が発生したらそれを検知し、アラートをあげることでこれを解決する。しかし、機械の種類や個体毎に、異常音の種類やその検出方法を設定するのでは、人手で監視する以上にコストがかかる。そのため、自動で異常音を検知するルールを自動設計する必要がある。
 この問題を解決する方法として、統計的手法に基づく異常音検知がよく知られている(例えば、非特許文献1参照。)。統計的手法に基づく異常音検知は、教師あり異常音検知と教師なし異常音検知に大別できる。教師あり異常音検知では、正常音と異常音の学習データから識別器を学習するのに対し、教師なし異常音検知では、正常音の学習データのみから識別器を学習する。産業的応用では、異常音の学習データを集めることが困難であるため、多くの場合、教師なし異常音検知が採用される。
 教師なし異常音検知の学習/検知フローは図7のようになる。学習では、正常動作時の音データ(学習データ)から得られる音響特徴量を抽出する。その後、その音響特徴量から正常音モデル(確率密度関数)を学習する。そして、判定では、新たに得られた観測に関して音響特徴量を抽出し、学習済みの正常音モデルで負の対数尤度(i.e. 異常度)を評価する。この値が閾値、より小さければ正常、大きければ異常と判断する。これはつまり、観測音の正常音モデルの当てはまりの良さを評価している。観測が正常音なら、正常音の学習データと“似ている” 音が鳴るはずであり、異常なら、正常音の学習データと“似ていない” 音が鳴るはずである、という考え方に基づく。
 図7をより具現化するために、数式で説明する。異常音検知の問題は、観測信号Xω,τ∈CΩ×Tが正常か異常かを判定する問題である。ここで、ω∈{1,...,Ω}とτ∈{1,...,T}はそれぞれ周波数と時間のインデックスである。
 まず、最初に,観測信号から音響特徴量fτ∈RDを抽出する。
Figure JPOXMLDOC01-appb-M000003
 ここで、Fは特徴量抽出関数である。またxτは、音響特徴量の抽出に必要なXω,τを並べたベクトルであり、例えば以下のように設定する。
Figure JPOXMLDOC01-appb-M000004
 ここで、Tは転置を表し、Pb,Pfはそれぞれxτに含まれる過去と未来のフレーム数を表す。例えば、Pb=Pf=5程度に設定される。
 次に、異常度L(fτ)を以下のように計算する。
Figure JPOXMLDOC01-appb-M000005
 ここで、p(fτ|z=0)は正常音モデルである。また、zは、Xω,τが正常音ならz=0、異常音ならz≠0となるインジケータである。最後にL(fτ)の値が、閾値φより大きければ異常、小さければ正常と判定する。
Figure JPOXMLDOC01-appb-M000006
 ここで、H(Lτ,φ)は異常判定関数である。
井出剛,杉山将,"異常検知と変化検知," 講談社, pp.6-7, 2015.
 教師なし異常検知で問題となるのは、特徴量抽出関数F(・)の設計である。教師あり異常音検知では、判別対象がよく識別できるような音響特徴量を人手で設計する。例えば正常音が1000Hzの正弦波で、異常音が2000Hzの正弦波と分かっているならば、音色が異なるので、フレームごとにメルフィルタバンクの対数パワー(log-MFBO)を抽出する。正常音が定常的なエンジン音で、異常音が機器同士が「ゴツッ」とぶつかるような音ならば、異常音は突発的な音なので、メルフィルタバンクのパワーの時間差分(ΔMFBO)を抽出する。また、教師あり学習の一つである「深層学習」では、学習データから音響特徴量を自動設計できるとも言われている。
 しかしながら、教師なし異常検知では、どのような音の特性を持った異常音が発生するかわからない。ゆえに特徴量抽出関数を人手で設計することが困難であり、また深層学習を用いることも困難である。例えば、正常音が1000Hzの正弦波だったので、異常音が2000Hzの正弦波と仮定し,log-MFBOを音響特徴量としてしまうと,機器同士が「ゴツッ」とぶつかるような異常音を検出できない。また、その逆もしかりである。そのため、汎用的な音響特徴量であるメルフィルタバンクケプストラム係数(MFCC)などを用いるしかなく、教師あり学習と比べて検出精度が劣っていた。
 本発明の目的は、異常信号の学習データの有無に関わらず、異常信号検出のための特徴量抽出関数を生成することができる異常音検出学習装置、この特徴量抽出関数を用いた異常音検出装置、異常度計算装置、異常音生成装置、異常音検出学習装置、異常信号検出装置、異常信号検出学習装置、これらの方法及びプログラムを提供することである。
 この発明の一態様による異常音検出装置は、入力された入力音が異常音であるか検出する異常音検出装置であって、入力音の音響特徴量を特徴量抽出関数を用いて抽出する音響特徴量抽出部と、抽出された音響特徴量を用いて入力音の異常度を計算する異常度計算部と、得られた異常度と閾値に基づき入力音が異常音であるかを判定する判定部と、を備えており、特徴量抽出関数は、正常音及び異常音を含み得る音をモデル化した確率分布と、正常音をモデル化した確率分布と、入力された異常音をモデル化した確率分布とに基づいており、閾値は、正常音から得られる異常度を用いて設定されている。
 この発明の一態様による異常度計算装置は、入力された入力音が異常音であるかを検出するために、入力音の異常度を計算する異常度計算装置であって、入力音の音響特徴量を特徴量抽出関数を用いて抽出する音響特徴量抽出部と、抽出された音響特徴量を用いて入力音の異常度を計算する異常度計算部と、を備えており、特徴量抽出関数は、正常音及び異常音を含み得る音をモデル化した確率分布と、正常音をモデル化した確率分布と、入力された異常音をモデル化した確率分布とに基づいており、閾値は、正常音から得られる異常度を用いて設定されている。
 この発明の一態様による異常音生成装置は、正常音及び異常音を含み得る音に基づいて、異常音を生成する異常音生成装置であって、正常音及び異常音を含み得る音をモデル化した確率分布と、特徴抽出関数の逆関数である特徴量逆変換関数と、閾値とを用いて異常音を生成する異常音生成部を含み、特徴量逆変換関数は、正常音及び異常音を含み得る音をモデル化した確率分布と、正常音をモデル化した確率分布と、入力された異常音をモデル化した確率分布とに基づいている特徴量変換関数の逆変換関数であり、閾値は、正常音から得られる異常度を用いて設定されている。
 この発明の一態様による異常音検出学習装置は、変分オートエンコーダの最適化指標に基づいて、入力された特徴量抽出関数及び特徴量逆変換関数を更新する第一関数更新部と、入力された特徴量抽出関数を用いて、正常音の学習データに基づいて正常音の音響特徴量を抽出する音響特徴量抽出部と、抽出された音響特徴量を用いて正常音モデルを更新する正常音モデル更新部と、正常音の学習データ及び入力された特徴量抽出関数を用いて、所定の値である偽陽性率ρに対応する閾値φρを求める閾値更新部と、抽出された正常音の音響特徴量及び入力された異常音の音響特徴量を用いて、更新された特徴量抽出関数を、求まった閾値φρにより定まるネイマンピアソン型最適化指標に基づいて更新する第二関数更新部と、を含み、第二関数更新部により更新された特徴量抽出関数を入力とする、第一関数更新部、音響特徴量抽出部、正常音モデル更新部及び第二関数更新部の処理を繰り返し行う。
 この発明の一態様による異常信号検出装置は、入力された入力信号が異常信号であるか検出する異常信号検出装置であって、入力信号の特徴量を特徴量抽出関数を用いて抽出する特徴量抽出部と、抽出された特徴量を用いて入力信号の異常度を計算する異常度計算部と、得られた異常度と閾値に基づき入力信号が異常信号であるかを判定する判定部を含み、特徴量抽出関数は、正常信号及び異常信号を含み得る信号をモデル化した確率分布と、正常信号をモデル化した確率分布と、入力された異常信号をモデル化した確率分布とに基づいており、閾値は、正常信号から得られる異常度を用いて設定されている。
 この発明の一態様による異常信号検出学習装置は、変分オートエンコーダの最適化指標に基づいて、入力された特徴量抽出関数及び特徴量逆変換関数を更新する第一関数更新部と、入力された特徴量抽出関数を用いて、正常信号の学習データに基づいて正常信号の特徴量を抽出する特徴量抽出部と、抽出された特徴量を用いて正常信号モデルを更新する正常信号モデル更新部と、正常信号の学習データ及び入力された特徴量抽出関数を用いて、所定の値である偽陽性率ρに対応する閾値φρを求める閾値更新部と、抽出された正常信号の特徴量及び入力された異常信号の特徴量を用いて、更新された特徴量抽出関数を、求まった閾値φρにより定まるネイマンピアソン型最適化指標に基づいて更新する第二関数更新部と、を含み、第二関数更新部により更新された特徴量抽出関数を入力とする、第一関数更新部、特徴量抽出部、正常信号モデル更新部及び第二関数更新部の処理を繰り返し行う。
 異常信号の学習データの有無に関わらず、異常信号検出のための特徴量抽出関数を生成することができる。また、この特徴量抽出関数を用いて、異常音検出、異常度計算、異常音生成、異常音検出学習、異常信号検出、異常信号検出学習を行うことができる。
異常音検出学習装置の例を説明するためのブロック図。 異常音検出学習方法の例を説明するための流れ図。 異常音検出装置の例を説明するためのブロック図。 異常音検出方法の例を説明するための流れ図。 特徴量の抽出とその分布のイメージを説明するための図。 学習手順の直感的なイメージを説明するための図。 従来技術を説明するための図。
 [技術的背景]
 (ネイマンピアソン型最適化指標)
 教師なし異常音検知は、帰無仮説と対立仮説を以下とした仮説検定の一種とみなすことができる。
 帰無仮説:xτはp(x|z=0)から生成されたサンプルである。
 対立仮説:xτはp(x|z=0)から生成されたサンプルではない。
したがって、仮説検定の理論に従って特徴量抽出関数を最適化することで異常音検知率を最大化できると考えられる。
 ネイマンピアソンの定理(例えば、参考文献1参照)によると、最も強力な仮説検定関数は、偽陽性率(FPR:False Positive Rate)をρとした上で、真陽性率(TPR:True Positive Rate)を最大化する関数であることが知られている。なお、FPRとTPRは、以下の式で計算できる。偽陽性率は、正常音を異常音と誤って検出してしまう確率のことである。一方、真陽性率とは、異常音を異常音として検出する確率のことである。偽陽性率又は真陽性率のことを、誤検出率とも呼ぶ。
Figure JPOXMLDOC01-appb-M000007
 〔参考文献1〕J. Neyman, et al., “On the Problem of the Most Efficient Tests of Statistical Hypotheses”, Phi. Trans. of the Royal Society, 1933.
 ここで、FPR=ρとなる閾値をφρとしたとき、最大化すべき目的関数は以下のように記述できる。
Figure JPOXMLDOC01-appb-M000008
 この目的関数をFについて最大化する変分問題を考えたとき、ρがFに関係のない定数であることを注意すると、最適な特徴量抽出関数Fは以下の式で求めることができる。
Figure JPOXMLDOC01-appb-M000009

 言い換えれば、FPR(F,φρ)が小さく、TPR(F,φρ)が大きくなるように、特徴量抽出関数Fは設定される。ここで、FPR(F,φρ)が小さいことは、特徴量抽出関数Fを用いて得られる正常音の音響特徴量から計算される異常度が閾値φρより小さいことに対応している。また、TPR(F,φρ)が大きいことは、特徴量抽出関数Fを用いて得られる入力された異常音の音響特徴量から計算される異常度が閾値φρよりも大きいことに対応している。このため、特徴量抽出関数Fを用いて得られる正常音の音響特徴量から計算される異常度が閾値φρより小さく、特徴量抽出関数Fを用いて得られる入力された異常音の音響特徴量から計算される異常度が閾値φρよりも大きくなるように、特徴量抽出関数Fは設定されると言える。
 以降、式(9)の最適化指標を「ネイマンピアソン型最適化指標」と呼ぶ。以下の説明では、この指標を用いてFを最適化する実装例を説明する。
 (ネイマンピアソン変分オートエンコーダ)
 式(9)を学習データを用いて最適化する形へ変形する。まず、FPRとTPRの期待値演算を、学習データの算術平均へ置き換える。ここで、Tは、学習データの数である。
Figure JPOXMLDOC01-appb-M000010
 ここで、xτとxkは、それぞれ正常音と異常音の学習データである。しかし、異常音の学習データは収集することが困難である(教師なし学習)。そこで、教師なし学習の場合p(F(x),x|z≠0)からサンプリングする。
 異常音をサンプリングするためには、異常音が従う確率分布p(F(x),x|z≠0)が既知でなくてはならない。しかし、どのような異常音が鳴るかの情報は未知であることが多く、p(F(x),x|z≠0)を直接推定することは困難である。そこで、p(F(x),x|z≠0)を推定するよりもあらゆる音が従う確率分布p(F(x),x)を推定することの方が容易と考え、p(F(x),x)を推定する。
 あらゆる音とは、例えば工場の機械音の異常検知であれば、様々な工場で収録されるあらゆる機械音を指す。言い換えれば、あらゆる音とは、正常音及び異常音を含み得る音である。より詳細には、あらゆる音とは、異常音検出装置が用いられる環境の音であって正常音及び異常音を含み得る音である。ベイズの定理によれば、p(F(x),x)は以下のように分解できる。なお、「∝」は比例を意味する。
Figure JPOXMLDOC01-appb-M000011
 ここで、クラス事前分布p(z)は一定と仮定することで、式(12)から式(13)へと変形した。すなわち、p(F(x),x)とp(F(x),x|z=0)を推定することで,正常音以外の音が従う確率分布、言い換えれば異常音が従う確率分布p(F(x),x|z≠0)が以下の式で推定できる。
Figure JPOXMLDOC01-appb-M000012
 なお、異常音が従う確率分布をp(F(x)|z≠0)、あらゆる音が従う確率分布をp(F(x))、正常音が従う確率分布をp(F(x)|z=0)とも表記する。なお、「音に従う確率分布」のことを、「音をモデル化した確率分布」とも表現する。
 このように、異常音をモデル化した確率分布p(F(x)|z≠0)は、あらゆる音(正常音及び異常音を含み得る音)をモデル化した確率分布p(F(x))から正常音をモデル化した確率分布p(F(x)|z=0)を除いた確率分布と言える。
 また、以下に説明するようにこの式(14)を前提として特徴量抽出関数が求められるため、特徴量抽出関数は、あらゆる音(正常音及び異常音を含み得る音)をモデル化した確率分布p(F(x))と、正常音をモデル化した確率分布p(F(x)|z=0)と、異常音をモデル化した確率分布(F(x)|z≠0)とに基づいていると言える。
 以上の理論を図5に直感的に示した。図5の左のように特徴量の空間を考えると、あらゆる音は特徴量の空間に広く分布しており、正常音は一部に分布しているはずである。ゆえに異常音は、あらゆる音の分布では確率が高く(e.g.実世界で発生しうる機械音であり)正常音の分布では確率が低い(e.g. 監視対象の機器の音とは似ていない機械音)音として生成することに相当する。
 p(F(x),x)を高精度に推定する方法に、変分オートエンコーダがある(例えば、参考文献2参照。)。
 〔参考文献2〕D. P. Kingma, and M. Welling, “Auto-encoding variational Bayes”, Proceedings of the International Conference on Learning Representations (ICLR), 2014.
 詳細な説明は参考文献に譲るが、変分オートエンコーダは、潜在変数(音響特徴量)f=F(x)から観測信号を生成する関数(以降、「特徴量逆変換関数」と呼ぶ)
Figure JPOXMLDOC01-appb-M000013
を用意し、以下の目的関数を最小化するようにFとGを最適化する方法である。
Figure JPOXMLDOC01-appb-M000014
ここで、KL[a|b]は確率分布aとbのKLダイバージェンスである。本発明では簡単のために、
Figure JPOXMLDOC01-appb-M000015
と置いた。ただし、N(μ,Σ)は平均ベクトルμと共分散行列Σを持つ多次元正規分布、IDはD次元単位行列である。また、fsは式(18)からサンプリングした値であり、式(16)の第二項の確率分布は、
Figure JPOXMLDOC01-appb-M000016
で表現される。式(17)(19)より、
Figure JPOXMLDOC01-appb-M000017
である。また、式(1)(15)より、FとGが決定論的な情報変換である仮定とすると、p(x|G(F(x))は常にデルタ関数となるため、
Figure JPOXMLDOC01-appb-M000018
となる。したがって、異常音データを生成するためには、まず、
Figure JPOXMLDOC01-appb-M000019
で異常音の音響特徴量fk sをK個生成する。式(23)の「~」は、fk sが、確率分布p(F(x))-p(F(x)|z=0)に従うことを意味する。そして、
Figure JPOXMLDOC01-appb-M000020
で異常音データxkを生成すればよい。このように、異常音データxkは、正常音及び異常音を含み得る音をモデル化した確率分布p(F(x))と、正常音をモデル化した確率分布p(F(x)|z=0)と、特徴量逆変換関数Gとを少なくとも用いて生成される。
 また、式(14)(23)(24)を考慮すると、異常音は、異常音をモデル化した確率分布p(F(x))-p(F(x)|z=0)に従う音響特徴量をサンプリングし、サンプリングされた音響特徴量fkと特徴量逆変換関数Gを用いて生成されると言える。
 以上より、特徴量抽出関数の最適化は、式(16)の変分オートエンコーダの最適化指標と式(10)のネイマンピアソン型最適化指標を交互に用いて特徴量抽出関数と特徴量逆変換関数を最適化することで実現できる。ただし、式(10)の最適化に用いる異常音データは、式(23)(24)で生成する。
 (具体的な実行例)
 図6に、本実施形態の実行手順の直感的なイメージを示す。本実施形態は、4段階の学習手順を繰り返すことで実現される。
 まず、変分オートエンコーダの最適化指標に従い、FとGを学習する。ここで、FとGは例えば全結合型の多層パーセプトロンや多層畳み込みニューラルネットワークで実装できる。また、あらゆる音には、機械音の異常音検知であれば、様々な工場で収録した音データでも良いし、人間の音声データなどを用いてもよい。
 次に、正常音の学習データxτ(τ∈ {1, ..., T}) から音響特徴量を抽出する。
Figure JPOXMLDOC01-appb-M000021
そして、そのデータから正常音モデルを学習する。これには例えば混合ガウス分布
Figure JPOXMLDOC01-appb-M000022
などを用いることができる。ただし、Cは混合数、wcccはそれぞれc番目の分布の混合比、平均ベクトル、共分散行列である。この学習は、例えばEMアルゴリズム(例えば、参考文献3参照)などを使って実現できる。
 〔参考文献3〕小西貞則, “多変量解析入門, 付録C EM アルゴリズム” pp.294-298, 岩波書店, 2010.
 最後に事前に設定したFPRであるρを用いて、閾値φρを決定する。これには、正常音の全学習データを用いて異常度L(F(x))を計算し、それを降順ソートし、ρT番目の異常度を用いればよい。
 次に、式(23)(24)で異常音データを生成する。より簡単にfk sを生成するために、以下の手順1.から3.を用いてもよい。これらの手順1.から3.により、式(23)に従うfk sを生成することができる。このように、これらの手順1.から3.により生成された式(23)に従うfk sに近似した値~fk sをfk sとすることにより、式(23)に従うfk sを生成してもよい。
1. p(F(x))から~fk sを生成する。
2. 異常度L(~fk s)を計算する。
3. 異常度L(~fk s)がφρより大きければfk s←~fk sとし、小さければ~fk sを破棄して1.に戻る。
 このようにして、異常音は、正常音及び異常音を含み得る音をモデル化した確率分布p(F(x))と、特徴抽出関数の逆関数である特徴量逆変換関数Gと、閾値φρとを用いて生成されてもよい。
 最後に、式(10)のネイマンピアソン型最適化指標を用いて、Fを更新する。Fを多層パーセプトロンなどで実装した場合、誤差逆伝搬法を用いればよい。
 [異常音検出学習装置及び方法]
 異常音検出学習装置及は、図1に例示するように、周波数領域変換部1、初期化部2、第一関数更新部3、音響特徴量抽出部4、正常音モデル更新部5、閾値更新部6、異常音データサンプリング部7、第二関数更新部9を備えている。異常音検出学習方法は、異常音検出学習装置の各部が図2及び以下に説明するステップS1からS8の処理を実行することにより実現される。
 異常音データサンプリング部7は、異常音生成装置でもある。
 異常音検出学習装置には、正常音データとあらゆる音データとが入力される。これらの標本化周波数は、解析したい音の性質に応じて適宜設定される。例えば、標本化周波数を16kHz程度とする。
 また、特徴量抽出関数、特徴量逆変換関数及び正常音モデルのパラメータが設定されているとする。例えば、多層パーセプトロンであれば、中間層の層数や隠れユニット数を入力する。正常音モデルは、混合ガウス分布であれば混合数を入力する。また、特徴量の次元数D=16,ρ=0.05程度に例えば設定すればよい。
 <周波数領域変換部1>
 周波数領域変換部1は、入力された正常音の学習データ及びあらゆる音データのそれぞれを周波数領域に変換する(ステップS1)。変換には、短時間フーリエ変換などが利用できる。この時、フーリエ変換長は512点、シフト長は256点程度に例えば設定すればよい。
 周波数領域に変換された正常音の学習データは、音響特徴量抽出部4に入力される。周波数領域に変換された正常音の学習データは、第一関数更新部3に入力される。
 <初期化部2>
 初期化部2は、入力パラメータに従って、特徴量抽出関数、特徴量逆変換関数及び正常音モデルを初期化する(ステップS2)。
 初期化された特徴量抽出関数は、特徴量抽出部4に入力される。初期化された特徴量抽出関数及び特徴量逆変換関数は、第一関数更新部3に入力される。初期化された正常音モデルは、正常音モデル更新部5に入力される。
 <第一関数更新部3>
 第一関数更新部3は、例えば式(16)の変分オートエンコーダの最適化指標に基づいて、入力された特徴量抽出関数及び特徴量逆変換関数を更新する(ステップS3)。言い換えれば、第一関数更新部3で、特徴量抽出関数は、変分オートエンコーダの最適指標に基づいて第1の更新をされる。
 この更新には、例えば確率的勾配法を用いることができる。この際のバッチサイズ(一度の更新に用いるデータ量)は例えば512程度にすればよい。
 更新された特徴量抽出関数及び特徴量逆変換関数は、第二関数更新部8に入力される。
 <音響特徴量抽出部4>
 音響特徴量抽出部4は、入力された特徴量抽出関数を用いて、入力された正常音の学習データに基づいて正常音の音響特徴量を抽出する(ステップS4)。
 抽出された正常音の音響特徴量は、正常音モデル更新部5及び第二関数生成部8に出力される。
 音響特徴量抽出部4の1回目の処理は、初期部2により初期化された特徴量抽出関数を用いて行われる。音響特徴量抽出部4の2回目以降の処理は、第二関数更新部7により更新された特徴量抽出関数を用いて行われる。
 <正常音モデル更新部5>
 正常音モデル更新部5は、音響特徴量抽出部4で抽出された音響特徴量を用いて正常音モデルを更新する(ステップS5)。更新された正常音モデルは、第二関数更新部8に入力される。
 <閾値更新部6>
 閾値更新部6は、入力された正常音の学習データ及び入力された特徴量抽出関数を用いて、所定の値である偽陽性率ρに対応する閾値φρを求める(ステップS6)。
 求まった閾値φρは、異常音データサンプリング部7及び第二更新部8に入力される。
 例えば、閾値更新部6は、正常音の全学習データを用いて異常度L(F(x))を計算し、それを降順ソートしたときの上からN番目の異常度を閾値φρとして用いる。ここで、Nは、所定の正の整数である。例えば、N=round(ρT)である。ここで、round(・)は整数への丸め処理を表す。・は、任意の数である。
 例えば、このようにして、閾値φρは、正常音から得られる異常度を用いて閾値φρは設定される。より詳細には、入力された正常音の学習データを異常音として検出してしまう確率が予め設定された偽陽性率(誤検出率)ρとなるように、正常音から得られる異常度を用いて閾値φρは設定される。なお、上記と同様にして、入力された異常音の学習データを異常音として検出する確率が予め設定された真陽性率(誤検出率)ρとなるように、正常音から得られる異常度を用いて閾値φρは設定されてもよい。
 閾値更新部6の1回目の処理は、初期部2により初期化された特徴量抽出関数を用いて行われる。閾値更新部6の2回目以降の処理は、第二関数更新部7により更新された特徴量抽出関数を用いて行われる。
 <異常音データサンプリング部7>
 異常音データサンプリング部7は、異常音データを擬似生成し、サンプリングする(ステップS7)。サンプリングされた異常音データは、第二関数更新部8に入力される。
 例えば、異常音データサンプリング部7は、上記説明した手順1.から3.により、特徴量逆変換関数と閾値φρを用いて、異常音データを擬似生成し、サンプリングをする。
 具体的には、異常音データサンプリング部7は、手順1.により、正常音及び異常音を含み得る音をモデル化した確率分布P(F(x))に従う音響特徴量fk sを近似した値~fk sを生成する。
 そして、異常音データサンプリング部7は、手順2.により、~fk sに基づく異常度L(~fk s)を計算する。
 そして、異常音データサンプリング部7は、手順3.により、計算された異常度L(~fk s)と閾値φρを比較することにより、~fk sを音響特徴量fk sとして受け入れることができるか判定する。異常音データサンプリング部7は、L(~fk s)>φρであれば、~fk sを音響特徴量fk sとして受け入れる。
 そして、異常音データサンプリング部7は、式(24)に基づき、音響特徴量fk sとして受け入れた~fk sを特徴量逆変換関数Gに入力したときの出力値を計算する。
 異常音データサンプリング部7は、例えばこのようにして異常音データを生成する。
 異常音データサンプリング部7は、式(23)(24)で異常音データを生成することにより、異常音のサンプリングを行ってもよい。
 なお、異常音の学習データが存在している場合には、言い換えれば、教師あり学習の場合には、サンプリングは行わない。すなわち、異常音の学習データを、サンプリング結果として以降の処理を行えばよい。もちろん、サンプリングと併用してもよい。
 なお、第二関数更新部8には、異常音データとして異常音の音響特徴量が入力される。このため、異常音データサンプリング部7は、サンプリングされた異常音の音響特徴量を抽出するための音響特徴量抽出処理を行ってもよい。この音響特徴量抽出処理の1回目の処理は、初期部2により初期化された特徴量抽出関数を用いて行われる。この音響特徴量抽出処理の2回目以降の処理は、第二関数更新部7により更新された特徴量抽出関数を用いて行われる。
 <第二関数更新部8>
 第二関数更新部8は、音響特徴量抽出部4で抽出された正常音の音響特徴量及び入力された異常音の音響特徴量を用いて、第一関数更新部3で更新された特徴量抽出関数を、閾値更新部6で求まった閾値φρにより定まる式(10)のネイマンピアソン型最適化指標に基づいて更新する(ステップS8)。言い換えれば、第二関数更新部8で、特徴量抽出関数は、正常音の音響特徴量と異常音の音響特徴量と閾値により定まる指標に基づいて第2の更新をされる。第二関数更新部8は、第一関数更新部3で更新された特徴量抽出関数に加えて、特徴量逆変換関数を同様に更新してもよい。
 更新された特徴量抽出関数は、第一関数更新部3、音響特徴量抽出部4、閾値更新部6及び異常音データサンプリング部7に入力される。特徴量逆変換関数が更新された場合には、この更新された特徴量逆変換関数は、第一関数更新部3、音響特徴量抽出部4、閾値更新部6及び異常音データサンプリング部7に入力される。
 また、制御部9による繰り返し制御の後に最後に更新された特徴量抽出関数及び正常音モデルが、異常音検出学習装置及び方法による最終的な学習結果として出力される。
 <制御部9>
 制御部9は、第二関数更新部8により更新された特徴量抽出関数を入力とする、第一関数更新部3、音響特徴量抽出部4、正常音モデル更新部5及び第二関数更新部8と、閾値更新部6及び異常音データサンプリング部7との処理を繰り返し行う。第二関数更新部8により、特徴量逆変換関数が更に更新されている場合には、制御部9は、第二関数更新部8により更新された特徴量抽出関数及び特徴量逆変換関数を入力とする、第一関数更新部3、音響特徴量抽出部4、正常音モデル更新部5及び第二関数更新部8と、閾値更新部6及び異常音データサンプリング部7との処理を繰り返し行う。これらの繰り返し処理は、特徴量抽出関数及び正常音モデルが収束するまで行われる(ステップS9)。
 例えば、第1収束条件を、繰り返し処理を行った回数が一定回数(例えば1000回)に到達することとして、制御部9は、第1収束条件が満たされるまで、上記の繰り返し処理を行うように制御を行う。第1収束判定条件として、他の条件を用いてもよい。
 [異常音検出装置及び方法]
 異常音検出装置及は、図3に例示するように、スペクトル計算部11、音響特徴量抽出部12、異常度計算部13及び判定部148を備えている。異常音検出方法は、異常音検出装置の各部が図4及び以下に説明するステップS11からS14の処理を実行することにより実現される。
 異常度計算装置13は、異常度計算装置でもある。
 <スペクトル計算部11>
 異常音の検出対象となる機械の動作音をマイクロホンで収音する。この際のサンプリングレートは学習時と同様の物を用いる。収音された音響信号は、スペクトル計算部11に入力される。
 スペクトル計算部11は、周波数領域変換部1と同様にして、収音された音響信号に基づいて音響特徴量を得る(ステップS11)。得られた音響特徴量は、特徴量抽出部12に出力される。
 <音響特徴量抽出部12>
 音響特徴量抽出部12は、得られた音響特徴量を用いて、異常音検出学習装置及び方法により最終的な学習結果として出力された特徴量抽出関数に基づいて、収音された音響信号の音響特徴量を抽出する(ステップS12)。言い換えれば、音響特徴量抽出部12は、入力音の音響特徴量を特徴量抽出関数を用いて抽出する。
 抽出された音響特徴量は、異常度計算部13に出力される。
 <異常度計算部13>
 異常度計算部13は、抽出された音響特徴量と、異常音検出学習装置及び方法により最終的な学習結果として出力された正常音モデルとを用いて、負の対数尤度である異常度L(F(x))を計算する(ステップS13)。言い換えれば、異常度計算部13は、抽出された音響特徴量を用いて入力音の異常度を計算する。
 計算された異常度は、判定部14に出力される。
 <判定部14>
 判定部14は、現在フレームの異常度が閾値φ以上なら、「異常」と出力する(ステップS14)。言い換えれば、判定部14は、得られた異常度と閾値に基づき入力音が異常音であるかを判定する。
 閾値は機械や環境に合わせて調整すべきだが、例えば1500の程度に設定できる。
 また、音声区間判別と同様に、判別誤りをヒューリスティックなルールで抑制する「ハングオーバー」も用いることができる。適用するハングオーバー処理は様々なものが考えられるが、異常音の誤検知の種類に応じてハングオーバー処理を設定すべきである。
 その一例として、雑音抑圧時に発生するミュージカルノイズを、突発的な異常音と判定することがある。突発的なぶつかり音などは、100ms以上スペクトル形状に変化が出ることが多いため、┌(100/STFTのフレームシフト幅)┐フレーム連続して異常度が閾値以上となる。しかし、ミュージカルノイズは当該フレームだけに異常な振幅スペクトル値が発生するため、連続して異常度が閾値以上となるのは高々数フレームである。そこで、異常判定のルールを、「連続してF1フレーム以上異常度が閾値以上なら、「異常」と出力する。」などに設定することができる。
 その他の例として、異常音の音量が小さいために、異常度が閾値を少し下回る程度で長時間続くことも考えられる。そういった場合には、持続的な異常音のための判定ルールとして、「直近F2フレームの異常度の総和がφl以上であれば、異常音として検知する。」などのルールを追加できる。ここで、φlはチューニングにより決定すべきだが、例えばφ1=F2×(φ-250)程度に設定できる。
 このような異常音検出装置及び方法を用いて、工場などに設置された大型の製造機・造型機から異常音を検知することにより、故障への対処の迅速化や、故障予知が可能になる。これにより、例えば、産業、特に製造業の効率化に寄与することができる。
 [プログラム及び記録媒体]
 異常音検出学習装置、異常音検出装置、異常度計算装置又は異常音生成装置における各処理をコンピュータによって実現する場合、異常音検出学習装置又は異常音検出装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、その各処理がコンピュータ上で実現される。
 この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
 また、各処理手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
 [変形例]
 異常音検出学習装置、異常音検出装置、異常度計算装置又は異常音生成装置において説明した処理は、記載の順にしたがって時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
 上記では、音に限って説明したが、温度センサや加速度センサで得られる信号など、他の時系列データに対しても、本発明は適用可能である。その際は、入力の音データをセンサデータに変更すればよい。
 すなわち、これまで説明した異常音検出学習装置、異常音検出装置及び異常音生成装置は、それぞれ異常信号検出学習装置、異常信号検出装置及び異常信号生成装置であってもよい。異常信号検出学習装置、異常信号検出装置及び異常信号生成装置の説明は、これまでに行った異常音検出学習装置、異常音検出装置及び異常音生成装置の説明の中の「音」を「信号」に読み替え、「音響特徴量」を「特徴量」に読み替えたものと同様であるため、ここでは重複説明を省略する。
 その他、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。

Claims (20)

  1.  入力された入力音が異常音であるか検出する異常音検出装置であって、
     上記入力音の音響特徴量を特徴量抽出関数を用いて抽出する音響特徴量抽出部と、
     上記抽出された音響特徴量を用いて上記入力音の異常度を計算する異常度計算部と、
     上記得られた異常度と閾値に基づき上記入力音が異常音であるかを判定する判定部を含み、
     上記特徴量抽出関数は、正常音及び異常音を含み得る音をモデル化した確率分布と、正常音をモデル化した確率分布と、入力された異常音をモデル化した確率分布とに基づいており、
     上記閾値は、上記正常音から得られる異常度を用いて設定されている、
     異常音検出装置。
  2.  請求項1の異常音検出装置であって、
     上記特徴量抽出関数を用いて得られる正常音の音響特徴量から計算される異常度が上記閾値より小さく、上記特徴量抽出関数を用いて得られる上記入力された異常音の音響特徴量から計算される異常度が上記閾値よりも大きくなるように、上記特徴量抽出関数は設定されている、
     異常音検出装置。
  3.  請求項2の異常音検出装置であって、
     上記特徴量抽出関数は、変分オートエンコーダの最適指標に基づく第1の更新及び上記正常音の音響特徴量と上記異常音の音響特徴量と上記閾値により定まる指標とに基づく第2の更新により生成された関数である、
     異常音検出装置。
  4.  請求項3の異常音検出装置であって、
     上記指標は、ネイマンピアソン型最適化指標である、
     異常音検出装置。
  5.  請求項1の異常音検出装置であって、
     上記異常音をモデル化した確率分布は、上記正常音及び異常音を含み得る音をモデル化した確率分布から上記正常音をモデル化した確率分布を除いた確率分布である、
     異常音検出装置。
  6.  請求項1の異常音検出装置であって、
     上記入力された異常音は、上記正常音及び異常音を含み得る音をモデル化した確率分布と、上記特徴抽出関数の逆関数である特徴量逆変換関数と、上記閾値とを用いて生成されたものである、
     異常音検出装置。
  7.  請求項6の異常音検出装置であって、
     p(F(x))を上記正常音及び異常音を含み得る音をモデル化した確率分布とし、p(F(x)|z=0)を上記正常音をモデル化した確率分布として、上記入力された異常音は、以下の式(23)に従う音響特徴量fk sを生成することにより生成されたものである、
    Figure JPOXMLDOC01-appb-M000001

    異常音検出装置。
  8.  請求項1から7の異常音検出装置であって、
     Nを所定の正の整数として、上記閾値は、上記正常音から得られた異常度を降順ソートしたときの上からN番目の異常度である、
     異常音検出装置。
  9. 入力された入力音が異常音であるかを検出するために、上記入力音の異常度を計算する異常度計算装置であって、
     上記入力音の音響特徴量を特徴量抽出関数を用いて抽出する音響特徴量抽出部と、
     上記抽出された音響特徴量を用いて上記入力音の異常度を計算する異常度計算部と、を含み、
     上記特徴量抽出関数は、正常音及び異常音を含み得る音をモデル化した確率分布と、正常音をモデル化した確率分布と、入力された異常音をモデル化した確率分布とに基づいており、
     上記閾値は、上記正常音から得られる異常度を用いて設定されている、
     異常度検出装置。
  10.  正常音及び異常音を含み得る音に基づいて、異常音を生成する異常音生成装置であって、
     上記正常音及び異常音を含み得る音をモデル化した確率分布と、上記特徴抽出関数の逆関数である特徴量逆変換関数と、閾値とを用いて異常音を生成する異常音生成部を含み、
     上記特徴量逆変換関数は、上記正常音及び異常音を含み得る音をモデル化した確率分布と、正常音をモデル化した確率分布と、入力された異常音をモデル化した確率分布とに基づいている特徴量変換関数の逆変換関数であり、
     上記閾値は、上記正常音から得られる異常度を用いて設定されている、
     異常音生成装置。
  11.  請求項10の異常音生成装置であって、
     上記異常音生成部は、上記正常音及び異常音を含み得る音をモデル化した確率分布に従う音響特徴量を近似した値を生成し、生成された値の異常度を計算し、計算された異常度が上記閾値よりも大きい場合には、生成された値を上記特徴量逆変換関数に入力したときの出力値を計算することにより、上記異常音を生成する、
     異常音生成装置。
  12.  変分オートエンコーダの最適化指標に基づいて、入力された特徴量抽出関数及び特徴量逆変換関数を更新する第一関数更新部と、
     上記入力された特徴量抽出関数を用いて、正常音の学習データに基づいて正常音の音響特徴量を抽出する音響特徴量抽出部と、
     上記抽出された音響特徴量を用いて正常音モデルを更新する正常音モデル更新部と、
     上記正常音の学習データ及び上記入力された特徴量抽出関数を用いて、所定の値である偽陽性率ρに対応する閾値φρを求める閾値更新部と、
     上記抽出された正常音の音響特徴量及び入力された異常音の音響特徴量を用いて、上記更新された特徴量抽出関数を、上記求まった閾値φρにより定まるネイマンピアソン型最適化指標に基づいて更新する第二関数更新部と、を含み、
     上記第二関数更新部により更新された特徴量抽出関数を入力とする、上記第一関数更新部、上記音響特徴量抽出部、上記正常音モデル更新部及び上記第二関数更新部の処理を繰り返し行う、
     異常音検出学習装置。
  13.  請求項12の異常音検出学習装置において、
     上記異常音の音響特徴量を生成する異常音サンプリング部を更に含む、
     異常音検出学習装置。
  14.  請求項13の異常音検出学習装置において、
     p(F(x)|z≠0)を異常音が従う確率分布とし、p(F(x))を正常音及び異常音を含み得る音が従う確率分布とし、p(F(x)|z=0)を正常音が従う確率分布として、上記異常音サンプリング部は、以下の式(23)に従う異常音の音響特徴量fk sを生成することにより、上記異常音の音響特徴量を生成する、
    Figure JPOXMLDOC01-appb-M000002

     異常音検出学習装置。
  15.  入力された入力信号が異常信号であるか検出する異常信号検出装置であって、
     上記入力信号の特徴量を特徴量抽出関数を用いて抽出する特徴量抽出部と、
     上記抽出された特徴量を用いて上記入力信号の異常度を計算する異常度計算部と、
     上記得られた異常度と閾値に基づき上記入力信号が異常信号であるかを判定する判定部を含み、
     上記特徴量抽出関数は、正常信号及び異常信号を含み得る信号をモデル化した確率分布と、正常信号をモデル化した確率分布と、入力された異常信号をモデル化した確率分布とに基づいており、
     上記閾値は、上記正常信号から得られる異常度を用いて設定されている、
     異常信号検出装置。
  16.  変分オートエンコーダの最適化指標に基づいて、入力された特徴量抽出関数及び特徴量逆変換関数を更新する第一関数更新部と、
     上記入力された特徴量抽出関数を用いて、正常信号の学習データに基づいて正常信号の特徴量を抽出する特徴量抽出部と、
     上記抽出された特徴量を用いて正常信号モデルを更新する正常信号モデル更新部と、
     上記正常信号の学習データ及び上記入力された特徴量抽出関数を用いて、所定の値である偽陽性率ρに対応する閾値φρを求める閾値更新部と、
     上記抽出された正常信号の特徴量及び入力された異常信号の特徴量を用いて、上記更新された特徴量抽出関数を、上記求まった閾値φρにより定まるネイマンピアソン型最適化指標に基づいて更新する第二関数更新部と、を含み、
     上記第二関数更新部により更新された特徴量抽出関数を入力とする、上記第一関数更新部、上記特徴量抽出部、上記正常信号モデル更新部及び上記第二関数更新部の処理を繰り返し行う、
     異常信号検出学習装置。
  17.  入力された入力音が異常音であるか検出する異常音検出方法であって、
     音響特徴量抽出部が、上記入力音の音響特徴量を特徴量抽出関数を用いて抽出する音響特徴量抽出ステップと、
     異常度計算部が、上記抽出された音響特徴量を用いて上記入力音の異常度を計算する異常度計算ステップと、
     判定部が、上記得られた異常度と閾値に基づき上記入力音が異常音であるかを判定する判定ステップを含み、
     上記特徴量抽出関数は、正常音及び異常音を含み得る音をモデル化した確率分布と、正常音をモデル化した確率分布と、入力された異常音をモデル化した確率分布とに基づいており、
     上記閾値は、上記正常音から得られる異常度を用いて設定されている、
     異常音検出方法。
  18.  第一関数更新部が、変分オートエンコーダの最適化指標に基づいて、入力された特徴量抽出関数及び特徴量逆変換関数を更新する第一関数更新ステップと、
     音響特徴量抽出部が、上記入力された特徴量抽出関数を用いて、正常音の学習データに基づいて正常音の音響特徴量を抽出する音響特徴量抽出ステップと、
     正常音モデル更新部が、上記抽出された音響特徴量を用いて正常音モデルを更新する正常音モデル更新ステップと、
     閾値更新部が、上記正常音の学習データ及び上記入力された特徴量抽出関数を用いて、所定の値である偽陽性率ρに対応する閾値φρを求める閾値更新ステップと、
     第二関数更新部が、上記抽出された正常音の音響特徴量及び入力された異常音の音響特徴量を用いて、上記更新された特徴量抽出関数及び上記更新された特徴量逆変換関数の少なくとも一方を、上記求まった閾値φρにより定まるネイマンピアソン型最適化指標に基づいて更新する第二関数更新ステップと、を含み、
     上記第一関数更新ステップにより更新された特徴量抽出関数及び特徴量逆変換関数を入力とする、上記第一関数更新ステップ、上記音響特徴量抽出ステップ、上記正常音モデル更新ステップ及び上記第二関数更新ステップの処理を繰り返し行う、
     異常音検出学習方法。
  19.  入力された入力信号が異常信号であるか検出する異常信号検出方法であって、
     特徴量抽出部が、上記入力信号の特徴量を特徴量抽出関数を用いて抽出する特徴量抽出ステップと、
     異常度計算部が、上記抽出された特徴量を用いて上記入力信号の異常度を計算する異常度計算ステップと、
     判定部が、上記得られた異常度と閾値に基づき上記入力信号が異常信号であるかを判定する判定ステップを含み、
     上記特徴量抽出関数は、正常信号及び異常信号を含み得る信号をモデル化した確率分布と、正常信号をモデル化した確率分布と、入力された異常信号をモデル化した確率分布とに基づいており、
     上記閾値は、上記正常信号から得られる異常度を用いて設定されている、
     異常信号検出方法。
  20.  請求項1から16の何れかの装置の各部としてコンピュータを機能させるためのプログラム。
PCT/JP2017/033275 2017-02-15 2017-09-14 異常音検出装置、異常度計算装置、異常音生成装置、異常音検出学習装置、異常信号検出装置、異常信号検出学習装置、これらの方法及びプログラム WO2018150616A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2019500181A JP6704084B2 (ja) 2017-02-15 2017-09-14 異常音検出装置、異常度計算装置、異常音生成装置、異常音検出学習装置、異常信号検出装置、異常信号検出学習装置、これらの方法及びプログラム
CN201780086118.2A CN110352349B (zh) 2017-02-15 2017-09-14 异常音检测装置、异常度计算装置、异常音生成装置、异常信号检测装置、及其方法、记录介质
US16/485,334 US11609115B2 (en) 2017-02-15 2017-09-14 Anomalous sound detection apparatus, degree-of-anomaly calculation apparatus, anomalous sound generation apparatus, anomalous sound detection training apparatus, anomalous signal detection apparatus, anomalous signal detection training apparatus, and methods and programs therefor
EP17896482.1A EP3584573B1 (en) 2017-02-15 2017-09-14 Abnormal sound detection training device and method and program therefor
ES17896482T ES2940314T3 (es) 2017-02-15 2017-09-14 Dispositivo de entrenamiento de detección de sonido anormal y método y programa para el mismo

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017025865 2017-02-15
JP2017-025865 2017-02-15

Publications (1)

Publication Number Publication Date
WO2018150616A1 true WO2018150616A1 (ja) 2018-08-23

Family

ID=63170240

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2017/033275 WO2018150616A1 (ja) 2017-02-15 2017-09-14 異常音検出装置、異常度計算装置、異常音生成装置、異常音検出学習装置、異常信号検出装置、異常信号検出学習装置、これらの方法及びプログラム

Country Status (6)

Country Link
US (1) US11609115B2 (ja)
EP (1) EP3584573B1 (ja)
JP (1) JP6704084B2 (ja)
CN (1) CN110352349B (ja)
ES (1) ES2940314T3 (ja)
WO (1) WO2018150616A1 (ja)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020129610A1 (ja) * 2018-12-19 2020-06-25 日本電信電話株式会社 検知装置、検知方法、および、検知プログラム
JP2020125971A (ja) * 2019-02-04 2020-08-20 株式会社ジェイテクト 検査装置及び検査用学習モデル生成装置
WO2020202567A1 (ja) * 2019-04-05 2020-10-08 株式会社Ihi原動機 振動音響解析方法及び装置と機器異常部位推定方法及び装置
JP2021001964A (ja) * 2019-06-21 2021-01-07 株式会社日立製作所 異常音検知システム、擬似音生成システム、および擬似音生成方法
JP2021015405A (ja) * 2019-07-11 2021-02-12 株式会社東芝 学習装置、診断装置及び学習方法
CN113095559A (zh) * 2021-04-02 2021-07-09 京东数科海益信息科技有限公司 出雏时刻预测方法、装置、设备及存储介质
JP2021144054A (ja) * 2018-08-23 2021-09-24 株式会社明電舎 異常予兆検出方法
US11366627B2 (en) 2017-12-18 2022-06-21 Mitsubishi Electric Corporation Display control device, display system, display device, and display method
US11493912B2 (en) 2017-06-30 2022-11-08 Mitsubishi Electric Corporation Unsteadiness detection device, unsteadiness detection system and unsteadiness detection method
WO2023120438A1 (ja) * 2021-12-20 2023-06-29 国立大学法人 東京大学 情報処理システム、情報処理方法及びプログラム
JP7472012B2 (ja) 2020-12-29 2024-04-22 株式会社日立製作所 異常信号抽出装置

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7140194B2 (ja) * 2018-08-10 2022-09-21 日本電信電話株式会社 異常検知装置、確率分布学習装置、自己符号化器学習装置、プログラム
CN111755025B (zh) * 2019-03-26 2024-02-23 苏州君林智能科技有限公司 一种基于音频特征的状态检测方法、装置及设备
CN111370027B (zh) * 2020-03-02 2023-04-07 乐鑫信息科技(上海)股份有限公司 一种离线嵌入式异常声音检测系统和方法
CN111523394B (zh) * 2020-03-27 2023-06-27 国网宁夏电力有限公司电力科学研究院 一种gis设备内部的异物缺陷的检测方法及系统
US11874200B2 (en) 2020-09-08 2024-01-16 International Business Machines Corporation Digital twin enabled equipment diagnostics based on acoustic modeling
CN113361324B (zh) * 2021-04-25 2023-06-30 杭州玖欣物联科技有限公司 一种基于lstm的电机电流异常检测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005345154A (ja) * 2004-05-31 2005-12-15 Kyushu Electric Power Co Inc 異常予兆検出方法および装置
US20110040496A1 (en) * 2009-08-13 2011-02-17 Banerjee Sourav Method and apparatus for estimating damage in a structure
WO2016132468A1 (ja) * 2015-02-18 2016-08-25 株式会社日立製作所 データ評価方法および装置、故障診断方法および装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3513645B2 (ja) * 1998-09-25 2004-03-31 沖電気工業株式会社 狭帯域信号検出方法
US9026404B2 (en) * 2005-10-20 2015-05-05 Syracuse University Methods of improving detectors and classifiers using optimized stochastic resonance noise
US8028061B2 (en) * 2007-10-18 2011-09-27 Trendium, Inc. Methods, systems, and computer program products extracting network behavioral metrics and tracking network behavioral changes
JP2013140135A (ja) * 2011-12-09 2013-07-18 Tokyo Electron Ltd 周期的駆動系の異常検知装置、周期的駆動系を有する処理装置、周期的駆動系の異常検知方法、およびコンピュータプログラム
JPWO2013089073A1 (ja) * 2011-12-13 2015-04-27 シャープ株式会社 情報解析装置、電子聴診器、情報解析方法、測定システム、制御プログラム、および、記録媒体
JPWO2013105164A1 (ja) * 2012-01-13 2015-05-11 日本電気株式会社 異常信号判定装置、異常信号判定方法、および異常信号判定プログラム
US20150219530A1 (en) * 2013-12-23 2015-08-06 Exxonmobil Research And Engineering Company Systems and methods for event detection and diagnosis
JP2015161745A (ja) * 2014-02-26 2015-09-07 株式会社リコー パターン認識システムおよびプログラム
US10014003B2 (en) * 2015-10-12 2018-07-03 Gwangju Institute Of Science And Technology Sound detection method for recognizing hazard situation
CN105841797B (zh) * 2016-03-15 2019-07-02 中南大学 一种基于mfcc和svm的车窗电机异常噪声检测方法及装置
JP7031594B2 (ja) * 2016-09-08 2022-03-08 日本電気株式会社 異常検出装置、異常検出方法、及びプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005345154A (ja) * 2004-05-31 2005-12-15 Kyushu Electric Power Co Inc 異常予兆検出方法および装置
US20110040496A1 (en) * 2009-08-13 2011-02-17 Banerjee Sourav Method and apparatus for estimating damage in a structure
WO2016132468A1 (ja) * 2015-02-18 2016-08-25 株式会社日立製作所 データ評価方法および装置、故障診断方法および装置

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
D. P. KINGMAM. WELLING: "Auto-encoding variational Bayes", PROCEEDINGS OF THE INTERNATIONAL CONFERENCE ON LEARNING REPRESENTATIONS (ICLR, 2014
J. NEYMAN ET AL.: "On the Problem of the Most Efficient Tests of Statistical Hypotheses", PHI. TRANS. OF THE ROYAL SOCIETY, 1933
KOIZUMI, YUUMA ET AL.: "Automatic design of acoustic features for detecting abnormal sounds in machine operation sounds", PROCEEDINGS OF THE 2016 AUTUMN MEETING OF THE ACOUSTICAL SOCIETY OF JAPAN, vol. 2016, 31 August 2016 (2016-08-31), pages 365 - 368, XP009515527 *
SADANORI KONISHI: "Introduction to Multivariate Analysis, Appendix C: EM algorithm", 2010, IWANAMI SHOTEN, pages: 294 - 298
See also references of EP3584573A4
TSUYOSHI IDEMASASHI SUGIYAMA: "Anomaly Detection and Change Detection", 2015, KODANSHA, pages: 6 - 7

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11493912B2 (en) 2017-06-30 2022-11-08 Mitsubishi Electric Corporation Unsteadiness detection device, unsteadiness detection system and unsteadiness detection method
US11366627B2 (en) 2017-12-18 2022-06-21 Mitsubishi Electric Corporation Display control device, display system, display device, and display method
JP7196954B2 (ja) 2018-08-23 2022-12-27 株式会社明電舎 異常予兆検出方法
JP2021144054A (ja) * 2018-08-23 2021-09-24 株式会社明電舎 異常予兆検出方法
JP7127525B2 (ja) 2018-12-19 2022-08-30 日本電信電話株式会社 検知装置、検知方法、および、検知プログラム
JP2020102671A (ja) * 2018-12-19 2020-07-02 日本電信電話株式会社 検知装置、検知方法、および、検知プログラム
WO2020129610A1 (ja) * 2018-12-19 2020-06-25 日本電信電話株式会社 検知装置、検知方法、および、検知プログラム
US11489746B2 (en) 2018-12-19 2022-11-01 Nippon Telegraph And Telephone Corporation Detection device, detection method, and detection program
AU2019404523B2 (en) * 2018-12-19 2022-10-20 Nippon Telegraph And Telephone Corporation Detection device, detection method, and detection program
CN113196707A (zh) * 2018-12-19 2021-07-30 日本电信电话株式会社 检测装置、检测方法及检测程序
US11604170B2 (en) 2019-02-04 2023-03-14 Jtekt Corporation Inspection device and inspection learning model generation device
JP2020125971A (ja) * 2019-02-04 2020-08-20 株式会社ジェイテクト 検査装置及び検査用学習モデル生成装置
JP7283096B2 (ja) 2019-02-04 2023-05-30 株式会社ジェイテクト 検査装置及び検査用学習モデル生成装置
WO2020202567A1 (ja) * 2019-04-05 2020-10-08 株式会社Ihi原動機 振動音響解析方法及び装置と機器異常部位推定方法及び装置
JP2021001964A (ja) * 2019-06-21 2021-01-07 株式会社日立製作所 異常音検知システム、擬似音生成システム、および擬似音生成方法
JP7385381B2 (ja) 2019-06-21 2023-11-22 株式会社日立製作所 異常音検知システム、擬似音生成システム、および擬似音生成方法
JP2021015405A (ja) * 2019-07-11 2021-02-12 株式会社東芝 学習装置、診断装置及び学習方法
US11609157B2 (en) 2019-07-11 2023-03-21 Kabushiki Kaisha Toshiba Learning apparatus, diagnostic apparatus, and learning method
JP7254649B2 (ja) 2019-07-11 2023-04-10 株式会社東芝 学習装置、診断装置及び学習方法
JP7472012B2 (ja) 2020-12-29 2024-04-22 株式会社日立製作所 異常信号抽出装置
CN113095559A (zh) * 2021-04-02 2021-07-09 京东数科海益信息科技有限公司 出雏时刻预测方法、装置、设备及存储介质
CN113095559B (zh) * 2021-04-02 2024-04-09 京东科技信息技术有限公司 出雏时刻预测方法、装置、设备及存储介质
WO2023120438A1 (ja) * 2021-12-20 2023-06-29 国立大学法人 東京大学 情報処理システム、情報処理方法及びプログラム

Also Published As

Publication number Publication date
JP6704084B2 (ja) 2020-06-03
EP3584573A4 (en) 2021-04-07
EP3584573A1 (en) 2019-12-25
EP3584573B1 (en) 2023-01-04
US11609115B2 (en) 2023-03-21
JPWO2018150616A1 (ja) 2019-12-12
ES2940314T3 (es) 2023-05-05
CN110352349A (zh) 2019-10-18
CN110352349B (zh) 2023-01-31
US20190376840A1 (en) 2019-12-12

Similar Documents

Publication Publication Date Title
WO2018150616A1 (ja) 異常音検出装置、異常度計算装置、異常音生成装置、異常音検出学習装置、異常信号検出装置、異常信号検出学習装置、これらの方法及びプログラム
JP6709277B2 (ja) 異常音検出装置、異常音検出学習装置、異常音サンプリング装置、これらの方法及びプログラム
JP6377592B2 (ja) 異常音検出装置、異常音検出学習装置、これらの方法及びプログラム
JP6740247B2 (ja) 異常検出システム、異常検出方法、異常検出プログラム及び学習済モデル生成方法
CN111108362B (zh) 异常声音探测装置、异常模型学习装置、异常探测装置、异常声音探测方法、以及记录介质
CN111222290B (zh) 一种基于多参数特征融合的大型设备剩余使用寿命预测方法
WO2020158398A1 (ja) 音生成装置、データ生成装置、異常度算出装置、指標値算出装置、およびプログラム
JP2017021790A (ja) 隠れマルコフモデルの混合を使用する検証および異常検出のためのシステムおよび方法
JP5994639B2 (ja) 有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム
Lang et al. Pipeline leak aperture recognition based on wavelet packet analysis and a deep belief network with ICR
Atmani et al. Enhancement in bearing fault classification parameters using Gaussian mixture models and Mel frequency cepstral coefficients features
JP2017067929A (ja) 学習装置、識別装置、その方法、およびプログラム
Zhang et al. Detection capability for incipient faults in a noisy environment using PDF and CDF based techniques: a comparative study
Liu et al. Unsupervised acoustic anomaly detection systems based on gaussian mixture density neural network
Yang et al. Empirical probability density cumulative sum for incipient fault detection
Ntalampiras Adversarial attacks against acoustic monitoring of industrial machines
RU2764873C1 (ru) Способ обнаружения аномалий в инфокоммуникационных системах
Scmid et al. Anomaly Detection inCombustion Engines withSound Recognition
Hong et al. Fast Clustering for Redundancy Removal In Audio Anomaly Detection
Angola Novelty Detection Of Machinery Using A Non-Parametric Machine Learning Approach
CN114548271A (zh) 网络异常检测方法及装置
Qi et al. A fast method for change point detection from large-scale time series based on Haar Wavelet and Binary Search Tree (HWBST)
Chen et al. ANN Optimized by ICSA Used in Fault Diagnostics
Li An adaptive wavelet networks algorithm for prediction of gas delay outburst
Mokhneche et al. Fault detection techniques analysis and development of its procedural phases

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17896482

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2019500181

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2017896482

Country of ref document: EP

Effective date: 20190916