WO2020026829A1 - 音データ処理方法、音データ処理装置及びプログラム - Google Patents

音データ処理方法、音データ処理装置及びプログラム Download PDF

Info

Publication number
WO2020026829A1
WO2020026829A1 PCT/JP2019/028229 JP2019028229W WO2020026829A1 WO 2020026829 A1 WO2020026829 A1 WO 2020026829A1 JP 2019028229 W JP2019028229 W JP 2019028229W WO 2020026829 A1 WO2020026829 A1 WO 2020026829A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound data
sound
abnormal
target
learning
Prior art date
Application number
PCT/JP2019/028229
Other languages
English (en)
French (fr)
Inventor
亮太 藤井
Original Assignee
パナソニックIpマネジメント株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニックIpマネジメント株式会社 filed Critical パナソニックIpマネジメント株式会社
Priority to US17/264,194 priority Critical patent/US11830518B2/en
Priority to JP2020533417A priority patent/JP7407382B2/ja
Publication of WO2020026829A1 publication Critical patent/WO2020026829A1/ja
Priority to US18/489,246 priority patent/US20240046953A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility

Definitions

  • the present disclosure relates to a sound data processing method, a sound data processing device, and a program for performing processing related to machine learning of target sound data.
  • a system that collects sound of a target object or a target space, analyzes acquired sound data to detect an abnormality, monitor the operation status of equipment, and determine whether a product is good or not has conventionally been used.
  • this type of system for example, there is a device that detects an abnormality in sound data of a target object and determines a failure when an abnormal sound is generated.
  • various studies have been made to determine abnormal sounds using machine learning processing based on a statistical method in order to detect abnormalities in the acquired sound data.
  • Patent Literature 1 discloses an apparatus that detects abnormal sound of a machine using learning data of a given mechanical sound during a normal operation.
  • the device of Patent Document 1 separates an input frequency-domain signal into two or more types of signals having different sound properties, extracts a predetermined acoustic feature amount for each of the two or more types of signals, and extracts Calculate the degree of abnormality of each of two or more types of signals using the normal model of the acoustic features and the two or more types of signals that have been learned in advance, and use the integrated degree of abnormality that integrates these degrees of abnormality. This is to determine whether the signal in the frequency domain is abnormal.
  • the present disclosure has been devised in view of the conventional situation described above, and has a sound data processing method capable of generating a suitable learning model using appropriate learning data when performing machine learning of sound data. It is an object to provide a method, a sound data processing device and a program.
  • the present disclosure is a sound data processing method in a sound data processing device having a processing unit that inputs and acquires target sound data and performs processing of the sound data, wherein the acquired target normal sound data is used. Generating simulated abnormal sound data to be simulated abnormal sound of the target, and performing machine learning using the acquired normal sound data and the generated simulated abnormal sound data as sound data for learning; Generating a learning model for determining an abnormal sound in the target sound data and performing abnormal sound detection.
  • the present disclosure is a sound data processing apparatus having a processing unit that inputs and acquires target sound data and performs processing of the sound data, wherein the processing unit converts the acquired normal sound data of the target.
  • the processing unit converts the acquired normal sound data of the target.
  • a simulated abnormal sound generation unit that generates simulated abnormal sound data that becomes a simulated abnormal sound of the target, using the acquired normal sound data and the generated simulated abnormal sound data as sound data for learning.
  • a machine learning unit that performs machine learning and determines an abnormal sound of the target sound data to generate a learning model for performing abnormal sound detection.
  • the present disclosure relates to a sound data processing device which is a computer, acquiring sound data of a target, and using the acquired normal sound data of the target, a simulated abnormal sound that is a simulated abnormal sound of the target. Generating data, performing machine learning using the acquired normal sound data and the generated simulated abnormal sound data as sound data for learning, determining abnormal sounds in the target sound data, And a step of generating a learning model for performing the detection.
  • the present disclosure is a sound data processing method in a sound data processing device having a processing unit that inputs and acquires target sound data and performs processing of the sound data, wherein the target sound data is obtained based on the acquired target sound data. Generating similar sound data that is a similar sound similar to the sound data; performing machine learning using the acquired target sound data and the generated similar sound data as sound data for learning; Generating a learning model for performing classification determination on data.
  • the present disclosure is a sound data processing device having a processing unit that inputs and acquires target sound data and performs processing of the sound data, wherein the processing unit is based on the acquired target sound data, A similar environment generating unit that generates similar sound data that is a similar sound similar to the target sound data, and performs machine learning using the acquired target sound data and the generated similar sound data as sound data for learning. And a machine learning unit that generates a learning model for performing a classification determination on the target sound data.
  • the present disclosure provides a sound data processing device, which is a computer, with a step of obtaining target sound data, and generating similar sound data that is a similar sound similar to the target sound data based on the obtained target sound data. Performing machine learning using the acquired target sound data and the generated similar sound data as sound data for learning, and generating a learning model for performing classification determination on the target sound data. And a program for executing the program.
  • FIG. 2 is a block diagram illustrating an example of a configuration of a sound data processing device according to the present embodiment.
  • FIG. 2 is a block diagram showing a functional configuration at the time of learning in the sound data processing device according to the first embodiment.
  • 5 is a flowchart illustrating processing of the similar environment generation unit according to the first embodiment.
  • FIG. 2 is a block diagram showing a functional configuration of the sound data processing apparatus according to the present embodiment during operation. Diagram conceptually explaining abnormality determination processing of sound data using machine learning
  • FIG. 7 is a diagram conceptually illustrating a sound data abnormality determination process according to the first embodiment.
  • FIG. 9 is a block diagram showing a functional configuration at the time of learning in the sound data processing device according to the second embodiment.
  • FIG. 11 is a flowchart showing processing of the normal sound processing unit according to the second embodiment.
  • 9 is a flowchart showing processing of the abnormal sound selection unit according to the second embodiment.
  • FIG. 9 is a diagram conceptually illustrating a sound data abnormality determination process according to the second embodiment.
  • FIG. 9 is a block diagram showing a functional configuration at the time of learning in the sound data processing device according to the third embodiment.
  • the figure which shows an example of the display screen of the user interface (UI) for selecting an inspection object 9 is a flowchart showing processing at the time of learning of the sound data processing device according to the third embodiment.
  • the figure explaining the generation processing of the simulated abnormal sound in the abnormal type case 1 The figure explaining the generation processing of the simulated abnormal sound in the abnormal type case 2
  • the inflating of data is a method of adding noise to existing learning data or performing processing such as inversion and rotation if it is an image to provide variations.
  • padding similar to image data cannot be easily applied.
  • an audio waveform is subjected to STFT (Short Time Fourier Transform) processing to be converted into a spectrogram image and processed in the same manner as an image to perform data processing. It may not be possible.
  • STFT Short Time Fourier Transform
  • sound data of the target sound may not be obtained.
  • a normal sound if a normal sound is recorded during operation, data collection is always possible, but an abnormal sound cannot be obtained unless an abnormal sound is recorded.
  • a difference between a learned value and an evaluation value is calculated as described in Patent Document 1 and the like, and whether the difference value exceeds a predetermined threshold value.
  • a method of detecting an abnormality by evaluating whether or not the value is different from a normal value.
  • a sound that can be detected as an abnormal sound is significantly different from a normal value.For example, in a use case where a small difference from the normal sound is an abnormal sound, it is difficult to detect the abnormal sound. is there.
  • a large amount of sound data, sound data having appropriate characteristics can be used as learning data, and a learning model suitable for performing machine learning of sound data is provided.
  • An example of a system that is generated and enables appropriate evaluation during operation is shown below.
  • a learning model is generated by performing machine learning using acquired sound data, and classification of sound data is determined using the generated learning model.
  • 1 shows an example of a sound data processing device and a sound data processing method for performing an abnormality determination as an example.
  • target sound data a case is assumed in which mechanical noise of a fan, a motor, or the like in a facility such as a data center or a factory is assumed, and abnormal sound in sound data is determined to detect abnormal noise.
  • FIG. 1 is a block diagram showing an example of a configuration of a sound data processing device according to the present embodiment.
  • the sound data processing device is configured to include one or a plurality of microphones (microphones) 10, an AD converter 20, and information processing devices 30 and 50.
  • the information processing devices 30 and 50 are configured by a computer such as a PC (Personal Computer) having a processor and a memory, and execute various types of information processing related to machine learning and the like according to the present embodiment.
  • PC Personal Computer
  • the microphone 10 has a sound collection device such as a condenser microphone that inputs a sound wave generated in a target object or a target space and outputs the audio signal as an audio signal of an electric signal.
  • the AD converter 20 converts an analog audio signal into digital sound data using a predetermined quantization bit and a sampling frequency.
  • the information processing device 30 is connected to the AD converter 20, and inputs sound data to be collected by the microphone 10 and converted to digital data by the AD converter 20.
  • the information processing device 30 is connected to the information processing device 50 via a communication path 40 such as a wired or wireless network or a communication line.
  • the information processing device 30 functions as a terminal device of a local computer located at the site
  • the information processing device 50 functions as a server device of a remote computer located at another location
  • the present invention is implemented by a plurality of information processing devices. Is executed in a distributed manner.
  • the information processing device 50 may be a cloud computer on a network.
  • the information processing device 30 mainly functions as a detection device that executes an abnormal sound detection process during operation using a learning model based on machine learning.
  • the information processing device 50 mainly functions as a learning device that executes a machine learning process during learning for generating a learning model by performing machine learning. Note that the information processing devices 30 and 50 may be configured to execute processing by one device such as a computer, or may be configured to execute processing by three or more devices such as computers. It is not limited to a simple device configuration.
  • the information processing apparatus 30 includes a processing unit 301, a storage unit 302, a storage unit 303, and a communication interface (communication IF) 304.
  • the processing unit 301 includes various processing devices such as a CPU (Central Processing Unit), a DSP (Digital Signal Processor), and an FPGA (Field Programmable Gate Array), and executes processing related to sound data.
  • the storage unit 302 has a memory device such as a RAM (Random Access Memory), is used as a working memory of the processing unit 301, and is used for temporary storage in calculations during data processing.
  • the storage unit 302 has a memory device such as a ROM (Read Only Memory) and stores various execution programs for executing the processing of the processing unit 301 and various setting data related to processing such as machine learning.
  • the storage unit 303 includes various storage devices such as a hard disk drive (HDD), a solid state drive (SSD), and an optical disk drive, and stores data such as target sound data and a learning model generated by machine learning.
  • the communication interface 304 is an interface that performs wired or wireless communication, communicates with the information processing device 50 via the communication path 40, and transmits and receives data such as sound data and learning models.
  • the information processing device 50 includes a processing unit 501, a storage unit 502, a storage unit 503, and a communication interface (communication IF) 504.
  • the processing unit 501 has various processing devices such as a CPU, a DSP, and an FPGA, and executes processing relating to sound data.
  • the storage unit 502 has a memory device such as a RAM, is used as a working memory of the processing unit 501, and is used for temporary storage in calculations and the like during data processing.
  • the storage unit 502 includes a memory device such as a ROM, and stores various execution programs for executing the processing of the processing unit 501 and various setting data related to processing such as machine learning.
  • the storage unit 503 includes various storage devices such as an HDD, an SSD, and an optical disk drive, and includes target sound data, a learning model generated by machine learning, an abnormal sound database (abnormal sound DB), and a normal sound database (normal sound DB). , And data such as a general-purpose sound database (general-purpose sound DB).
  • the abnormal sound database is a database that collects sound data in an abnormal state.
  • the normal sound database is a database that collects sound data in a normal state.
  • the general-purpose sound database is a database that collects various general-purpose sound data generated daily.
  • the communication interface 504 is an interface that performs wired or wireless communication, communicates with the information processing device 30 via the communication path 40, and transmits and receives data such as sound data and learning models.
  • the target sound data collected by the microphone 10 is acquired, and the information processing devices 30 and 50 execute the processing of the sound data.
  • machine learning of sound data is executed by the information processing devices 30 and 50 to generate a learning model.
  • the information processing apparatuses 30 and 50 determine abnormalities in sound data using a learning model, and detect abnormal sounds.
  • FIG. 2 is a block diagram showing a functional configuration at the time of learning in the sound data processing device according to the first embodiment.
  • the sound data processing device has a function of the similar environment generation unit 201 and the function of the machine learning unit 202 during learning of machine learning.
  • the functions of each unit of the similar environment generation unit 201 and the machine learning unit 202 are realized by the processing of the processing units 301 and 501 of the information processing devices 30 and 50.
  • the similar environment generation unit 201 generates a similar environment of the sound data to be learned acquired in the real environment, and uses the target sound data 251 acquired as the target sound data to generate similar sound data that is sound data of a similar sound. 253 is automatically generated to inflate the learning data.
  • the machine learning unit 202 executes machine learning such as deep learning using artificial intelligence (AI: Artificial @ Intelligent) installed in the processing unit.
  • AI Artificial @ Intelligent
  • the machine learning unit 202 performs the machine learning process using the acquired target sound data 251, similar sound data 253 generated based on the target sound data 251, and a general-purpose sound database (general-purpose sound DB) 254, and as a learning result. Is generated.
  • the general-purpose sound database 254 stores general-purpose sound data including various general-purpose daily sounds such as environmental sounds and human voices.
  • the machine learning process in the machine learning unit 202 may be performed using one or more statistical classification techniques.
  • Statistical classification techniques include, for example, linear classifiers (linear classifiers), support vector machines (support vector machines), quadratic classifiers (quadratic classifiers), kernel density estimation (kernel estimation), decision trees (decision tree), Artificial neural networks, Bayesian techniques and / or networks, hidden Markov models, binary classifiers, binary classifiers, multi-class classifiers ) Clustering (a clustering technique), random forest (a random forest technique), logistic regression (a logistic regression technique), linear regression (a linear regression technique), gradient boosting (a gradient boosting technique), and the like.
  • the statistical classification technique used is not limited to these.
  • FIG. 3 is a flowchart showing processing of the similar environment generation unit 201 according to the first embodiment.
  • the similar environment generation unit 201 inputs the target sound data 251 acquired by the microphone 10 or the like as sound data for learning (S11), performs similar sound generation processing on the target sound data 251 (S12), and performs similar sound generation.
  • the data 253 is generated.
  • the similar environment generation unit 201 generates a plurality of sound data similar to the original sound data by changing the frequency characteristics, sound volume, sound quality, and the like of the sound data using the filter 211, the sound volume change parameter 212, and the like. . That is, the similar environment generation unit 201 generates the similar sound data 253 by changing at least one of the frequency characteristics and the volume of the target sound data 251.
  • the filter 211 is a filter that changes the frequency characteristics of sound data, such as a low-pass filter (LPF) and a high-pass filter (HPF).
  • the volume change parameter 212 is a parameter that changes the volume of the sound data, such as the volume of the entire frequency band of the sound data or the volume of a predetermined frequency band for emphasizing or reducing a specific frequency.
  • the similar environment generation unit 201 creates various variations related to the original sound data by the above processing, and automatically generates a plurality of similar sound data 253.
  • the similar environment generating unit 201 has means for inflating learning data by a plurality of different approaches, selects an appropriate inflating means according to the pattern of the target sound data, and adds learning sound data. It can also be generated.
  • the similar environment generation unit 201 determines whether or not learning contradiction has occurred in the generated similar sound data 253 (S13).
  • the learning inconsistency is determined, for example, by determining the degree of coincidence of frequencies of a plurality of generated sound data. If there is a sound data for learning that has a different label but a frequency that matches, a learning contradiction occurs. Judge. Subsequently, the similar environment generation unit 201 discards the learning-contradictory sound data (S14). As a result, from the generated similar sound data 253, sound data of different labels with the same frequency are removed, and learning inconsistency in the learning sound data is eliminated.
  • the similar environment generation unit 201 generates and adds the similar sound data 253 to the target sound data 251, thereby inflating the appropriate learning sound data in accordance with the characteristics of the target sound data 251. Do. Then, the similar environment generating unit 201 outputs the learning sound data with the data inflated (S15).
  • the machine learning unit 202 generates a learning model 252 by performing a machine learning process using the inflated learning sound data including the target sound data 251 and the similar sound data 253.
  • FIG. 4 is a block diagram showing a functional configuration at the time of operation in the sound data processing device according to the present embodiment.
  • the sound data processing device has a function of the determination unit 401 during operation using a learning model based on machine learning.
  • the function of each unit of the determination unit 401 is realized by the processing of the processing units 301 and 501 of the information processing devices 30 and 50.
  • the function of the determination unit 401 can use processing during operation using a learning model based on general machine learning.
  • the determination unit 401 receives test sound data 451, which is sound data to be tested, and determines whether sound data is normal or abnormal based on likelihood or the like using a learning model 452 generated by machine learning, and a determination result 453. Is output.
  • the learning model 452 is a result of learning sound data for learning as normal and abnormal with different labeling (clustering). Therefore, the determination unit 401 calculates the normal likelihood and the abnormal likelihood for the test sound data 451 to be determined, and determines which is closer to normal or abnormal. Then, based on the determination result 453 of the test sound data 451, the determination unit 401 outputs an abnormality determination result 454 indicating whether or not the target sound data is abnormal. Abnormal sound detection of the target sound is executed based on the abnormality determination result 454.
  • FIG. 5 is a diagram conceptually illustrating an abnormality determination process for sound data using machine learning.
  • 5A shows an example of sound data classification using a simple threshold
  • FIG. 5B shows an example of sound data classification using a learning model using machine learning.
  • the data classification is simply shown in a two-dimensional space for easy understanding.
  • the sound data of each inspection sound is indicated by a circle mark, and dot hatching indicates a normal sound, and hatched hatching indicates an abnormal sound.
  • a normal sound may be erroneously classified as an abnormal sound.
  • FIG. 5B in the classification based on the boundary B2 based on the learning model of the machine learning using the neural network, the normal sound and the abnormal sound can be accurately classified, and a more reliable judgment result is obtained. can get.
  • FIG. 6 is a diagram conceptually illustrating the sound data abnormality determination processing according to the first embodiment.
  • (A) shows an example of classification of sound data by a learning model without data inflating as a comparative example
  • (B) shows a learning model in which data inflating is performed by generating a similar sound as in the first embodiment.
  • Each of the examples of the classification of the sound data by each is shown.
  • FIG. 6 simply shows the classification of data in a two-dimensional space for easy understanding.
  • the sound data of each inspection sound is indicated by a circle mark, and dot hatching indicates a normal sound, and hatched hatching indicates an abnormal sound.
  • the broken circle marks represent sound data of the normal sound and the abnormal sound added by the data padding.
  • the boundary B3 may not be appropriately determined because there are few variations in data.
  • a normal sound is erroneously determined as an abnormal sound, and an error (NG) occurs in the determination result.
  • NG error
  • erroneous determination is likely to occur when the distribution of the characteristics of the sound data during learning is biased and the characteristics of the sound data during operation are slightly different from the sound data during learning due to environmental changes.
  • sound data of a similar sound automatically generated is added to the sound data obtained at the time of learning to inflate the data for learning, and machine learning is performed.
  • a more appropriate boundary B4 is determined based on a large number of learning data.
  • normal sound and abnormal sound can be accurately classified with respect to the sound data acquired at the time of operation, and a more reliable judgment result can be obtained. Therefore, abnormal noise detection can be accurately performed.
  • learning data is inflated by automatically generating similar sound data corresponding to sound data in a similar environment based on target sound data acquired in a real environment.
  • a sufficient amount of appropriate learning data can be obtained. It can be used to generate a suitable learning model for machine learning. Further, by generating a similar environment of the sound data of the real environment acquired at the time of learning, it is possible to cope with a change in the environment during operation, and to obtain a highly accurate determination result with respect to the environment change.
  • a learning model can be generated. As a result, it is possible to improve the accuracy of the classification judgment such as the abnormal judgment result of the sound data using the learning model by the machine learning.
  • FIG. 7 is a block diagram showing a functional configuration at the time of learning in the sound data processing device according to the second embodiment.
  • the sound data processing device has functions of a normal sound processing unit 601, an abnormal sound selection unit 602, a mixing unit 603, and a machine learning unit 604 when learning machine learning.
  • the normal sound processing unit 601, the abnormal sound selection unit 602, and the mixing unit 603 implement a function as a simulated abnormal sound generation unit that generates simulated abnormal sound data 653.
  • the functions of the normal sound processing unit 601, the abnormal sound selection unit 602, the mixing unit 603, and the machine learning unit 604 are realized by the processing of the processing units 301 and 501 of the information processing devices 30 and 50.
  • the normal sound processing unit 601 performs data processing for generating a simulated abnormal sound using the normal sound data 651 obtained as sound data to be learned.
  • the abnormal sound selection unit 602 uses the abnormal sound database (abnormal sound DB) 654 to select appropriate abnormal sound data according to the type and characteristics of the target sound data.
  • the abnormal sound database 654 stores sound data corresponding to various abnormal sounds as sound data when an abnormality occurs. For example, in the case of a motor sound, a sound in which the number of revolutions is changed, a sound in which a member is rubbed, and the like are collected and stored in advance.
  • the abnormal sound database 654 may store sound data indicating an abnormal state suitable for the inspection target.
  • the mixing unit 603 performs a mixing process between the processed normal sound data and the selected abnormal sound data to generate simulated abnormal sound data 653 that is simulated abnormal sound data, thereby inflating the learning data. I do.
  • the machine learning unit 604 executes machine learning such as deep learning using artificial intelligence installed in the processing unit.
  • the machine learning unit 604 performs machine learning using the acquired normal sound data 651 and the simulated abnormal sound data 653 generated based on the normal sound data 651, and generates a learning model 652 as a learning result.
  • the machine learning process in the machine learning unit 604 may be performed using one or more statistical classification techniques.
  • Statistical classification techniques include, for example, linear classifiers (linear classifiers), support vector machines (support vector machines), quadratic classifiers (quadratic classifiers), kernel density estimation (kernel estimation), decision trees (decision tree), Artificial neural networks, Bayesian techniques and / or networks, hidden Markov models, binary classifiers, binary classifiers, multi-class classifiers ) Clustering (a clustering technique), random forest (a random forest technique), logistic regression (a logistic regression technique), linear regression (a linear regression technique), gradient boosting (a gradient boosting technique), and the like.
  • the statistical classification technique used is not limited to these.
  • FIG. 8 is a flowchart showing the processing of the normal sound processing unit 601 according to the second embodiment.
  • the normal sound processing unit 601 inputs the normal sound data 651 acquired by the microphone 10 or the like as sound data of a normal sound for learning (S21), and processes sound data for processing for mixing abnormal sounds. Perform processing.
  • the normal sound processing unit 601 selects a filter that changes frequency characteristics, such as a low-pass filter (LPF) and a high-pass filter (HPF), based on the type of the sound data to be inspected (S22). Then, the normal sound processing unit 601 applies the selected filter, and processes the sound data by, for example, removing a specific frequency, moving a frequency, and the like (S23).
  • LPF low-pass filter
  • HPF high-pass filter
  • the sound data processing device assumes a state in which what is to be inspected is known in advance, and performs processing according to the characteristics of the sound data to be inspected. For example, processing processing such as reducing the specific frequency of the target sound of the stationary sound and removing it, and converting the pitch of a target sound whose peak frequency is 100 Hz to 200 Hz and shifting it to 200 Hz is performed. Further, the sound volume of the sound data of the target sound may be adjusted according to the characteristics of the sound data to be inspected. Then, the normal sound processing unit 601 outputs the sound data of the normal sound after the processing (S24).
  • the normal sound processing unit 601 processes the normal sound for mixing with the abnormal sound in order to generate a target abnormal sound in accordance with the environment of the normal sound, and processes the normal sound into an abnormal sound. , Etc. are performed. For example, the frequency of a part of the normal sound is reduced to add an abnormal sound. Alternatively, the frequency characteristic of the normal sound is changed to subtract the abnormal sound. Alternatively, when the state slightly higher than the sound in the normal state is the abnormal state, the frequency of the normal sound is shifted slightly higher.
  • the filter processing is performed so as to cancel the component of the sound that reverberates from the normal sound.
  • a pre-process for generating an abnormal sound is executed by these various data processing processes.
  • FIG. 9 is a flowchart showing a process performed by the abnormal sound selecting unit 602 according to the second embodiment.
  • the abnormal sound selection unit 602 inputs the list information of the abnormal sound database 654 and the inspection target information regarding the type of the inspection target and the like (S31).
  • the abnormal sound selection unit 602 determines whether to use the abnormal sound database 654 in accordance with the characteristics of the sound data to be inspected, that is, whether to perform mixing of abnormal sounds using the sound data in the abnormal sound database 654, Alternatively, it is determined whether the processing is performed only by processing the normal sound (S32).
  • the abnormal sound selecting unit 602 outputs silent sound data (S33).
  • the abnormal sound selecting unit 602 selects the sound data of the abnormal sound suitable for mixing from the abnormal sound database 654 based on the type of the sound data to be inspected (S34). Then, the abnormal sound selection unit 602 outputs sound data of the selected abnormal sound (S35).
  • FIG. 10 is a flowchart showing processing of the mixing unit 603 according to Embodiment 2.
  • the mixing unit 603 inputs the sound data of the normal sound processed by the normal sound processing unit 601 as the sound data for mixing (S41), and converts the sound data of the abnormal sound selected by the abnormal sound selection unit 602. Input (S42). Then, the mixing unit 603 mixes the sound data by performing an addition process (superimposition process) of the processed normal sound and the abnormal sound (S43). Thereby, sound data of a simulated abnormal sound is generated.
  • the mixing unit 603 multiplies the waveforms of the normal sound and the abnormal sound, adds the processed normal sound and the abnormal sound, subtracts the abnormal sound from the processed normal sound, For example, a process is performed in which no sound is used and the processed normal sound is used as it is as an abnormal sound. Then, the mixing unit 603 outputs the generated sound data of the simulated abnormal sound (S44). In this way, the mixing unit 603 generates the simulated abnormal sound data 653 by superimposing the abnormal sound data from the abnormal sound database 654 on the normal sound data 651, and adds the simulated abnormal sound data 653 according to the characteristics of the target sound data. Inflate sound data for appropriate learning. Note that the mixing unit 603 may adjust the volume of a plurality of patterns in the addition process, generate a plurality of different simulated abnormal sound data, and give the learning data a variation.
  • the machine learning unit 604 generates a learning model 652 by performing a machine learning process using the expanded sound data including the target normal sound data 651 and the simulated abnormal sound data 653.
  • the functional configuration of the sound data processing device during operation is the same as that of the first embodiment shown in FIG.
  • the sound data processing device has a function of the determination unit 401 during operation using a learning model based on machine learning.
  • the determination unit 401 receives test sound data 451, which is sound data to be tested, and determines whether sound data is normal or abnormal based on likelihood or the like using a learning model 452 generated by machine learning, and a determination result 453. Is output. Then, based on the determination result 453 of the test sound data 451, the determination unit 401 outputs an abnormality determination result 454 indicating whether or not the target sound data is abnormal. Abnormal sound detection of the target sound is executed based on the abnormality determination result 454.
  • FIG. 11 is a diagram conceptually illustrating the sound data abnormality determination processing according to the second embodiment.
  • (A) shows an example of classification of sound data by a learning model without data inflating as a comparative example
  • (B) shows learning in which data inflating is performed by generating a simulated abnormal sound as in the second embodiment.
  • Each example of the classification of the sound data by the model is shown.
  • the data classification is simply shown in a two-dimensional space for easy understanding.
  • the sound data of each inspection sound is indicated by a circle mark, and dot hatching indicates a normal sound, and hatched hatching indicates an abnormal sound.
  • the broken circle mark represents the sound data of the extraordinary sound added by the padding.
  • the sound data of the simulated abnormal sound automatically generated is added to the sound data obtained at the time of learning to inflate the learning data, and machine learning is performed.
  • a more appropriate boundary B6 is determined in consideration of the feature of the abnormal sound. In this case, normal sound and abnormal sound can be accurately classified with respect to the sound data acquired at the time of operation, and a more reliable judgment result can be obtained. Therefore, abnormal noise detection can be accurately performed.
  • the simulated abnormal sound data corresponding to the simulated abnormal sound is automatically generated based on the normal sound data of the target acquired in the real environment, so that the learning data Inflate.
  • the abnormal sound can be simulated together with the normal sound, and a sufficient amount of the appropriate learning data can be used for machine learning. Can be generated.
  • machine learning using simulated abnormal sound data makes it possible to judge abnormalities due to subtle differences even in use cases where the difference between the characteristics of normal sounds and abnormal sounds is small, for example. Accuracy can be improved. As a result, it is possible to improve the accuracy of the classification judgment such as the abnormal judgment result of the sound data using the learning model by the machine learning.
  • FIG. 12 is a block diagram showing a functional configuration at the time of learning in the sound data processing device according to the third embodiment.
  • the sound data processing device has functions of a normal sound processing unit 701, an abnormal sound selection unit 721, an abnormal sound processing unit 722, a mixing unit 703, and a machine learning unit 704 when learning machine learning.
  • the normal sound processing unit 701, the abnormal sound selection unit 721, the abnormal sound processing unit 722, and the mixing unit 703 implement a function as a simulated abnormal sound generation unit that generates the simulated abnormal sound data 753.
  • the functions of the normal sound processing unit 701, the abnormal sound selection unit 721, the abnormal sound processing unit 722, the mixing unit 703, and the machine learning unit 704 are realized by the processing of the processing units 301 and 501 of the information processing devices 30 and 50. .
  • the normal sound processing unit 701 performs data processing for generating a simulated abnormal sound using the normal sound data 651 obtained as the sound data of the inspection target (that is, the learning target).
  • the abnormal sound selection unit 721 uses the abnormal sound database (abnormal sound DB) 654 to select appropriate abnormal sound data according to the type and characteristics of the sound data to be inspected.
  • the abnormal sound processing unit 722 performs data processing for generating a simulated abnormal sound using the selected abnormal sound data.
  • the mixing unit 703 performs mixing processing of the processed normal sound data and the abnormal sound data, and generates simulated abnormal sound data 753 that is simulated abnormal sound data, thereby inflating the learning data. .
  • the machine learning unit 704 executes machine learning such as deep learning using artificial intelligence installed in the processing unit, as in the second embodiment.
  • the machine learning unit 704 performs machine learning using the acquired normal sound data 651 and the simulated abnormal sound data 753 generated based on the normal sound data and / or the abnormal sound data, and a learning model 752 as a learning result.
  • the sound data processing device sets an abnormal type 756 according to the type of the sound data to be inspected, and performs a different process for each abnormal type to generate a simulated abnormal sound.
  • the sound data processing device switches the operation of the normal sound processing unit 701, the abnormal sound selection unit 721, and the abnormal sound processing unit 722 according to the set abnormal type 756.
  • the mode of the abnormal sound when an abnormality occurs with respect to the normal sound differs depending on the abnormal type.
  • the abnormal type is associated with an inspection target such as a target device, a target object, and a target space.
  • each target device such as a device including a rotating body such as a motor and a device including a driving mechanism such as a fan belt
  • a characteristic of sound when an abnormality occurs is characterized by a characteristic of sound when an abnormality occurs.
  • the type of the sound data of the inspection target for which the process of generating the simulated abnormal sound is performed an example in which the abnormal type is set according to the type of the target device will be described.
  • the sound data processing device has a display unit including a display device such as a liquid crystal display and an organic EL (Electro-Luminescence) display.
  • the sound data processing device has a user interface (UI) including a display screen and the like displayed on a display unit, and can receive a selection input by a user operation.
  • UI user interface
  • the sound data processing device accepts a selection input of a target device and sets an abnormality type 756 according to the target device.
  • the abnormality type 756 may be directly input and set by a user operation.
  • the sound data processing device may set the abnormal type 756 according to the type and characteristics of the sound data to be inspected based on the identification information of the sound data.
  • Examples of the abnormal type 756 include the following cases 1 to 4.
  • Case 1 Mixing of abnormal noise (a different sound is generated from the sound at normal time).
  • Case 1 is an abnormality caused by, for example, a bearing abnormality of the rotating body, a fan belt abnormality, an abnormal contact of the drive system, and the like.
  • Case 2 fluctuation of the peak frequency (the peak frequency of the sound in the normal state rises or falls).
  • Case 2 is an abnormality that occurs due to, for example, a change in the rotation speed of the rotating body.
  • Case 3 Missing peak frequency (missing peak frequency of sound at normal time).
  • Case 3 is an abnormality that occurs due to, for example, a change in a contact portion of the drive system.
  • Case 4 change in volume (normal sound level increases or decreases). The case 4 is an abnormality that occurs due to, for example, an increase or decrease in friction of the rotating body or the drive system.
  • FIG. 13 is a diagram illustrating an example of a display screen of a user interface (UI) for selecting an inspection target.
  • the setting screen 761 in the display screen of the user interface is provided with a target setting input unit 762 for selecting and inputting a type of a target device to be inspected by a user operation.
  • the target setting input unit 762 has a pull-down menu display in which names of test target types such as a motor, a compressor, a belt, and an arm are displayed as a list of target devices.
  • the sound data processing device sets a target device to be inspected, and sets a sound abnormality type corresponding to the target device.
  • FIG. 14 is a flowchart showing a learning process performed by the sound data processing device according to the third embodiment.
  • the sound data processing device uses the user interface 755 to input the setting of the target device (S51), and sets the abnormality type 756 according to the target device (S52). Then, the sound data processing device switches the operation mode in the normal sound processing unit 701, the abnormal sound selection unit 721, and the abnormal sound processing unit 722 according to the abnormal type 756, and processes the normal sound and the selection and processing of the abnormal sound. (S53). At this time, peak shift, filtering, level increase / decrease, mixing level setting, and the like are executed as normal sound and / or abnormal sound processing. A specific example of the process according to the type of abnormality will be described later. Subsequently, the sound data processing device performs a mixing process between the normal sound and the abnormal sound in the mixing unit 703 (S54), and generates and outputs simulated abnormal sound data 753 (S55).
  • FIG. 15 is a diagram illustrating a process of generating a simulated abnormal sound in case 1 of the abnormal type.
  • 15A shows an example of a time waveform of a normal sound
  • FIG. 15B shows an example of a time waveform of an abnormal sound.
  • the horizontal axis represents time, and the vertical axis represents volume level.
  • C shows an example of a frequency characteristic of a normal sound at a predetermined time
  • D shows an example of a frequency characteristic of an abnormal sound at a predetermined time.
  • the horizontal axis represents frequency
  • the vertical axis represents signal level.
  • abnormal noise is added to the normal sound when a bearing error, a fan belt error, an abnormal contact of the drive system, or the like occurs.
  • the illustrated example is an example in which a pulse-like sound is intermittently added to a normal sound, and in the frequency characteristic of an abnormal sound, the signal level increases in all bands like white noise.
  • an abnormal sound component may be added only to a predetermined frequency band (for example, around 1 kHz).
  • the abnormal sound selection unit 721, the abnormal sound processing unit 722, and the mixing unit 703 mainly operate to execute processing for adding an abnormal sound to a normal sound.
  • the abnormal sound selection unit 721 selects appropriate abnormal sound data from the abnormal sound database 654, the abnormal sound processing unit 722 performs processing of the selected abnormal sound data, and sets a mixing level.
  • processing for processing abnormal sound data processing such as peak shift is performed.
  • the normal sound data and the abnormal sound data are mixed according to the mixing level set by the mixing unit 703, and the simulated abnormal sound data 753 is output.
  • the normal sound processing unit 701 may appropriately process the normal sound data before mixing with the abnormal sound data.
  • FIG. 16 is a diagram illustrating a process of generating a simulated abnormal sound in case 2 of the abnormal type.
  • (A) shows an example of a time waveform of a normal sound
  • (B) shows an example of a time waveform of an abnormal sound.
  • the horizontal axis represents time, and the vertical axis represents volume level.
  • (C) shows an example of a frequency characteristic of a normal sound at a predetermined time
  • (D) shows an example of a frequency characteristic of an abnormal sound at a predetermined time.
  • the horizontal axis represents frequency
  • the vertical axis represents signal level.
  • the peak frequency of the sound fluctuates, and the band of the frequency component where the peak occurs moves.
  • the normal sound has a peak in the 4 kHz band
  • the abnormal sound has a peak frequency fluctuating from 4 kHz to 2 kHz
  • a strong peak occurs in the 2 kHz band
  • the 4 kHz peak disappears.
  • the normal sound processing unit 701 and the mixing unit 703 mainly operate to execute a process of shifting the peak of the normal sound.
  • the normal sound processing unit 701 processes the normal sound data 651, varies the peak frequency of the normal sound data, and outputs simulated abnormal sound data 753.
  • the mixing unit 703 may mix the abnormal sound data with the normal sound data after the peak shift.
  • FIG. 17 is a diagram illustrating a process of generating a simulated abnormal sound in case 3 of the abnormal type.
  • A shows an example of a time waveform of a normal sound
  • B shows an example of a time waveform of an abnormal sound.
  • the horizontal axis represents time
  • the vertical axis represents volume level.
  • C shows an example of a frequency characteristic of a normal sound at a predetermined time
  • D shows an example of a frequency characteristic of an abnormal sound at a predetermined time.
  • the horizontal axis represents frequency
  • the vertical axis represents signal level.
  • a change in the contact portion of the drive system occurs, and when the contact state changes, such as when a specific portion newly contacts or separates, a drop occurs in the peak frequency of the sound.
  • the normal sound has a peak in a band around 2 kHz, and the abnormal sound has no peak near 2 kHz.
  • the normal sound processing unit 701 and the mixing unit 703 mainly operate to execute processing for filtering the normal sound.
  • the normal sound processing unit 701 processes the normal sound data 651, attenuates a predetermined frequency in the normal sound data by a filter, and outputs simulated abnormal sound data 753.
  • the mixing unit 703 may mix abnormal sound data with filtered normal sound data.
  • the normal sound processing unit 701 and the mixing unit 703 mainly operate to execute processing for increasing or decreasing the level of the normal sound.
  • the normal sound processing unit 701 processes the normal sound data 651, increases or decreases the volume level of the normal sound data by changing the filter gain, and outputs simulated abnormal sound data 753.
  • the mixing unit 703 may mix the abnormal sound data with the normal sound data after the level adjustment.
  • different types of abnormalities are set depending on the type of target device or the like for which the machine learning of sound data is performed, and the respective processes are performed in accordance with the abnormal types to perform simulation.
  • Generate abnormal abnormal sound As a result, it is possible to generate a simulated abnormal sound in an abnormal state having different characteristics for each abnormal type, and it is possible to generate simulated abnormal sound data appropriate for each aspect of the abnormal type.
  • a functional configuration of a mode in which at least two of the first, second, and third embodiments described above are combined may be employed.
  • the sound data of the simulated abnormal sound is generated by the functional blocks of the second embodiment shown in FIG. 7, and the learning including the simulated abnormal sound is performed.
  • Sound data of similar sounds is further generated by the functional blocks of Embodiment 1 shown in FIG. 2 based on the sound data for learning, and machine learning is performed using the sound data for learning including the simulated abnormal sound and the similar sounds.
  • I do In this way, a simulated abnormal sound and a similar sound are generated, the sound data for learning is inflated, machine learning using a large amount of learning data is enabled, and more accurate abnormal sound detection can be performed. I do.
  • additional learning is performed by adding sound data for learning, thereby performing further optimization. It is also possible to generate a learning model. For example, after generating a simulated abnormal sound by the functional blocks of the second embodiment and performing machine learning, if an actual abnormal sound can be obtained, additional learning using the obtained abnormal sound is performed. In this manner, additional learning or the like using similar abnormal sounds generated and used is executed. Alternatively, after similar sounds are generated by the functional blocks of the first embodiment and machine learning is performed, additional learning using additionally acquired normal sounds and abnormal sounds is performed, and further generation and execution of the simulated abnormal sounds of the second embodiment are performed. The additional learning and the like based on the data added by generation of the similar sound in the first mode are executed.
  • the sound data processing method includes the sound data including the information processing devices 30 and 50 having the processing units 301 and 501 for inputting and acquiring target sound data and processing the sound data.
  • a learning model can be generated.
  • a classification model operation such as abnormal sound determination can be performed by a learning model generated using a sufficient amount of learning data, and the accuracy of classification determination regarding target sound data can be improved.
  • a similar environment of the target sound data 251 is generated, and at least one of the frequency characteristic and the volume of the target sound data 251 is changed.
  • a plurality of similar sound data 253 is generated.
  • a plurality of similar sound data similar to the target sound data can be generated based on the target sound data acquired in the real environment. Further, by using the similar sound data based on the similar environment as the data for learning, it is possible to cope with an environmental change at the time of operation, and it is possible to improve the accuracy of classification determination regarding the target sound data.
  • similar sound data 253 is generated using a filter that changes the frequency characteristic of the target sound data 251. This makes it possible to generate similar sound data relating to the target sound data by changing the frequency characteristics of the target sound data.
  • the similar sound data is generated using a sound volume change parameter that changes the sound volume of the entire frequency band of the target sound data 251 or the sound volume of a specific frequency band.
  • the sound data 253 is generated. This makes it possible to generate similar sound data relating to the target sound data by changing the volume of the entire frequency band of the target sound data or the volume of a specific frequency band.
  • the sound data processing method in the step of generating similar sound data, for the plurality of generated similar sound data 253, data in which learning contradiction occurs in machine learning is discarded. Thereby, for example, data in which learning inconsistency occurs, such as sound data of different labels having the same frequency, can be removed, and appropriate machine learning can be executed.
  • a learning model for determining an abnormal sound of the target sound data and performing abnormal sound detection as a classification determination regarding the target sound data. 252 is generated. Thereby, machine learning is performed using a sufficient amount of appropriate learning data including the target sound data acquired in the real environment and the automatically generated similar sound data, and the abnormal sound detection based on the abnormal sound determination result is performed.
  • a learning model can be generated.
  • the general-purpose sound database 254 storing general-purpose sound data including general-purpose sounds together with the target sound data 251 and the similar sound data 253 is learned.
  • Machine learning using sound data for the As a result, machine learning is performed using a sufficient amount of appropriate learning data including general-purpose sound data, a more preferable learning model can be generated, and the accuracy of classification determination regarding target sound data can be improved.
  • the sound data processing device is a sound data processing device including information processing devices 30 and 50 having processing units 301 and 501 for inputting and acquiring target sound data and processing the sound data.
  • the processing units 301 and 501 include a similar environment generation unit 201 that generates similar sound data 253 that is a similar sound similar to the target sound data 251 based on the obtained target sound data 251, And a machine learning unit 202 that performs machine learning using the obtained similar sound data 253 as sound data for learning, and generates a learning model 252 for performing classification determination on target sound data.
  • a suitable learning model for machine learning can be generated using a sufficient amount of appropriate learning data. The accuracy of the determination can be improved.
  • the program according to the present embodiment includes a step of acquiring target sound data in a sound data processing device including information processing devices 30 and 50, which are computers, and a method similar to target sound data 251 based on acquired target sound data 251. Generating similar sound data 253 as a similar sound to perform, and performing machine learning using the acquired target sound data 251 and the generated similar sound data 253 as sound data for learning, and performing classification determination on the target sound data And a step of generating a learning model 252 for performing the following.
  • the sound data processing method is based on sound data in a sound data processing device including information processing devices 30 and 50 having processing units 301 and 501 for inputting and acquiring target sound data and processing the sound data.
  • a method of generating simulated abnormal sound data 653 that becomes a simulated abnormal sound of the target by using the obtained normal sound data 651 of the target, and a simulated abnormal sound generated by the acquired normal sound data 651 Machine learning using the data 653 as sound data for learning, generating an learning model 652 for determining abnormal sounds in the target sound data and detecting abnormal sounds.
  • Suitable learning model can be generated.
  • the operation of abnormal sound determination can be performed by a learning model generated by machine learning including simulated abnormal sound data, and the accuracy of abnormal sound detection for target sound data can be improved.
  • the normal sound processing units 601 and 701 execute data processing of the normal sound data 651. This makes it possible to generate simulated abnormal sound data by processing the acquired normal sound data.
  • the sound data processing method executes at least one of peak shift, filtering, and volume change of normal sound data as data processing. Thereby, it is possible to generate simulated abnormal sound data corresponding to each abnormal state such as a fluctuation in a peak frequency of a normal sound, a lack of a peak frequency, a change in volume, and the like.
  • the step of generating simulated abnormal sound data mixing is performed by using the normal sound data 651 and the abnormal sound data selected from the abnormal sound database 654 stored in advance.
  • the unit 603 performs a mixing process of the normal sound data and the abnormal sound data to generate the simulated abnormal sound data 653.
  • it is possible to generate simulated abnormal sound data by adding the normal sound data acquired in the real environment and the abnormal sound data prepared in advance and performing a mixing process.
  • the normal sound processing unit 601 performs normal sound data and abnormal sound data for performing the mixing process in the mixing unit 603. At least one of the data processing processes. This makes it possible to process the normal sound data acquired in the real environment and generate sound data for mixing for generating simulated abnormal sound data.
  • the frequency characteristics of the normal sound data can be changed and processed to generate simulated abnormal sound data, or to generate data for mixing when generating the simulated abnormal sound data.
  • the abnormal type 756 in the step of generating the simulated abnormal sound data, is set, and according to the abnormal type 756, only the normal sound data or the normal sound data and the abnormal sound data are set. To generate simulated abnormal sound data.
  • the abnormal type 756 may be set based on the type of the target sound data. Thereby, it is possible to generate the simulated abnormal sound in the abnormal state for each abnormal type, and to generate the simulated abnormal sound data appropriate for each aspect of the abnormal type.
  • the abnormal sound selecting unit 602 causes the abnormal sound data from the abnormal sound database 654 for performing the mixing process in the mixing unit 603. Is performed. This makes it possible to generate mixing sound data for generating simulated abnormal sound data from the abnormal sound database stored in advance.
  • suitable abnormal sound data is selected from the abnormal sound database 654 based on the type of the target sound data. This makes it possible to select abnormal sound data based on the type of target sound data, and extract appropriate mixing sound data for generating simulated abnormal sound data.
  • the selection processing it is determined whether or not the abnormal sound database 654 is used in accordance with the characteristics of the target sound data. Output data.
  • the appropriate simulated abnormal sound is output by outputting silent sound data for mixing as abnormal sound data. Data can be generated.
  • the sound data processing device is a sound data processing device including information processing devices 30 and 50 having processing units 301 and 501 for inputting and acquiring target sound data and processing the sound data.
  • the processing units 301 and 501 use the acquired target normal sound data 651 to generate a simulated abnormal sound data 653 that is a simulated abnormal sound of the target (the normal sound processing unit 601 and the abnormal sound processing unit 601).
  • the sound selection unit 602, the mixing unit 603 uses the acquired normal sound data 651 and the generated simulated abnormal sound data 653 as sound data for learning, machine learning is performed, and an abnormal sound of the target sound data is determined.
  • a machine learning unit 604 that generates a learning model 652 for performing abnormal noise detection.
  • a suitable learning model for machine learning can be generated using a sufficient amount of appropriate learning data, even when actual learning data at the time of abnormality is not obtained. It is possible to improve the accuracy of data abnormality detection.
  • the program according to the present embodiment includes a step of acquiring target sound data in a sound data processing apparatus including the information processing apparatuses 30 and 50 which are computers, and simulating the target by using the obtained target normal sound data 651.
  • the present disclosure supplies a program realizing the functions of the sound data processing method and the sound data processing apparatus according to the above-described embodiment to an information processing apparatus which is a computer via a network or various storage media, and
  • the program that is read and executed by the processor of the processing device, and the recording medium on which the program is stored may be applicable.
  • the present disclosure is useful as a sound data processing method, a sound data processing device, and a program that can generate a suitable learning model using appropriate learning data when performing machine learning of data.
  • Reference Signs List 10 microphone 20 AD converter 30 information processing device (terminal device) 40 communication path 50 information processing device (server device) 201 Similar environment generation unit 202, 604 Machine learning unit 251 Target sound data 252, 452, 652 Learning model 253 Similar sound data 254 General-purpose sound database 301, 501 Processing unit 302, 502 Storage unit 303, 503 Storage unit 304, 504 Communication interface 401 Judgment unit 451 Test sound data 453 Judgment result 454 Abnormal judgment result 601 Normal sound processing unit 602 Abnormal sound selection unit 603 Mixing unit 651 Normal sound data 653 Simulated abnormal sound data 654 Abnormal sound database

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Signal Processing (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

対象の音データを入力して取得し、音データの処理を行う処理部を有する音データ処理装置における音データ処理方法であって、取得した対象の正常音データを用いて、対象の模擬的な異常音となる模擬異常音データを生成するステップと、取得した正常音データと生成した模擬異常音データとを学習用の音データとして用いて機械学習を行い、対象の音データの異常音を判定して異音検知を行うための学習モデルを生成するステップと、を有する。

Description

音データ処理方法、音データ処理装置及びプログラム
 本開示は、対象の音データの機械学習に関連する処理を行う音データ処理方法、音データ処理装置及びプログラムに関する。
 各種施設等において、対象物又は対象空間等の音を収音し、取得した音データを解析して異常の検知、設備の稼働状況のモニタ、製品の良否判定などを行うシステムが従来より用いられている。この種のシステムにおいて、例えば、対象物の音データの異常を検知し、異常音が発生した際の故障判定等を行う装置がある。最近では、取得した音データの異常を検知するために、統計的手法に基づく機械学習処理を用いて異常音の判定を行うことも種々検討されている。
 例えば、特許文献1には、与えられた機械音の正常動作時の学習データを用いて、機械の異常音を検出する装置が開示されている。特許文献1の装置は、入力された周波数領域の信号を音の性質が互いに異なる2種以上の信号に分離し、この2種以上の信号のそれぞれについて所定の音響特徴量を抽出し、抽出された音響特徴量及び事前に学習された2種以上の信号の正常時のモデルを用いて、2種以上の信号のそれぞれの異常度を計算し、これらの異常度を統合した統合異常度を用いて周波数領域の信号が異常であるかを判定するものである。
日本国特開2017-090606号公報
 機械学習を実施する際には、より好適な学習モデルを生成して判定結果の精度を向上させることが肝要である。好適な学習モデルの生成のためには、学習用のデータとして、大量のデータ、適切な特徴を持つデータが必要となる。しかしながら、対象の音データの異常検知等の分類判定に適応するように、大量の音データ、適切な特徴を持つ音データを学習用のデータとして適宜取得することは困難な場合がある。
 本開示は、上述した従来の状況に鑑みて案出され、音データの機械学習を実施する際に適切な学習用のデータを用いて好適な学習モデルを生成することを可能にする音データ処理方法、音データ処理装置及びプログラムを提供することを目的とする。
 本開示は、対象の音データを入力して取得し、前記音データの処理を行う処理部を有する音データ処理装置における音データ処理方法であって、前記取得した対象の正常音データを用いて、前記対象の模擬的な異常音となる模擬異常音データを生成するステップと、前記取得した正常音データと前記生成した模擬異常音データとを学習用の音データとして用いて機械学習を行い、前記対象の音データの異常音を判定して異音検知を行うための学習モデルを生成するステップと、を有する、音データ処理方法を提供する。
 また、本開示は、対象の音データを入力して取得し、前記音データの処理を行う処理部を有する音データ処理装置であって、前記処理部は、前記取得した対象の正常音データを用いて、前記対象の模擬的な異常音となる模擬異常音データを生成する模擬異常音生成部と、前記取得した正常音データと前記生成した模擬異常音データとを学習用の音データとして用いて機械学習を行い、前記対象の音データの異常音を判定して異音検知を行うための学習モデルを生成する機械学習部と、を有する、音データ処理装置を提供する。
 また、本開示は、コンピュータである音データ処理装置に、対象の音データを取得するステップと、前記取得した対象の正常音データを用いて、前記対象の模擬的な異常音となる模擬異常音データを生成するステップと、前記取得した正常音データと前記生成した模擬異常音データとを学習用の音データとして用いて機械学習を行い、前記対象の音データの異常音を判定して異音検知を行うための学習モデルを生成するステップと、を実行させるための、プログラムを提供する。
 本開示は、対象の音データを入力して取得し、前記音データの処理を行う処理部を有する音データ処理装置における音データ処理方法であって、前記取得した対象音データに基づき、前記対象音データに類似する類似音となる類似音データを生成するステップと、前記取得した対象音データと前記生成した類似音データとを学習用の音データとして用いて機械学習を行い、前記対象の音データに関する分類判定を行うための学習モデルを生成するステップと、を有する、音データ処理方法を提供する。
 また、本開示は、対象の音データを入力して取得し、前記音データの処理を行う処理部を有する音データ処理装置であって、前記処理部は、前記取得した対象音データに基づき、前記対象音データに類似する類似音となる類似音データを生成する類似環境生成部と、前記取得した対象音データと前記生成した類似音データとを学習用の音データとして用いて機械学習を行い、前記対象の音データに関する分類判定を行うための学習モデルを生成する機械学習部と、を有する、音データ処理装置を提供する。
 また、本開示は、コンピュータである音データ処理装置に、対象の音データを取得するステップと、前記取得した対象音データに基づき、前記対象音データに類似する類似音となる類似音データを生成するステップと、前記取得した対象音データと前記生成した類似音データとを学習用の音データとして用いて機械学習を行い、前記対象の音データに関する分類判定を行うための学習モデルを生成するステップと、を実行させるための、プログラムを提供する。
 本開示によれば、音データの機械学習を実施する際に適切な学習用のデータを用いて好適な学習モデルを生成可能にすることができる。
本実施の形態に係る音データ処理装置の構成の一例を示すブロック図 実施の形態1に係る音データ処理装置における学習時の機能的構成を示すブロック図 実施の形態1に係る類似環境生成部の処理を示すフローチャート 本実施の形態に係る音データ処理装置における運用時の機能的構成を示すブロック図 機械学習を用いた音データの異常判定処理を概念的に説明する図 実施の形態1に係る音データの異常判定処理を概念的に説明する図 実施の形態2に係る音データ処理装置における学習時の機能的構成を示すブロック図 実施の形態2に係る正常音加工部の処理を示すフローチャート 実施の形態2に係る異常音選択部の処理を示すフローチャート 実施の形態2に係るミキシング部の処理を示すフローチャート 実施の形態2に係る音データの異常判定処理を概念的に説明する図 実施の形態3に係る音データ処理装置における学習時の機能的構成を示すブロック図 検査対象を選択するユーザインタフェース(UI)の表示画面の一例を示す図 実施の形態3に係る音データ処理装置の学習時の処理を示すフローチャート 異常種類のケース1における模擬異常音の生成処理を説明する図 異常種類のケース2における模擬異常音の生成処理を説明する図 異常種類のケース3における模擬異常音の生成処理を説明する図
 以下、適宜図面を参照しながら、本開示に係る構成を具体的に開示した各実施の形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。なお、添付図面及び以下の説明は、当業者が本開示を十分に理解するために提供されるのであって、これらにより特許請求の範囲に記載の主題を限定することは意図されていない。
(本実施の形態に係る背景)
 音データの機械学習を行う場合、学習用のデータが十分に得られない場合がある。機械学習では、一般的に学習のための多くのデータを必要とする。特にディープラーニング技術は、その階層の深さを活かすために大量のデータ(数万~数百万)を必要とする。しかし、利用シーンによっては学習用のデータが安易に得られないケースがある。特に音データは画像データよりも既存のデータとして得られるサンプルデータが少なく、設備検査の打音などのインターネットを用いて学習用のデータを検索収集する環境も整っていない。例えば、機械の稼動音、設備検査の打音などの音データの機械学習を行う場合、十分な量の学習用のデータを得られないという課題がある。
 多くの学習用のデータを得るために、限られた学習用のデータを有効に使う方法として、データの水増し(Data Argumentation)がある。データの水増しは、既存の学習用のデータに対して、ノイズ付加を行ったり、画像であれば反転、回転などの加工を行い、バリエーションをもたせる手法である。しかし、音データに関しては画像データと同様の水増しは容易に適用できない。例えば、音声波形にSTFT(Short Time Fourier Transform)処理を実施してスペクトログラム画像として変換し、画像と同様に扱ってデータ加工を行うことが考えられるが、データの精度が悪化して適切な学習が行えない場合がある。つまり、音データの機械学習においては、音声の特徴を捉えた上で学習用のデータの水増しを行う必要がある。
 また、音データの機械学習を用いたユースケースの中では、目的音の音データがほとんど得られないことがある。例えば、機械の稼動音の場合、正常音は稼働時に録音すればデータの収集が常時可能であるが、異常音は異常が発生した時に録音しないと得られない。このような異常音の取得が困難な状況において、機械学習を用いた異常音の検知を行おうとする場合、正常音の学習用のデータのみで異常を検知するシステムを構築する必要がある。
 正常音の学習用のデータのみで異常を検知する方法として、上述した特許文献1等の記載のように、学習した値と評価値との差分を算出し、差分値が所定の閾値を超えるかどうか、すなわち正常値との乖離度を評価することによって異常検知する方法がある。しかし、この方法では、異音として検知できるのは正常値から大きく異なる音であり、例えば正常音とは小さな差であるが異常な音であるというユースケースの場合は、異音検知が困難である。
 上述した背景を鑑み、本実施の形態では、学習用のデータとして、大量の音データ、適切な特徴を持つ音データを利用可能とし、音データの機械学習を実施する際に好適な学習モデルを生成して運用時に適切な評価を実施可能にするシステムの一例を以下に示す。
 本実施の形態では、対象の音データの処理を行うシステムの構成例として、取得した音データを用いた機械学習を行って学習モデルを生成し、生成した学習モデルを用いて音データの分類判定としての異常判定を行う音データ処理装置及び音データ処理方法の一例を示す。ここでは、対象の音データの一例として、データセンター又は工場等の設備におけるファン、モータ等の機械音を想定し、音データにおける異常音を判定して異音検知を行う場合を例示する。
(音データ処理装置の構成)
 図1は、本実施の形態に係る音データ処理装置の構成の一例を示すブロック図である。音データ処理装置は、1つ又は複数のマイクロホン(マイク)10、AD変換器20、情報処理装置30、50を含む構成である。情報処理装置30、50は、例えばプロセッサ及びメモリを有するPC(Personal Computer)等のコンピュータにより構成され、本実施の形態に係る機械学習等に関する各種の情報処理を実行する。
 マイクロホン10は、対象物又は対象空間等において生じる音波を入力して電気信号のオーディオ信号として出力するコンデンサマイクロホン等の集音デバイスを有して構成される。AD変換器20は、所定の量子化ビット及びサンプリング周波数によってアナログのオーディオ信号をディジタルの音データに変換する。
 情報処理装置30は、AD変換器20と接続され、マイクロホン10にて収音しAD変換器20にてディジタルデータに変換した対象の音データを入力する。情報処理装置30は、有線又は無線のネットワーク又は通信回線等の通信路40を介して情報処理装置50と接続される。図示例では、情報処理装置30が現場に配置されるローカルコンピュータの端末装置として機能し、情報処理装置50が他所に配置されるリモートコンピュータのサーバ装置として機能し、複数の情報処理装置によって本実施の形態に係る処理を分散して実行する構成となっている。情報処理装置50は、ネットワーク上のクラウドコンピュータであってもよい。情報処理装置30は、主として機械学習による学習モデルを用いた運用時の異音検知処理を実行する検知用装置として機能する。情報処理装置50は、主として機械学習を行って学習モデルを生成する学習時の機械学習処理を実行する学習用装置として機能する。なお、情報処理装置30、50は、1つのコンピュータ等の装置によって処理を実行する構成としてもよいし、或いは3つ以上のコンピュータ等の装置によって処理を実行する構成であってもよく、物理的な装置構成には限定されない。
 情報処理装置30は、処理部301、記憶部302、格納部303、通信インタフェース(通信IF)304を有する。処理部301は、CPU(Central Processing Unit)、DSP(Digital Signal Processor)、FPGA(Field Programmable Gate Array)等の各種処理デバイスを有し、音データに関する処理を実行する。記憶部302は、RAM(Random Access Memory)等のメモリデバイスを有し、処理部301のワーキングメモリとして使用され、データ処理時の演算等において一時記憶に利用する。また、記憶部302は、ROM(Read Only Memory)等のメモリデバイスを有し、処理部301の処理を実行するための各種実行プログラム、機械学習等の処理に関する各種設定データを記憶する。格納部303は、HDD(Hard Disk Drive)、SSD(Solid State Drive)、光ディスクドライブ等の各種ストレージデバイスを有し、対象の音データ、機械学習により生成した学習モデル等のデータを格納する。通信インタフェース304は、有線又は無線の通信を行うインタフェースであり、通信路40を介して情報処理装置50と通信を行い、音データ、学習モデル等のデータを送受信する。
 情報処理装置50は、処理部501、記憶部502、格納部503、通信インタフェース(通信IF)504を有する。処理部501は、CPU、DSP、FPGA等の各種処理デバイスを有し、音データに関する処理を実行する。記憶部502は、RAM等のメモリデバイスを有し、処理部501のワーキングメモリとして使用され、データ処理時の演算等において一時記憶に利用する。また、記憶部502は、ROM等のメモリデバイスを有し、処理部501の処理を実行するための各種実行プログラム、機械学習等の処理に関する各種設定データを記憶する。格納部503は、HDD、SSD、光ディスクドライブ等の各種ストレージデバイスを有し、対象の音データ、機械学習により生成した学習モデル、異常音データベース(異常音DB)、正常音データベース(正常音DB)、汎用音データベース(汎用音DB)等のデータを格納する。異常音データベースは、異常状態の音データを集めたデータベースである。正常音データベースは、正常状態の音データを集めたデータベースである。汎用音データベースは、日常発生する汎用的な各種の音データを集めたデータベースである。通信インタフェース504は、有線又は無線の通信を行うインタフェースであり、通信路40を介して情報処理装置30と通信を行い、音データ、学習モデル等のデータを送受信する。
 本実施の形態では、マイクロホン10により収音した対象の音データを取得し、情報処理装置30、50によって音データの処理を実行する。学習時には、情報処理装置30、50によって音データの機械学習を実行し、学習モデルを生成する。運用時には、情報処理装置30、50によって学習モデルを用いて音データの異常判定を行い、異音を検知する。
 以下に、本実施の形態に係る音データの機械学習を含む処理を実行する音データ処理方法及び装置について、いくつかの実施の形態を例示する。
(実施の形態1)
 実施の形態1では、取得した音データの類似環境を作成することにより、対象の音データの類似音を生成して学習用のデータの水増しを行い、音データの学習及び評価を行う例を示す。
 図2は、実施の形態1に係る音データ処理装置における学習時の機能的構成を示すブロック図である。音データ処理装置は、機械学習の学習時において、類似環境生成部201、機械学習部202の機能を有する。類似環境生成部201、機械学習部202は、情報処理装置30、50の処理部301、501の処理によって各部の機能が実現される。
 類似環境生成部201は、実環境で取得される学習対象の音データの類似環境を生成し、対象の音データとして取得した対象音データ251を用いて、類似音の音データである類似音データ253を自動生成することにより、学習用データの水増しを行う。機械学習部202は、処理部に搭載した人工知能(AI:Artificial Intelligent)を用いて、ディープラーニング等の機械学習を実行する。機械学習部202は、取得した対象音データ251、対象音データ251に基づいて生成した類似音データ253、汎用音データベース(汎用音DB)254を用いて、機械学習処理を実施し、学習結果としての学習モデル252を生成する。汎用音データベース254は、環境音、人の声などの各種の汎用的な日常音を含む汎用音データを蓄積したものである。
 機械学習部202における機械学習処理は、1つ以上の統計的分類技術を用いて行っても良い。統計的分類技術としては、例えば、線形分類器(linear classifiers)、サポートベクターマシン(support vector machines)、二次分類器(quadratic classifiers)、カーネル密度推定(kernel estimation)、決定木(decision trees)、人工ニューラルネットワーク(artificial neural networks)、ベイジアン技術及び/又はネットワーク(Bayesian techniques and/or networks)、隠れマルコフモデル(hidden Markov models)、バイナリ分類子(binary classifiers)、マルチクラス分類器(multi-class classifiers)クラスタリング(a clustering technique)、ランダムフォレスト(a random forest technique)、ロジスティック回帰(a logistic regression technique)、線形回帰(a linear regression technique)、勾配ブースティング(a gradient boosting technique)などが挙げられる。ただし、使用される統計的分類技術はこれらに限定されない。
 図3は、実施の形態1に係る類似環境生成部201の処理を示すフローチャートである。類似環境生成部201は、マイクロホン10等によって取得された対象音データ251を、学習用の音データとして入力し(S11)、対象音データ251に関する類似音の生成処理を行い(S12)、類似音データ253を生成する。このとき、類似環境生成部201は、フィルタ211、音量変化パラメータ212などを用いて、音データの周波数特性、音量、音質等を変化させて元の音データに類似する複数の音データを生成する。すなわち、類似環境生成部201は、対象音データ251の周波数特性、音量のうちの少なくとも一つを変化させることにより、類似音データ253を生成する。
 フィルタ211は、例えばローパスフィルタ(LPF)、ハイパスフィルタ(HPF)等の音データの周波数特性を変化させるフィルタである。音量変化パラメータ212は、音データの周波数帯域全体の音量、又は特定の周波数の強調や低減等のための所定周波数帯域の音量など、音データの音量を変化させるパラメータである。類似環境生成部201は、上記の処理により、元の音データに関する各種バリエーションを作り出し、複数の類似音データ253を自動生成する。なお、類似環境生成部201において、複数の異なるアプローチによって学習用のデータの水増しを行う手段を持ち、対象の音データのパターンに応じて適切な水増し手段を選択し、学習用の音データを追加生成することも可能である。
 次に、類似環境生成部201は、生成した類似音データ253について、学習矛盾が生じているかの判断を行う(S13)。学習矛盾の判断は、例えば生成した複数の音データの周波数の一致度を判定し、学習用の音データのラベルが異なるのに周波数が一致するものが存在する場合に、学習矛盾が生じていると判断する。続いて、類似環境生成部201は、学習矛盾する音データを破棄する(S14)。これにより、生成した類似音データ253の中から、異なるラベルの音データで同じ周波数のものを取り除き、学習用の音データにおける学習矛盾を解消する。このようにして、類似環境生成部201は、対象音データ251に対して類似音データ253を生成して加えることによって、対象音データ251の特徴に応じた適切な学習用の音データの水増しを行う。そして、類似環境生成部201は、データ水増しされた学習用の音データを出力する(S15)。
 機械学習部202は、対象音データ251と類似音データ253を含むデータ水増しされた学習用の音データを用いて、機械学習処理を実施して学習モデル252を生成する。
 図4は、本実施の形態に係る音データ処理装置における運用時の機能的構成を示すブロック図である。音データ処理装置は、機械学習による学習モデルを用いた運用時において、判定部401の機能を有する。判定部401は、情報処理装置30、50の処理部301、501の処理によって各部の機能が実現される。判定部401の機能は、一般的な機械学習による学習モデルを用いた運用時の処理を用いることができる。
 判定部401は、検査対象の音データである検査音データ451を入力し、機械学習によって生成された学習モデル452を用いて、音データの正常或いは異常を尤度等によって判定し、判定結果453を出力する。学習モデル452は、学習用の音データについて、正常と異常のそれぞれを異なるラベリング(クラスタリング)として学習した結果である。したがって、判定部401は、判定対象の検査音データ451について、正常尤度と異常尤度とを算出し、正常と異常のどちらに近いかを判定する。そして、判定部401は、検査音データ451の判定結果453に基づき、対象の音データについて異常か否かを示す異常判定結果454を出力する。この異常判定結果454によって対象音の異音検知が実行される。
 図5は、機械学習を用いた音データの異常判定処理を概念的に説明する図である。図5において、(A)は単純な閾値による音データの分類の一例を、(B)は機械学習を用いた学習モデルによる音データの分類の一例をそれぞれ示している。図5では説明を分かりやすくするためにデータの分類を二次元空間上で簡易的に示している。それぞれの検査音の音データを円マークで示し、ドットハッチングは正常音、斜線ハッチングは異常音を表している。
 図5の(A)のように、単純な閾値を用いた直線状の境界B1による分類では、正常音を誤って異常音として分類してしまうことがある。これに対し、図5の(B)のように、ニューラルネットワークを用いた機械学習の学習モデルに基づく境界B2による分類では、正常音と異常音とを的確に分類でき、より確からしい判定結果が得られる。
 図6は、実施の形態1に係る音データの異常判定処理を概念的に説明する図である。図6において、(A)は比較例としてデータ水増しを行わない学習モデルによる音データの分類の一例を、(B)は実施の形態1のように類似音の生成によりデータ水増しを行った学習モデルによる音データの分類の一例をそれぞれ示している。図6では説明を分かりやすくするためにデータの分類を二次元空間上で簡易的に示している。それぞれの検査音の音データを円マークで示し、ドットハッチングは正常音、斜線ハッチングは異常音を表している。また、破線の円マークは、データ水増しにより追加した正常音及び異常音の音データを表している。
 図6の(A)のように、学習時に得られた音データのみを用いて機械学習を行った結果の学習モデルでは、データのバリエーションが少ないため、境界B3が適切に決定されない場合がある。この場合、運用時に取得される音データにおいて、正常音が誤って異常音として判定され、判定結果に誤り(NG)が生じる。特に、学習時の音データの特徴の分布に偏りがあり、環境変化によって運用時の音データの特徴が学習時の音データと少し乖離している場合などに、誤判定が生じやすい。これに対し、図6の(B)のように、学習時に得られた音データに対して自動生成された類似音の音データを追加して学習用のデータの水増しを行い、機械学習を行った結果の学習モデルでは、多数の学習データに基づくより適切な境界B4が決定される。この場合、運用時に取得される音データに対して的確に正常音と異常音を分類でき、より確からしい判定結果が得られる。したがって、異音検知を精度良く実行できる。
 上述したように、本実施の形態では、実環境で取得した対象の音データに基づいて類似環境の音データに相当する類似音データを自動生成することによって、学習用のデータの水増しを行う。これにより、画像と同様なデータ加工によって適切な学習用のデータの水増しができない音データにおいて、多数の学習用データが得られない場合であっても、十分な量の適切な学習用のデータを用いて機械学習のための好適な学習モデルを生成することが可能になる。また、学習時に取得した実環境の音データの類似環境を生成することによって、運用時に環境の変化が生じた場合にも対応可能であり、環境変化に対しても確度の高い判定結果を得られる学習モデルを生成可能である。これにより、機械学習による学習モデルを用いた音データの異常判定結果等の分類判定の精度を向上することができる。
(実施の形態2)
 実施の形態2では、学習用のデータとして正常音のみしか得られない場合に、異常音データベースを用いて模擬的な異常音を生成することにより、目的とする学習用のデータとしての異常音の音データを作り出して学習用のデータの水増しを行い、音データの学習及び評価を行う例を示す。
 図7は、実施の形態2に係る音データ処理装置における学習時の機能的構成を示すブロック図である。音データ処理装置は、機械学習の学習時において、正常音加工部601、異常音選択部602、ミキシング部603、機械学習部604の機能を有する。ここで、正常音加工部601、異常音選択部602、及びミキシング部603が模擬異常音データ653を生成する模擬異常音生成部としての機能を実現する。正常音加工部601、異常音選択部602、ミキシング部603、機械学習部604は、情報処理装置30、50の処理部301、501の処理によって各部の機能が実現される。
 正常音加工部601は、学習対象の音データとして得られる正常音データ651を用いて、模擬的な異常音を生成するためのデータ加工処理を行う。異常音選択部602は、異常音データベース(異常音DB)654を用いて、対象の音データの種類、特徴に応じて適切な異常音データを選択する。異常音データベース654は、異常発生時の音データとして、各種の異常音に相当する音データを蓄積したものである。例えば、モータ音の場合、回転数が変化している音、部材がこすれている音などを予め収集して格納する。異常音データベース654は、検査対象に対して適合するような異常状態を表す音データを格納してもよい。
 ミキシング部603は、加工後の正常音データと選択した異常音データとのミキシング処理を行い、模擬的な異常音の音データである模擬異常音データ653を生成することにより、学習用データの水増しを行う。機械学習部604は、処理部に搭載した人工知能を用いて、ディープラーニング等の機械学習を実行する。機械学習部604は、取得した正常音データ651、正常音データ651に基づいて生成した模擬異常音データ653を用いて、機械学習処理を実施し、学習結果としての学習モデル652を生成する。
 機械学習部604における機械学習処理は、1つ以上の統計的分類技術を用いて行っても良い。統計的分類技術としては、例えば、線形分類器(linear classifiers)、サポートベクターマシン(support vector machines)、二次分類器(quadratic classifiers)、カーネル密度推定(kernel estimation)、決定木(decision trees)、人工ニューラルネットワーク(artificial neural networks)、ベイジアン技術及び/又はネットワーク(Bayesian techniques and/or networks)、隠れマルコフモデル(hidden Markov models)、バイナリ分類子(binary classifiers)、マルチクラス分類器(multi-class classifiers)クラスタリング(a clustering technique)、ランダムフォレスト(a random forest technique)、ロジスティック回帰(a logistic regression technique)、線形回帰(a linear regression technique)、勾配ブースティング(a gradient boosting technique)などが挙げられる。ただし、使用される統計的分類技術はこれらに限定されない。
 図8は、実施の形態2に係る正常音加工部601の処理を示すフローチャートである。正常音加工部601は、マイクロホン10等によって取得された正常音データ651を、学習用の正常音の音データとして入力し(S21)、異常音のミキシング用に加工するための音データのデータ加工処理を行う。このとき、正常音加工部601は、検査対象の音データの種類に基づき、ローパスフィルタ(LPF)、ハイパスフィルタ(HPF)等の周波数特性を変化させるフィルタを選択する(S22)。そして、正常音加工部601は、選択したフィルタを適用し、例えば特定周波数の除去、周波数移動等の処理によって音データを加工する(S23)。ここでは、音データ処理装置は予め検査対象が何であるかわかっている状態を想定し、検査対象の音データの特性に応じた処理を行う。例えば、定常的な音の対象音に対して特定周波数を低減して除去する、対象音のピーク周波数が100Hzであるものをピッチ変換して200Hzにずらすなどの加工処理を実行する。また、検査対象の音データの特徴に応じて、対象音の音データの音量調整を行ってもよい。そして、正常音加工部601は、加工処理後の正常音の音データを出力する(S24)。
 想定される模擬的な異常音を作成するには、正常音に対して異常音を加えて生成する、正常音から異常音を差し引いて生成する、正常音の一部の特性を変化させて生成するなど、各種の生成方法がある。そこで、正常音加工部601は、正常音の環境に合わせて目的の異常音を生成するために、異常音とのミキシング用に正常音を加工する、正常音から異常音となるように加工する、等の処理を行う。例えば、異常音を加えるために正常音の一部周波数を低減させる。或いは、異常音を差し引くために正常音の周波数特性を変化させる。或いは、正常状態の音から少し高くなった状態が異常状態である場合、正常音の周波数を少し高くシフトさせる。また、設備検査の打音において、響く音が正常状態、響かない音が異常状態である場合に、正常音から響く音の成分を打ち消すようにフィルタ処理する。これらの各種データ加工処理により、異常音を生成するための前処理を実行する。
 図9は、実施の形態2に係る異常音選択部602の処理を示すフローチャートである。異常音選択部602は、異常音データベース654のリスト情報と検査対象の種類等に関する検査対象情報とを入力する(S31)。そして、異常音選択部602は、検査対象の音データの特性に応じて、異常音データベース654を使用するか否か、すなわち異常音データベース654の音データを用いて異常音のミキシングを行うか、それとも正常音の加工のみで対応するかを判定する(S32)。ここで、異常音データベース654を使用しない場合、異常音選択部602は無音の音データを出力する(S33)。一方、異常音データベース654を使用する場合、異常音選択部602は、検査対象の音データの種類に基づき、異常音データベース654からミキシング用に適合する異常音の音データを選択する(S34)。そして、異常音選択部602は、選択した異常音の音データを出力する(S35)。
 図10は、実施の形態2に係るミキシング部603の処理を示すフローチャートである。ミキシング部603は、ミキシング用の音データとして、正常音加工部601にて加工された正常音の音データを入力し(S41)、異常音選択部602にて選択された異常音の音データを入力する(S42)。そして、ミキシング部603は、加工後の正常音と異常音との加算処理(重畳処理)を行って音データをミキシングする(S43)。これにより、模擬的な異常音の音データを生成する。このとき、ミキシング部603は、加算処理として、正常音と異常音の波形同士を乗算し、加工後の正常音と異常音とを加える、加工後の正常音から異常音を差し引く、異常音を使用せずに無音とし加工後の正常音をそのまま異常音として用いる、などの処理を実行する。そして、ミキシング部603は、生成した模擬異常音の音データを出力する(S44)。このようにして、ミキシング部603は、正常音データ651に対して異常音データベース654からの異常音データを重畳して模擬異常音データ653を生成して加えることによって、対象音データの特徴に応じた適切な学習用の音データの水増しを行う。なお、ミキシング部603は、加算処理において複数パターンの音量調整を行い、異なる複数の模擬異常音データを生成し、学習用のデータにバリエーションを持たせるようにしてもよい。
 機械学習部604は、対象の正常音データ651と模擬異常音データ653を含むデータ水増しされた学習用の音データを用いて、機械学習処理を実施して学習モデル652を生成する。
 音データ処理装置の運用時の機能的構成については、図4に示した実施の形態1と同様である。音データ処理装置は、機械学習による学習モデルを用いた運用時において、判定部401の機能を有する。判定部401は、検査対象の音データである検査音データ451を入力し、機械学習によって生成された学習モデル452を用いて、音データの正常或いは異常を尤度等によって判定し、判定結果453を出力する。そして、判定部401は、検査音データ451の判定結果453に基づき、対象の音データについて異常か否かを示す異常判定結果454を出力する。この異常判定結果454によって対象音の異音検知が実行される。
 図11は、実施の形態2に係る音データの異常判定処理を概念的に説明する図である。図11において、(A)は比較例としてデータ水増しを行わない学習モデルによる音データの分類の一例を、(B)は実施の形態2のように模擬異常音の生成によりデータ水増しを行った学習モデルによる音データの分類の一例をそれぞれ示している。図11では説明を分かりやすくするためにデータの分類を二次元空間上で簡易的に示している。それぞれの検査音の音データを円マークで示し、ドットハッチングは正常音、斜線ハッチングは異常音を表している。また、破線の円マークは、データ水増しにより追加した異常音の音データを表している。
 図11の(A)のように、学習時に得られた正常音の音データのみを用いて機械学習を行った結果の学習モデルでは、異常音の学習結果が無いため、判定基準がどのように決定されるかは不定となり、境界B5が適切に決定されない場合がある。この場合、運用時に取得される音データにおいて、異常音が誤って正常音として判定され、判定結果に誤り(NG)が生じる。特に、正常音の特徴に近い異常音が発生する場合は、正常音のみの学習では適切な判定基準の決定が困難であり、誤判定が生じやすい。これに対し、図11の(B)のように、学習時に得られた音データに対して自動生成された模擬異常音の音データを追加して学習用のデータの水増しを行い、機械学習を行った結果の学習モデルでは、異常音の特徴を考慮したより適切な境界B6が決定される。この場合、運用時に取得される音データに対して的確に正常音と異常音を分類でき、より確からしい判定結果が得られる。したがって、異音検知を精度良く実行できる。
 上述したように、本実施の形態では、実環境で取得した対象の正常時の音データに基づいて模擬的な異常音に相当する模擬異常音データを自動生成することによって、学習用のデータの水増しを行う。これにより、実際の異常時の学習用データが得られない場合であっても、正常音と共に異常音を模擬的に学習でき、十分な量の適切な学習用のデータを用いて機械学習のための好適な学習モデルを生成することが可能になる。また、模擬的な異常音データを用いた機械学習によって、例えば正常音と異常音との特徴の差が小さいユースケースであっても、微妙な差による異常判定が可能となり、異音検知の検知精度を向上できる。これにより、機械学習による学習モデルを用いた音データの異常判定結果等の分類判定の精度を向上することができる。
(実施の形態3)
 実施の形態3では、実施の形態2における処理を一部変更し、対象の音データに基づき設定される異常種類に応じて、模擬的な異常音を生成する例を示す。ここでは実施の形態2と異なる部分を中心に説明し、同様の構成及び機能については説明を省略する。
 図12は、実施の形態3に係る音データ処理装置における学習時の機能的構成を示すブロック図である。音データ処理装置は、機械学習の学習時において、正常音加工部701、異常音選択部721、異常音加工部722、ミキシング部703、機械学習部704の機能を有する。ここで、正常音加工部701、異常音選択部721、異常音加工部722、及びミキシング部703が模擬異常音データ753を生成する模擬異常音生成部としての機能を実現する。正常音加工部701、異常音選択部721、異常音加工部722、ミキシング部703、機械学習部704は、情報処理装置30、50の処理部301、501の処理によって各部の機能が実現される。
 正常音加工部701は、検査対象(すなわち学習対象)の音データとして得られる正常音データ651を用いて、模擬的な異常音を生成するためのデータ加工処理を行う。異常音選択部721は、異常音データベース(異常音DB)654を用いて、検査対象の音データの種類、特徴に応じて適切な異常音データを選択する。異常音加工部722は、選択された異常音データを用いて、模擬的な異常音を生成するためのデータ加工処理を行う。ミキシング部703は、加工後の正常音データと異常音データとのミキシング処理を行い、模擬的な異常音の音データである模擬異常音データ753を生成することにより、学習用データの水増しを行う。機械学習部704は、実施の形態2と同様、処理部に搭載した人工知能を用いて、ディープラーニング等の機械学習を実行する。機械学習部704は、取得した正常音データ651、正常音データ及び/又は異常音データに基づいて生成した模擬異常音データ753を用いて、機械学習処理を実施し、学習結果としての学習モデル752を生成する。
 実施の形態3では、音データ処理装置は、検査対象の音データの種類に応じた異常種類756を設定し、異常種類ごとに異なる処理を行って模擬的な異常音を生成する。音データ処理装置は、設定した異常種類756に応じて、正常音加工部701、異常音選択部721及び異常音加工部722の動作を切り替える。異常種類によって、正常音に対して異常が発生した場合の異常音の態様が異なる。一般的に、異常種類は、対象機器、対象物、対象空間など、検査対象によって対応付けられる。例えば、モータ等の回転体を含む機器、ファンベルト等の駆動機構を含む機器など、それぞれの対象機器ごとに異常発生時の音の特性に特徴がある。以下では、模擬異常音の生成処理を行う検査対象の音データの種類の一例として、対象機器の種類によって異常種類を設定する例を示す。
 音データ処理装置は、液晶ディスプレイ、有機EL(Electro-Luminescence)ディスプレイ等の表示装置による表示部を有する。音データ処理装置は、表示部に表示する表示画面等を含むユーザインタフェース(UI)を有し、ユーザ操作による選択入力を受け付け可能となっている。音データ処理装置は、ユーザインタフェース(UI)755を用いて、対象機器の選択入力を受け付け、対象機器に応じた異常種類756の設定を行う。なお、ユーザ操作により異常種類756を直接入力して設定してもよい。また、音データ処理装置は、音データの識別情報などに基づき、検査対象の音データの種類、特徴に応じた異常種類756を設定してもよい。
 異常種類756としては、例えば以下のケース1~4がある。
 ケース1:異音の混入(正常時の音から異なる音が発生する)。ケース1は、例えば回転体のベアリング異常、ファンベルト異常、駆動系の異常接触などによって発生する異常である。
 ケース2:ピーク周波数の変動(正常時の音のピーク周波数が上昇又は低下する)。ケース2は、例えば回転体の回転数の変化などによって発生する異常である。
 ケース3:ピーク周波数の欠落(正常時の音のピーク周波数が欠落する)。ケース3は、例えば駆動系の接触部の変化などによって発生する異常である。
 ケース4:音量の変化(正常時の音のレベルが上昇又は低下する)。ケース4は、例えば回転体又は駆動系の摩擦の増加又は減少などによって発生する異常である。
 図13は、検査対象を選択するユーザインタフェース(UI)の表示画面の一例を示す図である。ユーザインタフェースの表示画面における設定画面761には、ユーザ操作により検査対象としての対象機器の種類を選択して設定入力するための対象設定入力部762が設けられる。対象設定入力部762は、例えば対象機器としてモータ、コンプレッサ、ベルト、アーム等の検査対象種類の名称がリスト表示されるプルダウンメニュー表示を有する。ユーザが対象設定入力部762において所定の対象機器を選択入力すると、音データ処理装置は、検査対象の対象機器を設定し、この対象機器に応じた音の異常種類を設定する。このようなユーザインタフェースを用いることによって、異常種類又は対象機器の設定の際の操作性を良好にすることができる。
 図14は、実施の形態3に係る音データ処理装置の学習時の処理を示すフローチャートである。音データ処理装置は、ユーザインタフェース755を用いて、対象機器の設定を入力し(S51)、対象機器に応じた異常種類756を設定する(S52)。そして、音データ処理装置は、正常音加工部701、異常音選択部721及び異常音加工部722において、異常種類756に応じて動作モードを切り替え、正常音の加工と、異常音の選択及び加工との少なくとも一方を実行する(S53)。この際、正常音及び/又は異常音の処理として、ピークシフト、フィルタリング、レベル増減、ミキシングレベル設定等を実行する。異常種類に応じた処理の具体例は後述する。続いて、音データ処理装置は、ミキシング部703において、正常音と異常音とのミキシング処理を行い(S54)、模擬異常音データ753を生成して出力する(S55)。
 図15は、異常種類のケース1における模擬異常音の生成処理を説明する図である。図15において、(A)は正常音の時間波形の一例、(B)は異常音の時間波形の一例を示し、横軸は時間、縦軸は音量レベルを表している。また、(C)は正常音の所定時間における周波数特性の一例、(D)は異常音の所定時間における周波数特性の一例を示し、横軸は周波数、縦軸は信号レベルを表している。ケース1の場合、ベアリング異常、ファンベルト異常、駆動系の異常接触などが発生した際に、正常音に対して異音が付加される。図示例は、正常音に対してパルス状の音が間欠的に付加された例であり、異常音の周波数特性において、ホワイトノイズのように全帯域において信号レベルが上昇している。なお、所定の周波数帯域(例えば1kHz付近など)のみに異音成分が付加されるような場合もあり得る。
 ケース1では、異常音選択部721、異常音加工部722、及びミキシング部703が主として動作し、正常音に対して異常音を付加する処理を実行する。音データ処理装置は、異常音選択部721が異常音データベース654から適切な異常音データを選択し、異常音加工部722が選択された異常音データの加工処理を行い、ミキシングレベルを設定する。異常音データの加工処理としては、ピークシフト等の処理を実行する。そして、ミキシング部703が設定したミキシングレベルに従って正常音データと異常音データとを混合し、模擬異常音データ753を出力する。なお、正常音加工部701において正常音データの加工処理を適宜行ってから異常音データとミキシングしてもよい。
 図16は、異常種類のケース2における模擬異常音の生成処理を説明する図である。図16において、(A)は正常音の時間波形の一例、(B)は異常音の時間波形の一例を示し、横軸は時間、縦軸は音量レベルを表している。また、(C)は正常音の所定時間における周波数特性の一例、(D)は異常音の所定時間における周波数特性の一例を示し、横軸は周波数、縦軸は信号レベルを表している。ケース2の場合、モータ等の回転体の異常により回転数の変化などが発生した際に、音のピーク周波数が変動し、ピークが生じる周波数成分の帯域が移動する。図示例は、正常音において4kHzの帯域にピークがある状態で、異常音ではピーク周波数が4kHzから2kHzに変動し、2kHzの帯域に強いピークが生じて4kHzのピークが無くなっている。
 ケース2では、正常音加工部701及びミキシング部703が主として動作し、正常音のピークシフトを行う処理を実行する。音データ処理装置は、正常音加工部701が正常音データ651の加工処理を行い、正常音データのピーク周波数を変動させ、模擬異常音データ753を出力する。なお、ミキシング部703においてピークシフト後の正常音データに異常音データを混合してもよい。
 図17は、異常種類のケース3における模擬異常音の生成処理を説明する図である。図17において、(A)は正常音の時間波形の一例、(B)は異常音の時間波形の一例を示し、横軸は時間、縦軸は音量レベルを表している。また、(C)は正常音の所定時間における周波数特性の一例、(D)は異常音の所定時間における周波数特性の一例を示し、横軸は周波数、縦軸は信号レベルを表している。ケース3の場合、駆動系の接触部の変化などが発生し、特定部位が新たに接触又は離間するなど接触状態が変化した際に、音のピーク周波数に欠落が生じる。図示例は、正常音において2kHz付近の帯域にピークがある状態で、異常音では2kHz付近のピークが無くなっている。
 ケース3では、正常音加工部701及びミキシング部703が主として動作し、正常音のフィルタリングを行う処理を実行する。音データ処理装置は、正常音加工部701が正常音データ651の加工処理を行い、正常音データにおける所定周波数をフィルタにより減衰させ、模擬異常音データ753を出力する。なお、ミキシング部703においてフィルタリング後の正常音データに異常音データを混合してもよい。
 また、ケース4の場合、モータ等の回転体、又はファンベルト或いはギア等の駆動系の摩擦の増加又は減少などが発生した際に、音量レベルが上昇又は低下して変動する。例えば、部材間に注入するグリスの不足又は過剰によって摩擦が変動し、対象機器の音の音量が増減する。
 ケース4では、正常音加工部701及びミキシング部703が主として動作し、正常音のレベル増減を行う処理を実行する。音データ処理装置は、正常音加工部701が正常音データ651の加工処理を行い、正常音データの音量レベルをフィルタ利得の変更により増減させ、模擬異常音データ753を出力する。なお、ミキシング部703においてレベル調整後の正常音データに異常音データを混合してもよい。
 上述したように、本実施の形態では、音データの機械学習を行う対象となる対象機器等の種類によって異なる、それぞれの異常種類を設定し、この異常種類に応じてそれぞれの処理を行って模擬的な異常音を生成する。これにより、異常種類ごとに特性が異なる異常状態における模擬異常音を生成でき、異常種類の各態様に合わせた適切な模擬異常音データを生成可能となる。
(実施の形態4)
 実施の形態4として、前述した実施の形態1、実施の形態2、実施の形態3のうちの少なくとも二つを組み合わせた態様の機能構成を採用することもできる。この実施の形態4では、例えば対象の正常音のみが取得可能な環境において、図7に示した実施の形態2の機能ブロックによって模擬異常音の音データを生成し、この模擬異常音を含む学習用の音データを元にして、さらに図2に示した実施の形態1の機能ブロックによって類似音の音データを生成し、模擬異常音及び類似音を含む学習用の音データを用いて機械学習を行う。このようにして、模擬異常音及び類似音を生成して学習用の音データの水増しを行い、大量の学習用データを用いた機械学習を可能とし、より的確な異音検知を実行できるようにする。
 また、変形例として、実施の形態1、2、3、4のいずれかの機能構成による機械学習を一旦実行した後、学習用の音データを追加して追加学習を実行し、より最適化した学習モデルを生成することも可能である。例えば、実施の形態2の機能ブロックによって模擬異常音を生成して機械学習を行った後、実際の異常音を取得できた場合、取得した異常音を用いた追加学習、さらに実施の形態1のように類似の異常音を生成して用いた追加学習などを実行する。或いは、実施の形態1の機能ブロックによって類似音を生成して機械学習を行った後、追加取得した正常音や異常音を用いた追加学習、さらに実施の形態2の模擬異常音の生成や実施の形態1の類似音の生成によって追加したデータによる追加学習などを実行する。
 このように、複数種類の学習用データの水増し処理の組み合わせを行うことによって、より多くの適切な学習用データを使用した学習モデルの生成が可能となる。また、さらに取得した学習用データによる追加学習を組み合わせることによって、より多くの適切な学習用データを使用した学習モデルの生成が可能となる。したがって、機械学習による学習モデルを用いた音データの異常判定結果等の分類判定の精度を向上することができる。
 以上のように、本実施の形態の音データ処理方法は、対象の音データを入力して取得し、音データの処理を行う処理部301、501を有する情報処理装置30、50を含む音データ処理装置における音データ処理方法であって、類似環境生成部201において、取得した対象音データ251に基づき、対象音データ251に類似する類似音となる類似音データ253を生成するステップと、機械学習部202において、取得した対象音データ251と生成した類似音データ253とを学習用の音データとして用いて機械学習を行い、対象の音データに関する分類判定を行うための学習モデル252を生成するステップと、を有する。これにより、多数の学習用データが得られない場合であっても、類似音データを生成して使用することによって、十分な量の適切な学習用のデータを用いて機械学習のための好適な学習モデルを生成することができる。また、十分な量の学習用のデータを用いて生成した学習モデルによって異常音判定等の分類判定の運用を実行でき、対象の音データに関する分類判定の精度を向上できる。
 また、本実施の形態の音データ処理方法は、類似音データを生成するステップにおいて、対象音データ251の類似環境を生成し、対象音データ251の周波数特性、音量のうちの少なくとも一つを変化させて複数の類似音データ253を生成する。これにより、実環境で取得した対象音データに基づいて対象音データに類似する複数の類似音データを生成できる。また、類似環境による類似音データを学習用のデータに用いることによって、運用時の環境変化にも対応でき、対象の音データに関する分類判定の精度を向上できる。
 また、本実施の形態の音データ処理方法は、類似音データを生成するステップにおいて、対象音データ251の周波数特性を変化させるフィルタを用いて類似音データ253を生成する。これにより、対象音データの周波数特性を変化させて対象音データに関する類似音データを生成可能となる。
 また、本実施の形態の音データ処理方法は、類似音データを生成するステップにおいて、対象音データ251の周波数帯域全体の音量、又は特定の周波数帯域の音量を変化させる音量変化パラメータを用いて類似音データ253を生成する。これにより、対象音データの周波数帯域全体の音量、又は特定の周波数帯域の音量を変化させて対象音データに関する類似音データを生成可能となる。
 また、本実施の形態の音データ処理方法は、類似音データを生成するステップにおいて、生成した複数の類似音データ253について、機械学習において学習矛盾が生じるデータを破棄する。これにより、例えば異なるラベルの音データで同じ周波数のものなど、学習矛盾が生じるデータを除去でき、適切な機械学習を実行可能となる。
 また、本実施の形態の音データ処理方法は、学習モデルを生成するステップにおいて、対象の音データに関する分類判定として、対象の音データの異常音を判定して異音検知を行うための学習モデル252を生成する。これにより、実環境で取得した対象音データと自動生成した類似音データとを含む十分な量の適切な学習用のデータを用いて機械学習を行い、異常音判定結果による異音検知に対応する学習モデルを生成可能となる。
 また、本実施の形態の音データ処理方法は、学習モデルを生成するステップにおいて、対象音データ251及び類似音データ253とともに、汎用的な音を含む汎用音データを蓄積した汎用音データベース254を学習用の音データとして用いて機械学習を行う。これにより、汎用音データを含む十分な量の適切な学習用のデータを用いて機械学習を行い、より好ましい学習モデルを生成でき、対象の音データに関する分類判定の精度を向上できる。
 本実施の形態の音データ処理装置は、対象の音データを入力して取得し、音データの処理を行う処理部301、501を有する情報処理装置30、50を含む音データ処理装置であって、処理部301、501は、取得した対象音データ251に基づき、対象音データ251に類似する類似音となる類似音データ253を生成する類似環境生成部201と、取得した対象音データ251と生成した類似音データ253とを学習用の音データとして用いて機械学習を行い、対象の音データに関する分類判定を行うための学習モデル252を生成する機械学習部202と、を有する。これにより、多数の学習用データが得られない場合であっても、十分な量の適切な学習用のデータを用いて機械学習のための好適な学習モデルを生成でき、対象の音データに関する分類判定の精度を向上できる。
 本実施の形態のプログラムは、コンピュータである情報処理装置30、50を含む音データ処理装置に、対象の音データを取得するステップと、取得した対象音データ251に基づき、対象音データ251に類似する類似音となる類似音データ253を生成するステップと、取得した対象音データ251と生成した類似音データ253とを学習用の音データとして用いて機械学習を行い、対象の音データに関する分類判定を行うための学習モデル252を生成するステップと、を実行させるためのプログラムである。
 本実施の形態の音データ処理方法は、対象の音データを入力して取得し、音データの処理を行う処理部301、501を有する情報処理装置30、50を含む音データ処理装置における音データ処理方法であって、取得した対象の正常音データ651を用いて、対象の模擬的な異常音となる模擬異常音データ653を生成するステップと、取得した正常音データ651と生成した模擬異常音データ653とを学習用の音データとして用いて機械学習を行い、対象の音データの異常音を判定して異音検知を行うための学習モデル652を生成するステップと、を有する。これにより、実際の異常時の学習用データが得られない場合であっても、模擬異常音データを生成して使用することによって、十分な量の適切な学習用のデータを用いて機械学習のための好適な学習モデルを生成することができる。また、模擬的な異常音の音データを含む機械学習によって生成した学習モデルによって異常音判定の運用を実行でき、対象の音データに関する異音検知の精度を向上できる。
 また、本実施の形態の音データ処理方法は、模擬異常音データを生成するステップにおいて、正常音加工部601、701により、正常音データ651のデータ加工処理を実行する。これにより、取得した正常音データを加工処理して模擬的な異常音データを生成可能となる。
 また、本実施の形態の音データ処理方法は、データ加工処理として、正常音データのピークシフト、フィルタリング、音量変更のうちの少なくとも一つの処理を実行する。これにより、正常音のピーク周波数の変動、ピーク周波数の欠落、音量の変化等の各異常状態に対応する模擬的な異常音データを生成可能となる。
 また、本実施の形態の音データ処理方法は、模擬異常音データを生成するステップにおいて、正常音データ651と、予め保持している異常音データベース654から選択した異常音データとを用いて、ミキシング部603により、正常音データと異常音データとのミキシング処理を行って模擬異常音データ653を生成する。これにより、実環境で取得した正常音データと予め用意した異常音データとの加算等を行ってミキシング処理し、模擬的な異常音データを生成可能となる。
 また、本実施の形態の音データ処理方法は、模擬異常音データを生成するステップにおいて、正常音加工部601により、ミキシング部603にてミキシング処理を行うための、正常音データと異常音データとの少なくとも一方のデータ加工処理を実行する。これにより、実環境で取得した正常音データを加工処理し、模擬異常音データを生成するためのミキシング用の音データを生成可能となる。
 また、本実施の形態の音データ処理方法は、データ加工処理において、フィルタを用いて正常音データ651における特定周波数の除去、周波数移動のうちの少なくとも一つの処理を行う。これにより、正常音データの周波数特性を変更して加工処理し、模擬異常音データを生成、又は模擬異常音データの生成時のミキシング用のデータを生成できる。
 また、本実施の形態の音データ処理方法は、模擬異常音データを生成するステップにおいて、異常種類756を設定し、異常種類756に応じて、正常音データのみ、又は正常音データ及び異常音データを用いた処理を行い、模擬異常音データを生成する。この際、対象の音データの種類に基づいて異常種類756を設定してよい。これにより、異常種類ごとの異常状態における模擬異常音を生成し、異常種類の各態様に合わせた適切な模擬異常音データを生成可能となる。
 また、本実施の形態の音データ処理方法は、模擬異常音データを生成するステップにおいて、異常音選択部602により、ミキシング部603にてミキシング処理を行うための異常音データベース654からの異常音データの選択処理を実行する。これにより、予め蓄積した異常音データベースから、模擬異常音データを生成するためのミキシング用の音データを生成可能となる。
 また、本実施の形態の音データ処理方法は、選択処理において、対象の音データの種類に基づき、異常音データベース654から適合する異常音データを選択する。これにより、対象の音データの種類に基づいて異常音データを選択し、模擬異常音データを生成するための適切なミキシング用の音データを抽出できる。
 また、本実施の形態の音データ処理方法は、選択処理において、対象の音データの特性に応じて異常音データベース654の使用の有無を判定し、異常音データベース654を使用しない場合、無音の音データを出力する。これにより、異常音データベースを使用せずに加工後の正常音データによって模擬異常音データを生成する際に、異常音データとして無音の音データをミキシング用として出力することで、適切な模擬異常音データを生成可能となる。
 本実施の形態の音データ処理装置は、対象の音データを入力して取得し、音データの処理を行う処理部301、501を有する情報処理装置30、50を含む音データ処理装置であって、処理部301、501は、取得した対象の正常音データ651を用いて、対象の模擬的な異常音となる模擬異常音データ653を生成する模擬異常音生成部(正常音加工部601、異常音選択部602、ミキシング部603)と、取得した正常音データ651と生成した模擬異常音データ653とを学習用の音データとして用いて機械学習を行い、対象の音データの異常音を判定して異音検知を行うための学習モデル652を生成する機械学習部604と、を有する。これにより、実際の異常時の学習用データが得られない場合であっても、十分な量の適切な学習用のデータを用いて機械学習のための好適な学習モデルを生成でき、対象の音データに関する異常検知の精度を向上できる。
 本実施の形態のプログラムは、コンピュータである情報処理装置30、50を含む音データ処理装置に、対象の音データを取得するステップと、取得した対象の正常音データ651を用いて、対象の模擬的な異常音となる模擬異常音データ653を生成するステップと、取得した正常音データ651と生成した模擬異常音データ653とを学習用の音データとして用いて機械学習を行い、対象の音データの異常音を判定して異音検知を行うための学習モデル652を生成するステップと、を実行させるためのプログラムである。
 以上、図面を参照しながら各種の実施形態について説明したが、本発明はかかる例に限定されないことは言うまでもない。当業者であれば、特許請求の範囲に記載された範疇内において、各種の変更例又は修正例に想到し得ることは明らかであり、それらについても当然に本発明の技術的範囲に属するものと了解される。また、発明の趣旨を逸脱しない範囲において、上記実施形態における各構成要素を任意に組み合わせてもよい。
 また、本開示は、上述した実施の形態に係る音データ処理方法及び音データ処理装置の機能を実現するプログラムを、ネットワーク或いは各種記憶媒体を介してコンピュータである情報処理装置に供給し、この情報処理装置のプロセッサが読み出して実行するプログラム、及びこのプログラムが記憶された記録媒体も適用範囲としてよい。
 なお、本出願は、2018年7月31日出願の日本特許出願(特願2018-144436、及び特願2018-144437)に基づくものであり、その内容は本出願の中に参照として援用される。
 本開示は、データの機械学習を実施する際に適切な学習用のデータを用いて好適な学習モデルを生成することを可能にする音データ処理方法、音データ処理装置及びプログラムとして有用である。
 10 マイクロホン
 20 AD変換器
 30 情報処理装置(端末装置)
 40 通信路
 50 情報処理装置(サーバ装置)
 201 類似環境生成部
 202、604 機械学習部
 251 対象音データ
 252、452、652 学習モデル
 253 類似音データ
 254 汎用音データベース
 301、501 処理部
 302、502 記憶部
 303、503 格納部
 304、504 通信インタフェース
 401 判定部
 451 検査音データ
 453 判定結果
 454 異常判定結果
 601 正常音加工部
 602 異常音選択部
 603 ミキシング部
 651 正常音データ
 653 模擬異常音データ
 654 異常音データベース

Claims (21)

  1.  対象の音データを入力して取得し、前記音データの処理を行う処理部を有する音データ処理装置における音データ処理方法であって、
     前記取得した対象の正常音データを用いて、前記対象の模擬的な異常音となる模擬異常音データを生成するステップと、
     前記取得した正常音データと前記生成した模擬異常音データとを学習用の音データとして用いて機械学習を行い、前記対象の音データの異常音を判定して異音検知を行うための学習モデルを生成するステップと、
     を有する、音データ処理方法。
  2.  請求項1に記載の音データ処理方法であって、
     前記模擬異常音データを生成するステップにおいて、
     前記正常音データのデータ加工処理を実行する、
     音データ処理方法。
  3.  請求項2に記載の音データ処理方法であって、
     前記データ加工処理として、前記正常音データのピークシフト、フィルタリング、音量変更のうちの少なくとも一つの処理を実行する、
     音データ処理方法。
  4.  請求項1に記載の音データ処理方法であって、
     前記模擬異常音データを生成するステップにおいて、
     前記正常音データと、予め保持している異常音データベースから選択した異常音データとを用いて、
     前記正常音データと前記異常音データとのミキシング処理を行って前記模擬異常音データを生成する、
     音データ処理方法。
  5.  請求項4に記載の音データ処理方法であって、
     前記模擬異常音データを生成するステップにおいて、
     前記ミキシング処理を行うための、前記正常音データと前記異常音データとの少なくとも一方のデータ加工処理を実行する、
     音データ処理方法。
  6.  請求項5に記載の音データ処理方法であって、
     前記データ加工処理において、
     フィルタを用いて前記正常音データにおける特定周波数の除去、周波数移動のうちの少なくとも一つの処理を行う、
     音データ処理方法。
  7.  請求項1から6のいずれか一項に記載の音データ処理方法であって、
     前記模擬異常音データを生成するステップにおいて、
     異常種類を設定し、前記異常種類に応じて、前記正常音データのみ、又は前記正常音データ及び異常音データを用いた処理を行い、前記模擬異常音データを生成する、
     音データ処理方法。
  8.  請求項5又は6に記載の音データ処理方法であって、
     前記模擬異常音データを生成するステップにおいて、
     前記ミキシング処理を行うための前記異常音データの選択処理を実行する、
     音データ処理方法。
  9.  請求項8に記載の音データ処理方法であって、
     前記選択処理において、
     前記対象の音データの種類に基づき、前記異常音データベースから適合する異常音データを選択する、
     音データ処理方法。
  10.  請求項8又は9に記載の音データ処理方法であって、
     前記選択処理において、
     前記対象の音データの特性に応じて前記異常音データベースの使用の有無を判定し、前記異常音データベースを使用しない場合、無音の音データを出力する、
     音データ処理方法。
  11.  対象の音データを入力して取得し、前記音データの処理を行う処理部を有する音データ処理装置であって、
     前記処理部は、
     前記取得した対象の正常音データを用いて、前記対象の模擬的な異常音となる模擬異常音データを生成する模擬異常音生成部と、
     前記取得した正常音データと前記生成した模擬異常音データとを学習用の音データとして用いて機械学習を行い、前記対象の音データの異常音を判定して異音検知を行うための学習モデルを生成する機械学習部と、
     を有する、音データ処理装置。
  12.  コンピュータである音データ処理装置に、
     対象の音データを取得するステップと、
     前記取得した対象の正常音データを用いて、前記対象の模擬的な異常音となる模擬異常音データを生成するステップと、
     前記取得した正常音データと前記生成した模擬異常音データとを学習用の音データとして用いて機械学習を行い、前記対象の音データの異常音を判定して異音検知を行うための学習モデルを生成するステップと、
     を実行させるための、プログラム。
  13.  対象の音データを入力して取得し、前記音データの処理を行う処理部を有する音データ処理装置における音データ処理方法であって、
     前記取得した対象音データに基づき、前記対象音データに類似する類似音となる類似音データを生成するステップと、
     前記取得した対象音データと前記生成した類似音データとを学習用の音データとして用いて機械学習を行い、前記対象の音データに関する分類判定を行うための学習モデルを生成するステップと、
     を有する、音データ処理方法。
  14.  請求項13に記載の音データ処理方法であって、
     前記類似音データを生成するステップにおいて、
     前記対象音データの類似環境を生成し、前記対象音データの周波数特性、音量のうちの少なくとも一つを変化させて複数の前記類似音データを生成する、
     音データ処理方法。
  15.  請求項14に記載の音データ処理方法であって、
     前記類似音データを生成するステップにおいて、
     前記対象音データの周波数特性を変化させるフィルタを用いて前記類似音データを生成する、
     音データ処理方法。
  16.  請求項14に記載の音データ処理方法であって、
     前記類似音データを生成するステップにおいて、
     前記対象音データの周波数帯域全体の音量、又は特定の周波数帯域の音量を変化させる音量変化パラメータを用いて前記類似音データを生成する、
     音データ処理方法。
  17.  請求項14から16のいずれか一項に記載の音データ処理方法であって、
     前記類似音データを生成するステップにおいて、
     前記生成した複数の類似音データについて、前記機械学習において学習矛盾が生じるデータを破棄する、
     音データ処理方法。
  18.  請求項13に記載の音データ処理方法であって、
     前記学習モデルを生成するステップにおいて、
     前記対象の音データに関する分類判定として、前記対象の音データの異常音を判定して異音検知を行うための学習モデルを生成する、
     音データ処理方法。
  19.  請求項13に記載の音データ処理方法であって、
     前記学習モデルを生成するステップにおいて、
     前記対象音データ及び前記類似音データとともに、汎用的な音を含む汎用音データを蓄積した汎用音データベースを前記学習用の音データとして用いて機械学習を行う、
     音データ処理方法。
  20.  対象の音データを入力して取得し、前記音データの処理を行う処理部を有する音データ処理装置であって、
     前記処理部は、
     前記取得した対象音データに基づき、前記対象音データに類似する類似音となる類似音データを生成する類似環境生成部と、
     前記取得した対象音データと前記生成した類似音データとを学習用の音データとして用いて機械学習を行い、前記対象の音データに関する分類判定を行うための学習モデルを生成する機械学習部と、
     を有する、音データ処理装置。
  21.  コンピュータである音データ処理装置に、
     対象の音データを取得するステップと、
     前記取得した対象音データに基づき、前記対象音データに類似する類似音となる類似音データを生成するステップと、
     前記取得した対象音データと前記生成した類似音データとを学習用の音データとして用いて機械学習を行い、前記対象の音データに関する分類判定を行うための学習モデルを生成するステップと、
     を実行させるための、プログラム。
PCT/JP2019/028229 2018-07-31 2019-07-18 音データ処理方法、音データ処理装置及びプログラム WO2020026829A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US17/264,194 US11830518B2 (en) 2018-07-31 2019-07-18 Sound data processing method, sound data processing device, and program
JP2020533417A JP7407382B2 (ja) 2018-07-31 2019-07-18 音データ処理方法、音データ処理装置及びプログラム
US18/489,246 US20240046953A1 (en) 2018-07-31 2023-10-18 Sound data processing method, sound data processing device, and program

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2018144437 2018-07-31
JP2018144436 2018-07-31
JP2018-144437 2018-07-31
JP2018-144436 2018-07-31

Related Child Applications (2)

Application Number Title Priority Date Filing Date
US17/264,194 A-371-Of-International US11830518B2 (en) 2018-07-31 2019-07-18 Sound data processing method, sound data processing device, and program
US18/489,246 Continuation US20240046953A1 (en) 2018-07-31 2023-10-18 Sound data processing method, sound data processing device, and program

Publications (1)

Publication Number Publication Date
WO2020026829A1 true WO2020026829A1 (ja) 2020-02-06

Family

ID=69230818

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/028229 WO2020026829A1 (ja) 2018-07-31 2019-07-18 音データ処理方法、音データ処理装置及びプログラム

Country Status (3)

Country Link
US (2) US11830518B2 (ja)
JP (1) JP7407382B2 (ja)
WO (1) WO2020026829A1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023047877A1 (ja) * 2021-09-24 2023-03-30 株式会社デンソー 異音検出装置
EP4279884A1 (en) 2022-05-17 2023-11-22 Toyota Jidosha Kabushiki Kaisha Vehicle evaluation system
WO2024075634A1 (ja) * 2022-10-04 2024-04-11 ヤマハ株式会社 音波形の特性分布に係る表示方法
JP7510979B2 (ja) 2022-09-22 2024-07-04 株式会社日立製作所 異常音のデータを生成する装置及び方法
JP7555814B2 (ja) 2020-12-22 2024-09-25 株式会社クボタ 情報処理装置、水処理システム、指標値算出方法および指標値算出プログラム

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4109058A4 (en) * 2020-02-20 2023-03-29 NISSAN MOTOR Co., Ltd. IMAGE PROCESSING DEVICE AND IMAGE PROCESSING METHOD
JP2023033848A (ja) * 2021-08-30 2023-03-13 トヨタ自動車株式会社 異音特定装置、異音特定方法、及び、異音特定プログラム

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS56104246A (en) * 1980-01-23 1981-08-19 Rion Co Ltd Product inspecting apparatus by sound discrimination
JP2010134367A (ja) * 2008-12-08 2010-06-17 Mitsubishi Electric Corp 電気機器
WO2015011791A1 (ja) * 2013-07-24 2015-01-29 株式会社日立製作所 異常検知評価システム
JP2015161745A (ja) * 2014-02-26 2015-09-07 株式会社リコー パターン認識システムおよびプログラム
JP2017090606A (ja) * 2015-11-09 2017-05-25 日本電信電話株式会社 異常音検出装置、異常音検出学習装置、これらの方法及びプログラム
WO2017171051A1 (ja) * 2016-04-01 2017-10-05 日本電信電話株式会社 異常音検出学習装置、音響特徴量抽出装置、異常音サンプリング装置、これらの方法及びプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS56104246A (en) * 1980-01-23 1981-08-19 Rion Co Ltd Product inspecting apparatus by sound discrimination
JP2010134367A (ja) * 2008-12-08 2010-06-17 Mitsubishi Electric Corp 電気機器
WO2015011791A1 (ja) * 2013-07-24 2015-01-29 株式会社日立製作所 異常検知評価システム
JP2015161745A (ja) * 2014-02-26 2015-09-07 株式会社リコー パターン認識システムおよびプログラム
JP2017090606A (ja) * 2015-11-09 2017-05-25 日本電信電話株式会社 異常音検出装置、異常音検出学習装置、これらの方法及びプログラム
WO2017171051A1 (ja) * 2016-04-01 2017-10-05 日本電信電話株式会社 異常音検出学習装置、音響特徴量抽出装置、異常音サンプリング装置、これらの方法及びプログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7555814B2 (ja) 2020-12-22 2024-09-25 株式会社クボタ 情報処理装置、水処理システム、指標値算出方法および指標値算出プログラム
WO2023047877A1 (ja) * 2021-09-24 2023-03-30 株式会社デンソー 異音検出装置
EP4279884A1 (en) 2022-05-17 2023-11-22 Toyota Jidosha Kabushiki Kaisha Vehicle evaluation system
JP7510979B2 (ja) 2022-09-22 2024-07-04 株式会社日立製作所 異常音のデータを生成する装置及び方法
WO2024075634A1 (ja) * 2022-10-04 2024-04-11 ヤマハ株式会社 音波形の特性分布に係る表示方法

Also Published As

Publication number Publication date
JPWO2020026829A1 (ja) 2021-08-02
US20210304786A1 (en) 2021-09-30
US20240046953A1 (en) 2024-02-08
JP7407382B2 (ja) 2024-01-04
US11830518B2 (en) 2023-11-28

Similar Documents

Publication Publication Date Title
WO2020026829A1 (ja) 音データ処理方法、音データ処理装置及びプログラム
JP7304545B2 (ja) 異常予測システム及び異常予測方法
Scanlon et al. Residual life prediction of rotating machines using acoustic noise signals
KR101539896B1 (ko) 유도전동기 오류 진단 방법
US8831233B2 (en) Monitoring apparatus and method
US20220155258A1 (en) Stamping quality inspection system and stamping quality inspection method
WO2015011791A1 (ja) 異常検知評価システム
JP2012018066A (ja) 異常検査装置
JP2020154712A (ja) システム、演算装置、及びプログラム
KR101543146B1 (ko) 진동 장치의 상태 판단 방법
US11579012B1 (en) Abnormal sound detection method and apparatus
WO2022044175A1 (ja) データ処理装置、データ処理方法およびデータ処理プログラム
Grandhi et al. Machine-learning based fault diagnosis of electrical motors using acoustic signals
JPWO2018198315A1 (ja) コンピュータシステム、設備異常音判定方法及びプログラム
WO2019235035A1 (ja) 収音解析システム及び収音解析方法
Kreuzer et al. Novel features for the detection of bearing faults in railway vehicles
Wißbrock et al. Discussion of Features for Acoustic Anomaly Detection under Industrial Disturbing Noise in an End-of-Line Test of Geared Motors
JP4513796B2 (ja) 異常監視装置
Monteiro et al. Detecting defects in sanitary wares using deep learning
CN115917268A (zh) 基于人耳听觉特性检测轴承故障的方法和设备
Dietel et al. Fault detection in rotating machinery using spectral modeling
JP6971428B1 (ja) 環境監視システム
KR102500140B1 (ko) 초음파 대역의 음향 신호를 이용한 설비 고장 예측 시스템 및 그 방법
JP7492443B2 (ja) パターン分類装置、昇降機音診断システム、及びパターン分類方法昇降機音の診断装置、及び昇降機音診断方法
MOLDAN Identification and classification of defects in vinyl disc records

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19845054

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2020533417

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19845054

Country of ref document: EP

Kind code of ref document: A1