WO2022191361A1 - 무압축 합성곱 신경망 기반 소리 이상 탐지 장치 및 방법 - Google Patents
무압축 합성곱 신경망 기반 소리 이상 탐지 장치 및 방법 Download PDFInfo
- Publication number
- WO2022191361A1 WO2022191361A1 PCT/KR2021/007661 KR2021007661W WO2022191361A1 WO 2022191361 A1 WO2022191361 A1 WO 2022191361A1 KR 2021007661 W KR2021007661 W KR 2021007661W WO 2022191361 A1 WO2022191361 A1 WO 2022191361A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- value
- learning
- input value
- detection network
- input
- Prior art date
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 135
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000013527 convolutional neural network Methods 0.000 title description 15
- 230000006835 compression Effects 0.000 title description 3
- 238000007906 compression Methods 0.000 title description 3
- 239000013598 vector Substances 0.000 claims abstract description 59
- 238000012545 processing Methods 0.000 claims abstract description 35
- 239000011159 matrix material Substances 0.000 claims abstract description 22
- 238000013528 artificial neural network Methods 0.000 claims abstract description 6
- 230000005856 abnormality Effects 0.000 claims description 13
- 238000007689 inspection Methods 0.000 claims description 11
- 230000003595 spectral effect Effects 0.000 claims description 11
- 238000012360 testing method Methods 0.000 claims description 10
- 238000012549 training Methods 0.000 claims description 8
- 238000005457 optimization Methods 0.000 claims description 5
- 230000002547 anomalous effect Effects 0.000 abstract 1
- 239000010410 layer Substances 0.000 description 26
- 230000006870 function Effects 0.000 description 16
- 238000010586 diagram Methods 0.000 description 9
- 238000003860 storage Methods 0.000 description 8
- 239000000872 buffer Substances 0.000 description 5
- 239000011229 interlayer Substances 0.000 description 4
- 238000011176 pooling Methods 0.000 description 4
- 230000009467 reduction Effects 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 229920001621 AMOLED Polymers 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 229920001690 polydopamine Polymers 0.000 description 1
- 238000004611 spectroscopical analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01H—MEASUREMENT OF MECHANICAL VIBRATIONS OR ULTRASONIC, SONIC OR INFRASONIC WAVES
- G01H15/00—Measuring mechanical or acoustic impedance
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01D—MEASURING NOT SPECIALLY ADAPTED FOR A SPECIFIC VARIABLE; ARRANGEMENTS FOR MEASURING TWO OR MORE VARIABLES NOT COVERED IN A SINGLE OTHER SUBCLASS; TARIFF METERING APPARATUS; MEASURING OR TESTING NOT OTHERWISE PROVIDED FOR
- G01D1/00—Measuring arrangements giving results other than momentary value of variable, of general application
- G01D1/14—Measuring arrangements giving results other than momentary value of variable, of general application giving a distribution function of a value, i.e. number of times the value comes within specified ranges of amplitude
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01H—MEASUREMENT OF MECHANICAL VIBRATIONS OR ULTRASONIC, SONIC OR INFRASONIC WAVES
- G01H17/00—Measuring mechanical vibrations or ultrasonic, sonic or infrasonic waves, not provided for in the preceding groups
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F15/00—Digital computers in general; Data processing equipment in general
- G06F15/16—Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/094—Adversarial learning
Definitions
- the present invention relates to a sound anomaly detection technology, and more particularly, to a non-compression convolutional neural network-based sound anomaly detection apparatus and method.
- an anomaly detection function is provided to a user in the form of manufacturing by including an anomaly detection device in a specific product.
- an anomaly detection device for example, cameras, infrared sensors, lasers, etc. were mounted directly on the vehicle and provided in the form of ADAS (Advanced Driver Assistance Systems).
- ADAS Advanced Driver Assistance Systems
- Conventional methods have a limitation in that it is difficult to detect anomalies in a corresponding product if a new product is not purchased because the old product was distributed without the corresponding functions.
- a sound anomaly detection method for achieving the above object includes the steps of: an audio unit acquiring noise from a test subject; and a feature vector matrix including a data processing unit, a plurality of feature vectors from the noise. Generating an input value, and generating, by a detector, a restored value simulating the input value through a detection network that is a deep neural network trained on the input value, and the detector, between the input value and the restored value. determining whether a restoration error representing a difference exceeds a pre-calculated reference value; .
- the generating of the restored value comprises: calculating, by the encoder of the detection network, a latent value from the input value without dimensionality reduction; and the decoder of the detection network, calculating the restored value from the latent value without dimensional extension. includes steps.
- the method includes the steps of: before the step of acquiring the noise from the inspection object, the learning unit initializes a detection network; the learning unit inputs an input value for learning into the initialized detection network; calculating an uncompressed latent value from an input value, calculating, by the decoder of the detection network, the restored value from the latent value, and calculating a loss that is the difference between the restored value and the learning input value by the learning unit and performing, by the learning unit, optimization of updating the parameters of the detection network so that the loss is minimized.
- ⁇ is the average of the mean square loss between the plurality of learning input values used for learning the detection network and the plurality of restored values corresponding to the plurality of learning input values
- ⁇ is the plurality of learning input values and the It is a standard deviation of the mean square loss between the plurality of restored values corresponding to a plurality of input values for learning
- k is a weight for the standard deviation.
- the generating of the input value includes: a data processing unit extracting a plurality of Mel spectral waveforms by applying a sliding window having a predetermined time length to the noise; and the data processing unit generating each of the plurality of Mel spectral waveforms It comprises the steps of generating a plurality of feature vectors by compressing them with a Mel-Frequency Cepstral Coefficient (MFCC) according to a time average, and generating an input value by combining the plurality of feature vectors into a feature vector matrix by the data processing unit.
- MFCC Mel-Frequency Cepstral Coefficient
- a sound anomaly detection apparatus for achieving the above object includes an audio unit that acquires noise from a test subject, and an input value that is a feature vector matrix including a plurality of feature vectors from the noise.
- a data processing unit for generating and generating a restored value simulating the input value through a detection network that is a deep neural network trained on the input value, and a reference value for which a restoration error indicating a difference between the input value and the restored value is previously calculated and a detection unit that determines whether or not exceeds, and determines that, when the input value and the restoration error are equal to or greater than the reference value, as a result of the determination, there is an abnormality in the test target.
- the detection network includes an encoder that calculates a latent value from the input value without dimensionality reduction, and a decoder that calculates the restored value from the latent value without dimensional expansion.
- the device initializes the detection network, inputs a learning input value to the initialized detection network, and an encoder of the detection network calculates an uncompressed latent value from the training input value, and the decoder of the detection network
- the method further includes a learning unit that calculates a loss that is a difference between the restored value and a learning input value, and performs optimization to update the parameters of the detection network so that the loss is minimized.
- the data processing unit extracts a plurality of Mel spectral waveforms by applying a sliding window having a predetermined time length to the noise, and converts each of the plurality of Mel spectral waveforms into an MFCC (Mel-Frequency Cepstral Coefficient) according to a time average.
- MFCC Mel-Frequency Cepstral Coefficient
- the present invention provides an apparatus and method capable of detecting an anomaly by calculating a restored value from an input value without reducing/expanding a dimension of a detection network and using it therefrom. According to the present invention, since a single device can be used for all devices with sound or noise, it can be applied to a more general and wide range of users. That is, the time series information processing capability is improved by performing the operation without convolution operation and dimension reduction/expansion, and the operation efficiency is increased. Moreover, since it can be used for a plurality of different kinds of products and can detect anomalies without domain knowledge, operating manpower and cost are reduced.
- FIG. 1 is a block diagram for explaining the configuration of a sound anomaly detection apparatus based on an uncompressed convolutional neural network according to an embodiment of the present invention.
- FIG. 2 is a block diagram illustrating a detailed configuration of a sound anomaly detection apparatus based on an uncompressed convolutional neural network according to an embodiment of the present invention.
- FIG. 3 is a diagram for explaining the configuration of a detection network according to an embodiment of the present invention according to an embodiment of the present invention.
- FIG. 4 is a flowchart illustrating a method of generating an input value according to an embodiment of the present invention.
- FIG. 5 is a diagram for explaining a method of generating an input value according to an embodiment of the present invention.
- FIG. 6 is a flowchart illustrating a learning method for a detection network for sound anomaly detection according to an embodiment of the present invention.
- FIG. 7 is a flowchart illustrating a sound anomaly detection method based on an uncompressed convolutional neural network according to an embodiment of the present invention.
- the second component may be referred to as the first component, and similarly, the first component may also be referred to as the second component.
- an element when referred to as being “connected” or “connected” to another element, it means that it is logically or physically connected or can be connected. In other words, it should be understood that a component may be directly connected or connected to another component, but another component may exist in the middle, and may be indirectly connected or connected.
- embodiments within the scope of the present invention include computer-readable media having or carrying computer-executable instructions or data structures stored thereon.
- Such computer readable media can be any available media that can be accessed by a general purpose or special purpose computer system.
- Such computer-readable media may be in the form of RAM, ROM, EPROM, CD-ROM or other optical disk storage, magnetic disk storage or other magnetic storage, or computer-executable instructions, computer-readable instructions, or data structures. It may include, but is not limited to, a physical storage medium such as any other medium that can be used to store or convey any program code means in .
- a “network” is defined as one or more data links that enable the transfer of electronic data between computer systems and/or modules.
- a network or other communication connection wireless, wireless, or a combination of wired or wireless
- the connection may be understood as a computer-readable medium.
- Computer readable instructions include, for example, instructions and data that cause a general purpose computer system or special purpose computer system to perform a particular function or group of functions.
- the computer executable instructions may be, for example, binary, intermediate format instructions such as assembly language, or even source code.
- the present invention relates to personal computers, laptop computers, handheld devices, multiprocessor systems, microprocessor-based or programmable consumer electronics, network PCs, minicomputers, mainframe computers, mobile telephones, PDAs, pagers. It can be applied in a network computing environment having various types of computer system configurations including (pager) and the like.
- the invention may also be practiced in distributed system environments where both local and remote computer systems linked through a network by a wired data link, a wireless data link, or a combination of wired and wireless data links perform tasks.
- program modules may be located in local and remote memory storage devices.
- FIG. 1 is a block diagram for explaining the configuration of a sound anomaly detection apparatus based on an uncompressed convolutional neural network according to an embodiment of the present invention.
- 2 is a block diagram illustrating a detailed configuration of a sound anomaly detection apparatus based on an uncompressed convolutional neural network according to an embodiment of the present invention.
- a detection device 10 includes an audio unit 11 , an input unit 12 , a display unit 13 , a storage unit 14 , and a control unit 15 .
- the audio unit 11 includes a microphone (MIK) for collecting audio signals such as sound, which is a medium for detecting abnormalities according to an embodiment of the present invention. That is, the audio unit 11 transmits a sound input through the microphone MIK, for example, an audio signal such as noise, to the controller 15 . Also, the audio unit 11 further includes a speaker SPK for outputting an audio signal. The audio unit 11 may output an audio signal through the speaker SPK under the control of the control unit 15 .
- MIK microphone
- the input unit 12 receives a user's key manipulation for controlling the detection device 10 , generates an input signal, and transmits it to the control unit 15 .
- the input unit 12 may include any one of a power key, a number key, and a direction key for power on/off, and may be formed as a predetermined function key on one surface of the detection device 10 .
- the display unit 13 is formed of a touch screen, the functions of various keys of the input unit 12 may be performed on the display unit 13, and when all functions can be performed only with the touch screen, the input unit 12 may be omitted. may be
- the display unit 13 visually provides a menu of the detection device 10, input data, function setting information, and other various information to the user.
- the display unit 13 performs a function of outputting various screens such as a boot screen, a standby screen, and a menu screen of the detection device 10 .
- the display unit 13 may be formed of a liquid crystal display (LCD), an organic light emitting diode (OLED), an active matrix organic light emitting diode (AMOLED), or the like. Meanwhile, the display unit 13 may be implemented as a touch screen. In this case, the display unit 13 may include a touch sensor, and the controller 15 may sense a user's touch input through the touch sensor.
- the touch sensor may be composed of a touch sensing sensor such as a capacitive overlay, a pressure type, a resistive overlay, or an infrared beam, or may be composed of a pressure sensor. .
- a touch sensing sensor such as a capacitive overlay, a pressure type, a resistive overlay, or an infrared beam
- the touch sensor detects a user's touch input, generates a detection signal, and transmits it to the controller 15 .
- the detection signal may include coordinate data input by the user.
- the touch sensor may generate a detection signal including coordinate data of the touch position movement path and transmit it to the controller 15 .
- the storage unit 14 serves to store programs and data necessary for the operation of the detection device 10 , and may be divided into a program area and a data area.
- the program area may store a program for controlling the overall operation of the detection device 10 , an operating system (OS) for booting the detection device 10 , an application program, and the like.
- the data area is an area in which data generated according to the use of the detection device 10 is stored. Also, the storage unit 14 may store various types of data generated according to the operation of the detection device 10 .
- the controller 15 may control the overall operation of the detection device 10 and the signal flow between internal blocks of the detection device 10 , and perform a data processing function of processing data.
- the controller 15 may be a central processing unit (CPU), an application processing unit (APU), an accelerated processing unit (APU), a graphic processing unit (GPU), a neural processing unit (NPU), or the like.
- control unit 15 includes a learning unit 100 , a data processing unit 200 , a detection unit 300 , and a notification unit 400 .
- the learning unit 100 is for deep learning a detection neural network (DNN), which is a deep learning model (DLM) according to an embodiment of the present invention.
- DNN detection neural network
- the learning detection network (DNN) is used in the detection unit 300 .
- the data processing unit 200 generates an input value that is a feature vector matrix including a plurality of feature vectors from the noise received from the audio unit 11 .
- the generated input value is input to the detector 300 .
- the detection unit 300 is to analyze the noise converted into an input value using a learning-completed detection network (DNN) to detect whether there is an abnormality in the inspection target that emits the noise.
- DNN learning-completed detection network
- the notification unit 400 outputs a warning sound through the speaker SPK of the audio unit 11 so that the detected abnormal state is notified when the detection unit 300 detects an abnormality of the test target, and through the display unit 13 . Print a warning message.
- control unit 13 including the learning unit 100 , the data processing unit 200 , the detection unit 300 , and the notification unit 400 will be described in more detail below.
- the detection network (DNN) includes an encoder (EN) and a decoder (DE).
- a detection network (DNN) including such an encoder (EN) and a decoder (DE) includes a plurality of layers, and the plurality of layers includes a plurality of operations.
- a plurality of layers are connected by a weight (w: weight).
- the calculation result of one layer is weighted and becomes the input of the node of the next layer. That is, one layer of the detection network (DNN) receives a weighted value from the previous layer, performs an operation on it, and transfers the operation result to the input of the next layer.
- the encoder (EN) When the input value (x) is input, the encoder (EN) performs a plurality of operations in which weights between a plurality of layers are applied without reducing the dimension on the input value (x), and the latent value z which is a latent vector ) is calculated and output.
- the decoder DE generates a restored value x' by performing a plurality of operations in which a weight between a plurality of layers is applied on the latent value z without dimensional expansion. That is, the input value is a feature vector matrix including a plurality of feature vectors, and is two-dimensional (the number of elements of the feature vector X the number of feature vectors). If a layer such as a fully connected layer is used, the dimension may be reduced from 2D to 1D. However, the present invention generates a latent value (z) and a restored value (x') from the input value (x) without such dimensionality reduction.
- the encoder EN includes an Enlarge Layer (EL) and at least one Convolution Layer (CL).
- a pooling layer (PL) may be further included between the convolutional layers CL of the encoder EN.
- the decoder DE includes at least one convolution layer (CL).
- a pooling layer PL may be further included between the convolutional layers CL of the decoder DE.
- the enhancement layer EL generates a feature map having an expanded size than the input value in order to perform an operation on the input value x without reducing the dimension.
- the convolution layer CL generates a feature map by performing a convolution operation and an operation by an activation function.
- the pooling layer PL generates a feature map by performing a Max Pooling operation.
- the feature map generated by the last layer of the encoder EN is the latent value z
- the feature map generated by the last layer of the decoder DE is the restored value x'.
- 4 is a flowchart illustrating a method of generating an input value according to an embodiment of the present invention.
- 5 is a diagram for explaining a method of generating an input value according to an embodiment of the present invention.
- the audio unit 11 obtains noise generated from an inspection target through a microphone (MIC) in step S110 and provides it to the data processing unit 200 of the control unit 15 .
- the noise generated from the inspection target is noise generated from the engine of the vehicle, noise generated by friction between the wheels of the vehicle and the road surface while the vehicle is running, noise generated from production facilities in a factory, home appliances, such as the rear of the refrigerator noise generated by the
- the data processing unit 200 applies a sliding window w having a predetermined time length (t, for example, 20-40 ms) to the noise n continuously input through the audio unit 11 in step S120, A mel spectrogram (s: mel-spectrogram) indicating the intensity and frequency distribution of the noise (n) according to the mel-scaled in the window (w) unit is extracted.
- t a predetermined time length
- s mel-spectrogram
- the data processing unit 200 calculates a time average for the Mel spectral waveform (s) extracted in step S130 and compresses the Mel spectral waveform (s) into MFCC (Mel-Frequency Cepstral Coefficient) to obtain a feature vector ( v) is created.
- MFCC Mel-Frequency Cepstral Coefficient
- the data processing unit 200 determines whether a predetermined number of feature vectors v are generated in step S140 to form a feature vector matrix. For example, it is assumed that the feature vector matrix consists of three feature vectors v.
- step S140 If it is determined in step S140 that a predetermined number of feature vectors v are not generated, the data processing unit 200 proceeds to step S150 and inputs the generated feature vectors v into the buffer.
- the buffer has the same size as the number (eg, three) of the feature vectors v constituting the feature vector matrix. These buffers are queue-type buffers, and the first input feature vector (v) is extracted first.
- step S140 if a predetermined number of feature vectors v are generated as a result of the determination in step S140, the data processing unit 200 proceeds to step S160 and
- a feature vector matrix (M) is generated by combining a predetermined number of generated feature vectors (v) in a matrix form.
- the first feature vector matrix M1 may be generated by sequentially combining three feature vectors, that is, the first, second, and third feature vectors v1, v2, and v3.
- the data processing unit 200 extracts the first input feature vector from the buffer in step S170. For example, if the first feature vector matrix M1 is generated by sequentially combining three feature vectors v1, v2, v3, the first feature vector v1 is extracted.
- a new feature vector that is, a fourth feature vector v4 is generated, and three feature vectors, ie, the second, third and fourth feature vectors v2, v3 and v4) can be combined to generate a second feature vector matrix M2.
- the generated feature vector matrix M is provided to the detector 300 as an input value x.
- An uncompressed convolutional neural network according to an embodiment of the present invention is a detection network (DNN). Accordingly, a learning method for a detection network (DNN), which is an uncompressed convolutional neural network for sound anomaly detection according to an embodiment of the present invention, will be described. 6 is a flowchart illustrating a learning method for a detection network for sound anomaly detection according to an embodiment of the present invention.
- the learning unit 100 initializes a detection network (DNN) in step S210 .
- the learning unit 100 initializes the parameter of the detection network (DNN), that is, the weight (w). You can use the Xavier initializer for initialization.
- the learning unit 100 prepares an input value x used for learning, that is, an input value x for learning, to the detection network (DNN) initialized in step S220.
- the learning input value (x) means a feature vector matrix generated from noise (n) generated from the test object when the test object is normal. This learning input value (x) is the same as the method of generating the input value (x) described above with reference to FIGS. 4 and 5 .
- the learning unit 100 inputs the learning input value (x) to the detection network (DNN) initialized in step S230.
- the detection network (DNN) generates a restored value (x') simulating the input value (x) for learning by performing a plurality of operations to which a plurality of inter-layer weights are applied in step S240.
- the encoder (EN) of the detection network (DNN) performs a plurality of operations in which a plurality of inter-layer weights are applied to the learning input value (x) to obtain the training input value (x) without reducing the dimension. Calculate the latent value (z).
- the decoder DE of the detection network DNN performs a plurality of operations in which a plurality of inter-layer weights are applied to the latent value z calculated by the encoder EN to obtain a restored value (x') without dimensional expansion. to calculate
- the learning unit 100 calculates the loss according to the following equation (1) in step S250.
- Equation 1 E( ) represents the operation of the encoder EN, and D( ) represents the operation of the decoder DE.
- L in Equation 1 represents a loss.
- the loss L represents the difference between the training input value (x) and the restored value (x').
- the learning unit 100 performs optimization to update the weight w of the detection network (DNN) through a back-propagation algorithm so that the loss is minimized in step S260 .
- Steps S220 to S260 described above may be repeatedly performed until the total loss calculated using a plurality of different learning input values (x) is less than or equal to a preset target value.
- FIG. 7 is a flowchart illustrating a sound anomaly detection method based on an uncompressed convolutional neural network according to an embodiment of the present invention.
- step S310 the audio unit 11 continuously acquires noise generated from the test target through the microphone and provides it to the data processing unit 200 of the control unit 15 . Accordingly, the data processing unit 200 generates an input value (x) from the noise (n) acquired in step S320.
- the data processing unit 200 sequentially extracts a plurality of Mel spectral waveforms (s) from the noise (n) in units of the sliding window (w), and the extracted Mel spectroscopy
- a plurality of feature vectors (v: v1, v2, v3, v4, ... vj) are generated by compressing the waveform diagram (s) with MFCC.
- an input value (x) is generated by combining a predetermined number of feature vectors (v) to form a feature vector matrix.
- the detection unit 300 inputs the input value x to the detection network (DNN) in step S330. Then, the detection network (DNN) generates a restored value (x') simulating the input value (x) according to a plurality of operations to which the weights learned between a plurality of layers are applied to the input value (x) in step S240.
- the encoder EN calculates the latent value z from the input value x without reducing the dimension by performing a plurality of operations in which a plurality of inter-layer weights are applied to the input value x
- the decoder DE calculates a restored value (x') from the latent value (z) without dimensional expansion by performing a plurality of operations to which a weight between a plurality of layers is applied.
- the restoration error representing the difference between the input value (x) and the restored value (x') is greater than or equal to the reference value ( ⁇ ) determined according to the following equation (3) determine whether or not
- ⁇ represents a reference value.
- x denotes an input value
- x' denotes a restored value.
- each of ⁇ and ⁇ are a plurality of learning input values (x) and a plurality of learning input values used in the learning procedure described above with reference to FIG. 6 , that is, used for learning of the detection network (DNN).
- MSE mean squared error
- k is a weight for the standard deviation ⁇ , and 1.5 to 3 may be applied. Therefore, when the learning is finished, the detection unit 300 calculates the reference value ⁇ and stores it in the storage module 12 . Accordingly, the detection unit 300 may determine whether the restoration error exceeds the pre-calculated reference value ⁇ according to Equation 2 .
- step S350 if the restoration error exceeds the reference value ⁇ , the detection unit 300 determines that there is an abnormality in the inspection target in step S360.
- the notification unit 400 outputs a warning sound through the audio unit 11 so that the abnormal state detected in step S370 is notified, and the display unit 13 is displayed. Outputs a warning message through
- the present invention can be applied to a more general and wide range of users because a single device can be used for all devices with sound or noise.
- the detection device 10 of the present invention may be additionally installed even if the new product does not have an abnormality detection function, such as not including a road surface condition detection function as an ADAS option when the vehicle is shipped.
- an abnormality detection result may be notified by a warning sound or an interlocked device.
- the RNN-based method reflects only forward causality based on the time axis, but in the present invention, since it is based on CNN, it can additionally reflect backward causality. Moreover, since it has an uncompressed auto-encoder structure, it is possible to reduce the weight of the model. That is, time-series information processing capability is improved, and computational efficiency is increased.
- a single detection device 10 can be installed in a plurality of products. Moreover, since a user without domain knowledge can install and operate the detection device 10 , it is possible to reduce the manpower and cost required for the on-site inspection service.
- the present invention relates to a sound anomaly detection apparatus and method based on an uncompressed convolutional neural network, and the present invention can calculate a restored value from an input value without reducing/expanding a dimension, and from this, an abnormality to an inspection target that generates noise whether or not it can be detected. Therefore, the present invention has industrial applicability because it has sufficient potential for marketing or business, as well as to the extent that it can be clearly implemented in reality.
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Hardware Design (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Databases & Information Systems (AREA)
- Algebra (AREA)
- Acoustics & Sound (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Alarm Systems (AREA)
- Testing And Monitoring For Control Systems (AREA)
Abstract
본 발명의 소리 이상 탐지 방법은 오디오부가 검사 대상으로부터 소음을 취득하는 단계와, 데이터처리부가 상기 소음으로부터 복수의 특징 벡터를 포함하는 특징벡터행렬인 입력값을 생성하는 단계와, 탐지부가 상기 입력값에 대해 학습된 심층신경망인 탐지망을 통해 상기 입력값을 모사하는 복원값을 생성하는 단계와, 상기 탐지부가 상기 입력값과 상기 복원값의 차이를 나타내는 복원 오차가 기 산출된 기준치를 초과하는지 여부를 판단하는 단계와, 상기 탐지부가 상기 판단 결과, 상기 복원오차가 상기 기준치 이상이면, 상기 검사 대상에 이상이 있는 것으로 판단하는 단계를 포함한다.
Description
본 발명은 소리 이상 탐지 기술에 관한 것으로, 더욱 상세하게는, 무압축 합성곱 신경망(Non-compression Convolutional Neural Network) 기반 소리 이상 탐지 장치 및 방법에 관한 것이다.
종래에는 특정 제품에 이상 탐지 장치를 포함시켜 제작하는 형태로 사용자에게 이상 탐지 기능을 제공하였다. 도로 노면 이상 탐지를 예로 들면 카메라, 적외선 센서, 레이저 등을 차량에 직접 탑재하여 ADAS(Advanced Driver Assistance Systems) 형태로 제공하였다. 가전에서의 예로 들면 냉장고의 이상 탐지를 위해 온도 센서를 장착하는 형태로 제공하기도 한다. 종래 방법들은 구형 제품에는 해당 기능들이 포함되지 않은 채 유통되었기 때문에 신제품을 구매하지 않는 경우 해당 제품 내에서 이상 탐지를 수행하기 어렵다는 한계점이 있다.
본 발명의 목적은 무압축 합성곱 신경망 기반 소리 이상 탐지 장치 및 방법을 제공함에 있다.
상술한 바와 같은 목적을 달성하기 위한 본 발명의 바람직한 실시예에 따른 소리 이상 탐지 방법은 오디오부가 검사 대상으로부터 소음을 취득하는 단계와, 데이터처리부가 상기 소음으로부터 복수의 특징 벡터를 포함하는 특징벡터행렬인 입력값을 생성하는 단계와, 탐지부가 상기 입력값에 대해 학습된 심층신경망인 탐지망을 통해 상기 입력값을 모사하는 복원값을 생성하는 단계와, 상기 탐지부가 상기 입력값과 상기 복원값의 차이를 나타내는 복원 오차가 기 산출된 기준치를 초과하는지 여부를 판단하는 단계와, 상기 탐지부가 상기 판단 결과, 상기 복원오차가 상기 기준치 이상이면, 상기 검사 대상에 이상이 있는 것으로 판단하는 단계를 포함한다.
상기 복원값을 생성하는 단계는 상기 탐지망의 인코더가 상기 입력값으로부터 차원의 축소 없이 잠재값을 산출하는 단계와, 상기 탐지망의 디코더가 상기 잠재값으로부터 차원의 확장 없이 상기 복원값을 산출하는 단계를 포함한다.
상기 방법은 상기 검사 대상으로부터 소음을 취득하는 단계 전, 학습부가 탐지망을 초기화하는 단계와, 상기 학습부가 학습용 입력값을 상기 초기화된 탐지망에 입력하는 단계와, 상기 탐지망의 인코더가 상기 학습용 입력값으로부터 압축되지 않은 잠재값을 산출하는 단계와, 상기 탐지망의 디코더가 상기 잠재값으로부터 상기 복원값을 산출하는 단계와, 상기 학습부가 상기 복원값과 학습용 입력값과의 차이인 손실을 산출하는 단계와, 상기 학습부가 상기 손실이 최소가 되도록 상기 탐지망의 파라미터를 갱신하는 최적화를 수행하는 단계를 더 포함한다.
상기 방법은 상기 검사 대상으로부터 소음을 취득하는 단계 전, 상기 탐지망에 대한 학습이 완료된 후, 상기 탐지부가 수학식 θ=μ+(k×σ)에 따라 상기 기준치를 산출하는 단계를 더 포함한다. 여기서, 상기 μ는 상기 탐지망의 학습에 사용된 복수의 학습용 입력값과 복수의 학습용 입력값에 대응하는 복수의 복원값 간의 평균제곱손실의 평균이고, 상기 σ는 상기 복수의 학습용 입력값과 상기 복수의 학습용 입력값에 대응하는 상기 복수의 복원값 간의 평균제곱손실의 표준 편차이고, 상기 k는 상기 표준편차에 대한 가중치인 것을 특징으로 한다.
상기 입력값을 생성하는 단계는 데이터처리부가 상기 소음에 대해 소정 시간 길이를 가지는 슬라이딩 윈도우를 적용하여 복수의 멜분광파형도를 추출하는 단계와, 상기 데이터처리부가 상기 복수의 멜분광파형도 각각을 시간 평균에 따라 MFCC(Mel-Frequency Cepstral Coefficient)로 압축하여 복수의 특징 벡터를 생성하는 단계와, 상기 데이터처리부가 상기 복수의 특징 벡터를 특징벡터행렬로 결합함으로써 입력값을 생성하는 단계를 포함한다.
상술한 바와 같은 목적을 달성하기 위한 본 발명의 바람직한 실시예에 따른 소리 이상 탐지 장치는 검사 대상으로부터 소음을 취득하는 오디오부와, 상기 소음으로부터 복수의 특징 벡터를 포함하는 특징벡터행렬인 입력값을 생성하는 데이터처리부와, 상기 입력값에 대해 학습된 심층신경망인 탐지망을 통해 상기 입력값을 모사하는 복원값을 생성하고, 상기 입력값과 상기 복원값의 차이를 나타내는 복원 오차가 기 산출된 기준치를 초과하는지 여부를 판단하고, 상기 판단 결과, 상기 입력값과 상기 복원오차가 상기 기준치 이상이면, 상기 검사 대상에 이상이 있는 것으로 판단하는 탐지부를 포함한다.
상기 탐지망은 상기 입력값으로부터 차원의 축소없이 잠재값을 산출하는 인코더와, 상기 잠재값으로부터 차원의 확장없이 상기 복원값을 산출하는 디코더를 포함한다.
상기 장치는 상기 탐지망을 초기화하고, 학습용 입력값을 상기 초기화된 탐지망에 입력한 후, 상기 탐지망의 인코더가 상기 학습용 입력값으로부터 압축되지 않은 잠재값을 산출하고, 상기 탐지망의 디코더가 상기 잠재값으로부터 상기 복원값을 산출하면, 상기 복원값과 학습용 입력값과의 차이인 손실을 산출하고, 상기 손실이 최소가 되도록 상기 탐지망의 파라미터를 갱신하는 최적화를 수행하는 학습부를 더 포함한다.
상기 탐지망에 대한 학습이 완료되면, 상기 탐지부는 수학식 θ=μ+(k×σ)에 따라 상기 기준치를 산출하며, 상기 μ는 상기 탐지망의 학습에 사용된 복수의 학습용 입력값과 복수의 학습용 입력값에 대응하는 복수의 복원값 간의 평균제곱손실의 평균이고, 상기 σ는 상기 복수의 학습용 입력값과 상기 복수의 학습용 입력값에 대응하는 상기 복수의 복원값 간의 평균제곱손실의 표준 편차이고, 상기 k는 상기 표준편차에 대한 가중치인 것을 특징으로 한다.
상기 데이터처리부는 상기 소음에 대해 소정 시간 길이를 가지는 슬라이딩 윈도우를 적용하여 복수의 멜분광파형도를 추출하고, 상기 복수의 멜분광파형도 각각을 시간 평균에 따라 MFCC(Mel-Frequency Cepstral Coefficient)로 압축하여 복수의 특징 벡터를 생성하고, 상기 복수의 특징 벡터를 특징벡터행렬로 결합함으로써 입력값을 생성하는 것을 특징으로 한다.
본 발명은 탐지망을 차원의 축소/확장 없이 입력값으로부터 복원값을 산출하고, 이로부터 이용하여 이상을 탐지할 수 있는 장치 및 방법을 제공한다. 이러한 본 발명에 따르면, 단일 기기로 소리 혹은 소음이 있는 모든 기기에 사용할 수 있기 때문에 보다 일반적이고 넓은 범위의 사용자에게 적용할 수 있다. 즉, 컨벌루션 연산 및 차원 축소/확장 없이 연산을 수행함으로써 시계열 정보 처리능력이 향상되며, 연산 효율성이 증대된다. 더욱이, 복수의 서로 다른 종류의 제품에 사용할 수 있고, 도메인 지식 없이도 이상을 탐지할 수 있기 때문에 운용 인력 및 비용이 절감된다.
도 1은 본 발명의 실시예에 따른 무압축 합성곱 신경망 기반 소리 이상 탐지 장치의 구성을 설명하기 위한 블록도이다.
도 2는 본 발명의 실시예에 따른 무압축 합성곱 신경망 기반 소리 이상 탐지 장치의 세부적인 구성을 설명하기 위한 블록도이다.
도 3은 본 발명의 실시예에 따른 본 발명의 실시예에 따른 탐지망의 구성을 설명하기 위한 도면이다.
도 4는 본 발명의 실시예에 따른 입력값을 생성하는 방법을 설명하기 위한 흐름도이다.
도 5는 본 발명의 실시예에 따른 입력값을 생성하는 방법을 설명하기 위한 도면이다.
도 6은 본 발명의 실시예에 따른 소리 이상 탐지를 위한 탐지망에 대한 학습 방법을 설명하기 위한 흐름도이다.
도 7은 본 발명의 실시예에 따른 무압축 합성곱 신경망 기반 소리 이상 탐지 방법을 설명하기 위하 흐름도이다.
본 발명의 과제 해결 수단의 특징 및 이점을 보다 명확히 하기 위하여, 첨부된 도면에 도시된 본 발명의 특정 실시 예를 참조하여 본 발명을 더 상세하게 설명한다.
다만, 하기의 설명 및 첨부된 도면에서 본 발명의 요지를 흐릴 수 있는 공지 기능 또는 구성에 대한 상세한 설명은 생략한다. 또한, 도면 전체에 걸쳐 동일한 구성 요소들은 가능한 한 동일한 도면 부호로 나타내고 있음에 유의하여야 한다.
이하의 설명 및 도면에서 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 아니 되며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위한 용어의 개념으로 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다. 따라서 본 명세서에 기재된 실시 예와 도면에 도시된 구성은 본 발명의 가장 바람직한 일 실시 예에 불과할 뿐이고, 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형 예들이 있을 수 있음을 이해하여야 한다.
또한, 제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하기 위해 사용하는 것으로, 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용될 뿐, 상기 구성요소들을 한정하기 위해 사용되지 않는다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제2 구성요소는 제1 구성요소로 명명될 수 있고, 유사하게 제1 구성요소도 제2 구성요소로 명명될 수 있다.
더하여, 어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급할 경우, 이는 논리적 또는 물리적으로 연결되거나, 접속될 수 있음을 의미한다. 다시 말해, 구성요소가 다른 구성요소에 직접적으로 연결되거나 접속되어 있을 수 있지만, 중간에 다른 구성요소가 존재할 수도 있으며, 간접적으로 연결되거나 접속될 수도 있다고 이해되어야 할 것이다.
또한, 본 명세서에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 또한, 본 명세서에서 기술되는 "포함한다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
또한, 명세서에 기재된 "…부", "…기", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.
또한, "일(a 또는 an)", "하나(one)", "그(the)" 및 유사어는 본 발명을 기술하는 문맥에 있어서(특히, 이하의 청구항의 문맥에서) 본 명세서에 달리 지시되거나 문맥에 의해 분명하게 반박되지 않는 한, 단수 및 복수 모두를 포함하는 의미로 사용될 수 있다.
아울러, 본 발명의 범위 내의 실시 예들은 컴퓨터 실행가능 명령어 또는 컴퓨터 판독가능 매체에 저장된 데이터 구조를 가지거나 전달하는 컴퓨터 판독가능 매체를 포함한다. 이러한 컴퓨터 판독가능 매체는, 범용 또는 특수 목적의 컴퓨터 시스템에 의해 액세스 가능한 임의의 이용 가능한 매체일 수 있다. 예로서, 이러한 컴퓨터 판독가능 매체는 RAM, ROM, EPROM, CD-ROM 또는 기타 광 디스크 저장장치, 자기 디스크 저장장치 또는 기타 자기 저장장치, 또는 컴퓨터 실행가능 명령어, 컴퓨터 판독가능 명령어 또는 데이터 구조의 형태로 된 소정의 프로그램 코드 수단을 저장하거나 전달하는 데에 이용될 수 있고, 범용 또는 특수 목적 컴퓨터 시스템에 의해 액세스 될 수 있는 임의의 기타 매체와 같은 물리적 저장 매체를 포함할 수 있지만, 이에 한정되지 않는다.
이하의 설명 및 특허 청구 범위에서, "네트워크"는 컴퓨터 시스템들 및/또는 모듈들 간의 전자 데이터를 전송할 수 있게 하는 하나 이상의 데이터 링크로서 정의된다. 정보가 네트워크 또는 다른 (유선, 무선, 또는 유선 또는 무선의 조합인) 통신 접속을 통하여 컴퓨터 시스템에 전송되거나 제공될 때, 이 접속은 컴퓨터-판독가능매체로서 이해될 수 있다. 컴퓨터 판독가능 명령어는, 예를 들면, 범용 컴퓨터 시스템 또는 특수 목적 컴퓨터 시스템이 특정 기능 또는 기능의 그룹을 수행하도록 하는 명령어 및 데이터를 포함한다. 컴퓨터 실행가능 명령어는, 예를 들면, 어셈블리어, 또는 심지어는 소스코드와 같은 이진, 중간 포맷 명령어일 수 있다.
아울러, 본 발명은 퍼스널 컴퓨터, 랩탑 컴퓨터, 핸드헬드 장치, 멀티프로세서 시스템, 마이크로프로세서-기반 또는 프로그램 가능한 가전제품(programmable consumer electronics), 네트워크 PC, 미니컴퓨터, 메인프레임 컴퓨터, 모바일 전화, PDA, 페이저(pager) 등을 포함하는 다양한 유형의 컴퓨터 시스템 구성을 가지는 네트워크 컴퓨팅 환경에서 적용될 수 있다. 본 발명은 또한 네트워크를 통해 유선 데이터 링크, 무선 데이터 링크, 또는 유선 및 무선 데이터 링크의 조합으로 링크된 로컬 및 원격 컴퓨터 시스템 모두가 태스크를 수행하는 분산형 시스템 환경에서 실행될 수 있다. 분산형 시스템 환경에서, 프로그램 모듈은 로컬 및 원격 메모리 저장 장치에 위치될 수 있다.
먼저, 본 발명의 실시예에 따른 무압축 합성곱 신경망 기반 소리 이상 탐지 장치의 구성에 대해서 설명하기로 한다. 도 1은 본 발명의 실시예에 따른 무압축 합성곱 신경망 기반 소리 이상 탐지 장치의 구성을 설명하기 위한 블록도이다. 도 2는 본 발명의 실시예에 따른 무압축 합성곱 신경망 기반 소리 이상 탐지 장치의 세부적인 구성을 설명하기 위한 블록도이다.
도 1을 참조하면, 본 발명의 실시예에 따른 탐지장치(10)는 오디오부(11), 입력부(12), 표시부(13), 저장부(14) 및 제어부(15)를 포함한다.
오디오부(11)는 본 발명의 실시예에 따른 이상을 검출하기 위한 매개체인 소리와 같은 오디오 신호를 수집하기 위한 마이크(MIK)를 포함한다. 즉, 오디오부(11)는 마이크(MIK)를 통해 입력되는 소리, 예컨대, 소음과 같은 오디오 신호를 제어부(15)로 전달한다. 또한, 오디오부(11)는 오디오 신호를 출력하기 위한 스피커(SPK)를 더 포함한다. 오디오부(11)는 제어부(15)의 제어에 따라 오디오 신호를 스피커(SPK)를 통해 출력할 수 있다.
입력부(12)는 탐지장치(10)를 제어하기 위한 사용자의 키 조작을 입력 받고 입력 신호를 생성하여 제어부(15)로 전달한다. 입력부(12)는 전원 on/off를 위한 전원 키, 숫자 키, 방향키 중 어느 하나를 포함할 수 있으며, 탐지장치(10)의 일면에 소정의 기능키로 형성될 수 있다. 표시부(13)가 터치스크린으로 이루어진 경우, 입력부(12)의 각 종 키들의 기능이 표시부(13)에서 이루어질 수 있으며, 터치스크린만으로 모든 기능을 수행할 수 있는 경우, 입력부(12)는 생략될 수도 있다.
표시부(13)는 탐지장치(10)의 메뉴, 입력된 데이터, 기능 설정 정보 및 기타 다양한 정보를 사용자에게 시각적으로 제공한다. 표시부(13)는 탐지장치(10)의 부팅 화면, 대기 화면, 메뉴 화면 등의 각종 화면을 출력하는 기능을 수행한다. 이러한 표시부(13)는 액정표시장치(LCD, Liquid Crystal Display), 유기 발광 다이오드(OLED, Organic Light Emitting Diodes), 능동형 유기 발광 다이오드(AMOLED, Active Matrix Organic Light Emitting Diodes) 등으로 형성될 수 있다. 한편, 표시부(13)는 터치스크린으로 구현될 수 있다. 이러한 경우, 표시부(13)는 터치센서를 포함하며, 제어부(15)는 터치센서를 통해 사용자의 터치 입력을 감지할 수 있다. 터치센서는 정전용량 방식(capacitive overlay), 압력식, 저항막 방식(resistive overlay), 적외선 감지 방식(infrared beam) 등의 터치 감지 센서로 구성되거나, 압력 감지 센서(pressure sensor)로 구성될 수도 있다. 상기 센서들 이외에도 물체의 접촉 또는 압력을 감지할 수 있는 모든 종류의 센서 기기가 본 발명의 터치센서로 이용될 수 있다. 터치센서는 사용자의 터치 입력을 감지하고, 감지 신호를 발생시켜 제어부(15)로 전송한다. 이러한 감지 신호에는 사용자가 터치를 입력한 좌표 데이터가 포함될 수 있다. 사용자가 터치 위치 이동 동작을 입력한 경우에 터치센서는 터치 위치 이동 경로의 좌표 데이터를 포함한 감지 신호를 발생시켜 제어부(15)로 전송할 수 있다.
저장부(14)는 탐지장치(10)의 동작에 필요한 프로그램 및 데이터를 저장하는 역할을 수행하며, 프로그램 영역과 데이터 영역으로 구분될 수 있다. 프로그램 영역은 탐지장치(10)의 전반적인 동작을 제어하는 프로그램 및 탐지장치(10)를 부팅시키는 운영체제(OS, Operating System), 응용 프로그램 등을 저장할 수 있다. 데이터 영역은 탐지장치(10)의 사용에 따라 발생하는 데이터가 저장되는 영역이다. 또한, 저장부(14)는 탐지장치(10)의 동작에 따라 발생되는 각 종 데이터 등을 저장할 수 있다.
제어부(15)는 탐지장치(10)의 전반적인 동작 및 탐지장치(10)의 내부 블록들 간 신호 흐름을 제어하고, 데이터를 처리하는 데이터 처리 기능을 수행할 수 있다. 이러한 제어부(15)는 CPU(Central Processing Unit), APU(Application Processing Unit), APU(Accelerated Processing Unit), GPU(graphic processing unit), NPU(Neural Processing Unit) 등이 될 수 있다.
도 2를 참조하면, 제어부(15)는 학습부(100), 데이터처리부(200), 탐지부(300) 및 통지부(400)를 포함한다.
학습부(100)는 본 발명의 실시예에 따른 심층학습모델(Deep Learning Model: DLM)인 탐지망(DNN: Detection Neural Network)을 학습(deep learning)시키기 위한 것이다. 학습이 완료된 탐지망(DNN)은 탐지부(300)에서 사용된다.
데이터처리부(200)는 오디오부(11)로부터 수신되는 소음으로부터 복수의 특징 벡터를 포함하는 특징벡터행렬인 입력값을 생성한다. 생성된 입력값은 탐지부(300)에 입력된다.
탐지부(300)는 학습이 완료된 탐지망(DNN)을 이용하여 입력값으로 변환된 소음을 분석하여 해당 소음을 발산하는 검사 대상의 이상 여부를 탐지하기 위한 것이다.
통지부(400)는 탐지부(300)가 검사 대상의 이상을 탐지하면, 탐지된 이상 상태가 알려지도록 오디오부(11)의 스피커(SPK)를 통해 경고음을 출력하고, 표시부(13)를 통해 경고 메시지를 출력한다.
전술한 학습부(100), 데이터처리부(200), 탐지부(300) 및 통지부(400)를 포함하는 제어부(13)의 동작에 대해서는 아래에서 더 상세하게 설명될 것이다.
다음으로, 본 발명의 실시예에 따른 탐지망(DNN)의 구성에 대해서 설명하기로 한다. 도 3은 본 발명의 실시예에 따른 본 발명의 실시예에 따른 탐지망의 구성을 설명하기 위한 도면이다. 도 3을 참조하면, 탐지망(DNN)은 인코더(encoder: EN) 및 디코더(decoder: DE)를 포함한다.
이러한 인코더(EN) 및 디코더(DE)를 포함하는 탐지망(DNN)은 복수의 계층을 포함하며, 복수의 계층은 복수의 연산을 포함한다. 또한, 복수의 계층 간은 가중치(w: weight)로 연결된다. 어느 하나의 계층의 연산 결과는 가중치가 적용되어 다음 계층 노드의 입력이 된다. 즉, 탐지망(DNN)의 어느 한 계층은 이전 계층으로부터 가중치를 적용한 값을 입력 받고, 이에 대한 연산을 수행하고, 그 연산 결과를 다음 계층의 입력으로 전달한다.
인코더(EN)는 입력값(x)이 입력되면, 입력값(x)에 대해 차원의 축소 없이 복수의 계층 간의 가중치가 적용되는 복수의 연산을 수행하여 잠재 벡터(Latent Vector)인 잠재값(z)을 산출하여 출력한다. 디코더(DE)는 잠재값(z)에 대해 차원의 확장 없이 복수의 계층 간의 가중치가 적용되는 복수의 연산을 수행하여 복원값(x')을 생성한다. 즉, 입력값은 복수의 특징벡터를 포함하는 특징벡터행렬이며, 2차원(특징 벡터의 원소의 수 Ⅹ 특징 벡터의 수)의 데이터이다. 만약, 완전연결층과 같은 계층을 사용하는 경우, 2차원에서 1차원으로 차원이 축소될 수 있다. 하지만, 본 발명은 이러한 차원 축소 없이 입력값(x)으로부터 잠재값(z) 및 복원값(x')을 생성한다.
인코더(EN)는 확장층(Enlarge Layer: EL) 및 적어도 하나의 컨벌루션층(Convolution Layer: CL)을 포함한다. 인코더(EN)의 컨벌루션층(CL) 사이에 풀링층(Pooling Layer: PL)이 더 포함될 수 있다. 디코더(DE)는 적어도 하나의 컨벌루션층(Convolution Layer: CL)을 포함한다. 디코더(DE)의 컨벌루션층(CL) 사이에 풀링층(PL)이 더 포함될 수 있다.
확장층(EL)은 입력값(x)에 대해 차원의 축소 없이 연산을 수행하기 위해 입력값 보다 확장된 크기의 특징 지도(feature map)를 생성한다. 컨벌루션층(CL)은 컨벌루션(Convolution) 연산 및 활성화함수에 의한 연산을 수행하여 특징 지도를 생성한다. 풀링층(PL)은 최대 풀링(Max Pooling) 연산을 수행하여 특징 지도를 생성한다.
인코더(EN)의 마지막 계층이 생성한 특징 지도가 잠재값(z)이며, 디코더(DE)의 마지막 계층이 생성한 특징 지도가 복원값(x')이 된다.
다음으로, 본 발명의 실시예에 따른 입력값을 생성하는 방법에 대해서 설명하기로 한다. 도 4는 본 발명의 실시예에 따른 입력값을 생성하는 방법을 설명하기 위한 흐름도이다. 도 5는 본 발명의 실시예에 따른 입력값을 생성하는 방법을 설명하기 위한 도면이다.
도 4 및 도 5를 참조하면, 오디오부(11)는 S110 단계에서 마이크(MIC)를 통해 검사 대상으로부터 발생하는 소음을 취득하여 제어부(15)의 데이터처리부(200)에 제공한다. 여기서, 검사 대상으로부터 발생하는 소음은 차량의 엔진으로부터 발생하는 소음, 차량 주행 중 차량의 바퀴와 노면의 마찰에 의해 발생하는 소음, 공장의 생산 설비로부터 발생하는 소음, 가전 제품, 예컨대, 냉장고의 후면에서 발생하는 소음 등을 예시할 수 있다.
데이터처리부(200)는 S120 단계에서 오디오부(11)를 통해 지속적으로 입력되는 소음(n)에 대해 소정 시간 길이(t, 예컨대, 20~40ms)를 가지는 슬라이딩 윈도우(w)를 적용하여, 슬라이딩 윈도우(w) 단위로 멜 스케일(mel-scaled)에 따른 소음(n)의 강도와 주파수 분포를 나타내는 멜분광파형도(s: mel-spectrogram)를 추출한다.
그런 다음, 데이터처리부(200)는 S130 단계에서 추출된 멜분광파형도(s)에 대해 시간 평균을 산출하여 멜분광파형도(s)를 MFCC(Mel-Frequency Cepstral Coefficient)로 압축하여 특징 벡터(v)를 생성한다.
데이터처리부(200)는 S140 단계에서 소정 수의 특징 벡터(v)가 생성되어 특징벡터행렬을 구성할 수 있는지 여부를 판단한다. 예컨대, 특징벡터행렬은 3개의 특징 벡터(v)로 이루어진다고 가정한다.
S140 단계의 판단 결과, 소정 수의 특징 벡터(v)가 생성되지 않은 경우, 데이터처리부(200)는 S150 단계로 진행하여 버퍼에 생성된 특징벡터(v)를 입력한다. 여기서, 버퍼는 특징벡터행렬을 구성하는 특징벡터(v)의 수(예컨대, 3개)와 동일한 크기를 가진다. 이러한 버퍼는 큐(Queue) 형식의 버퍼이며, 가장 처음 입력된 특징벡터(v)가 가장 먼저 추출된다.
반면, S140 단계의 판단 결과, 소정 수의 특징 벡터(v)가 생성된 경우, 데이터처리부(200)는 S160 단계로 진행하여
생성된 소정 수의 특징 벡터(v)를 행렬 형식으로 결합하여 특징벡터행렬(M)을 생성한다. 예컨대, 도 5에 도시된 바와 같이, 순차로 3개의 특징 벡터, 즉, 제1, 제2 및 제3 특징벡터(v1, v2, v3)를 결합하여 제1 특징벡터행렬(M1)을 생성할 수 있다.
다음으로, 데이터처리부(200)는 S170 단계에서 버퍼에서 가장 처음 입력된 특징 벡터를 추출한다. 예컨대, 순차로 3개의 특징 벡터(v1, v2, v3)를 결합하여 제1 특징벡터행렬(M1)을 생성하였다면, 제1 특징벡터(v1)가 추출된다.
그런 다음, 전술한 S120 단계 내지 S160 단계를 반복한다. 이에 따라, 예컨대, 도 5에 도시된 바와 같이, 새로운 특징벡터, 즉, 제4 특징벡터(v4)가 생성되고, 3개의 특징벡터, 즉, 제2, 제3 및 제4 특징벡터(v2, v3, v4)를 결합하여 제2 특징벡터행렬(M2)을 생성할 수 있다.
전술한 바와 같이, 생성된 특징벡터행렬(M)은 입력값(x)으로 탐지부(300)에 제공된다.
다음으로, 본 발명의 실시예에 따른 무압축 합성곱 신경망 기반 소리 이상 탐지 방법에 대해서 설명하기로 한다. 본 발명의 실시예에 따른 무압축 합성곱 신경망은 탐지망(DNN)이다. 이에 따라, 본 발명의 실시예에 따른 소리 이상 탐지를 위한 무압축 합성곱 신경망인 탐지망(DNN)에 대한 학습 방법을 설명하기로 한다. 도 6은 본 발명의 실시예에 따른 소리 이상 탐지를 위한 탐지망에 대한 학습 방법을 설명하기 위한 흐름도이다.
도 6을 참조하면, 학습부(100)는 S210 단계에서 탐지망(DNN)을 초기화한다. 이때, 학습부(100)는 탐지망(DNN)의 파라미터, 즉, 가중치(w)를 초기화한다. 초기화를 위해 Xavier 초기화기(initializer)를 사용할 수 있다.
초기화가 완료되면, 학습부(100)는 S220 단계에서 초기화된 탐지망(DNN)에 학습을 위해 사용되는 입력값(x), 즉, 학습용 입력값(x)을 마련한다. 본 발명의 실시예에서 학습용 입력값(x)은 검사 대상이 정상인 경우에 검사 대상에서 발생한 소음(n)으로부터 생성된 특징벡터행렬을 의미한다. 이러한 학습용 입력값(x)은 앞서, 도 4 및 도 5를 참조로 설명된 입력값(x)을 생성하는 방법과 동일하다.
다음으로, 학습부(100)는 S230 단계에서 초기화된 탐지망(DNN)에 학습용 입력값(x)을 입력한다.
그러면, 탐지망(DNN)은 S240 단계에서 복수의 계층 간 가중치가 적용되는 복수의 연산을 수행하여 학습용 입력값(x)을 모사하는 복원값(x')을 생성한다. 보다 자세히 설명하면, 탐지망(DNN)의 인코더(EN)는 학습용 입력값(x)에 대해 복수의 계층 간 가중치가 적용되는 복수의 연산을 수행하여 차원의 축소 없이 학습용 입력값(x)에 대한 잠재값(z)을 산출한다. 그리고 탐지망(DNN)의 디코더(DE)는 인코더(EN)가 산출한 잠재값(z)에 대해 복수의 계층 간 가중치가 적용되는 복수의 연산을 수행하여 차원의 확장 없이 복원값(x')을 산출한다.
그런 다음, 학습부(100)는 S250 단계에서 다음의 수학식 1에 따라 손실을 산출한다.
수학식 1에서 E( )는 인코더(EN)의 연산을 나타내며, D( )는 디코더(DE)의 연산을 나타낸다. 수학식 1의 L은 손실을 나타낸다. 손실 L은 학습용 입력값(x)과 복원값(x')의 차이를 나타낸다.
다음으로, 학습부(100)는 S260 단계에서 손실이 최소화되도록 역전파(Back-propagation) 알고리즘을 통해 탐지망(DNN)의 가중치(w)를 갱신하는 최적화를 수행한다.
전술한 S220 단계 내지 S260 단계는 서로 다른 복수의 학습용 입력값(x)을 이용하여 산출되는 전체 손실이 기 설정된 목표치 이하가 될 때까지 반복되어 수행될 수 있다.
전술한 바와 같은 절차에 따라 탐지망(DNN)에 대한 학습이 완료되면, 탐지망(DNN)을 이용하여 이상 여부를 탐지할 수 있다. 이러한 방법에 대해서 설명하기로 한다. 도 7은 본 발명의 실시예에 따른 무압축 합성곱 신경망 기반 소리 이상 탐지 방법을 설명하기 위하 흐름도이다.
도 7을 참조하면, 오디오부(11)는 S310 단계에서 마이크(MIC)를 통해 검사 대상으로부터 발생하는 소음을 지속적으로 취득하여 제어부(15)의 데이터처리부(200)에 제공한다. 이에 따라, 데이터처리부(200)는 S320 단계에서 취득된 소음(n)으로부터 입력값(x)을 생성한다.
도 4 및 도 5를 참조로 설명된 바와 같이, 데이터처리부(200)는 소음(n)에서 슬라이딩 윈도우(w) 단위로 순차로 복수의 멜분광파형도(s)를 추출하고, 추출된 멜분광파형도(s)을 MFCC로 압축하여 복수의 특징 벡터(v: v1, v2, v3, v4, …vj)를 생성한다. 그런 다음, 소정 수의 특징벡터(v)를 결합하여 특징벡터행렬을 구성함으로써 입력값(x)을 생성한다.
탐지부(300)는 S330 단계에서 입력값(x)을 탐지망(DNN)에 입력한다. 그러면, 탐지망(DNN)은 S240 단계에서 입력값(x)에 대해 복수의 계층 간 학습된 가중치가 적용된 복수의 연산에 따라 입력값(x)을 모사하는 복원값(x')을 생성한다. 즉, 인코더(EN)는 입력값(x)에 대해 복수의 계층 간 가중치가 적용되는 복수의 연산을 수행하여 입력값(x)으로부터 차원의 축소 없이 잠재값(z)을 산출하고, 디코더(DE)는 복수의 계층 간 가중치가 적용되는 복수의 연산을 수행하여 차원의 확장 없이 잠재값(z)으로부터 복원값(x')을 산출한다.
탐지부(300)는 S350 단계에서 다음의 수학식 2에 따라 입력값(x)과 복원값(x')과의 차이를 나타내는 복원오차가 다음의 수학식 3에 따라 결정되는 기준치(θ) 이상인지 여부를 판단한다.
수학식 2 및 수학식 3에서, θ는 기준치를 나타낸다. 수학식 2에서 x는 입력값 그리고 x'는 복원값을 나타낸다. 수학식 3에서, μ 및 σ 각각은 앞서 도 6을 참조로 설명된 학습 절차에서 사용된, 즉, 탐지망(DNN)의 학습에 사용된 복수의 학습용 입력값(x)과 복수의 학습용 입력값(x)에 대응하는 복수의 복원값(x') 간의 평균제곱손실(Mean Squared Error: MSE)의 평균 및 표준 편차를 나타낸다. 또한, k는 표준편차 σ에 대한 가중치이며, 1.5 내지 3을 적용할 수 있다. 따라서 탐지부(300)는 학습이 종료되면, 기준치(θ)를 산출하여 저장모듈(12)에 저장한다. 따라서 탐지부(300)는 수학식 2에 따라 복원오차가 미리 산출된 기준치(θ)를 초과하는지 여부를 판단할 수 있다.
S350 단계의 판단 결과, 복원 오차가 기준치(θ)를 초과하면, 탐지부(300)는 S360 단계에서 검사 대상에 이상이 있는 것으로 판정한다. 탐지부(300)가 검사 대상에 이상이 있는 것으로 판정함에 따라, 통지부(400)는 S370 단계에서 탐지된 이상 상태가 알려지도록 오디오부(11)를 통해 경고음을 출력하고, 표시부(13)를 통해 경고 메시지를 출력한다.
본 발명에 따르면, 본 발명은 단일 기기로 소리 혹은 소음이 있는 모든 기기에 사용할 수 있기 때문에 보다 일반적이고 넓은 범위의 사용자에게 적용할 수 있다. 예컨대, 차량 출고 시 ADAS 옵션으로 노면 상태 탐지 기능을 포함하지 못하는 등 신제품에 이상 탐지 기능이 탑재되지 않아도 본 발명의 탐지장치(10)를 추가로 설치할 수 있다. 특히, 본 발명은 이상 탐지 결과를 경고음 또는 연동된 장치에서 안내받을 수 있다.
RNN 기반 방법은 시간 축을 기준으로 순방향 인과성만 반영하지만, 본 발명의 경우, CNN을 기반으로 하기 때문에 역방향 인과성까지 추가로 반영할 수 있다. 더욱이, 무압축 오토인코더(Auto-Encoder) 구조를 가지기 때문에 모델의 경량화가 가능하다. 즉, 시계열 정보 처리능력이 향상되며, 연산 효율성이 증대된다.
제품마다 이상 탐지 기능 옵션을 선택하여 구매하지 않아도 하나의 탐지장치(10)로 복수의 제품에 설치할 수 있다. 더욱이, 도메인 지식이 없는 사용자도 탐지장치(10)를 설치하고 운용할 수 있기 때문에 출장 점검서비스에 소요되는 인력, 비용 절감이 가능하다.
이상에서 설명한 바와 같이, 본 명세서는 다수의 특정한 구현물의 세부사항들을 포함하지만, 이들은 어떠한 발명이나 청구 가능한 것의 범위에 대해서도 제한적인 것으로서 이해되어서는 안 되며, 오히려 특정한 발명의 특정한 실시 형태에 특유할 수 있는 특징들에 대한 설명으로서 이해되어야 한다. 개별적인 실시 형태의 문맥에서 본 명세서에 기술된 특정한 특징들은 단일 실시형태에서 조합하여 구현될 수도 있다. 반대로, 단일 실시 형태의 문맥에서 기술한 다양한 특징들 역시 개별적으로 혹은 어떠한 적절한 하위 조합으로도 복수의 실시형태에서 구현 가능하다. 나아가, 특징들이 특정한 조합으로 동작하고 초기에 그와 같이 청구된 바와 같이 묘사될 수 있지만, 청구된 조합으로부터의 하나 이상의 특징들은 일부 경우에 그 조합으로부터 배제될 수 있으며, 그 청구된 조합은 하위 조합이나 하위 조합의 변형물로 변경될 수 있다.
마찬가지로, 특정한 순서로 도면에서 동작들을 묘사하고 있지만, 이는 바람직한 결과를 얻기 위하여 도시된 그 특정한 순서나 순차적인 순서대로 그러한 동작들을 수행하여야 한다거나 모든 도시된 동작들이 수행되어야 하는 것으로 이해되어서는 안 된다. 특정한 경우, 멀티태스킹과 병렬 프로세싱이 유리할 수 있다. 또한, 상술한 실시 형태의 다양한 시스템 컴포넌트의 분리는 그러한 분리를 모든 실시형태에서 요구하는 것으로 이해되어서는 안되며, 설명한 프로그램 컴포넌트와 시스템들은 일반적으로 단일의 소프트웨어 제품으로 함께 통합되거나 다중 소프트웨어 제품에 패키징 될 수 있다는 점을 이해하여야 한다.
본 명세서에서 설명한 주제의 특정한 실시 형태를 설명하였다. 기타의 실시형태들은 이하의 청구항의 범위 내에 속한다. 예컨대, 청구항에서 인용된 동작들은 상이한 순서로 수행되면서도 여전히 바람직한 결과를 성취할 수 있다. 일 예로서, 첨부 도면에 도시한 프로세스는 바람직한 결과를 얻기 위하여 반드시 그 특정한 도시된 순서나 순차적인 순서를 요구하지 않는다. 특정한 구현 예에서, 멀티태스킹과 병렬 프로세싱이 유리할 수 있다.
본 기술한 설명은 본 발명의 최상의 모드를 제시하고 있으며, 본 발명을 설명하기 위하여, 그리고 당업자가 본 발명을 제작 및 이용할 수 있도록 하기 위한 예를 제공하고 있다. 이렇게 작성된 명세서는 그 제시된 구체적인 용어에 본 발명을 제한하는 것이 아니다. 따라서, 상술한 예를 참조하여 본 발명을 상세하게 설명하였지만, 당업자라면 본 발명의 범위를 벗어나지 않으면서도 본 예들에 대한 개조, 변경 및 변형을 가할 수 있다.
따라서 본 발명의 범위는 설명된 실시 예에 의하여 정할 것이 아니고 특허청구범위에 의해 정하여져야 한다.
본 발명은 무압축 합성곱 신경망 기반 소리 이상 탐지 장치 및 방법에 관한 것으로서, 본 발명은 차원의 축소/확장 없이 입력값으로부터 복원값을 산출할 수 있으며, 이로부터 소음을 발생시키는 검사 대상에 대한 이상 여부를 탐지할 수 있다. 따라서 본 발명은 시판 또는 영업의 가능성이 충분할 뿐만 아니라 현실적으로 명백하게 실시할 수 있는 정도이므로 산업상 이용가능성이 있다.
Claims (10)
- 오디오부가 검사 대상으로부터 소음을 취득하는 단계;데이터처리부가 상기 소음으로부터 복수의 특징 벡터를 포함하는 특징벡터행렬인 입력값을 생성하는 단계;탐지부가 상기 입력값에 대해 학습된 심층신경망인 탐지망을 통해 상기 입력값을 모사하는 복원값을 생성하는 단계;상기 탐지부가 상기 입력값과 상기 복원값의 차이를 나타내는 복원 오차가 기 산출된 기준치를 초과하는지 여부를 판단하는 단계;상기 탐지부가 상기 판단 결과, 상기 복원오차가 상기 기준치 이상이면, 상기 검사 대상에 이상이 있는 것으로 판단하는 단계;를 포함하는 것을 특징으로 하는소리 이상 탐지 방법.
- 제1항에 있어서,상기 복원값을 생성하는 단계는상기 탐지망의 인코더가 상기 입력값으로부터 차원의 축소 없이 잠재값을 산출하는 단계;상기 탐지망의 디코더가 상기 잠재값으로부터 차원의 확장 없이 상기 복원값을 산출하는 단계;를 포함하는 것을 특징으로 하는소리 이상 탐지 방법.
- 제1항에 있어서,상기 검사 대상으로부터 소음을 취득하는 단계 전,학습부가 탐지망을 초기화하는 단계;상기 학습부가 학습용 입력값을 상기 초기화된 탐지망에 입력하는 단계;상기 탐지망의 인코더가 상기 학습용 입력값으로부터 압축되지 않은 잠재값을 산출하는 단계;상기 탐지망의 디코더가 상기 잠재값으로부터 상기 복원값을 산출하는 단계;상기 학습부가 상기 복원값과 학습용 입력값과의 차이인 손실을 산출하는 단계;상기 학습부가 상기 손실이 최소가 되도록 상기 탐지망의 파라미터를 갱신하는 최적화를 수행하는 단계;를 더 포함하는 것을 특징으로 하는소리 이상 탐지 방법.
- 제1항에 있어서,상기 검사 대상으로부터 소음을 취득하는 단계 전,상기 탐지망에 대한 학습이 완료된 후,상기 탐지부가 수학식 θ=μ+(k×σ)에 따라 상기 기준치를 산출하는 단계;를 더 포함하며,상기 μ는 상기 탐지망의 학습에 사용된 복수의 학습용 입력값과 복수의 학습용 입력값에 대응하는 복수의 복원값 간의 평균제곱손실의 평균이고,상기 σ는 상기 복수의 학습용 입력값과 상기 복수의 학습용 입력값에 대응하는 상기 복수의 복원값 간의 평균제곱손실의 표준 편차이고,상기 k는 상기 표준편차에 대한 가중치인 것을 특징으로 하는소리 이상 탐지 방법.
- 제1항에 있어서,상기 입력값을 생성하는 단계는데이터처리부가 상기 소음에 대해 소정 시간 길이를 가지는 슬라이딩 윈도우를 적용하여 복수의 멜분광파형도를 추출하는 단계;상기 데이터처리부가 상기 복수의 멜분광파형도 각각을 시간 평균에 따라 MFCC(Mel-Frequency Cepstral Coefficient)로 압축하여 복수의 특징 벡터를 생성하는 단계; 및상기 데이터처리부가 상기 복수의 특징 벡터를 특징벡터행렬로 결합함으로써 입력값을 생성하는 단계;를 포함하는 것을 특징으로 하는소리 이상 탐지 방법.
- 검사 대상으로부터 소음을 취득하는 오디오부;상기 소음으로부터 복수의 특징 벡터를 포함하는 특징벡터행렬인 입력값을 생성하는 데이터처리부;상기 입력값에 대해 학습된 심층신경망인 탐지망을 통해 상기 입력값을 모사하는 복원값을 생성하고,상기 입력값과 상기 복원값의 차이를 나타내는 복원 오차가 기 산출된 기준치를 초과하는지 여부를 판단하고,상기 판단 결과, 상기 입력값과 상기 복원오차가 상기 기준치 이상이면, 상기 검사 대상에 이상이 있는 것으로 판단하는 탐지부;를 포함하는 것을 특징으로 하는소리 이상 탐지 장치.
- 제6항에 있어서,상기 탐지망은상기 입력값으로부터 차원의 축소 없이 잠재값을 산출하는 인코더; 및상기 잠재값으로부터 차원의 확장 없이 상기 복원값을 산출하는 디코더;를 포함하는 것을 특징으로 하는소리 이상 탐지 장치.
- 제6항에 있어서,상기 탐지망을 초기화하고, 학습용 입력값을 상기 초기화된 탐지망에 입력한 후,상기 탐지망의 인코더가 상기 학습용 입력값으로부터 압축되지 않은 잠재값을 산출하고, 상기 탐지망의 디코더가 상기 잠재값으로부터 상기 복원값을 산출하면,상기 복원값과 학습용 입력값과의 차이인 손실을 산출하고, 상기 손실이 최소가 되도록 상기 탐지망의 파라미터를 갱신하는 최적화를 수행하는 학습부;를 더 포함하는 것을 특징으로 하는소리 이상 탐지 장치.
- 제6항에 있어서,상기 탐지망에 대한 학습이 완료되면,상기 탐지부는수학식 θ=μ+(k×σ)에 따라 상기 기준치를 산출하며,상기 μ는 상기 탐지망의 학습에 사용된 복수의 학습용 입력값과 복수의 학습용 입력값에 대응하는 복수의 복원값 간의 평균제곱손실의 평균이고,상기 σ는 상기 복수의 학습용 입력값과 상기 복수의 학습용 입력값에 대응하는 상기 복수의 복원값 간의 평균제곱손실의 표준 편차이고,상기 k는 상기 표준편차에 대한 가중치인 것을 특징으로 하는소리 이상 탐지 장치.
- 제6항에 있어서,상기 데이터처리부는상기 소음에 대해 소정 시간 길이를 가지는 슬라이딩 윈도우를 적용하여 복수의 멜분광파형도를 추출하고,상기 복수의 멜분광파형도 각각을 시간 평균에 따라 MFCC(Mel-Frequency Cepstral Coefficient)로 압축하여 복수의 특징 벡터를 생성하고,상기 복수의 특징 벡터를 특징벡터행렬로 결합함으로써 입력값을 생성하는 것을 특징으로 하는소리 이상 탐지 장치.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202180093371.7A CN116848382A (zh) | 2021-03-11 | 2021-06-18 | 基于无压缩卷积神经网络的用于声音异常检测的设备和方法 |
US18/350,770 US20230349752A1 (en) | 2021-03-11 | 2023-07-12 | Apparatus and method for sound anomaly detection based on non-compression convolutional neural network |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2021-0032109 | 2021-03-11 | ||
KR1020210032109A KR20220127606A (ko) | 2021-03-11 | 2021-03-11 | 무압축 합성곱 신경망 기반 소리 이상 탐지 장치 및 방법 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
US18/350,770 Continuation US20230349752A1 (en) | 2021-03-11 | 2023-07-12 | Apparatus and method for sound anomaly detection based on non-compression convolutional neural network |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2022191361A1 true WO2022191361A1 (ko) | 2022-09-15 |
Family
ID=83228220
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/KR2021/007661 WO2022191361A1 (ko) | 2021-03-11 | 2021-06-18 | 무압축 합성곱 신경망 기반 소리 이상 탐지 장치 및 방법 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20230349752A1 (ko) |
KR (1) | KR20220127606A (ko) |
CN (1) | CN116848382A (ko) |
WO (1) | WO2022191361A1 (ko) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20240062316A (ko) | 2022-10-31 | 2024-05-09 | (주)아이와즈 | 스마트 하우징에서의 복합 이상 탐지 방법 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8484022B1 (en) * | 2012-07-27 | 2013-07-09 | Google Inc. | Adaptive auto-encoders |
KR20170119353A (ko) * | 2016-04-18 | 2017-10-27 | 주식회사 세화 | 소리분석을 통한 선로전환기의 고장 탐지 식별 시스템 |
KR102027389B1 (ko) * | 2019-03-20 | 2019-10-01 | (주)브이엠에스 | 오토인코더와 딥러닝을 이용한 기계 장비 고장 진단 장치 |
KR20200109904A (ko) * | 2019-03-15 | 2020-09-23 | (주)인시그널 | Dnn 기반 이미지 또는 비디오 코딩을 위한 시스템 및 방법 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102094712B1 (ko) | 2018-06-07 | 2020-03-30 | 고려대학교 세종산학협력단 | 소리 정보를 이용한 전력용 변압기의 이상 상황 탐지 |
-
2021
- 2021-03-11 KR KR1020210032109A patent/KR20220127606A/ko active Search and Examination
- 2021-06-18 CN CN202180093371.7A patent/CN116848382A/zh active Pending
- 2021-06-18 WO PCT/KR2021/007661 patent/WO2022191361A1/ko active Application Filing
-
2023
- 2023-07-12 US US18/350,770 patent/US20230349752A1/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8484022B1 (en) * | 2012-07-27 | 2013-07-09 | Google Inc. | Adaptive auto-encoders |
KR20170119353A (ko) * | 2016-04-18 | 2017-10-27 | 주식회사 세화 | 소리분석을 통한 선로전환기의 고장 탐지 식별 시스템 |
KR20200109904A (ko) * | 2019-03-15 | 2020-09-23 | (주)인시그널 | Dnn 기반 이미지 또는 비디오 코딩을 위한 시스템 및 방법 |
KR102027389B1 (ko) * | 2019-03-20 | 2019-10-01 | (주)브이엠에스 | 오토인코더와 딥러닝을 이용한 기계 장비 고장 진단 장치 |
Non-Patent Citations (1)
Title |
---|
SON JUNE-HYOUNG, JANG JUN-GUN, CHOI BONGWAN, KIM KYEONGTAEK: "Detection of Abnormal Vessel Trajectories with Convolutional Autoencoder", JOURNAL OF SOCIETY OF KOREA INDUSTRIAL AND SYSTEMS ENGINEERING, vol. 43, no. 4, 30 December 2020 (2020-12-30), pages 190 - 197, XP055966827, ISSN: 2005-0461, DOI: 10.11627/jkise.2020.43.4.190 * |
Also Published As
Publication number | Publication date |
---|---|
US20230349752A1 (en) | 2023-11-02 |
CN116848382A (zh) | 2023-10-03 |
KR20220127606A (ko) | 2022-09-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2022203127A1 (ko) | 객체 이상 탐지 및 상태 분류 모델의 지속적인 학습을 위한 방법 및 이를 위한 장치 | |
US11978239B2 (en) | Target detection method and apparatus, model training method and apparatus, device, and storage medium | |
US11715284B2 (en) | Anomaly detection apparatus, anomaly detection method, and program | |
WO2019216732A1 (ko) | 전자 장치 및 이의 제어 방법 | |
JP2008113442A (ja) | マルチチャネルセンサ信号ストリームにおけるイベント検出 | |
WO2022191361A1 (ko) | 무압축 합성곱 신경망 기반 소리 이상 탐지 장치 및 방법 | |
WO2024136131A1 (ko) | 태양광 발전 이상 탐지 방법 및 장치 | |
WO2023106890A1 (ko) | 전자 장치 및 그 제어 방법 | |
WO2020246655A1 (ko) | 상황 인지 방법 및 이를 수행하는 장치 | |
WO2023101417A1 (ko) | 딥러닝 기반의 강수량 예측 방법 | |
CN113723185A (zh) | 动作行为识别方法、装置、存储介质及终端设备 | |
KR102636586B1 (ko) | 자율 주행 차량의 주행 테스트 제어 장치 및 방법 | |
WO2022139327A1 (en) | Method and apparatus for detecting unsupported utterances in natural language understanding | |
CN117726862A (zh) | 应用于工业检测的模型训练方法、装置及存储介质 | |
WO2022131479A1 (ko) | 병변 판독 방법 | |
WO2021230470A1 (ko) | 전자 장치 및 그 제어 방법 | |
WO2022131476A1 (ko) | 인공지능 모델을 변환하는 전자 장치 및 그 동작 방법 | |
WO2023058969A1 (en) | Machine learning model compression using weighted low-rank factorization | |
WO2022039494A1 (ko) | 단말의 모델을 갱신하는 서버 및 그 동작 방법 | |
WO2022191366A1 (ko) | 전자 장치 및 그 제어 방법 | |
CN114238968A (zh) | 应用程序检测方法及装置、存储介质及电子设备 | |
WO2023177063A1 (ko) | 사운드를 인식하는 전자 장치 및 그 방법 | |
WO2023200114A1 (ko) | 오픈 소스 라이선스를 검증하는 전자 장치 및 방법 | |
WO2023182796A1 (ko) | 제품 이미지를 기반으로 불량 제품을 감지하는 인공 지능 장치 및 그 방법 | |
WO2024135967A1 (en) | Apparatus and method for performing collision analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 21930461 Country of ref document: EP Kind code of ref document: A1 |
|
WWE | Wipo information: entry into national phase |
Ref document number: 202180093371.7 Country of ref document: CN |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 21930461 Country of ref document: EP Kind code of ref document: A1 |