WO2021075709A1 - 잡음 환경에 강인한 동물 종 식별 장치 및 방법 - Google Patents

잡음 환경에 강인한 동물 종 식별 장치 및 방법 Download PDF

Info

Publication number
WO2021075709A1
WO2021075709A1 PCT/KR2020/011673 KR2020011673W WO2021075709A1 WO 2021075709 A1 WO2021075709 A1 WO 2021075709A1 KR 2020011673 W KR2020011673 W KR 2020011673W WO 2021075709 A1 WO2021075709 A1 WO 2021075709A1
Authority
WO
WIPO (PCT)
Prior art keywords
animal
feature
unit
signal
acoustic
Prior art date
Application number
PCT/KR2020/011673
Other languages
English (en)
French (fr)
Inventor
고한석
이영로
김동현
박충호
김정민
고경득
Original Assignee
고려대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 고려대학교 산학협력단 filed Critical 고려대학교 산학협력단
Publication of WO2021075709A1 publication Critical patent/WO2021075709A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Definitions

  • the present invention relates to an animal species identification device, and more particularly, a noisy environment capable of identifying an animal species by detecting an animal cries section based on the cries of animal species despite various noises, and learning enhanced acoustic characteristics. It relates to an apparatus and method for identifying animal species that are robust to.
  • the activity of investigating species is essential for preserving the diversity of organisms living in the area and maintaining the ecosystem.
  • Patent Document 1 Korean Patent Application Publication No. 10-2014-0122881
  • the present invention detects an animal cry section based on the cry sounds of animal species, estimates noise based on the section in which animal cry sounds do not exist, and removes noise from the received sound. It is an object of the present invention to provide an apparatus and method for identifying animal species robust to a noisy environment capable of identifying animal species by learning acoustic features enhanced even in various noises.
  • an object of the present invention is to provide development of an artificial intelligence-based algorithm and system that is robust to noise that can produce good classification performance even if it is an acoustic signal related to identification of animal species acquired in an environment where a lot of noise occurs.
  • a one-dimensional sound signal which is an acoustic signal of an animal cry
  • a log-mel spectrogram which is a two-dimensional sound feature having a frequency axis and a time axis
  • An animal cry section detection unit that detects a section in which the animal cry is present through section detection
  • the section in which the detected animal cry is present is received as input data, the received input data is estimated using a neural network-based feature extraction method, and the estimated noise signal is subtracted from the input data.
  • a feature enhancement unit that enhances characteristics of an acoustic signal by removing unnecessary signal components;
  • the characteristics of the enhanced sound signal are calculated using a classification algorithm consisting of a convolutional layer and a fully connected layer (FCL) to calculate the number of labels in the output layer, and from the calculated result. It characterized in that it includes an animal species identification unit that derives the label with the highest score as a final result.
  • FCL fully connected layer
  • the animal crying section detection unit calculates a specific section of the sound signal sampled at a specific frequency through STFT (Short Time Fourier Transform) transformation of the one-dimensional sound signal, and calculates a specific section of the calculated sound signal with a mel filter bank ( Mel Filter Bank), and then performs logarithmic operation to convert into a log-mel spectrogram, which is the two-dimensional acoustic feature, and further comprises an acoustic feature extractor for selecting neighboring acoustic feature vectors. .
  • STFT Short Time Fourier Transform
  • the animal cry section detection unit receives the acoustic feature vectors from the acoustic feature extraction unit and performs a convolution operation using a convolutional layer, which is 32 1 ⁇ 1 filters in the direction of the frequency axis.
  • a diated convolution operation is performed with a convolution layer that is a size of 64 5 ⁇ 1 filters
  • a convolution operation is performed with a convolution layer that is a size of 32 1 ⁇ 1 filters for residual connection to extract features. It characterized in that it further comprises a convolution operation unit.
  • the animal crying section detection unit applies a sigmoid function having a value between 0 and 1 to the convolution operation result received from the convolution operation unit to extract an acoustic feature with an improved animal crying frequency band. It characterized in that it further comprises an acoustic feature improvement unit.
  • a one-dimensional sound signal which is an acoustic signal of an animal cry
  • a log-mel spectrogram which is a two-dimensional sound feature having a frequency axis and a time axis
  • the section in which the detected animal cry is present is received as input data, the received input data is estimated using a neural network-based feature extraction method, and the estimated noise signal is subtracted from the input data. Removing unnecessary signal components to enhance characteristics of the acoustic signal; And
  • the characteristics of the enhanced sound signal are calculated using a classification algorithm consisting of a convolutional layer and a fully connected layer (FCL) to calculate the number of labels in the output layer, and from the calculated result. It characterized by including the step of deriving the label with the highest score as a final result.
  • FCL fully connected layer
  • the present invention has the effect of grasping an accurate ecosystem environment through the species identification performance even if a signal obtained in a noisy environment is applied by applying a species identification algorithm and system that is robust to a noisy environment.
  • the present invention has an effect of providing improved performance in any noisy environment by applying to an algorithm and system using voice data as well as identification of species.
  • the present invention can grasp the unique characteristics of living organisms in a corresponding region based on accurate ecosystem environment information from collected data, and there is an effect of conserving living organisms through environmental improvement and maintenance.
  • FIG. 1 is a block diagram showing the configuration of an animal species identification device that is robust to a noisy environment according to an embodiment of the present invention.
  • FIG. 2 is a block diagram schematically showing the internal configuration of an animal cry section detection unit according to an embodiment of the present invention.
  • FIG. 3 is a diagram illustrating a feature reinforcement process performed in a feature reinforcement unit according to an embodiment of the present invention.
  • FIG. 4 is a diagram illustrating a process of detecting a noise component according to an embodiment of the present invention.
  • FIG. 5 is a diagram illustrating a domain adaptation process according to an embodiment of the present invention.
  • FIG. 6 is a diagram showing a CNN structure diagram for recognizing an enhanced acoustic signal characteristic according to an embodiment of the present invention.
  • FIG. 1 is a block diagram showing the configuration of an animal species identification device that is robust to a noisy environment according to an embodiment of the present invention
  • FIG. 2 is a block diagram schematically showing the internal configuration of an animal cry section detection unit according to an embodiment of the present invention
  • 3 is a diagram showing a feature enhancement process performed in a feature enhancement unit according to an embodiment of the present invention
  • FIG. 4 is a diagram showing a noise component detection process according to an embodiment of the present invention
  • FIG. 6 is a diagram showing a CNN structure diagram for recognizing an enhanced acoustic signal characteristic according to an embodiment of the present invention.
  • An animal species identification apparatus 100 that is robust to a noisy environment according to an embodiment of the present invention includes a preprocessor 110 that detects an animal cry section and a classifier 120 that detects noise components and performs domain adaptation.
  • the animal species identification device 100 detects an animal crying section from the received sound based on the crying sound of the animal species, and removes noise from the received sound by estimating the noise based on the section in which the animal crying sound does not exist. Then, it is possible to identify the animal species by learning the acoustic features enhanced even with various noises.
  • the preprocessor 110 is a task performed before classifying sounds, and includes sound feature extraction, sound section detection, and noise removal.
  • the preprocessor 110 performs a function of detecting a section of an animal crying sound, and includes an acoustic signal input unit 111, an animal crying section detection unit 112, and a sound quality improvement unit 113.
  • the animal crying section detection unit 112 applies a Neural Attentive Voice Activity Detection (NAVAD) algorithm to detect a section in which the animal crying sound exists in the input sound signal.
  • NAVAD Neural Attentive Voice Activity Detection
  • the animal crying section detection unit 112 includes an acoustic feature extraction unit 112a, a convolution operation unit 112b, an acoustic feature improvement unit 112c, an attention module unit 112d, and a final probability calculation unit 112e,
  • This configuration module can be seen as a structural diagram of the NAVAD algorithm.
  • the acoustic signal input unit 111 receives an acoustic signal of the crying sound of an animal to be detected.
  • the acoustic feature extraction unit 112a is a process of converting a one-dimensional acoustic signal into a log-mel spectrogram, which is a two-dimensional acoustic feature having a frequency axis and a time axis.
  • the acoustic feature extraction unit 112a receives a 1D sound signal from the sound signal input unit 111, and passes the 1D sound signal through the STFT (Short Time Fourier Transform) transformation and the Mel Filter Bank. After that, logarithmic operation is performed to convert it into a log-mel spectrogram, which is a two-dimensional acoustic feature.
  • STFT Short Time Fourier Transform
  • the acoustic feature extraction unit 112a includes an STFT conversion module and a mel filter bank unit.
  • the STFT conversion module may analyze the frequency of the sound signal after subdividing the sound signal using a window having a predetermined length.
  • the mel filter bank unit may extract a feature value of an input sound signal by a Mel Frequency Cepstral Coefficient (MFCC) method using the frequency analyzed by the STFT conversion module.
  • MFCC Mel Frequency Cepstral Coefficient
  • the acoustic feature extracting unit 112a converts into a log-mel spectrogram, which is a two-dimensional acoustic feature, and then selects seven neighboring acoustic feature vectors and transmits it to the convolution operation unit 112b.
  • the acoustic feature extraction unit 112a calculates a specific section of the sound signal sampled at a specific frequency through STFT transformation, and passes the specific section of the calculated sound signal through a Mel Filter Bank to obtain a specific frequency.
  • the mel filter bank value of the band is obtained, and a logarithmic operation is performed on the obtained mel filter bank value to convert it into a log-mel spectrogram, which is a two-dimensional acoustic characteristic.
  • the convolution operation unit 112b performs a function of extracting a feature of the input data through a convolution operation with a filter, which is a collection of input data and weights.
  • the convolution operation unit 112b receives 7 acoustic feature vectors, i.e., a convolutional layer, which is 32 1 ⁇ 1 filters in the frequency axis direction, to the input acoustic feature as shown in Equation 1 below. After performing a convolution operation, a nonlinear activation function, ReLU (Recified Linear Unit), is applied.
  • ReLU Recified Linear Unit
  • Is the ith acoustic feature vector Is the j-th filter with a size of 1 ⁇ 1
  • Is the ith input And jth filter This is the result of the convolution operation of.
  • the convolution operation unit 112b performs a diated convolution operation with a convolution layer, which is 64 5 ⁇ 1 filters, and again 32 1 ⁇ 1 filters for residual connection with the previously extracted features. Convolution operation is performed with the convolution layer. After each convolution operation, a nonlinear activation function ReLU is applied.
  • Equation 2 The convolution operation is shown in Equation 2 below.
  • Equation 3 In order to match the dimensions of the input and output used in the network, a convolution operation is finally performed as shown in Equation 3 below with a 1 ⁇ 1 filter.
  • the acoustic feature improvement unit 112c applies a sigmoid function having a value between 0 and 1 to the convolution operation result received from the convolution operation unit 112b, thereby improving the acoustic characteristics of the animal crying frequency band.
  • the sigmoid function is an activation function that normalizes the input to an output value between 0 and 1.
  • the acoustic feature improving unit 112c is the extracted improved acoustic feature Is input into the attention module unit 112d.
  • the attention module unit 112d is a technique for finding various acoustic events using a pattern recognition technique for an acoustic signal, and is composed of a long short-term memory (LSTM) and an attention layer of a recurrent neural network (RNN) model.
  • LSTM long short-term memory
  • RNN recurrent neural network
  • the pattern recognition technique is a prediction method using an artificial neural network, and when the result value of the output layer is predicted from the input layer, the input value can be predicted from the result values in the learning process. Since the artificial neural network does not have a one-to-one correspondence between the input and output values, it is impossible to restore the input layer as it is, but the output data calculated from the result value by the Backpropagation (Backpropa) algorithm in consideration of the prediction algorithm. If is different from the original input data, the prediction of the artificial neural network can be considered to be inaccurate. Therefore, training is trained by changing the prediction coefficients so that the output data calculated under the constraints become similar to the first input data.
  • Backpropagation Backpropa
  • a deep neural network refers to a neural network composed of several layers among neural network algorithms.
  • One layer is composed of several nodes, and the actual operation is performed at the node, and this operation process is designed to mimic the process occurring in the neurons constituting the human neural network.
  • a typical artificial neural network is divided into an input layer, a hidden layer, and an output layer, and the input data becomes the input of the input layer, the output of the input layer becomes the input of the hidden layer, and the output of the hidden layer. Becomes the input of the output layer, and the output of the output layer becomes the final output.
  • the attention module unit 112d uses a prediction deep neural network that receives input data from an input layer and outputs a prediction value to a buffer of the output layer.
  • the structure or shape of the prediction deep neural network is not limited, and a representative method is a deep neural network (DNN). ), CNN (Convolutional Neural Network), RNN (Recurrent Neural Network), etc., and a deep neural network of various structures can be constructed by constructing a predictive deep neural network with a combination of each neural network.
  • the attention module unit 112d of the present invention uses an RNN as a structure of a predictive deep neural network.
  • the 40th order (T ⁇ 40) log mel filter bank value of the T frame is used as an input, and the overall structure is 3 GRU (Gated Recurrent Unit) layers with 256 units and 4 FNNs, and finally It consists of an output layer with a sigmoid function.
  • GRU Gate Recurrent Unit
  • the feature of the 40th log mel filter bank value is a combination of five consecutive frames to form a 200-dimensional feature vector, which is used as an input of the FNN.
  • the two hidden layers consist of 1600 units each having a Relu activation function.
  • the output layer has as many units as the number of acoustic event classes to be classified, and each unit uses a Sigmoid activation function.
  • the output value of the sigmoid activation function is regarded as the posterior probability for each class, and is binarized by comparing it with a reference value of 0.5, and then used to calculate the accuracy of the FNN by comparing it with the Ground Truth Table.
  • the RNN model is a neural network structure that processes sequential data such as speech and sentences.
  • the state which can be referred to as the memory of the RNN, is repeatedly updated whenever input data is received, and contains information that summarizes the input data from the beginning to the current time t.
  • the state of the RNN becomes information that summarizes the entire input data.
  • the result value and the state value of t are calculated from the input data at t and the state value of t-1.
  • RNN uses the Back-Propagation-based gradient descent method to minimize the cost function and finds the optimal variable value.
  • LSTM refers to a type of RNN method that predicts a result value using forgetting gates instead of RNN weights.
  • RNN method In the prediction of time-series input data, when processing data sequentially, when processing past data using the RNN method, in the case of old data, it is reduced according to the weight, and when it exceeds a certain level, the value becomes 0 and the weight and Regardless, there is a problem that is no longer reflected.
  • the attention module unit 112d determines which of the seven neighboring acoustic features has animal crying according to Equation 5 below. Attention) information is calculated as a probability.
  • the attention module unit 112d includes attention information calculated through Equation (5) and improved acoustic characteristics.
  • One vector is calculated by performing a weighted average calculation (Equation 6).
  • the attention module unit 112d transmits the calculated one vector c to the final probability calculation unit 112e.
  • a neural network structure that processes sequential data like an RNN has a disadvantage in that initially stored information disappears as time increases. To compensate for this, the attention algorithm is used.
  • the attention algorithm processes sequential input data with an RNN and outputs the state vector h at all times. At this time, the vector of all times is not referenced at the same rate, but attention is given at a specific time to derive the final result.
  • the final probability calculation unit 112e inputs the attention information calculated by the attention module unit 112d into two fully connected layers (FCL) having one output node and a Sigmoid activation function, and finally the corresponding section. We derive the probability that an animal cry exists in (Equation 7).
  • Equation 1 to 7 The same operation as in Equations 1 to 7 is performed on all sections of the input sound signal.
  • the noise removal step is applied to the part where the animal crying sound does not exist
  • the feature enhancement step is applied to the part where the animal crying sound is present.
  • the sound quality improving unit 113 receives the sound signal in which the animal crying section is detected from the animal crying section detection unit 112, and improves the quality of the sound signal by removing the noise signal from the received sound signal.
  • the variance of the noise is updated whenever there is no animal cry to estimate the posterior signal to noise ratio (SNR) and the prior signal to noise ratio (SNR).
  • the noise reduction technique can be expressed as a spectral gain according to the signal-to-noise ratio. Accordingly, the sound quality improvement unit 113 receives the sound signal in which the animal cry section is detected from the animal cry section detection unit 112, and the post SNR by Equation 8 and Equation 9 below from the received sound signal. And pre-calculate SNR.
  • Post SNR Is the noise-to-noise ratio
  • pre-SNR Is the noise-free signal-to-noise ratio
  • Is the posterior SNR calculated from the kth frequency component Is the k-th frequency power spectrum of the acoustic signal, Is the k-th frequency power spectrum of the noise signal, Is the pre-SNR estimated at the kth frequency component, Represents the prior SNR estimated at the previous time.
  • the initial prior SNR value is initialized to zero.
  • the sound quality improving unit 113 calculates a spectral gain by substituting the pre-SNR estimated using Equation 8 and Equation 9 into the gain function of Equation 10 below, and has a value between 0 and 1, and input Each frequency component of the acoustic signal is directly multiplied.
  • the sound quality improving unit 113 uses the gain function Gaink as the k-th frequency power spectrum of the noisy sound signal.
  • Gaink The k-th frequency power spectrum of the acoustic signal from which noise is removed by multiplying by directly Is calculated.
  • the sound quality improvement unit 113 receives the sound signal in which the animal cry section is detected from the animal cry section detection unit 112, and multiplies each frequency component of the received sound signal by a spectrum gain, the noise signal Can be removed.
  • the sound quality improving unit 113 cuts a section in which an animal cry from which the noise signal is removed is present and transmits it to the feature enhancement unit 121.
  • the classifier 120 includes a feature enhancement unit 121 and an animal species identification unit 122.
  • the feature enhancement unit 121 receives an input spectrogram in which an animal cry exists from the sound quality improvement unit 113, estimates a noise signal through a neural network-based feature extraction method, and estimates the input data.
  • the noise signal estimated in is subtracted to remove unnecessary components to enhance the characteristics of the acoustic signal.
  • Spectrogram is for visualizing and grasping sound or wave, and it combines the characteristics of waveform and spectrum. In the waveform, you can see the change in the amplitude axis according to the change in the time axis, and in the spectrum, you can see the change in the amplitude axis according to the change in the frequency axis.
  • the spectrogram represents the difference in amplitude according to the change in the time axis and the frequency axis as the difference in print density and display color.
  • the feature enhancement unit 121 processes the negative part as 0 through the nonlinear activation function ReLU, and adjusts the range of the feature to 0 to 1 through a normalization process. This is to maintain the Positive Definition and prevent loss of features due to subtraction operations.
  • the feature reinforcement unit 121 is a process of learning so that the neural network is robust against changes in domains such as noise and recording locations using RNN-LSTM and Auto Encoder algorithms.
  • learning of the feature reinforcement network is learned in an end-to-end manner simultaneously with the classifier 120.
  • the feature enhancement unit 121 is energy-based based on noise component detection (FIG. 4).
  • the feature enhancement part 121 is In the input spectrogram having dimensions, the amount of energy between the feature elements is learned, and components that are unnecessary for learning while the energy is relatively small are removed.
  • the feature enhancement unit 121 is achieved through dimensional reduction and expansion, and extracts low-dimensional features for each axis of the input spectrogram using RNN-LSTM.
  • the frequency axis It has a dimension and satisfies the condition of N> K.
  • the frequency axis is It has a dimension and satisfies the condition of M> K.
  • the feature enhancement unit 121 expresses each feature element in the range of -1 to 1 using Equation 12, which is a hyperbolic tangent function (Tanh), and a nonlinear activation function (Rectifued Linear Unit, RELU). Negative values are made 0 through Equation 13. Through this process, the LSTM output vector for each axis always has a probability value in the range of 0 to 1.
  • the feature enhancement unit 121 calculates an enhanced spectrogram obtained by dividing a noise component and a non-noise component using Equation 14 below for the two features obtained through the RNN-LSTM. .
  • V 1 , V 2 , and X represent the frequency axis LSTM output vector, time axis LSTM output vector, and input data, respectively.
  • Equation 12 Represents the vector cross product and component-wise multiplication, respectively.
  • I a function to which Equation 12 and Equation 13 are continuously applied.
  • each LSTM output vector Since the dimensional matrix gives weights ranging from 0 to 1 to the constituent elements of the input spectrogram, it plays a role of detecting unnecessary components for learning.
  • the feature enhancement unit 121 After performing the noise component detection, the feature enhancement unit 121 performs domain adaptation.
  • a bottleneck structure based on a convolutional neural network (CNN) as shown in FIG. Domain adaptation is performed by applying an Auto Encoder algorithm.
  • the Auto Encoder algorithm In the case of a general CNN-based auto encoder algorithm, it transforms input data into a domain suitable for subtraction operations.
  • the Auto Encoder algorithm is an algorithm that compresses high-dimensional input data into a low dimensionality and then restores the original data back to the original data.
  • input data In the encoding step, input data is compressed.
  • important features of the input data are extracted through a neural network.
  • features compressed in the encoding step are received and restored to initial input data, and noise is removed in this process so that only desired input data information can be viewed.
  • CNN repeatedly performs convolution and polling operations on input data, preserves the characteristics of the input data, and reduces the size of the data while reducing the number of variable values to be learned. Layers that perform each operation are represented by a convolutional layer and a polling layer.
  • the convolutional layer performs convolutional association with a 2D filter of a fixed size on the 2D input.
  • the polling layer reduces the dimension by using the result of the convolutional layer as an input and selecting a maximum value within the neighboring area.
  • the feature enhancement unit 121 configures four encoder layers and two decoder layers to perform domain adaptation.
  • features are extracted while reducing the output size and dimension through a convolutional layer of a certain size, and the output size is increased by increasing the dimension of the output size through a convolutional layer of a constant size in the decoder layer. Do the same as.
  • the feature enhancement unit 121 performs a maximum pooling layer, a batch normalization that is a normalization operation, and a RELU function that is an activation function whenever the encoder layer that has performed the convolution operation is turned off.
  • the maximum polling layer refers to a process of resizing a size after performing a convolution operation in a convolution layer.
  • Batch normalization is placed in front of the activation function, which can be learned through back propagation.
  • the feature enhancement unit 121 performs a batch normalization (a normalization operation) and a RELU function (a activation function) whenever the decoder layer on which the convolution operation has been performed is turned off.
  • the feature enhancement unit 121 removes unnecessary components by subtracting the noise feature resulting from domain adaptation from the input spectrogram, and then applies a Recified Linear Unit (ReLU), which is a nonlinear activation function, and applies min in the range of 0 to 1
  • ReLU Recified Linear Unit
  • the animal species identification unit 122 is composed of a CNN-based classification algorithm and a fully connected network (FCN), and finally derives a final result through a Softmax function.
  • the animal species identification unit 122 is composed of five convolutional layers and two fully connected layers (FCL).
  • the animal species identification unit 122 performs a convolution operation on the first, second, and last convolution layers, and then performs max pooling.
  • Animal species identification unit 122 when a feature of the enhanced sound signal is input from the feature enhancement unit 121, performs a convolution operation in the convolution layer, performs a convolution operation in the last convolution layer, and then FCN Is connected to and yields as many results as the number of labels in the output layer.
  • the animal species identification unit 122 displays the calculated result as a score through the Softmax function of Equation 15 below, and finally determines the label with the highest score as the final result (S (yi)).
  • animal species identification device 110 pretreatment unit
  • 112a acoustic feature extraction unit 112b: convolution operation unit
  • 112c acoustic feature improvement unit 112d: attention module unit
  • 112e final probability calculation unit 113: sound quality improvement unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Image Analysis (AREA)

Abstract

잡음 환경에 강인한 동물 종 식별 장치 및 방법은 동물 종들의 울음소리에 기초하여 동물 울음소리 구간을 검출하고, 동물 울음소리가 존재하지 않는 구간을 바탕으로 잡음을 추정하여 수신된 소리에서 잡음을 제거한 후, 다양한 잡음에도 강화된 음향 특징을 학습하여 동물 종을 식별할 수 있다. [대표도] 도 1

Description

잡음 환경에 강인한 동물 종 식별 장치 및 방법
본 발명은 동물 종 식별 장치에 관한 것으로서, 더욱 상세하게는 다양한 잡음에도 동물 종들의 울음소리에 기초하여 동물 울음소리 구간을 검출하고, 강화된 음향 특징을 학습하여 동물 종을 식별할 수 있는 잡음 환경에 강인한 동물 종 식별 장치 및 방법에 관한 것이다.
현재까지 환경 음원의 자동 분류에 관한 연구는 여러 해 동안 꾸준히 진행되어 왔다. 음원에 대한 자동 분류는 직접적 또는 간접적으로 음성 인식, 패턴 인식, 상황 감지 또는 상황 인식 등의 다양한 분야에 적용될 수 있기 때문에 그 중요성이 더 커져가고 있다.
공공 사업과 같은 철도, 전기, 가스, 수도 사업 등은 대규모 사업으로 자연 환경에 미치는 영향이 크기 때문에 환경 영향 평가를 시행하여 지역 환경에 미칠 수 있는 부정적인 요소를 미리 파악 및 분석하여 최소한의 피해를 줄 수 있는 수단을 취해야 한다.
환경 영향 평가에서 생물 종을 조사하는 활동은 해당 지역에 서식하는 생물들의 다양성을 보전하고 생태계를 유지하는데 필수적으로 필요한 활동이다.
생물 종을 식별하기 위해서는 실제로 생물을 채집하거나 생물의 울음소리를 듣고 분별할 수 있지만, 사람이 특정 지역 내의 모든 생물 종을 직접 분별하는 것이 불가능하다.
실외 환경은 실내 환경에서 생물의 울음소리 정보를 수집하는 것과 다르게 잡음이 많은 환경이기 때문에 생물의 울음소리만을 습득하는 것이 어려운 일이다.
[선행기술문헌]
[특허문헌]
(특허문헌 1) 한국 공개특허번호 제10-2014-0122881호
이와 같은 문제점을 해결하기 위하여, 본 발명은 동물 종들의 울음소리에 기초하여 동물 울음소리 구간을 검출하고, 동물 울음소리가 존재하지 않는 구간을 바탕으로 잡음을 추정하여 수신된 소리에서 잡음을 제거한 후, 다양한 잡음에도 강화된 음향 특징을 학습하여 동물 종을 식별할 수 있는 잡음 환경에 강인한 동물 종 식별 장치 및 방법을 제공하는 것을 목적으로 한다.
또한, 본 발명은 다양한 잡음이 많이 발생하는 환경에서 획득된 동물 종 식별 관련 음향 신호이더라도 좋은 분류 성능을 낼 수 있는 잡음에 강인한 인공지능 기반 알고리즘과 시스템에 개발을 제공하는 것을 목적으로 한다.
상기 목적을 달성하기 위한 본 발명의 특징에 따른 잡음 환경에 강인한 동물 종 식별 장치는,
동물 울음소리의 음향 신호인 1차원 음향 신호를 입력받고, 상기 1차원 음향 신호를 주파수 축과 시간 축을 가지는 2차원 음향 특징인 log-mel 스펙트로그램으로 변환하며, 상기 변환된 2차원 음향 특징을 소리 구간 검출을 통해 상기 동물 울음소리가 존재하는 구간을 검출하는 동물 울음소리 구간 검출부;
상기 검출한 동물 울음소리가 존재하는 구간을 입력 데이터로 수신하고, 상기 수신한 입력 데이터를 신경망 기반 특징 추출 방법을 이용하여 잡음 신호를 추정하며, 상기 입력 데이터에서 상기 추정한 잡음 신호를 뺄셈 연산으로 불필요한 신호 성분을 제거하여 음향 신호의 특징을 강화하는 특징 강화부; 및
상기 강화된 음향 신호의 특징을 컨볼루션 레이어(Convolutional Layer)와 완전 연결 레이어(Fully Connected Layer, FCL)로 이루어진 분류 알고리즘을 이용하여 출력 레이어에서 레이블 수만큼의 결과를 산출하고, 상기 산출한 결과에서 가장 높은 점수를 가진 레이블을 최종 결과로 도출하는 동물 종 식별부를 포함하는 것을 특징으로 한다.
상기 동물 울음소리 구간 검출부는 상기 1차원 음향 신호를 STFT(Short Time Fourier Transform) 변환을 통해 특정 주파수로 샘플링된 음향 신호의 특정 구간을 계산하고, 상기 계산한 음향 신호의 특정 구간을 멜 필터 뱅크(Mel Filter Bank)를 통과시킨 후, 로그 연산을 수행하여 상기 2차원 음향 특징인 log-mel 스펙트로그램으로 변환하며, 이 중 이웃한 음향 특징 벡터들을 선택하는 음향 특징 추출부를 더 포함하는 것을 특징으로 한다.
상기 동물 울음소리 구간 검출부는 상기 음향 특징 추출부로부터 상기 음향 특징 벡터들을 입력받아 주파수 축 방향으로 32개의 1×1 크기의 필터인 컨볼루션 레이어(Convolutional Layer)로 컨볼루션(Convolution) 연산을 수행하고, 64개의 5×1 크기의 필터인 컨볼루션 레이어로 diated 컨볼루션 연산을 수행하며, residual connection을 위해 다시 32개의 1×1 크기의 필터인 컨볼루션 레이어로 컨볼루션 연산을 수행하여 특징을 추출하는 컨볼루션 연산부를 더 포함하는 것을 특징으로 한다.
상기 동물 울음소리 구간 검출부는 상기 컨볼루션 연산부로부터 수신한 컨볼루션 연산 결과에 0에서 1 사이의 값을 갖는 시그모이드(Sigmoid) 함수를 적용하여 동물 울음소리 주파수 대역이 개선된 음향 특징이 추출하는 음향 특징 개선부를 더 포함하는 것을 특징으로 한다.
본 발명의 특징에 따른 잡음 환경에 강인한 동물 종 식별 방법은,
동물 울음소리의 음향 신호인 1차원 음향 신호를 입력받고, 상기 1차원 음향 신호를 주파수 축과 시간 축을 가지는 2차원 음향 특징인 log-mel 스펙트로그램으로 변환하며, 상기 변환된 2차원 음향 특징을 소리 구간 검출을 통해 상기 동물 울음소리가 존재하는 구간을 검출하는 단계;
상기 검출한 동물 울음소리가 존재하는 구간을 입력 데이터로 수신하고, 상기 수신한 입력 데이터를 신경망 기반 특징 추출 방법을 이용하여 잡음 신호를 추정하며, 상기 입력 데이터에서 상기 추정한 잡음 신호를 뺄셈 연산으로 불필요한 신호 성분을 제거하여 음향 신호의 특징을 강화하는 단계; 및
상기 강화된 음향 신호의 특징을 컨볼루션 레이어(Convolutional Layer)와 완전 연결 레이어(Fully Connected Layer, FCL)로 이루어진 분류 알고리즘을 이용하여 출력 레이어에서 레이블 수만큼의 결과를 산출하고, 상기 산출한 결과에서 가장 높은 점수를 가진 레이블을 최종 결과로 도출하는 단계를 포함하는 것을 특징으로 한다.
전술한 구성에 의하여, 본 발명은 잡음 환경에 강인한 종 식별 알고리즘 및 시스템을 적용하면 잡음이 많은 환경에서 얻은 신호이더라도 생물 종 식별 성능을 통해 정확한 생태계 환경을 파악할 수 있는 효과가 있다.
본 발명은 생물 종 식별 뿐만 아니라 음성 데이터를 활용한 알고리즘 및 시스템에 적용하여 어떠한 잡음 환경에서도 개선된 성능을 낼 수 있는 효과가 있다.
본 발명은 수집된 데이터들로부터 정확한 생태계 환경 정보를 바탕으로 해당 지역의 생물들의 고유 특성을 파악할 수 있으며, 환경 개선 및 유지를 통한 생물들을 보전할 수 있는 효과가 있다.
도 1은 본 발명의 실시예에 따른 잡음 환경에 강인한 동물 종 식별 장치의 구성을 나타낸 블록도이다.
도 2는 본 발명의 실시예에 따른 동물 울음소리 구간 검출부의 내부 구성을 간략하게 나타낸 블록도이다.
도 3은 본 발명의 실시예에 따른 특징 강화부에서 이루어지는 특징 강화 과정을 나타낸 도면이다.
도 4는 본 발명의 실시예에 따른 잡음 성분 검출 과정을 나타낸 도면이다.
도 5는 본 발명의 실시예에 따른 도메인 적응 과정을 나타낸 도면이다.
도 6은 본 발명의 실시예에 따른 강화된 음향 신호 특징을 인식하기 위한 CNN 구조도를 나타낸 도면이다.
이하 도면을 참조하여 본 발명의 바람직한 실시예를 설명함으로써 본 발명을 상술한다.
본 발명의 명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
도 1은 본 발명의 실시예에 따른 잡음 환경에 강인한 동물 종 식별 장치의 구성을 나타낸 블록도이고, 도 2는 본 발명의 실시예에 따른 동물 울음소리 구간 검출부의 내부 구성을 간략하게 나타낸 블록도이고, 도 3은 본 발명의 실시예에 따른 특징 강화부에서 이루어지는 특징 강화 과정을 나타낸 도면이고, 도 4는 본 발명의 실시예에 따른 잡음 성분 검출 과정을 나타낸 도면이고, 도 5는 본 발명의 실시예에 따른 도메인 적응 과정을 나타낸 도면이고, 도 6은 본 발명의 실시예에 따른 강화된 음향 신호 특징을 인식하기 위한 CNN 구조도를 나타낸 도면이다.
본 발명의 실시예에 따른 잡음 환경에 강인한 동물 종 식별 장치(100)는 동물 울음소리 구간을 검출하는 전처리부(110) 및 잡음 성분 검출과 도메인 적응을 수행하는 분류기(120)를 포함한다.
동물 종 식별 장치(100)는 동물 종들의 울음소리에 기초하여 수신된 소리에서 동물 울음소리 구간을 검출하고, 동물 울음소리가 존재하지 않는 구간을 바탕으로 잡음을 추정하여 수신된 소리에서 잡음을 제거한 후, 다양한 잡음에도 강화된 음향 특징을 학습하여 동물 종을 식별할 수 있다.
전처리부(110)는 소리를 분류하기 전에 수행되는 작업으로 음향 특징 추출, 소리 구간 검출과 잡음 제거로 구성된다.
전처리부(110)는 동물 울음소리의 구간 검출 기능을 수행하는 것으로 음향 신호 입력부(111), 동물 울음소리 구간 검출부(112) 및 음향 품질 개선부(113)를 포함한다.
동물 울음소리 구간 검출부(112)는 입력된 음향 신호에서 동물 울음소리가 존재하는 구간을 검출하기 위해 NAVAD(Neural Attentive Voice Activity Detection) 알고리즘을 적용한다.
동물 울음소리 구간 검출부(112)는 음향 특징 추출부(112a), 컨볼루션 연산부(112b), 음향 특징 개선부(112c), 어텐션 모듈부(112d) 및 최종 확률 계산부(112e)를 포함하며, 이러한 구성 모듈은 NAVAD 알고리즘의 구조도라고 볼 수 있다.
음향 신호 입력부(111)는 탐지 대상이 되는 동물 울음소리의 음향 신호를 입력받는다.
음향 특징 추출부(112a)는 1차원 음향 신호를 주파수 축과 시간 축을 가지는 2차원 음향 특징인 log-mel 스펙트로그램으로 변환하는 과정이다.
음향 특징 추출부(112a)는 음향 신호 입력부(111)로부터 1차원 음향 신호를 입력받고, 1차원 음향 신호를 STFT(Short Time Fourier Transform) 변환과, 멜 필터 뱅크부(Mel Filter Bank)를 통과시킨 후, 로그 연산을 수행하여 2차원 음향 특징인 log-mel 스펙트로그램으로 변환한다.
음향 특징 추출부(112a)는 STFT 변환 모듈 및 멜 필터 뱅크부를 포함한다.
STFT 변환 모듈은 음향 신호를 일정한 길이의 윈도우(Window)을 이용하여 세분화한 후, 음향 신호의 주파수를 분석할 수 있다.
멜 필터 뱅크부는 STFT 변환 모듈에서 분석한 주파수를 이용하여 MFCC(Mel Frequency Cepstral Coefficient) 방식에 의하여 입력된 음향 신호의 특징값을 추출할 수 있다.
음향 특징 추출부(112a)는 2차원 음향 특징인 log-mel 스펙트로그램으로 변환한 후, 이 중 이웃한 7개의 음향 특징 벡터들을 선택하여 컨볼루션 연산부(112b)로 전송한다.
다시 말해, 음향 특징 추출부(112a)는 STFT 변환을 통해 특정 주파수로 샘플링된 음향 신호의 특정 구간을 계산하고, 계산한 음향 신호의 특정 구간을 멜 필터 뱅크(Mel Filter Bank)를 통과시켜 특정 주파수 밴드의 멜 필터 뱅크값(Mel Filterbank)을 구하며, 구해진 멜 필터 뱅크값에 로그 연산을 수행하여 2차원 음향 특징인 log-mel 스펙트로그램으로 변환된다.
컨볼루션 연산부(112b)는 입력 데이터와 가중치들의 집합체인 필터(Filter)와의 컨볼루션 연산을 통해 입력 데이터의 특징(Feature)을 추출하는 기능을 수행한다.
컨볼루션 연산부(112b)는 7개의 음향 특징 벡터들을 입력받는데, 즉 하기의 수학식 1과 같이 입력된 음향 특징에 주파수 축 방향으로 32개의 1×1 크기의 필터인 컨볼루션 레이어(Convolutional Layer)로 컨볼루션(Convolution) 연산을 수행한 후, 비선형 활성화 함수인 ReLU(Recified Linear Unit)를 적용한다.
[수학식 1]
Figure PCTKR2020011673-appb-I000001
여기서,
Figure PCTKR2020011673-appb-I000002
는 i번째 음향 특징 벡터,
Figure PCTKR2020011673-appb-I000003
는 1×1 크기를 갖는 j번째 필터이며,
Figure PCTKR2020011673-appb-I000004
는 i번째 입력
Figure PCTKR2020011673-appb-I000005
과 j번째 필터
Figure PCTKR2020011673-appb-I000006
의 컨볼루션(Convolution) 연산을 통해 나온 결과값이다.
그런 다음, 컨볼루션 연산부(112b)는 64개의 5×1 크기의 필터인 컨볼루션 레이어로 diated 컨볼루션 연산을 수행하며, 앞서 추출한 특징과의 residual connection을 위해 다시 32개의 1×1 크기의 필터인 컨볼루션 레이어로 컨볼루션 연산을 수행한다. 각각의 컨볼루션 연산 뒤에는 비선형 활성화 함수 ReLU를 적용한다.
해당 컨볼루션 연산은 하기의 수학식 2와 같다.
[수학식 2]
Figure PCTKR2020011673-appb-I000007
여기서,
Figure PCTKR2020011673-appb-I000008
는 5×1 크기를 갖는 j번째 입력 필터에 상응하는 k번째 필터이며,
Figure PCTKR2020011673-appb-I000009
는 5×1 크기를 갖는 k번째 입력 필터에 상응하는
Figure PCTKR2020011673-appb-I000010
번째 필터이다.
네트워크에 사용되는 입력과 출력의 차원을 맞추기 위해 1×1 크기의 필터로 컨볼루션 연산이 하기의 수학식 3과 같이 최종적으로 수행된다.
[수학식 3]
Figure PCTKR2020011673-appb-I000011
여기서,
Figure PCTKR2020011673-appb-I000012
는 1×1 크기를 갖는
Figure PCTKR2020011673-appb-I000013
번째 필터이고,
Figure PCTKR2020011673-appb-I000014
는 입력
Figure PCTKR2020011673-appb-I000015
와 크기와 차원이 같다.
음향 특징 개선부(112c)는 컨볼루션 연산부(112b)로부터 수신한 컨볼루션 연산 결과에 0에서 1 사이의 값을 갖는 시그모이드(Sigmoid) 함수를 적용하여 동물 울음소리 주파수 대역이 개선된 음향 특징
Figure PCTKR2020011673-appb-I000016
이 추출된다(수학식 4). 여기서, 시그모이드 함수는 입력을 0과 1 사이의 출력값으로 정규화시키는 활성화 함수이다.
[수학식 4]
Figure PCTKR2020011673-appb-I000017
음향 특징 개선부(112c)는 추출된 개선된 음향 특징
Figure PCTKR2020011673-appb-I000018
을 어텐션 모듈부(112d)에 입력한다.
어텐션 모듈부(112d)는 음향 신호를 패턴 인식 기법을 이용하여 다양한 음향 이벤들을 찾아내는 기법으로 재발 신경망(Recurrent Neural Network, RNN) 모델의 LSTM(Long Short-Term Memory)과 Attention Layer로 구성된다.
패턴 인식 기법은 인공 신경망을 이용한 예측 방법으로 입력층으로부터 출력층의 결과값을 예측한 경우, 학습 과정에서 결과값들로부터 입력값을 예측할 수 있다. 인공 신경망은 입력값과 출력값이 일대일 대응 관계에 있지 아니하므로, 출력층으로서 입력층을 그대로 복구하는 것은 불가능하나, 예측 알고리즘을 고려하여 역전파(Backpropagation, Backpropa) 알고리즘에 의해 결과값으로부터 산출된 출력 데이터가 최초의 입력 데이터와 상이하다면, 인공 신경망의 예측이 부정확하다고 볼 수 있으므로, 제약 조건 하에서 산출된 출력 데이터가 최초의 입력 데이터와 유사해지도록 예측 계수를 변경하여 학습을 훈련하게 된다.
심층 신경망이란 신경망 알고리즘 중에서 여러 개의 층으로 이루어진 신경망을 의미한다. 한 층은 여러 개의 노드로 이루어져 있고, 노드에서 실제 연산이 이루어지는데, 이러한 연산 과정은 인간의 신경망을 구성하는 뉴런에서 일어나는 과정을 모사하도록 설계되어 있다. 통상적인 인공 신경망은 입력층(Input Layer), 은닉층(Hidden Layer), 출력층(Output Layer)로 나뉘며, 입력 데이터는 입력층의 입력이 되며, 입력층의 출력은 은닉층의 입력이 되고, 은닉층의 출력은 출력층의 입력이 되고, 출력층의 출력이 최종 출력이 된다.
어텐션 모듈부(112d)는 입력층으로부터 입력 데이터를 입력받아 예측값을 출력층의 버퍼에 출력하는 예측 심층 신경망을 사용하며, 예측 심층 신경망의 구조나 형태는 제한되지 않고, 대표적인 방법으로 DNN(Deep Neural Network), CNN(Convolutional Neural Network), RNN(Recurrent Neural Network) 등이 있으며, 각각의 신경망의 조합으로 예측 심층 신경망을 구성하여 다양한 구조의 심층 신경망을 구성할 수 있다. 본 발명의 어텐션 모듈부(112d)는 예측 심층 신경망의 구조로 RNN을 사용한다.
RNN은 입력으로 T 프레임의 40차의 (T ×40) 로그 멜 필터 뱅크값이 사용되고, 그 전체적인 구조가 256개의 유닛을 가진 3개의 GRU(Gated Recurrent Unit)층과 4개층의 FNN, 그리고 마지막에 Sigmoid 함수를 가진 출력층으로 구성되어 있다.
여기서, FNN(Feedforward Neural Network)은 40차의 로그 멜 필터 뱅크값의 특징은 연속적인 5개의 프레임들이 합쳐져서 200차원의 특징 벡터를 형성하고 이들은 FNN의 입력으로 사용된다. 2개의 은닉층은 각각 Relu 활성화 함수를 가지는 1600개의 유닛들로 구성된다.
출력층은 분류하고자 하는 음향 이벤트 클래스의 수만큼의 유닛을 가지며, 각 유닛은 Sigmoid 활성화 함수를 이용한다. 여기서, Sigmoid 활성화 함수의 출력값은 각 클래스에 대한 사후 확률로 간주되며, 0.5의 기준치와 비교하여 이진화된 후, Ground Truth Table과 비교하여 FNN의 정확도 산출을 위하여 사용된다.
RNN 모델은 음성, 문장 등의 순차적인 데이터를 처리하는 신경망 구조이다. RNN의 메모리라 할 수 있는 state는 입력 데이터가 들어올 때마다 반복적으로 갱신이 되어 처음부터 현재 시간 t까지의 입력 데이터를 요약한 정보를 가지고 있다.
결과적으로 입력을 모두 처리한 후, RNN의 state는 입력 데이터의 전체를 요약하는 정보가 된다. 실제 모델 훈련 시 t에서의 state에서는 t에서의 입력 데이터와 t-1의 state 값으로 t의 결과값과 state값을 계산한다.
RNN은 Back-Propagation 기반의 Gradient Descent 방법을 이용하여 비용 함수를 최소화하며, 최적의 변수값을 찾는다.
LSTM은 RNN의 가중치 대신 망각 게이트를 이용하여 결과값을 예측하는 RNN 방법의 일종을 의미한다. 시계열적인 입력 데이터에 대한 예측에 있어서 순차적으로 데이터를 처리할 때, RNN 방식으로 지난 데이터를 처리하는 경우, 오래된 데이터의 경우는 가중치에 따라 감소되어 일정 단계를 넘게 되면 그 값이 0이 되어 가중치와 관계없이 더 이상 반영하지 않는 문제가 있다.
LSTM의 경우 곱셈 대신 덧셈을 사용하므로, Recurrent 입력값이 0이 되지 않는 장점이 있게 된다.
어텐션 모듈부(112d)는 음향 특징 개선부(112c)로부터 추출된 음향 특징이 입력되면, 서로 이웃한 7개의 음향 특징 중 어느 음향 특징에 동물 울음소리가 존재하는지 하기의 수학식 5에 따라 어텐션(Attention) 정보를 확률로 계산한다.
[수학식 5]
Figure PCTKR2020011673-appb-I000019
여기서, a,
Figure PCTKR2020011673-appb-I000020
Figure PCTKR2020011673-appb-I000021
는 Attention Layer의 학습 파라미터이며,
Figure PCTKR2020011673-appb-I000022
는 LSTM Layer의 내부 state,
Figure PCTKR2020011673-appb-I000023
는 개선된 i번째 음향 특징이다.
어텐션 모듈부(112d)는 수학식 5를 통해 계산된 어텐션 정보와 개선된 음향 특징
Figure PCTKR2020011673-appb-I000024
을 가중 평균 계산을 수행하여 하나의 벡터를 계산한다(수학식 6).
[수학식 6]
Figure PCTKR2020011673-appb-I000025
어텐션 모듈부(112d)는 계산된 하나의 벡터 c를 최종 확률 계산부(112e)로 전송한다.
RNN과 같이 순차적인 데이터를 처리하는 신경망 구조는 시간이 길어질수록 초기에 저장된 정보가 사라지는 단점이 있는데, 이를 보완하기 위해서 Attention 알고리즘을 사용한다. Attention 알고리즘은 순차적인 입력 데이터를 RNN으로 처리하여 모든 시간의 state 벡터 h를 출력한다. 이때, 모든 시간의 벡터를 같은 비율로 참고하는 것이 아니라 특정 시간에 Attention을 주어 최종 결과를 도출한다.
최종 확률 계산부(112e)는 어텐션 모듈부(112d)에서 계산된 어텐션 정보를 하나의 출력 노드를 갖는 2개의 완전 연결 계층부(Fully Connected Layer, FCL)와 Sigmoid 활성화 함수에 입력하여 최종적으로 해당 구간에 동물 울음소리가 존재할 확률을 도출한다(수학식 7).
[수학식 7]
Figure PCTKR2020011673-appb-I000026
입력된 음향 신호의 모든 구간에 대하여 수학식 1 내지 수학식 7와 같은 연산을 수행한다.
음향 신호에서 동물 울음소리가 존재하지 않는 부분은 잡음 제거 단계를 적용하며, 동물 울음소리가 존재하는 부분은 특징 강화 단계를 적용한다.
음향 품질 개선부(113)는 동물 울음소리 구간 검출부(112)로부터 동물 울음소리 구간이 검출된 음향 신호를 수신하고, 수신한 음향 신호에서 잡음 신호를 제거하여 음향 신호의 품질을 개선한다.
잡음 신호는 시간에 따라 변하기 때문에 동물 울음소리가 존재하지 않을 때마다 잡음의 분산을 갱신하여 사후 신호 대 잡음비(Posterior Signal to Noise Ratio, SNR)와 사전 신호 대 잡음비(Prior SNR)를 추정한다.
잡음 제거 기술은 신호 대 잡음비에 따른 스펙트럼 이득으로 표현할 수 있다. 이에 따라 음향 품질 개선부(113)는 동물 울음소리 구간 검출부(112)로부터 동물 울음소리 구간이 검출된 음향 신호를 수신하고, 수신한 음향 신호에서 하기의 수학식 8과 수학식 9에 의해 사후 SNR과 사전 SNR을 계산한다.
사후 SNR
Figure PCTKR2020011673-appb-I000027
은 잡음이 섞인 신호 대비 잡음비이고, 사전 SNR
Figure PCTKR2020011673-appb-I000028
은 잡음이 섞이지 않은 신호 대비 잡음비이다.
주어진 환경에서는 잡음이 섞이지 않은 신호를 알 수 없기 때문에 사전 SNR을 추정하는 과정이 필요하며, 해당 사후 SNR과 사전 SNR의 추정은 하기의 수학식 8과 수학식 9와 같이 산출된다.
[수학식 8]
Figure PCTKR2020011673-appb-I000029
[수학식 9]
Figure PCTKR2020011673-appb-I000030
여기서,
Figure PCTKR2020011673-appb-I000031
는 k번째 주파수 성분에서 계산된 사후 SNR,
Figure PCTKR2020011673-appb-I000032
는 음향 신호의 k번째 주파수 파워 스펙트럼,
Figure PCTKR2020011673-appb-I000033
는 잡음 신호의 k번째 주파수 파워 스펙트럼,
Figure PCTKR2020011673-appb-I000034
는 k번째 주파수 성분에서 추정된 사전 SNR,
Figure PCTKR2020011673-appb-I000035
는 이전 시간에 추정된 사전 SNR을 나타낸다. 최초의 사전 SNR 값은 0으로 초기화한다.
음향 품질 개선부(113)는 수학식 8과 수학식 9를 이용하여 추정된 사전 SNR을 하기의 수학식 10의 이득 함수에 대입하여 스펙트럼 이득을 계산하고, 0과 1 사이의 값을 가지며, 입력 음향 신호의 각 주파수 성분에 직접 곱해진다.
[수학식 10]
Figure PCTKR2020011673-appb-I000036
여기서,
Figure PCTKR2020011673-appb-I000037
는 스펙트럼 이득,
Figure PCTKR2020011673-appb-I000038
는 k번째 주파수 성분에서 추정된 사전 SNR이다.
음향 품질 개선부(113)는 이득 함수 Gaink를 잡음이 있는 음향 신호의 k번째 주파수 파워 스펙트럼
Figure PCTKR2020011673-appb-I000039
에 직접 곱하여 잡음이 제거된 음향 신호의 k번째 주파수 파워 스펙트럼
Figure PCTKR2020011673-appb-I000040
를 계산하게 된다.
[수학식 11]
Figure PCTKR2020011673-appb-I000041
음향 품질 개선부(113)는 동물 울음소리 구간 검출부(112)로부터 동물 울음소리 구간이 검출된 음향 신호를 수신하고, 수신한 음향 신호의 각 주파수 성분에 스펙트럼 이득을 곱셈 연산을 수행하면, 잡음 신호를 제거할 수 있다.
음향 품질 개선부(113)는 잡음 신호를 제거한 동물 울음소리가 존재하는 구간을 잘라서 특징 강화부(121)로 전송한다.
분류기(120)는 특징 강화부(121) 및 동물 종 식별부(122)를 포함한다.
특징 강화부(121)는 음향 품질 개선부(113)로부터 동물 울음소리가 존재하는 입력 스펙트로그램을 수신하고, 상기 수신한 입력 스펙트로그램을 신경망 기반 특징 추출 방법을 통해 잡음 신호를 추정하고, 입력 데이터에서 추정한 잡음 신호를 뺄셈 연산으로 불필요한 성분을 제거하여 음향 신호의 특징을 강화한다. 스펙트로그램은 소리나 파동을 시각화하여 파악하기 위한 것으로 파형과 스펙트럼의 특징이 조합되어 있다. 파형에서는 시간 축의 변화에 따른 진폭 축의 변화를 볼 수 있고, 스펙트럼에서는 주파수 축의 변화에 따른 진폭 축의 변화를 볼 수 있다. 스펙트로그램은 시간 축과 주파수 축의 변화에 따라 진폭의 차이를 인쇄 농도와 표시 색상의 차이로 나타낸다.
특징 강화부(121)는 뺄셈 연산 이후에 비선형 활성화 함수 ReLU를 통해 음수 부분을 0으로 처리해주고, 정규화(Normalization) 과정을 통해 특징의 범위를 0 내지 1로 조절한다. 이는 Positive Definition을 유지하고, 뺄셈 연산으로 인한 특징의 손실을 막기 위함이다.
특징 강화부(121)는 RNN-LSTM과 Auto Encoder 알고리즘을 이용하여 신경망이 잡음 및 녹음 장소 등과 같은 도메인 변화에 강인하도록 학습하는 과정이다.
다시 말해, 특징 강화 네트워크의 학습(잡음 성분 검출 및 도메인 적응(Adaptation))은 분류기(120)와 동시에 End to End 방식으로 학습된다.
특징 강화부(121)는 잡음 성분 검출(도 4)을 에너지 기반으로 이루어진다.
특징 강화부(121)는
Figure PCTKR2020011673-appb-I000042
차원을 가지는 입력 스펙트로그램에서 특징 요소 간 에너지 크기를 학습하고, 에너지가 상대적으로 작으면서 학습에 불필요한 성분을 제거한다.
특징 강화부(121)는 차원 축소 및 확장을 통해 이루어며, RNN-LSTM을 이용하여 입력 스펙트로그램의 각 축 별로 저차원 특징을 추출한다.
시간 축의 경우,
Figure PCTKR2020011673-appb-I000043
차원을 가지며 N > K의 조건을 만족한다. 주파수 축은
Figure PCTKR2020011673-appb-I000044
차원을 가지며 M > K의 조건을 만족한다.
특징 강화부(121)는 하이퍼볼릭 탄젠트(Hypoblic Tangent) 함수(Tanh)인 수학식 12를 이용하여 각각의 특징 요소들을 -1에서 1의 범위로 표현하고, 비선형 활성화 함수(Rectifued Linear Unit, RELU)인 수학식 13을 통해 음의 값들을 0으로 만든다. 이러한 과정을 통해 각 축 별 LSTM 출력 벡터는 항상 0에서 1 범위의 확률값을 가지게 된다.
[수학식 12]
Figure PCTKR2020011673-appb-I000045
[수학식 13]
Figure PCTKR2020011673-appb-I000046
도 4에 도시된 바와 같이, 특징 강화부(121)는 RNN-LSTM을 통해 얻은 2개의 특징을 하기의 수학식 14를 이용하여 잡음 성분과 잡음이 아닌 성분을 구분한 강화된 스펙트로그램을 계산한다.
[수학식 14]
Figure PCTKR2020011673-appb-I000047
V1, V2, X는 각각 주파수축 LSTM 출력 벡터, 시간 축 LSTM 출력 벡터 및 입력 데이터를 나타낸다.
Figure PCTKR2020011673-appb-I000048
는 각각 벡터 외적과 성분별 곱셈을 나타낸다.
Figure PCTKR2020011673-appb-I000049
는 수학식 12, 수학식 13을 연속적으로 적용한 함수이다.
각각의 LSTM 출력 벡터의 외적을 통해 얻은
Figure PCTKR2020011673-appb-I000050
차원의 행렬은 입력 스펙트로그램의 구성 요소에 0 내지 1 범위를 가지는 가중치를 주기 때문에 학습에 불필요한 성분을 검출하는 역할을 수행한다.
특징 강화부(121)는 잡음 성분 검출을 수행한 후, 도메인 적응(Adaptation)을 수행하게 되는데, 수학식 14를 이용하여 계산된 스펙트로그램에 도 5와 같은 CNN(Convolutional Neural Network) 기반 Bottleneck 구조의 오토 엔코더(Auto Encoder) 알고리즘을 적용하여 도메인 적응을 수행한다.
일반적인 CNN 기반 오토 엔코더 알고리즘의 경우, 입력 데이터를 빼기 연산에 적합한 도메인으로 변환하는 역할을 수행한다. 여기서, 오토 엔코더(Auto Encoder) 알고리즘은 고차원의 입력 데이터를 저차원으로 압축한 후, 다시 원래 데이터로 복원하는 알고리즘이다. 인코딩(Encoding) 단계에서는 입력 데이터를 압축하는데, 압축하는 과정에서 신경망을 통해 입력 데이터의 중요한 특징을 추출한다.
디코딩(Decoding) 단계는 인코딩 단계에서 압축된 특징을 입력받아 초기의 입력 데이터로 복원하고, 이러한 과정에서 잡음을 제거해 원하는 입력 데이터의 정보만 볼 수 있다.
CNN은 입력 데이터에 컨볼루션 연산과 폴링 연산을 반복적으로 수행하고, 입력 데이터의 특징을 보존하는 동시에 데이터의 크기를 줄이면서 학습해야 할 변수값의 개수를 줄인다. 각각의 연산을 수행하는 레이어를 컨볼루션 레이어(Convolutional Layer)와 폴링 레이어(Pooing Layer)로 나타낸다.
컨볼루션 레이어는 2차원 입력에 고정된 크기의 2차원 필터로 컨볼루션 연상을 수행한다. 폴링 레이어는 컨볼루션 레이어의 결과를 입력으로 사용하여 이웃한 영역 내부에서 최대값을 선정함으로써 차원을 축소한다.
특징 강화부(121)는 도메인 적응을 수행하기 위하여 4개의 인코더 레이어와 2개의 디코더 레이어를 구성한다.
인코더 레이어에서는 일정한 크기의 컨볼루션 레이어(Convolutional Layer)를 통해 출력 크기와 차원을 줄이면서 특징을 추출하고, 디코더 레이어에서는 일정한 크기의 컨볼루션 레이어를 통해 출력 크기의 차원을 늘리면서 출력 크기를 입력 스펙트로그램과 동일하게 한다.
특징 강화부(121)는 컨볼루션 연산을 수행한 인코더 레이어가 끌날 때마다 최대 폴링 레이어(Max Pooling Layer), 정규화 연산인 배치 정규화(Batch Normalization), 활성화 함수인 RELU 함수를 수행한다. 최대 폴링 레이어는 컨볼루션 레이어에서 컨볼루션 연산을 수행한 후, 사이즈를 리사이즈하여 만드는 과정을 의미한다.
배치 정규화는 활성화 함수의 앞쪽에 배치가 되며, 이는 역전파(Back Propagation)를 통해서 학습이 가능하다.
특징 강화부(121)는 컨볼루션 연산을 수행한 디코더 레이어가 끌날 때마다 정규화 연산인 배치 정규화(Batch Normalization), 활성화 함수인 RELU 함수를 수행한다.
특징 강화부(121)는 입력 스펙트로그램에서 도메인 적응을 수행한 결과인 잡음 특징을 뺄셈 연산으로 불필요한 성분을 제거한 후, 비선형 활성화 함수인 ReLU(Recified Linear Unit)을 적용하고, 0에서 1 범위의 min-max 정규화(Normalization)를 통해 특징의 크기를 조절하여 음향 신호의 특징을 강화한다.
도 6에 도시된 바와 같이, 동물 종 식별부(122)는 CNN 기반 분류 알고리즘과 완전 연결 네트워크(Fully Connected Network, FCN)으로 구성되어 있으며, 마지막에 Softmax 함수를 통해 최종 결과를 도출한다. 다시 말해, 동물 종 식별부(122)는 5개의 컨볼루션 레이어(Convolutional Layer)와 2개의 완전 연결 레이어(Fully Connected Layer, FCL)로 구성된다.
동물 종 식별부(122)는 첫 번째, 두 번째, 마지막의 컨볼루션 레이어의 컨볼루션 연산을 수행한 후, 최대 폴링(Max Pooling)을 수행한다.
동물 종 식별부(122)는 특징 강화부(121)로부터 강화된 음향 신호의 특징이 입력되면, 컨볼루션 레이어에서 컨볼루션 연산을 수행하고, 마지막 컨볼루션 레이어에서 컨볼루션 연산을 수행한 후, FCN과 연결되어 출력 레이어에서 레이블 수만큼의 결과를 산출한다.
동물 종 식별부(122)는 산출된 결과를 하기의 수학식 15의 소프트맥스(Softmax) 함수를 통하여 점수(Score)로 나타나게 되고, 최종적으로 가장 높은 점수를 가진 레이블(Label)을 최종 결과(S(yi))로 분류한다.
[수학식 15]
Figure PCTKR2020011673-appb-I000051
[부호의 설명]
100: 동물 종 식별 장치 110: 전처리부
111: 음향 신호 입력부 112: 동물 울음소리 구간 검출부
112a: 음향 특징 추출부 112b: 컨볼루션 연산부
112c: 음향 특징 개선부 112d: 어텐션 모듈부
112e: 최종 확률 계산부 113: 음향 품질 개선부
120: 분류기 121: 특징 강화부
122: 동물 종 식별부

Claims (18)

  1. 동물 울음소리의 음향 신호인 1차원 음향 신호를 입력받고, 상기 1차원 음향 신호를 주파수 축과 시간 축을 가지는 2차원 음향 특징인 log-mel 스펙트로그램으로 변환하며, 상기 변환된 2차원 음향 특징을 소리 구간 검출을 통해 상기 동물 울음소리가 존재하는 구간을 검출하는 동물 울음소리 구간 검출부;
    상기 검출한 동물 울음소리가 존재하는 구간을 입력 데이터로 수신하고, 상기 수신한 입력 데이터를 신경망 기반 특징 추출 방법을 이용하여 잡음 신호를 추정하며, 상기 입력 데이터에서 상기 추정한 잡음 신호를 뺄셈 연산으로 불필요한 신호 성분을 제거하여 음향 신호의 특징을 강화하는 특징 강화부; 및
    상기 강화된 음향 신호의 특징을 컨볼루션 레이어(Convolutional Layer)와 완전 연결 레이어(Fully Connected Layer, FCL)로 이루어진 분류 알고리즘을 이용하여 출력 레이어에서 레이블 수만큼의 결과를 산출하고, 상기 산출한 결과에서 가장 높은 점수를 가진 레이블을 최종 결과로 도출하는 동물 종 식별부를 포함하는 것을 특징으로 하는 동물 종 식별 장치.
  2. 제1항에 있어서,
    상기 동물 울음소리 구간 검출부는 상기 1차원 음향 신호를 STFT(Short Time Fourier Transform) 변환을 통해 특정 주파수로 샘플링된 음향 신호의 특정 구간을 계산하고, 상기 계산한 음향 신호의 특정 구간을 멜 필터 뱅크(Mel Filter Bank)를 통과시킨 후, 로그 연산을 수행하여 상기 2차원 음향 특징인 log-mel 스펙트로그램으로 변환하며, 이 중 이웃한 음향 특징 벡터들을 선택하는 음향 특징 추출부를 더 포함하는 것을 특징으로 하는 동물 종 식별 장치.
  3. 제2항에 있어서,
    상기 동물 울음소리 구간 검출부는 상기 음향 특징 추출부로부터 상기 음향 특징 벡터들을 입력받아 주파수 축 방향으로 32개의 1×1 크기의 필터인 컨볼루션 레이어(Convolutional Layer)로 컨볼루션(Convolution) 연산을 수행하고, 64개의 5×1 크기의 필터인 컨볼루션 레이어로 diated 컨볼루션 연산을 수행하며, residual connection을 위해 다시 32개의 1×1 크기의 필터인 컨볼루션 레이어로 컨볼루션 연산을 수행하여 특징을 추출하는 컨볼루션 연산부를 더 포함하는 것을 특징으로 하는 동물 종 식별 장치.
  4. 제3항에 있어서,
    상기 동물 울음소리 구간 검출부는 상기 컨볼루션 연산부로부터 수신한 컨볼루션 연산 결과에 0에서 1 사이의 값을 갖는 시그모이드(Sigmoid) 함수를 적용하여 동물 울음소리 주파수 대역이 개선된 음향 특징이 추출하는 음향 특징 개선부를 더 포함하는 것을 특징으로 하는 동물 종 식별 장치.
  5. 제4항에 있어서,
    상기 동물 울음소리 구간 검출부는 RNN(Recurrent Neural Network) 모델의 LSTM(Long Short-Term Memory)과 어텐션(Attention) 레이어로 구성되고, 상기 음향 특징 개선부로부터 추출된 음향 특징이 입력되면, 상기 추출한 음향 특징 중 어느 음향 특징에 동물 울음소리가 존재하는지 하기의 수학식 1에 따라 어텐션(Attention) 정보를 계산하는 어텐션 모듈부를 더 포함하는 것을 특징으로 하는 동물 종 식별 장치.
    [수학식 1]
    Figure PCTKR2020011673-appb-I000052
    여기서, a,
    Figure PCTKR2020011673-appb-I000053
    Figure PCTKR2020011673-appb-I000054
    는 Attention Layer의 학습 파라미터이며,
    Figure PCTKR2020011673-appb-I000055
    는 LSTM Layer의 내부 state,
    Figure PCTKR2020011673-appb-I000056
    는 개선된 i번째 음향 특징임.
  6. 제5항에 있어서,
    상기 동물 울음소리 구간 검출부는 상기 어텐션 모듈부에서 계산된 어텐션 정보를 하나의 출력 노드를 갖는 2개의 완전 연결 계층부(Fully Connected Layer, FCL)와 Sigmoid 활성화 함수에 입력하여 최종적으로 해당 구간에 동물 울음소리가 존재할 확률을 도출하는 최종 확률 계산부를 더 포함하는 것을 특징으로 하는 동물 종 식별 장치.
  7. 제6항에 있어서,
    상기 최종 확률 계산부로부터 동물 울음소리 구간이 검출된 음향 신호를 수신하고, 상기 수신한 음향 신호에서 하기의 수학식 2와 수학식 3에 의해 사후 신호 대 잡음비(Posterior Signal to Noise Ratio, SNR)와 사전 신호 대 잡음비(Prior SNR)와 사전 SNR을 계산하고, 계산된 사전 SNR을 하기의 수학식 4의 이득 함수에 대입하여 스펙트럼 이득을 계산하고, 상기 수신한 음향 신호의 각 주파수 성분에 상기 스펙트럼 이득을 곱셈 연산을 수행하면, 잡음 신호를 제거하는 음향 품질 개선부를 더 포함하는 것을 특징으로 하는 동물 종 식별 장치.
    [수학식 2]
    Figure PCTKR2020011673-appb-I000057
    [수학식 3]
    Figure PCTKR2020011673-appb-I000058
    여기서,
    Figure PCTKR2020011673-appb-I000059
    는 k번째 주파수 성분에서 계산된 사후 SNR,
    Figure PCTKR2020011673-appb-I000060
    는 음향 신호의 k번째 주파수 파워 스펙트럼,
    Figure PCTKR2020011673-appb-I000061
    는 잡음 신호의 k번째 주파수 파워 스펙트럼,
    Figure PCTKR2020011673-appb-I000062
    는 k번째 주파수 성분에서 추정된 사전 SNR,
    Figure PCTKR2020011673-appb-I000063
    는 이전 시간에 추정된 사전 SNR임.
    [수학식 4]
    Figure PCTKR2020011673-appb-I000064
    여기서,
    Figure PCTKR2020011673-appb-I000065
    는 스펙트럼 이득,
    Figure PCTKR2020011673-appb-I000066
    는 k번째 주파수 성분에서 추정된 사전 SNR임.
  8. 제7항에 있어서,
    상기 특징 강화부는 상기 음향 품질 개선부로부터 동물 울음소리가 존재하는 입력 스펙트로그램을 수신하고, 상기 수신한 입력 스펙트로그램을 RNN(Recurrent Neural Network) 모델의 LSTM(Long Short-Term Memory)을 이용하여 상기 입력 스펙트로그램의 각 축 별로 특징을 추출하며, 상기 추출한 특징을 잡음 성분과 잡음이 아닌 성분을 구분한 스펙트로그램으로 계산하는 것을 특징으로 하는 동물 종 식별 장치.
  9. 제8항에 있어서,
    상기 특징 강화부는 상기 계산한 스펙트로그램에 CNN(Convolutional Neural Network) 기반의 하나 이상의 인코더 레이어와 하나 이상의 디코더 레이어를 구성하여 고차원의 입력 데이터를 저차원으로 압축한 후, 다시 원래 데이터로 복원하는 오토 엔코더(Auto Encoder) 알고리즘을 적용하여 도메인 적응을 수행하는 것을 특징으로 하는 동물 종 식별 장치.
  10. 제9항에 있어서,
    상기 특징 강화부는 상기 수신한 입력 스펙트로그램에서 상기 도메인 적응을 수행한 결과인 잡음 특징을 뺄셈 연산으로 불필요한 성분을 제거한 후, 비선형 활성화 함수인 ReLU(Recified Linear Unit)을 적용하고, 0에서 1 범위의 min-max 정규화(Normalization)를 통해 특징의 크기를 조절하여 음향 신호의 특징을 강화하는 것을 특징으로 하는 동물 종 식별 장치.
  11. 제10항에 있어서,
    상기 동물 종 식별부는 상기 특징 강화부로부터 강화된 음향 신호의 특징이 입력되면, 5개의 컨볼루션 레이어(Convolutional Layer)와 2개의 완전 연결 레이어(Fully Connected Layer, FCL)로 이루어진 CNN 기반 분류 알고리즘을 이용하여 출력 레이어에서 레이블 수만큼의 결과를 산출하고, 상기 산출된 결과를 하기의 수학식 5의 소프트맥스(Softmax) 함수를 통하여 점수(Score)로 나타내며, 가장 높은 점수를 가진 레이블(Label)을 상기 최종 결과(S(yi))로 분류하는 것을 특징으로 하는 동물 종 식별 장치.
    [수학식 5]
    Figure PCTKR2020011673-appb-I000067
  12. 동물 울음소리의 음향 신호인 1차원 음향 신호를 입력받고, 상기 1차원 음향 신호를 주파수 축과 시간 축을 가지는 2차원 음향 특징인 log-mel 스펙트로그램으로 변환하며, 상기 변환된 2차원 음향 특징을 소리 구간 검출을 통해 상기 동물 울음소리가 존재하는 구간을 검출하는 단계;
    상기 검출한 동물 울음소리가 존재하는 구간을 입력 데이터로 수신하고, 상기 수신한 입력 데이터를 신경망 기반 특징 추출 방법을 이용하여 잡음 신호를 추정하며, 상기 입력 데이터에서 상기 추정한 잡음 신호를 뺄셈 연산으로 불필요한 신호 성분을 제거하여 음향 신호의 특징을 강화하는 단계; 및
    상기 강화된 음향 신호의 특징을 컨볼루션 레이어(Convolutional Layer)와 완전 연결 레이어(Fully Connected Layer, FCL)로 이루어진 분류 알고리즘을 이용하여 출력 레이어에서 레이블 수만큼의 결과를 산출하고, 상기 산출한 결과에서 가장 높은 점수를 가진 레이블을 최종 결과로 도출하는 단계를 포함하는 것을 특징으로 하는 동물 종 식별 방법.
  13. 제12항에 있어서,
    상기 동물 울음소리가 존재하는 구간을 검출하는 단계는,
    상기 1차원 음향 신호를 STFT(Short Time Fourier Transform) 변환을 통해 특정 주파수로 샘플링된 음향 신호의 특정 구간을 계산하고, 상기 계산한 음향 신호의 특정 구간을 멜 필터 뱅크(Mel Filter Bank)를 통과시킨 후, 로그 연산을 수행하여 상기 2차원 음향 특징인 log-mel 스펙트로그램으로 변환하며, 이 중 이웃한 음향 특징 벡터들을 선택하는 단계를 더 포함하는 것을 특징으로 하는 동물 종 식별 방법.
  14. 제13항에 있어서,
    상기 동물 울음소리가 존재하는 구간을 검출하는 단계는,
    RNN(Recurrent Neural Network) 모델의 LSTM(Long Short-Term Memory)과 어텐션(Attention) 레이어로 구성되고, 상기 음향 특징 개선부로부터 추출된 음향 특징이 입력되면, 상기 추출한 음향 특징 중 어느 음향 특징에 동물 울음소리가 존재하는지 하기의 수학식 1에 따라 어텐션(Attention) 정보를 계산하는 단계를 더 포함하는 것을 특징으로 하는 동물 종 식별 방법.
    [수학식 1]
    Figure PCTKR2020011673-appb-I000068
    여기서, a,
    Figure PCTKR2020011673-appb-I000069
    Figure PCTKR2020011673-appb-I000070
    는 Attention Layer의 학습 파라미터이며,
    Figure PCTKR2020011673-appb-I000071
    는 LSTM Layer의 내부 state,
    Figure PCTKR2020011673-appb-I000072
    는 개선된 i번째 음향 특징임.
  15. 제14항에 있어서,
    상기 계산된 어텐션 정보를 하나의 출력 노드를 갖는 2개의 완전 연결 계층부(Fully Connected Layer, FCL)와 Sigmoid 활성화 함수에 입력하여 최종적으로 해당 구간에 동물 울음소리가 존재할 확률을 도출하는 단계를 더 포함하는 것을 특징으로 하는 동물 종 식별 방법.
  16. 제15항에 있어서,
    상기 음향 신호의 특징을 강화하는 단계는,
    상기 동물 울음소리가 존재하는 입력 스펙트로그램을 수신하고, 상기 수신한 입력 스펙트로그램을 RNN(Recurrent Neural Network) 모델의 LSTM(Long Short-Term Memory)을 이용하여 상기 입력 스펙트로그램의 각 축 별로 특징을 추출하며, 상기 추출한 특징을 잡음 성분과 잡음이 아닌 성분을 구분한 스펙트로그램으로 계산하는 단계를 더 포함하는 것을 특징으로 하는 동물 종 식별 방법.
  17. 제16항에 있어서,
    상기 계산한 스펙트로그램에 CNN(Convolutional Neural Network) 기반의 하나 이상의 인코더 레이어와 하나 이상의 디코더 레이어를 구성하여 고차원의 입력 데이터를 저차원으로 압축한 후, 다시 원래 데이터로 복원하는 오토 엔코더(Auto Encoder) 알고리즘을 적용하여 도메인 적응을 수행하는 단계; 및
    상기 수신한 입력 스펙트로그램에서 상기 도메인 적응을 수행한 결과인 잡음 특징을 뺄셈 연산으로 불필요한 성분을 제거한 후, 비선형 활성화 함수인 ReLU(Recified Linear Unit)을 적용하고, 0에서 1 범위의 min-max 정규화(Normalization)를 통해 특징의 크기를 조절하여 음향 신호의 특징을 강화하는 단계를 더 포함하는 것을 특징으로 하는 동물 종 식별 방법.
  18. 제17항에 있어서,
    상기 최종 결과로 도출하는 단계는,
    상기 강화된 음향 신호의 특징이 입력되면, 5개의 컨볼루션 레이어(Convolutional Layer)와 2개의 완전 연결 레이어(Fully Connected Layer, FCL)로 이루어진 CNN 기반 분류 알고리즘을 이용하여 출력 레이어에서 레이블 수만큼의 결과를 산출하고, 상기 산출된 결과를 하기의 수학식 2의 소프트맥스(Softmax) 함수를 통하여 점수(Score)로 나타내며, 가장 높은 점수를 가진 레이블(Label)을 상기 최종 결과(S(yi))로 분류하는 단계를 더 포함하는 것을 특징으로 하는 동물 종 식별 방법.
    [수학식 2]
    Figure PCTKR2020011673-appb-I000073
PCT/KR2020/011673 2019-10-14 2020-09-01 잡음 환경에 강인한 동물 종 식별 장치 및 방법 WO2021075709A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020190126635A KR102276964B1 (ko) 2019-10-14 2019-10-14 잡음 환경에 강인한 동물 종 식별 장치 및 방법
KR10-2019-0126635 2019-10-14

Publications (1)

Publication Number Publication Date
WO2021075709A1 true WO2021075709A1 (ko) 2021-04-22

Family

ID=75538760

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2020/011673 WO2021075709A1 (ko) 2019-10-14 2020-09-01 잡음 환경에 강인한 동물 종 식별 장치 및 방법

Country Status (2)

Country Link
KR (1) KR102276964B1 (ko)
WO (1) WO2021075709A1 (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112863550A (zh) * 2021-03-01 2021-05-28 德鲁动力科技(成都)有限公司 基于注意力残差学习的哭声检测方法及系统
CN115188387A (zh) * 2022-07-12 2022-10-14 四川农业大学 一种有效的海洋哺乳动物声音自动检测和分类方法
CN115295002A (zh) * 2022-07-26 2022-11-04 中国科学技术大学 一种基于交互性时频注意力机制的单通道语音增强方法
CN116230015A (zh) * 2023-03-14 2023-06-06 哈尔滨工程大学 一种基于音频时序信息加权的频域特征表示异音检测方法

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102620948B1 (ko) * 2021-11-11 2024-01-05 충북대학교 산학협력단 동물 종 식별 장치 및 방법
CN117292693B (zh) * 2023-11-27 2024-02-09 安徽大学 融入自注意力机制的crnn珍稀动物识别与定位方法
CN117935843A (zh) * 2024-03-22 2024-04-26 浙江芯劢微电子股份有限公司 一种低资源场景下的哭声检测方法、系统
CN118173107A (zh) * 2024-05-15 2024-06-11 百鸟数据科技(北京)有限责任公司 基于多模态深度特征层级融合的鸟类声音质量分析方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050051435A (ko) * 2003-11-27 2005-06-01 한국전자통신연구원 잡음 환경에서의 음성 인식을 위한 특징 벡터 추출 장치및 역상관 필터링 방법
KR20110066429A (ko) * 2009-12-11 2011-06-17 한국과학기술연구원 임베디드 청각 시스템 및 음성 신호 처리 방법
JP2016143042A (ja) * 2015-02-05 2016-08-08 日本電信電話株式会社 雑音除去装置及び雑音除去プログラム
US20170061978A1 (en) * 2014-11-07 2017-03-02 Shannon Campbell Real-time method for implementing deep neural network based speech separation
KR20190110939A (ko) * 2018-03-21 2019-10-01 한국과학기술원 합성곱 신경망 기반 환경음 인식 방법 및 시스템

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140122881A (ko) 2013-04-11 2014-10-21 하이버스 주식회사 동물 속(종) 식별 장치 및 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050051435A (ko) * 2003-11-27 2005-06-01 한국전자통신연구원 잡음 환경에서의 음성 인식을 위한 특징 벡터 추출 장치및 역상관 필터링 방법
KR20110066429A (ko) * 2009-12-11 2011-06-17 한국과학기술연구원 임베디드 청각 시스템 및 음성 신호 처리 방법
US20170061978A1 (en) * 2014-11-07 2017-03-02 Shannon Campbell Real-time method for implementing deep neural network based speech separation
JP2016143042A (ja) * 2015-02-05 2016-08-08 日本電信電話株式会社 雑音除去装置及び雑音除去プログラム
KR20190110939A (ko) * 2018-03-21 2019-10-01 한국과학기술원 합성곱 신경망 기반 환경음 인식 방법 및 시스템

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
QIUQIANG KONG; YONG XU; IWONA SOBIERAJ; WENWU WANG; MARK D. PLUMBLEY: "Sound Event Detection and Time-Frequency Segmentation from Weakly Labelled Data", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 12 April 2018 (2018-04-12), 201 Olin Library Cornell University Ithaca, NY 14853, XP081127955, DOI: 10.1109/TASLP.2019.2895254 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112863550A (zh) * 2021-03-01 2021-05-28 德鲁动力科技(成都)有限公司 基于注意力残差学习的哭声检测方法及系统
CN115188387A (zh) * 2022-07-12 2022-10-14 四川农业大学 一种有效的海洋哺乳动物声音自动检测和分类方法
CN115188387B (zh) * 2022-07-12 2023-04-07 四川农业大学 一种有效的海洋哺乳动物声音自动检测和分类方法
CN115295002A (zh) * 2022-07-26 2022-11-04 中国科学技术大学 一种基于交互性时频注意力机制的单通道语音增强方法
CN115295002B (zh) * 2022-07-26 2024-05-14 中国科学技术大学 一种基于交互性时频注意力机制的单通道语音增强方法
CN116230015A (zh) * 2023-03-14 2023-06-06 哈尔滨工程大学 一种基于音频时序信息加权的频域特征表示异音检测方法
CN116230015B (zh) * 2023-03-14 2023-08-08 哈尔滨工程大学 一种基于音频时序信息加权的频域特征表示异音检测方法

Also Published As

Publication number Publication date
KR20210043833A (ko) 2021-04-22
KR102276964B1 (ko) 2021-07-14

Similar Documents

Publication Publication Date Title
WO2021075709A1 (ko) 잡음 환경에 강인한 동물 종 식별 장치 및 방법
US5608840A (en) Method and apparatus for pattern recognition employing the hidden markov model
US5812973A (en) Method and system for recognizing a boundary between contiguous sounds for use with a speech recognition system
WO2020204525A1 (ko) 잡음 환경에 강인한 화자 인식을 위한 심화 신경망 기반의 특징 강화 및 변형된 손실 함수를 이용한 결합 학습 방법 및 장치
Sorensen A cepstral noise reduction multi-layer neural network
Huang et al. Real-time lip-synch face animation driven by human voice
AU776919B2 (en) Robust parameters for noisy speech recognition
Anggraeni et al. Control of robot arm based on speech recognition using Mel-Frequency Cepstrum Coefficients (MFCC) and K-Nearest Neighbors (KNN) method
Sunny et al. Recognition of speech signals: an experimental comparison of linear predictive coding and discrete wavelet transforms
CN113808581B (zh) 一种声学和语言模型训练及联合优化的中文语音识别方法
WO2018084473A1 (ko) 신경망 학습에 기반한 입력 처리 방법 및 이를 위한 장치
CN115343573A (zh) 一种面向电网监控的声纹模型演化设备故障融合判决方法
Lee et al. Waveform-based end-to-end deep convolutional neural network with multi-scale sliding windows for weakly labeled sound event detection
WO2021153843A1 (ko) 가중치를 이용한 음성 신호의 스트레스 판별 방법 및 그를 위한 장치
Mohammed et al. Speech recognition system with different methods of feature extraction
JPH0962644A (ja) ニューラルネットワーク
Ejbali et al. A speech recognition system using fast learning algorithm and beta wavelet network
Cazau et al. PLCA model for detection of humpback whale sound units
Zhou et al. Environmental sound classification of western black-crowned gibbon habitat based on subspace method and DenseNet121
Zebulum et al. A comparison of different spectral analysis models for speech recognition using neural networks
US20230317102A1 (en) Sound Event Detection
Kämmerer et al. Experiments for isolated-word recognition with single-and multi-layer perceptrons
Vaidianathan et al. Stuttered Speech Recognition And Classification Using Enhanced Kamnan Filter And Neural Network
Maheswari et al. Speech recognition system based on phonemes using neural networks
Tu et al. Using wavelet packet decomposition technique on fuzzy classify model for underwater acoustic signal recognition

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20876779

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20876779

Country of ref document: EP

Kind code of ref document: A1