WO2020153572A1 - 사운드 이벤트 탐지 모델 학습 방법 - Google Patents
사운드 이벤트 탐지 모델 학습 방법 Download PDFInfo
- Publication number
- WO2020153572A1 WO2020153572A1 PCT/KR2019/012932 KR2019012932W WO2020153572A1 WO 2020153572 A1 WO2020153572 A1 WO 2020153572A1 KR 2019012932 W KR2019012932 W KR 2019012932W WO 2020153572 A1 WO2020153572 A1 WO 2020153572A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- sound
- event
- cnn
- data
- event sound
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
- G11B27/19—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B20/00—Signal processing not specific to the method of recording or reproducing; Circuits therefor
- G11B20/10—Digital recording or reproducing
- G11B20/10527—Audio or video recording; Data buffering arrangements
Definitions
- the present invention relates to a method and apparatus for accurately detecting a specific sound event in polyphonic sound. More specifically, it relates to a method and apparatus for training a model having high accuracy and speed in detecting a section in which the plurality of event sounds are reproduced from a target sound including a plurality of sound events.
- various neural network architectures are proposed to train a model that extracts each event sound and accurately detects a reproduction section in a polyphonic sound including a plurality of event sounds. For example, in the neural network architecture in which learning is completed, even when the barking sound and the car horn are simultaneously reproduced in some time periods, the reproduction section of the barking sound and the reproduction section of the car horn sound may be identified.
- the technical problem to be solved by the present invention is to provide a method and apparatus for training an accurate polyphonic sound event detection model using a small amount of training data.
- Another technical problem to be solved by the present invention is to provide a method and apparatus for maximizing the learning effect of a polyphonic sound event detection model through artificial synthetic polyphonic sound learning data in a controlled manner.
- the method for learning an event sound detection model is a CBRNN (Convolutional Bi-directional Neruarl Network) that is initially learned using data of an artificial synthesized sound including an artificially synthesized first event sound.
- CBRNN Convolutional Bi-directional Neruarl Network
- Acquiring the first CNN (Convolutional Neural Networks) included in, using the data of the first target sound containing the actual recorded first event sound is output from the output layer of the second CNN and the second CNN Including the step of learning the RNN of the bidirectional LSTM structure receiving data, the second CNN may be transferred learning using the weight of the first CNN.
- Acquiring the first CNN included in the initially learned CBRNN using data of the artificial synthesized sound including the artificially synthesized first event sound includes: Further comprising the step of obtaining the first CNN included in the CBRNN initially learned by using the data of the artificial synthesis sound, wherein the reproduction section of the first event sound and the second event sound of the artificial synthesis sound data The reproduction section may be overlapped by a specified time.
- the method further comprising obtaining the first CNN included in the initially learned CBRNN using data of the artificial synthesized sound including the artificially synthesized second event sound, according to an embodiment, the specified ratio
- the method may include acquiring the first CNN included in the initially learned CBRNN using the artificial synthesis data generated such that the reproduction intervals of the first event sound and the second event sound overlap.
- the step of obtaining the first CNN included in the initially learned CBRNN using data of the artificial synthesized sound including the artificially synthesized first event sound may include a third different from the second event sound.
- the method may further include acquiring the first CNN included in the initially learned CBRNN using data of the artificial synthesis sound including the event sound.
- the step of obtaining the first CNN included in the initially learned CBRNN using data of the artificial synthesized sound including the artificially synthesized first event sound further includes a specified number of event sounds And obtaining the first CNN included in the initially learned CBRNN using the data of the artificial synthetic sound.
- the method further comprising obtaining the first CNN included in the initially learned CBRNN using data of the artificial synthesized sound including the artificially synthesized second event sound according to an embodiment of the present invention. And acquiring the first CNN included in the initially learned CBRNN using the artificial synthesis data generated so that the reproduction section of the event sound is overlapped more, the specified number of event sounds that can overlap at the same time. It may be the maximum number.
- the RNN of the bidirectional LSTM structure receiving data output from the output layer of the second CNN and the second CNN using data of the first target sound including the actual recorded first event sound
- the step of learning includes learning a model for simultaneously detecting a plurality of event sound playback sections among the playback sections of the first target sound by using the learned RNN of the bidirectional LSTM structure, wherein the plurality of events The sound may be included in the first target sound.
- An event sound detection model learning apparatus includes a memory in which an event sound detection model learning program is loaded;
- a processor that executes an event sound detection model learning program loaded in the memory, wherein the event sound detection model learning program uses an artificial synthesis sound data including an artificially synthesized first event sound to perform initial learning.
- Instruction to acquire the first CNN (Convolutional Neural Networks) included in the learned CBRNN, the second CNN and the second using the data of the first target sound including the actually recorded first event sound It includes an instruction to train the RNN of the bidirectional LSTM structure receiving the data output from the output layer of the CNN, wherein the second CNN may be transferred learning using the weight of the first CNN. have.
- FIG. 1A is a diagram illustrating an event sound detection system according to an embodiment of the present invention.
- 1B is a diagram for explaining a method of learning an event sound detection model according to another embodiment of the present invention.
- FIG. 2 is a flowchart of a method for learning an event sound detection model according to another embodiment of the present invention.
- 3 to 4 are flowcharts for describing in detail some operations of the method to be described with reference to FIG. 2.
- FIG. 5 is a flowchart for explaining in detail some of the operations of FIG. 4.
- 6 to 10 are diagrams for explaining artificial synthetic sound that can be used as learning data in some embodiments of the present invention.
- FIG. 11 is a flowchart for explaining in detail some operations of the method to be described with reference to FIG. 4.
- FIG. 12 is a flowchart for describing in detail some operations of the method to be described with reference to FIG. 6.
- FIG. 13 is a block diagram illustrating an operation of an event sound detection model learning apparatus according to another embodiment of the present invention.
- FIG. 14 is a hardware configuration diagram of an event sound detection model learning apparatus according to another embodiment of the present invention.
- FIG. 1A The configuration and operation of a system including an event sound detection model according to an embodiment of the present invention will be described with reference to FIG. 1A.
- Recently, research on the field of polyphonic sound event detection using an artificial neural network has been actively conducted. This is because it is necessary to accurately and quickly detect the type and reproduction section of the event sound included in the simultaneous sound due to the characteristics of the simultaneous sound.
- the sound data (21, 22, 23, 24) is pre-processed as the image data (31, 32, 33, 45) in the form of a spectrogram, and then used as learning data of the artificial neural network (40).
- the input data 30 in the form of Mel-Spectrogram in which the actual sound data 20 is pre-processed is inserted into the artificial neural network 40 in the prediction step.
- the type and reproduction section of the event sound included in the actual sound may be detected (50).
- the event sound detection model learning system includes a neural network architecture 40 having a convolutional bi-directional recurrent neural network (CBRNN) structure.
- the CBRNN 40 of the system according to the present embodiment is a Mel-Spectrogram (31, 32, in which the sounds 21, 22, 23, and 24 collected for learning are converted in the learning step 10a). 33, 34) as learning data.
- the CBRNN 40 includes a first convolutional neural network (CNN), a second CNN, and a bi-directional long short-term memory (LSTM).
- the second CNN may be a transfer learning. That is, the weight of the second CNN may be initialized using the weight of the first CNN included in the CBRNN where initial training is completed.
- CBRNN according to some embodiments of the present invention includes a transfer learning step using CNN among CBRNNs, which is the most accurate learning method through various experiments, but is not limited thereto, and all RNNs or CBRNNs among CBRNNs are transferred. It can be used for learning and can be used for transfer learning after initial learning of at least one of CNN or RNN.
- the neural network architecture according to the present embodiment may further include a full-connected layer (dense layer) for labeling the learning result data of the CNN and the bi-directional LSTM.
- a full-connected layer (dense layer) for labeling the learning result data of the CNN and the bi-directional LSTM.
- the sound data (21, 22, 23, 24) collected for learning the CBRNN including the first CNN may be artificially synthesized sound data for pattern classification of a specific event sound, and the learning of the second CNN Sound data (21, 22, 23, 24) collected for the may be actual recorded sound data including a specific event sound.
- the event included in the target sound data using the CBRNN 40 learned in the learning step 10 It detects the type of sound and the playback section.
- the playback section for each event sound with high accuracy and speed.
- the event sound detection model trained according to the present embodiment may include a first CNN on which artificial synthetic data is learned, a second CNN 71 on which learning is learned, and a bi-directional LSTM (LSTM) 80.
- LSTM bi-directional LSTM
- the second CNN 71 is initially set to have the same weight as the weight of the first CNN 70 included in the CBRNN initially learned using the artificial synthesis data 60, and the actual data 61 It can be learned by typing. In this sense, the second CNN 71 is learned through transfer learning.
- the artificial synthesis data 60 may be understood as arranging one or more event sounds (eg, barking sounds, vehicle horn sounds) at positions in a controlled manner within the reproduction section of the artificial synthesis data 60. .
- the artificial synthesis data 60 may have various types of arrangements of event sounds, but the arrangements are learning data having good quality in terms of learning efficiency in that they satisfy criteria according to the controlled scheme.
- Various configuration methods of the artificial synthesis data 60 will be described in detail later with reference to FIGS. 6 to 10.
- the actual data 61 is data to which a predetermined preprocessing process is applied to sound data in which the actually generated sound is recorded.
- the actual data 61 may be a Mel-Spectrogram in which the sound data is converted.
- the mel-spectrogram may be composed of a vector of 40*200 (decibel * time) size.
- the second CNN 71 may include three convolutional layers.
- a sigmoid activation function may be used, and the weights may be randomly initialized each time.
- maximum pooling, dropout, and batch normalization may be performed.
- the pulling, dropout, and batch normalization have meanings of terms that can be easily understood by those skilled in the art.
- the maximum pooling may be performed only in the decibel axis, and the stride size of the maximum pooling performed in the first layer 5, the stride size of the maximum pooling performed in the second layer, of the maximum pooling performed in the 4th and 3rd layers
- the stride size can be 2.
- the dropout rate can be fixed at 0.3.
- the output data of the second CNN 71 may be generated as a vector having a size of 1*200*256 (decibel*time*number of filter).
- the output data may be converted into a vector having a size of 256*200 (number of filter*time), which is an input data of the bidirectional LSTM 80, by associating a filter axis with a decibel axis.
- the output data of the second CNN 71 includes feature information on the event sound, and may be input as input data of the bidirectional LSTM 80.
- the bidirectional LSTM 80 may include three layers 81a, 81b, and 81c, and each layer 81a, 81b, 81c may consist of 100 LSTM cells, and each cell may include 100 It may include a unit.
- layer normalization may be applied instead of batch normalization, and a sigmoid activation function may be used as in the CNN 71 learned from the transfer.
- a vector that concatenates vector data as a result of learning the forward LSTM and the reverse LSTM may be output data
- the input data of each layer may be output data of the previous layer.
- input data for learning of the second layer 81b may be learning result output data 82a of the first layer 81a
- input data for learning of the third layer 81c is the second layer It may be learning result output data 82b of 81b.
- the vector value 82c output from the final layer 81c of the bidirectional LSTM 80 may be considered even when the event sound changes over time on the time series data.
- the final output vector value 82c may be classified according to a class corresponding to each event sound in the final learning result data using the fully combined layer 90, and labeling corresponding to each class may be performed.
- FIG. 2 is a flowchart of an event sound detection method of a learned event sound detection model according to an embodiment of the present invention.
- step S100 sound data to be detected may be collected.
- the sound to be detected may include a plurality of event sounds. For example, if the sound to be detected is a sound recorded in a baseball stadium, the event sound may be a sound of an audience shouting, relay sound, or hitting a baseball with a baseball bat.
- the sound data to be detected may be audio data.
- the collected sound data to be detected may be pre-processed. Since the CBRNN according to an embodiment of the present invention is a neural network for extracting features of an image, the sound data to be detected in the collected audio form may be pre-processed as image data.
- step S300 a learning result of CBRNN according to an embodiment of the present invention, a model for detecting an event sound may be established. Detailed description will be described later in FIGS. 4 to 7.
- the existence of the event sound included in the target sound may be predicted by the model established in CBRNN according to an embodiment of the present invention.
- the probability of existence of a plurality of event sounds for each section of target sound data may be calculated through CBRNN, a model trained according to the present embodiment, and when the probability exceeds a certain threshold, event sound data in the corresponding section It can be expected that exists.
- signal processing for the target sound data in the audio form may be performed.
- Signal processing may be, for example, a STFT (Short Time Fourier Transform).
- FFT Short Time Fourier Transform
- a conventional signal processing technology can know the frequency component for the sound data, but loses information on the time axis, so there is a problem that only the frequency component for the event sound played in a specific section of the target sound data cannot be known. do.
- STFT signal processing may be performed in which target sound data is divided into 5 second units and FFT is performed for each divided section.
- the section divided by the 5 second unit can be transformed into a frame of 50 ms overlapped by 50% by STFT processing.
- the signal processing result cannot be used as data for training an event sound detection model using a neural network architecture including CBRNN.
- the conversion to the Mel-Spectrogram form may be performed once more to generate image-type data used for learning CBRNN.
- pre-processing of converting the signal processing result into a Mel-Spectrogram form may be performed. For example, it can be converted into a Mel-Spectrogram form having a log size of 40 Mel per frame for the 50 ms frame.
- labeling may be performed on a Mel-Spectrogram type frame, and a label vector may be assigned to each frame.
- the CBRNN may include a first CNN, a second CNN, and a bi-directional LSTM (LSTM).
- LSTM bi-directional LSTM
- a classification model for a pattern of event sound data existing in a target sound may be established using the first CNN and the second CNN.
- the second CNN may be a transfer learning using the first CNN. In FIG. 5, transfer learning will be described in detail.
- the characteristics and patterns of the event sound data included in the output data of the CNN may be used as input data of the bidirectional LSTM.
- the bidirectional LSTM in which the characteristics and patterns of the event sound data are learned, can detect a section in which the event sound data is reproduced from actual target sound data. Detailed description is given in FIGS. 6 to 7 below.
- the first CNN may learn artificial synthetic sound data.
- the artificial synthesis sound data may be, for example, data synthesized with various types of artificial event sound data into empty sound data for 5 seconds. That is, the artificial synthesized sound data may be synthesized to be located at a specified length and a designated interval in the empty sound data for 5 seconds.
- the amplitude of the sound may be normalized by multiplying the Gaussian random value obtained by the overall average and the standard deviation. Detailed description will be described later in FIGS. 6 to 8.
- the artificial sound data may be public sound data obtained from a website, sound data created for research, and sound data extracted from real-time sound data.
- the type of sound data to be extracted is the paper'T. Heittola, A.Mesaros, A.Eronen and T.Virtanen, "Context-dependent sound event detection", EURASIP Journal on Audio, Speech, and Music Processing, pp. 1-13, 2013' may be divided into 20 types.
- the second CNN that has been learned by using the weight of the first CNN may be obtained. Since the artificial synthetic sound is transitively learned using the learned first CNN, the learning time of the model for classifying the features and patterns of the event sound data can be reduced by the transitively learned second CNN, and securing sufficient data for the learning. Difficulties can be solved. In particular, by learning from artificial synthesis data in the first CNN, not only the overall speed of the CBRNN neural network architecture is improved, but also the accuracy is very high.
- F1 and an error rate (ER) may be used as numerical values for measuring the accuracy of CBRNN according to some embodiments of the present invention.
- CBRNN that has been trained for transfer is expressed as tl (transfer learning)-CBRNN.
- F1 is the value that accurately detects the event sound data
- P(precision) is the value when a new event sound is detected
- R(recall is the value that is the regression for the event sound detected in the past. )
- Error Rate is defined as follows using Insert (I), Delete (D), Substitute (S), and Active Class (N).
- Performance of tl-CBRNN (transfer learned CBRNN) including a CNN trained with artificial synthesis data-trained CNN and performance of tl-CBRNN including CNN trained with CNN not trained with artificial synthesis data
- the result of comparing is as follows.
- the F1 value of tl_CRBNN trained using artificial synthesis data has an error range of 0.5 at 74.0, while the F1 value of tl-CBRNN trained without artificial synthesis data has an error range of 55.9 with an error range of 1.9. to be.
- the definition of the F1 value it can be seen that the case of tl-CBRNN that was trans-trained using artificial synthesis data showed higher results in terms of accuracy than tl-CBRNN without artificial synthesis data.
- the F1 value of tl_CRBNN trained using artificial synthesis data was 74.0 with an error range of 0.5
- the F1 value of tl-CBRNN with artificial synthesis data not transferred learning was 70.7 with an error range of 0.6. to be.
- the definition of the F1 value it can be seen that the case of tl-CBRNN that was trained using artificial synthesis data showed higher results in terms of accuracy than CBRNN that was not transferred.
- step S313 the second CNN may be learned using actual sound data.
- the overfitting problem that may occur when the second CNN is learned using actual target sound data may be prevented in advance by transfer learning performed in steps S311 to S312.
- Overfitting is a problem in which learning is excessively well learned in machine learning, and when performing validation using the learning data, an error is very small, but there is a point where an error increases for other data.
- the occurrence of the overfitting problem is excluded because the trained model can be acquired through a variety of data even if not all of the actual data is collected through the CNN trained by using the CNN that learned the artificial learning data according to an embodiment of the present invention. Can be.
- a model for classifying event sound patterns may be established.
- the established model may detect event sounds included in actual target sound data in a subsequent prediction step.
- an event sound may be inserted into empty sound data or noise sound data of a specified length.
- the artificial synthetic sound 300 played for 5 seconds may be generated by inserting car event sounds 301, 302, and 303 into empty sound data played for 5 seconds.
- the inserted event sound (301, 302, 303) may be synthesized to be played for a specified time at a specified position, and the insertion position and time may be randomly determined, and a playing time corresponding to a playing ratio of the specified event sound data may be set.
- the event sound may be inserted to have it.
- artificial synthetic sound data when artificial synthetic sound data is generated such that 60% to 80% of the total artificial synthetic sound data is a reproduction section of the event sound, three car sounds 301, 302, and 303 are 60% of the total playing time.
- the artificial synthetic sound 300 may be generated to occupy the ratio, and the artificial synthetic sound data 310 may be generated such that the two music sounds 311 and 312 occupy 80% of the total playing time.
- artificial synthetic sound data including a plurality of event sound data may be generated according to another embodiment of the present invention.
- Artificial synthesis data may be generated to include a specified number of event sounds.
- it may be synthesized so that the reproduction sections between the event sounds overlap by a specified section or ratio.
- FIG. 7 Even if the playback sections (321, 322, 323, 331, 332) of the plurality of event sounds included in the artificial synthetic sound data (320. 330) generated when referring to are different, the playback sections of the plurality of event sounds overlap
- the length can be the same.
- artificial synthetic sounds including a plurality of event sounds in various combinations may be generated.
- artificial synthetic sound data 340 and 350 including vehicle sounds are generated, but the artificial synthetic sound data 340 and 350 overlap the reproduction section of the vehicle sound and the reproduction section of the event sound data other than the vehicle sound.
- Sections 341, 342, 343, 351, 352, and 353 may be generated to exist.
- the event sound other than the car sound of the artificial synthesis data 340 according to the present embodiment may be randomly specified, and the ratio of the reproduction section overlapping between the event sounds may be a specified value or may be randomly determined. do.
- artificial synthetic sound including a specified number of event sounds may be generated.
- sound data 360 and 370 including warning sound, vehicle sound, and music sound may be generated.
- artificial synthesis sound data 360 in which no overlapping section exists may be generated, and artificial synthesis in which only two event sounds overlap sections 371 and 372 exist.
- Sound data 370 may be generated.
- the number of event sounds may be various numbers specified by a random function. As a result, the training data of the event sound detection model is more diversely generated, so that the accuracy of the model can be increased.
- a section (381, 391, 392) in which both the warning sound, the car sound, and the music sound overlap may exist. It may need to be present in the synthetic sounds 380, 390.
- the maximum number of overlapping event sounds may be various numbers specified by a random function.
- the bidirectional LSTM may be composed of a plurality of layers.
- the bidirectional LSTM according to an embodiment of the present invention may be composed of three layers.
- step S321 learning may be performed using a result of the CNN that has been transferred and learned in the first layer of the bidirectional LSTM.
- Each layer of the bidirectional LSTM according to an embodiment of the present invention may be composed of 100 LSTM cells, and each cell may have 100 units.
- the second layer of the bidirectional LSTM may be trained using the learning result value of the first layer.
- the learning result value of the first layer may be vector type data.
- the third layer of the bidirectional LSTM may be trained using the learning result value of the second layer.
- the first to third layers perform learning to detect a section in which the event sound data is reproduced from the target sound data. Accordingly, according to an embodiment of the present invention, the learning result of the bidirectional LSTM may be classified and labeled for event sounds detected by the fully combined layer.
- step S324 a model for detecting a plurality of event sound data present in target sound data as a result of learning of the plurality of layers and a reproduction section in which the event sound is reproduced may be established.
- Bi-directional LSTM (Bi-directional LSTM) learning is performed by both forward LSTM and backward LSTM.
- the order in which the input values are input is different between the forward LSTM and the reverse LSTM.
- the input value of the reverse LSTM is input in the opposite direction to the forward LSTM.
- step S3211 learning on event sound pattern data may be performed in the forward LSTM.
- step S3212 learning of event sound pattern data may be performed in the reverse LSTM.
- Step S3211 and step S3212 can be performed in parallel and are not in a row relationship.
- a vector combining the learning result of the forward LSTM and the learning result of the reverse LSTM may be a first layer learning result of the bidirectional LSTM.
- the first layer learning result value may be an input value of the next layer.
- the result of comparing the performance of CBRNN including bidirectional LSTM and the performance of CRNN including unidirectional RNN is as follows. Note that the performance comparison below is a comparison of the performance of CBRNN and CBNN including CNN that is not trained with artificial synthesis data and is not transitively trained in order to confirm only the effect using bidirectional LSTM.
- the F1 value of CBRNN including bidirectional LSTM is 49.9 with an error range of 5.8, whereas the F1 value of CRNN with RNN is 27.5 with an error range of 2.6. According to the definition of F1 value, it can be seen that the case of CBRNN including bidirectional LSTM shows higher results in terms of accuracy than CRNN including simple RNN.
- the CNN using the CNN that learned the artificial synthesis data which is a feature according to an embodiment of the present invention
- the CBRNN using the bidirectional LSTM have the following performance difference when compared with the CRNN using the conventional CNN and RNN.
- Conventional CRNN is a paper'T. Heittola, A. Mesaros, A, Eronen, and T.Virtanen, "Audio context recognition using audio event histograms," Proc. Of the 18th European Signal Processing Conference (EUSIPCO), pp. 1272-1276, 2010.' CBNN.
- the performance of the tl-CBRNN according to the embodiment of the present invention described above and the performance of the conventional CRNN are as follows.
- the F1 value of tl-CBRNN including CNN and bidirectional LSTM that has been trained using artificial synthesis data has an error range of 0.5 in 74.0, whereas the F1 value of CRNN including CNN and RNN is 27.5.
- the error range 2.6 it can be seen that the accuracy of tl-CBRNN according to an embodiment of the present invention is significantly higher.
- the ER value of tl-CBRNN has an error range of 0.36 to 0.01, while the ER value of CRNN is 0.98 and an error range of 0.04, and the error rate value of tl-CBRNN according to an embodiment of the present invention is significantly lower. Able to know.
- video tagging that informs which event is included in target sound data including various event sounds using CBRNN (hereinafter, used in the same meaning as tl-CNRNN) described above )
- CBRNN hereinafter, used in the same meaning as tl-CNRNN
- CBRNN may be used for security services. For example, in a parking lot in an environment in which image analysis is difficult, vehicle recognition may be performed only with the sound of a vehicle, and collision noise of a vehicle may be detected to determine whether an accident has occurred. In addition, it may be possible to detect whether various accidents occur by detecting a person's screams and gunshots.
- a service such as sound visualization and fall detection may be provided using CBRNN.
- FIG. 13 A hardware configuration diagram of an event sound detection model learning apparatus according to an embodiment of the present invention will be described in detail with reference to FIG. 13.
- the event sound detection model learning apparatus 100 may include a data preprocessing unit 120, an artificial neural network unit 130, a data prediction unit 140, and an artificial synthesis sound data DB 150, and a data collection unit 110 ) And the sound data DB 160.
- the data collection unit 110 may collect sound data necessary for detecting the event sound of the present invention.
- the sound data may be loaded from the sound data DB 160 in which the target sound including the event sound is stored.
- target sound data including event sound is stored.
- the target sound may include target sound data for learning and target sound data for prediction.
- the sound data DB 160 is not necessarily physically included in the event sound device 100, and may be a physically separated external DB or a DB accessible on the network.
- the data pre-processing unit 120 may perform pre-processing that converts audio data in the form of audio into signal processing and spectrum. According to an embodiment of the present invention, after processing the audio data in the form of STFT, it may be converted into a Mel-Spectrogram form. However, it is noted that various signal processing such as FTT can be performed, it can be converted into a simple spectrum, and only one pre-processing of STFT and Mel-Spectrogram can be performed.
- the artificial neural network unit 130 may include an artificial neural network for event sound detection by a neural network according to an embodiment of the present invention. That is, the sound data can be learned using CBRNN.
- the artificial neural network unit 130 may train the CBRNN using artificial synthetic data received from the artificial synthetic sound data DB 150.
- the artificial synthetic sound data DB 150 may include data artificially synthesized with sound data related to the event sound.
- the artificial synthesis data may be generated by synthesizing empty audio with event sounds obtained from various external sources. Event sound detection with high accuracy and speed can be performed through learning using artificial synthesis data.
- the data prediction unit 140 may detect a reproduction section of each event sound for a plurality of event sounds in the reproduction section of the event target sound by the neural network according to an embodiment of the present invention. That is, event sound data included in the sound data may be predicted using CBRNN.
- the event sound detection device 200 includes a processor 210 and a memory 220, and in some embodiments may further include at least one of a storage 240, a network interface 230, and a system bus 250. have.
- the one or more instructions 221 and 222 loaded and stored in the memory 220 are executed through the processor 210.
- the computing device 200 for learning the event sound detection model according to the present embodiment can perform the event sound detection model learning method described with reference to FIGS. 1A and 1B even if there is no separate description.
- the network interface 230 may receive the target sound data or transmit information on the event sound detected from the target sound data. Information on the received target sound data may be stored in the storage 240.
- the storage 240 may store sound data 241 to be detected.
- the one or more instructions may include an instruction 222 for establishing a model for detecting a reproduction section of a plurality of event sounds included in the target sound, and a model for classifying patterns of event sound data according to some embodiments
- the establishing instruction 221 may be further included.
- the event sound data pattern classification model instruction 221 establishes a model that classifies features and patterns of event sound data using an algorithm that is trans-learned using artificial synthesis data 223 loaded on the memory. can do.
- the event sound detection model instruction 222 uses a result value of the established event sound data pattern classification model with respect to the event sound included in the target sound data 241 to reproduce a plurality of target sound data reproduction sections.
- the playback section of each event sound can be detected for the event sounds.
- the methods according to the embodiments of the present invention described so far can be performed by executing a computer program embodied in computer readable code.
- the computer program may be transmitted from a first computing device to a second computing device through a network such as the Internet and installed in the second computing device, and thus used in the second computing device.
- the first computing device and the second computing device include both server devices, physical servers belonging to a server pool for cloud services, and fixed computing devices such as desktop PCs.
- the computer program may be stored in a recording medium such as a DVD-ROM or flash memory device.
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
대상 사운드에서 특정 이벤트 사운드의 재생구간을 탐지하는 모델의 학습 방법 및 그 장치가 제공 된다. 본 발명의 일 실시예에 따른 이벤트 사운드 탐지 모델 학습 방법은, 인공 합성된 제1 이벤트 사운드를 포함하는 인공 합성 사운드의 데이터를 이용하여 초기 학습(initial learning)된 CBRNN에 포함된 제1 CNN(Convolutional Neural Networks)을 획득하는 단계, 실제 녹음된 상기 제1 이벤트 사운드가 포함된 제1 대상 사운드의 데이터를 이용하여 제2 CNN 및 상기 제2 CNN의 출력 레이어에서 출력 된 데이터를 입력 받는 양방향 LSTM 구조의 RNN을 학습시키는 단계를 포함하되, 상기 제2 CNN은 상기 제1 CNN의 가중치(weight)를 이용하여 전이 학습(transfer learning)된 것이다.
Description
본 발명은 폴리포닉 사운드에서 특정 사운드 이벤트를 정확하게 검출하는 방법 및 그 장치에 관한 것이다. 보다 자세하게는, 복수개의 사운드 이벤트를 포함하는 대상 사운드에서 상기 복수개의 이벤트 사운드가 재생되는 구간을 탐지함에 있어 높은 정확도와 속도를 갖는 모델을 학습시키는 방법 및 그 장치에 관한 것이다.
동시 음향 사건 검출 분야에서는 복수의 이벤트 사운드를 포함하는 폴리포닉 사운드(Polyphonic Sound)에서, 각각의 이벤트 사운드를 추출하고 재생 구간을 정확히 탐지하는 모델을 학습시키기 위한 다양한 신경망 아키텍처가 제시된다. 예를 들어, 학습이 완료된 상기 신경망 아키텍처는 개가 짖는 소리와 자동차 경적 소리가 일부 시간 구간에서 동시에 재생되는 경우에도 개가 짖는 소리의 재생 구간 및 자동차 경적 소리의 재생 구간이 식별될 수 있다.
그러나, 종래 CNN 및 RNN을 포함하는 신경망 아키텍쳐는 만족스러운 정확도를 가진 폴리포닉 사운드 이벤트 검출 모델을 수립하지 못하였으므로 높은 정확도를 갖는 신경망 아키텍쳐에 대한 기술의 제공이 요구된다.
또한, 이벤트 사운드 탐지를 수행하는 인공신경망을 학습하기 위한 방대한 데이터 확보에 어려움이 따르므로, 방대한 학습 데이터 없이 복수개의 이벤트 소리를 정확하게 탐지하는 인공신경망을 학습시킬 수 있는 기술의 제공이 요구 된다.
본 발명이 해결하고자 하는 기술적 과제는, 적은 양의 학습 데이터를 이용하여 정확도 높은 폴리포닉 사운드 이벤트 탐지 모델을 학습시키는 방법 및 그 장치를 제공하는 것이다.
본 발명이 해결하고자 하는 다른 기술적 과제는, 제어된 방식으로 인공합성 폴리포닉 사운드 학습 데이터를 통해 폴리포닉 사운드 이벤트 탐지 모델의 학습 효과를 극대화 시키는 방법 및 그 장치를 제공하는 것이다.
본 발명의 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명의 기술분야에서의 통상의 기술자에게 명확하게 이해 될 수 있을 것이다.
본 발명의 일 실시예에 따른 이벤트 사운드 탐지 모델 학습 방법은, 인공 합성된 제1 이벤트 사운드를 포함하는 인공 합성 사운드의 데이터를 이용하여 초기 학습(initial learning)된 CBRNN(Convolutional Bi-directional Neruarl Network)에 포함된 제1 CNN(Convolutional Neural Networks)을 획득하는 단계, 실제 녹음된 상기 제1 이벤트 사운드가 포함된 제1 대상 사운드의 데이터를 이용하여 제2 CNN 및 상기 제2 CNN의 출력 레이어에서 출력 된 데이터를 입력 받는 양방향 LSTM 구조의 RNN을 학습시키는 단계를 포함하되, 상기 제2 CNN은 상기 제1 CNN의 가중치(weight)를 이용하여 전이 학습(transfer learning)된 것일 수 있다.
일 실시예에 따른 상기 인공 합성된 제1 이벤트 사운드를 포함하는 인공 합성 사운드의 데이터를 이용하여 초기 학습된 CBRNN에 포함된 제1 CNN을 획득하는 단계는, 인공 합성된 제2 이벤트 사운드를 포함하는 상기 인공 합성 사운드의 데이터를 이용하여 초기 학습된 CBRNN에 포함된 상기 제1 CNN을 획득하는 단계를 더 포함하되, 상기 인공 합성 사운드 데이터의 상기 제1 이벤트 사운드의 재생 구간과 상기 제2 이벤트 사운드의 재생 구간은 지정된 시간만큼 겹치는 것 일 수 있다.
일 실시예에 따른, 상기 인공 합성된 제2 이벤트 사운드를 포함하는 상기 인공 합성 사운드의 데이터를 이용하여 초기 학습된 CBRNN에 포함된 상기 제1 CNN을 획득하는 단계는,
랜덤 함수에 의해 지정된 시간만큼 상기 제1 이벤트 사운드와 상기 제2 이벤트 사운드의 재생 구간이 겹치는 상기 인공합성 사운드의 데이터를 이용하여 초기 학습된 CBRNN에 포함된 상기 제1 CNN을 획득하는 단계를 포함할 수 있다.
일 실시예에 따른, 상기 인공 합성된 제2 이벤트 사운드를 포함하는 상기 인공 합성 사운드의 데이터를 이용하여 초기 학습된 CBRNN에 포함된 상기 제1 CNN을 획득하는 단계를 더 포함하는 단계는, 지정된 비율만큼 상기 제1 이벤트 사운드와 상기 제2 이벤트 사운드의 재생 구간이 겹치도록 생성된 상기 인공 합성 데이터를 이용하여 초기 학습된 CBRNN에 포함된 상기 제1 CNN을 획득하는 단계를 포함할 수 있다.
일 실시예에 따른, 상기 인공 합성된 제1 이벤트 사운드를 포함하는 인공 합성 사운드의 데이터를 이용하여 초기 학습된 CBRNN에 포함된 제1 CNN을 획득하는 단계는, 상기 제2 이벤트 사운드와 상이한 제3 이벤트 사운드를 포함하는 상기 인공 합성 사운드의 데이터를 이용하여 초기 학습된 CBRNN에 포함된 상기 제1 CNN을 획득하는 단계를 더 포함할 수 있다.
일 실시예에 따른, 상기 인공 합성된 제1 이벤트 사운드를 포함하는 인공 합성 사운드의 데이터를 이용하여 초기 학습된 CBRNN에 포함된 제1 CNN을 획득하는 단계는, 지정된 개수만큼의 이벤트 사운드를 더 포함하는 인공 합성 사운드의 데이터를 이용하여 초기 학습된 CBRNN에 포함된 제1 CNN을 획득하는 단계를 포함할 수 있다.
일 실시예에 따른, 상기 인공 합성된 제2 이벤트 사운드를 포함하는 상기 인공 합성 사운드의 데이터를 이용하여 초기 학습된 CBRNN에 포함된 상기 제1 CNN을 획득하는 단계를 더 포함하는 단계는, 지정된 개수만큼의 이벤트 사운드의 재생 구간이 더 겹치도록 생성된 상기 인공 합성 데이터를 이용하여 초기 학습된 CBRNN에 포함된 상기 제1 CNN을 획득하는 단계를 포함하되, 상기 지정된 개수는 동시에 겹칠 수 있는 이벤트 사운드의 최대 개수인 것 일 수 있다.
일 실시예에 따른, 상기 실제 녹음된 상기 제1 이벤트 사운드가 포함된 제1 대상 사운드의 데이터를 이용하여 제2 CNN 및 상기 제2 CNN의 출력 레이어에서 출력 된 데이터를 입력 받는 양방향 LSTM 구조의 RNN을 학습시키는 단계는, 상기 학습된 양방향 LSTM 구조의 RNN을 이용하여 상기 제1 대상 사운드의 재생 구간 중 복수개의 이벤트 사운드의 재생 구간을 동시에 탐지하는 모델을 학습하는 단계를 포함하되, 상기 복수개의 이벤트 사운드는 상기 제1 대상 사운드에 포함된 것 일 수 있다.
본 발명의 다른 실시예에 따른 이벤트 사운드 탐지 모델 학습 장치는 이벤트 사운드 탐지 모델 학습 프로그램이 로드 되는 메모리; 및
상기 메모리에 로드된 이벤트 사운드 탐지 모델 학습 프로그램을 실행하는 프로세서를 포함하되, 상기 이벤트 사운드 탐지 모델 학습 프로그램은, 인공 합성된 제1 이벤트 사운드를 포함하는 인공 합성 사운드의 데이터를 이용하여 초기 학습(initial learning)된 CBRNN에 포함된 제1 CNN(Convolutional Neural Networks)을 획득하는 인스트럭션(instruction), 실제 녹음된 상기 제1 이벤트 사운드가 포함된 제1 대상 사운드의 데이터를 이용하여 제2 CNN 및 상기 제2 CNN의 출력 레이어에서 출력 된 데이터를 입력 받는 양방향 LSTM 구조의 RNN을 학습시키는 인스트럭션을 포함하되, 상기 제2 CNN은 상기 제1 CNN의 가중치(weight)를 이용하여 전이 학습(transfer learning)된 것일 수 있다.
도 1a은 본 발명의 일 실시예에 따른 이벤트 사운드 탐지 시스템을 설명하기 위한 도면이다.
도 1b은 본 발명의 다른 실시예에 따른 이벤트 사운드 탐지 모델의 학습 방법을 설명하기 위한 도면이다.
도 2는 본 발명의 또 다른 실시예에 따른 이벤트 사운드 탐지 모델 학습 방법에 대한 순서도이다.
도 3 내지 도 4는 도 2을 참조하여 설명될 방법의 일부 동작을 자세히 설명하기 위한 순서도이다.
도 5는 도 4의 일부 동작을 자세히 설명하기 위한 순서도이다.
도 6 내지 도 10은 본 발명의 몇몇 실시예들에서 학습 데이터로서 이용될 수 있는 인공 합성 사운드를 설명하기 위한 도면이다.
도 11은 도 4를 참조하여 설명될 방법의 일부 동작을 자세히 설명하기 위한 순서도이다.
도 12는 도 6을 참조하여 설명될 방법의 일부 동작을 자세히 설명하기 위한 순서도이다.
도 13은 본 발명의 또 다른 실시예에 따른 이벤트 사운드 탐지 모델 학습 장치의 동작을 설명하기 위한 블록도이다.
도 14는 본 발명의 또 다른 실시예에 따른 이벤트 사운드 탐지 모델 학습 장치의 하드웨어 구성도이다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예들을 상세히 설명한다. 본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시 예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 게시되는 실시 예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시 예들은 본 발명의 게시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있다. 또 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다. 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다.
이하, 도면들을 참조하여 본 발명의 몇몇 실시예들을 설명한다.
본 발명의 일 실시예에 따른 이벤트 사운드 탐지 모델을 포함하는 시스템의 구성 및 동작을 도 1a를 참조하여 설명한다. 최근 인공신경망을 이용한 동시 음향 사건 검출(Polyphonic sound event detection)분야에 대한 연구가 활발히 진행되고 있다. 동시 음향의 특성상 상기 동시 음향에 포함된 이벤트 사운드의 종류 및 재생 구간을 정확하고 빠르게 검출해야 하기 때문이다. 특히 소리 데이터(21, 22, 23, 24)는 스펙트로그램 형태의 이미지 데이터(31, 32, 33, 45)로 전처리 된 후, 인공신경망(40)의 학습 데이터로 사용된다.
학습된 후, 예측 단계에서 인공신경망(40)에 실제 사운드 데이터(20)가 전처리된 Mel-Spectrogram 형태의 입력데이터(30)를 삽입한다. 예측 단계에서는 상기 실제 사운드에 포함된 이벤트 사운드의 종류 및 재생구간이 검출(50)될 수 있다.
하지만 종래 신경망 아키텍쳐인 CRNN (CNN 및 RNN을 포함하는 인공 신경망)에서는 이벤트 사운드를 검출함에 있어 속도 및 정확성 측면에서 만족스러운 결과를 얻을 수 없었다. 따라서 본 발명의 몇몇 실시예에 따른 이벤트 사운드 검출 모델 학습 시스템은 CBRNN(Convolutional Bi-directional Recurrent Neural Network) 구조의 신경망 아키텍처(40)를 포함한다. 본 실시예에 따른 시스템의 CBRNN(40)은 학습단계(10a)에서, 학습을 위해 수집된 사운드(21, 22, 23, 24)가 변환된 멜스펙트로그램(Mel-Spectrogram)(31, 32, 33, 34)을 학습 데이터로서 이용하여 학습된다.
CBRNN(40)은 제1 CNN(Convolutional Neural Network), 제2 CNN 및 Bi-directional LSTM(Long Short-Term Memory)을 포함한다. 이 때, 상기 제2 CNN은 전이 학습 된 것일 수 있다. 즉, 상기 제2 CNN의 가중치는 초기 학습(initial training)이 완료된 CBRNN에 포함된 제1 CNN의 가중치를 이용해 초기화된 것일 수 있다. 본 발명의 몇몇 실시예에 따른 CBRNN은 여러 실험을 통하여 가장 정확도가 높은 학습방법인, 초기 학습 된 CBRNN중 CNN을 이용한 전이학습 단계를 포함하나, 이에 한하지 않고 CBRNN중 RNN 또는 CBRNN 전체를 모두 전이학습에 이용할 수 있고, CNN 또는 RNN중 적어도 하나를 초기학습 시킨 후 전이학습에 이용할 수도 있다.
또한 본 실시예에 따른 신경망 아키텍쳐는 상기 CNN 및 Bi-directional LSTM의 학습결과 데이터의 라벨링을 위하여 완전 결합 레이어(Full-connected layer, dense layer)을 더 포함할 수 있다.
상기 제1 CNN을 포함하는 CBRNN의 학습을 위해 수집된 사운드 데이터(21, 22, 23, 24)는 특정 이벤트 사운드의 패턴 분류를 위해 인공적으로 합성된 사운드 데이터 일 수 있고, 상기 제2 CNN의 학습을 위해 수집된 사운드 데이터(21, 22, 23, 24)는 특정 이벤트 사운드를 포함하는 실제 녹음된 사운드 데이터일 수 있다.
예측단계(10b)에서는, 실제 대상 사운드 데이터(20)를 Mel-Spectrogram(30)으로 변환하는 전처리 후, 상기 학습단계(10)에서 학습된 CBRNN(40)을 이용하여 대상 사운드 데이터에 포함된 이벤트 사운드의 종류 및 재생 구간을 탐지한다. 특히 복수개의 이벤트 사운드로 구성된 대상 데이터에 대하여, 각각의 이벤트 사운드의 재생구간이 겹치더라도 본 실시예에 따르면 각각의 이벤트 사운드에 대한 재생 구간을 높은 정확도와 속도로 탐지해 낼 수 있다.
도 1b를 참조하여 본 실시예에 따른 시스템의 학습 관련 구성 및 동작을 보다 상세히 설명한다.
본 실시예에 따라 학습되는 이벤트 사운드 탐지 모델은 인공 합성 데이터가 학습된 제1 CNN, 전이학습 된 제2 CNN(71) 및 양방향 LSTM(Bi-directional LSTM)(80)을 포함할 수 있다.
제2 CNN(71)은 인공 합성 데이터(60)를 이용하여 초기 학습 된 CBRNN에 포함된 제1 CNN(70)의 가중치(weight)와 동일한 가중치를 가지도록 초기 설정된 상태에서, 실제 데이터(61)를 입력 받아 학습 될 수 있다. 이러한 의미에서 제2 CNN(71)은 전이 학습(transfer learning)을 통해 학습되는 것이다.
인공 합성 데이터(60)는 하나 이상의 이벤트 사운드(예를 들어, 개 짖는 소리, 차량 경적 소리)를 인공 합성 데이터(60)의 재생 구간 내의 제어된 방식에 따른 위치에 배치한 것으로 이해될 수 있을 것이다. 인공 합성 데이터(60)는 이벤트 사운드의 다양한 배치 형태를 가질 수 있되, 상기 배치 형태는 상기 제어된 방식에 따른 기준을 만족하는 것인 점에서 학습 효율 측면에서 좋은 품질을 가진 학습 데이터이다. 인공 합성 데이터(60)의 다양한 구성 방법에 대하여 도 6 내지 도 10을 참조하여 추후 자세히 설명하기로 한다.
실제 데이터(61)는 실제 발생된 사운드가 녹음 된 사운드 데이터에 대하여 소정의 전처리 프로세스가 적용된 데이터이다. 예를 들어, 실제 데이터(61)는 상기 사운드 데이터가 변환된 멜-스펙트로그램(Mel-Spectrogram)일 수 있다. 상기 멜-스펙트로그램은 40*200(decibel * time) 사이즈의 벡터로 구성될 수 있다.
또한 제2 CNN(71)은 3개의 컨볼루셔널 레이어(3 Convolutional Layers)를 포함하여 구성될 수 있다. 또한 제2 CNN(71)의 필터(Filter)는 각각의 레이어에 256개가 있을 수 있고, 각 커널(kernel)의 사이즈는 3x3으로 고정될 수 있다. 또한 시그모이드(sigmoid) 활성 함수가 이용될 수 있으며 매번 가중치는 무작위로 초기화될 수도 있다.
상기 3개의 컨볼루셔널 레이어(Convolutional Layer)에서 컨볼루셔널이 수행된 후, 최대 풀링(Max Pool), 드롭아웃(Dropout), Batch 정규화(Normalization)가 수행될 수 있다. 상기 풀링, 드롭아웃, Batch 정규화는 통상의 기술자가 용이하게 이해할 수 있는 용어의 의미를 갖는다. 상기 최대 풀링은 데시벨 축에서만 진행될 수 있으며, 제1 레이어에서 수행되는 최대 풀링의 스트라이드(stride) 크기 5, 제2 레이어에서 수행되는 최대 풀링의 스트라이드 크기는 4 및 제3 레이어에서 수행되는 최대 풀링의 스트라이드 크기는 2일 수 있다. 또한 드롭 아웃 비율은 0.3으로 고정될 수 있다.
상기 제2 CNN(71)의 출력 데이터(output) 1*200*256(decibel*time*number of filter) 크기의 벡터로 생성될 수 있다. 상기 출력 데이터는 필터 축과 데시벨 축을 연관시켜 양방향 LSTM(80)의 입력 데이터(input)인 256*200(number of filter*time) 크기의 벡터로 변환될 수 있다. 상기 제2 CNN(71)의 출력 데이터는 이벤트 사운드에 대한 특징정보를 포함하고 있으며, 양방향 LSTM(80)의 입력 데이터로 입력될 수 있다.
양방향 LSTM(80)은 3개의 레이어(81a, 81b, 81c)를 포함할 수 있고, 각 레이어(81a, 81b, 81c)는 100 개의 LSTM 셀(cell)로 구성 될 수 있으며 각각의 셀은 100개의 유닛을 포함할 수 있다. 상기 양방향 LSTM(80)은 batch 정규화 대신 레이어 정규화가 적용될 수 있고 상기 전이 학습 된 CNN(71)과 마찬가지로 시그모이드 활성 함수가 사용될 수 있다.
양방향 LSTM(80)의 각 레이어(81a, 81b, 81c)는 정방향 LSTM 및 역방향 LSTM이 학습된 결과 벡터 데이터를 연결한 벡터(concatenate vector)(82a, 82b, 82c)가 출력 데이터가 될 수 있고, 각 레이어의 입력 데이터는 이전 레이어의 출력 데이터일 수 있다. 예를 들어 제2 레이어(81b)의 학습을 위한 입력 데이터는 제1 레이어(81a)의 학습 결과 출력 데이터(82a)일 수 있고, 제3 레이어(81c)의 학습을 위한 입력 데이터는 제2 레이어(81b)의 학습 결과 출력 데이터(82b)일 수 있다.
상기 양방향 LSTM(80)의 최종 레이어(81c)에서 출력된 벡터 값(82c)은 시계열 데이터상에서 시간의 흐름에 따른 이벤트 사운드의 변화까지 고려된 것 일 수 있다. 상기 최종 출력된 벡터 값(82c)은 완전 결합 레이어(90)를 이용해 상기 최종 학습 결과데이터에 각각의 이벤트 사운드에 상응하는 클래스에 따라 분류되고 각 클래스에 상응하는 라벨링이 수행될 수 있다.
도 2는 본 발명의 일 실시예에 따라 학습된 이벤트 사운드 탐지 모델의 이벤트 사운드 탐지 방법에 대한 순서도이다.
단계 S100에서 탐지 대상 사운드 데이터가 수집될 수 있다. 상기 탐지 대상 사운드는 복수개의 이벤트 사운드를 포함할 수 있다. 예를 들어 탐지 대상 사운드가 야구 경기장에서의 소리를 녹음한 것이라면, 이벤트 사운드는 관객의 함성소리, 중계소리, 야구공을 야구 배트로 치는 소리일 수 있다. 상기 탐지 대상 사운드 데이터는 오디오 형태의 데이터일 수 있다.
단계 S200에서 상기 수집된 탐지 대상 사운드 데이터가 전처리 될 수 있다. 본 발명의 일 실시예에 따른 CBRNN은 이미지의 특징을 추출하기 위한 신경망 이므로 상기 수집된 오디오 형태의 탐지 대상 사운드 데이터가 이미지 형태의 데이터로 전처리 될 수 있다.
단계 S300에서 본 발명의 일 실시예에 따른 CBRNN의 학습 결과, 이벤트 사운드를 탐지하는 모델이 수립될 수 있다. 상세한 설명은 이하 도 4 내지 도 7에서 후술한다.
단계 S400에서 본 발명의 일 실시예에 따른 CBRNN에서 수립된 모델에 의해 대상 사운드에 포함된 이벤트 사운드의 존재 여부가 예측될 수 있다. 예를 들어 본 실시예에 따라 학습된 모델인 CBRNN을 통해 대상 사운드 데이터의 구간별로 복수개의 이벤트 사운드의 존재 확률이 계산될 수 있고, 상기 확률이 특정 임계값을 초과하는 경우 해당 구간에 이벤트 사운드 데이터가 존재한다고 예측될 수 있다.
도 3을 참조하여 대상 데이터의 전처리를 수행하는 과정에 대하여 상세히 설명한다. 대부분의 사운드 데이터는 오디오 형태(Audio file format)이다. 예를 들어 비압축 형태인 WAV, AIRR 및 AU, 비손실 압축 포맷인 FLAC, TTA 및 WavPack, 손실 압축 포맷인 MP3, AAC 와 같은 형태가 있을 수 있다. 하지만 이와 같은 오디오 형태의 사운드 데이터는 시계열 데이터 상태에서 어떤 이벤트 사운드가 포함되어 있는지, 특정 이벤트 사운드가 어떤 특징을 갖고 있는지 파악하기 어렵다.
따라서 단계 S210에서 오디오 형태의 대상 사운드 데이터에 대한 신호처리가 수행될 수 있다. 신호처리는 예를 들어 STFT(Short Time Fourier Transform)일 수 있다. 종래 사용하던 신호처리 기술인 FFT는 상기 사운드 데이터에 대한 주파수 성분을 알 수 있으나, 시간축에 대한 정보를 잃어버려 어떤 대상 사운드 데이터의 특정 구간에서 재생되는 이벤트 사운드에 대한 주파수 성분만을 알 수 없다는 문제가 발생한다.
따라서 본 발명의 일 실시예에 따른 STFT를 이용한 사운드 데이터 신호처리 방법은, 대상 사운드 데이터를 5초 단위로 나누고 나누어진 구간 별로 FFT를 수행하는 STFT 신호처리가 수행될 수 있다. 또한 상기 5초 단위로 나뉜 구간은 STFT 처리됨으로써 50%씩 겹쳐지는 50ms의 프레임으로 변형 될 수 있다.
하지만 신호처리 결과는 CBRNN을 포함하는 신경망 아키텍쳐를 이용한 이벤트 사운드 탐지 모델의 학습을 위한 데이터로 사용될 수 없다. 본 발명의 일 실시예에 따르면 CBRNN의 학습에 사용되는 이미지 형태의 데이터를 생성하기 위해 Mel-Spectrogram 형태로의 변환이 한번 더 수행될 수 있다.
단계 S220에서 상기 신호처리 결과를 Mel-Spectrogram 형태로 변환하는 전처리가 수행될 수 있다. 예를 들어 상기 50ms의 프레임에 대하여 프레임당 40 멜(Mel)의 로그 크기를 갖는 Mel-Spectrogram형태로 변환될 수 있다. 또한 Mel-Spectrogram 형태의 프레임에 라벨링을 수행하여, 각각의 프레임에 대하여 라벨 벡터가 할당될 수 있다.
즉, 대상 사운드 데이터의 STFT이후 획득한 spectrogram의 주파수 성분을 Mel 곡선에 따라 압축한 Mel-Spectrogram 형태의 데이터를 획득할 수 있다.
이하 도 4를 참조하여 CBRNN 인공신경망을 이용하여 이벤트 사운드 탐지 모델이 학습되는 과정을 상세히 설명한다.
CBRNN은 제1 CNN, 제2 CNN 및 양방향 LSTM(Bi-directional LSTM)을 포함할 수 있다.
단계 S310에서 제1 CNN 및 제2 CNN을 이용하여 대상 사운드에 존재하는 이벤트 사운드 데이터의 패턴에 대한 분류 모델이 수립될 수 있다. 제2 CNN은 제1 CNN을 이용해 전이학습 된 것일 수 있다. 도 5에서 전이학습에 대해 상세히 설명한다.
단계 S320에서 상기 CNN의 출력 데이터가 포함하는 상기 이벤트 사운드 데이터의 특징 및 패턴은 양방향 LSTM의 입력 데이터로 이용될 수 있다. 상기 이벤트 사운드 데이터의 특징 및 패턴이 학습된 양방향 LSTM은 실제 대상 사운드 데이터에서 상기 이벤트 사운드 데이터가 재생되는 구간을 탐지할 수 있다. 상세한 설명은 이하 도 6내지 도 7에서 한다.
LSTM을 사용함으로써 종래 RNN을 사용함으로써 발생되었던 정보 손실 문제인 Vanishing gradient problem의 발생을 감소 시킬 수 있다.
도 5에서 전이 학습된 제2 CNN에 의해 이벤트 사운드 분류 모델이 수립되는 과정을 상세히 설명한다. 전이 학습은 이미 학습된 알고리즘의 가중치(weight)를 이용하여 향상된 속도와 성능을 갖는 모델을 수립하기 위해 사용된다.
단계 S311에서 제1 CNN은 인공 합성 사운드 데이터를 학습 할 수 있다. 상기 인공 합성 사운드 데이터는 예를 들어 다양한 종류의 인공 이벤트 사운드 데이터를 5초동안의 빈 사운드 데이터에 합성한 데이터 일 수 있다. 즉, 인공 합성 사운드 데이터는 5초 동안의 빈 사운드 데이터에 지정된 길이와 지정된 구간에 위치하도록 합성된 것 일 수 있다. 또한 상기 인공 데이터 합성시, 전체 평균에 의해 얻어진 가우시안 랜덤 값과 표준편차를 곱하여 상기 사운드의 진폭이 정규화 될 수 있다. 상세한 설명은 이하 도 6내지 도 8에서 후술한다.
상기 인공 사운드 데이터는 웹 사이트에서 획득한 퍼블릭 사운드 데이터, 연구용으로 만들어진 사운드 데이터 및 실시간 사운드 데이터 에서 추출된 사운드 데이터일 수 있다. 상기 추출되는 사운드 데이터의 종류는 논문 'T. Heittola, A.Mesaros, A.Eronen and T.Virtanen, "Context-dependent sound event detection", EURASIP Journal on Audio, Speech, and Music Processing, pp. 1-13, 2013'에 따른 분류에 의해 나눠진 20가지 종류일 수 있다.
단계 S312에서 제1 CNN의 가중치(weight)를 이용하여 전이 학습된 제2 CNN이 획득될 수 있다. 인공 합성 사운드가 학습된 제1 CNN을 이용해 전이 학습 됨으로써, 전이 학습된 제2 CNN이 이벤트 사운드 데이터의 특징 및 패턴을 분류하는 모델의 학습 시간을 감소시킬 수 있고, 상기 학습을 위한 충분한 데이터 확보의 어려움에 대한 문제점을 해결할 수 있다. 특히, 제1 CNN에서 인공 합성 데이터를 이용해 학습을 함으로써 CBRNN 신경망 아키텍쳐의 전체적인 속도 향상뿐 아니라, 정확성도 매우 높아졌다.
본 발명의 몇몇 실시예에 따른 CBRNN의 정확도를 측정하기 위한 수치는 F1과 ER(Error Rate)이 이용될 수 있다. 또한 이하 다른 모델과의 성능 비교를 위해 전이 학습된 CBRNN의 경우 tl(transfer learning)-CBRNN으로 표현한다.
이벤트 사운드 데이터를 정확하게 탐지해내는 정도를 의미하는 수치를 F1, 새로운 이벤트 사운드를 탐지한 경우를 의미하는 수치를 P(precision) 및 과거에 탐지한 이벤트 사운드에 대한 회기를 의미하는 수치를 R(recall)이라 할 때, F1에 대한 정의는 아래와 같다.
[수식 1]
또한, 오류율(ER, Error Rate)은 삽입(I), 삭제(D), 대체(S) 및 활성 클래스(N)를 이용하여 아래와 같이 정의된다.
[수식 2]
인공 합성 데이터가 학습된 CNN을 이용하여 전이학습된 CNN을 포함하는 tl-CBRNN(transfer learned CBRNN)의 성능과 인공 합성 데이터로 학습 되지 않은 CNN에 의해 전이학습된 CNN을 포함하는 tl-CBRNN의 성능을 비교한 결과는 아래와 같다.
Method | F1 | ER |
tl-CBRNN | 55.9±1.9 | 0.56±0.03 |
tl-CBRNN(using synthetic data) | 74.0±0.5 | 0.36±0.01 |
표 1을 참조하면, 인공 합성 데이터를 사용하여 전이 학습된 tl_CRBNN의 F1수치는 74.0에 오차범위 0.5인 반면, 인공 합성 데이터를 사용하지 않고 전이 학습된 tl-CBRNN의 F1수치는 55.9에 오차범위 1.9이다. F1 수치의 정의에 따라 인공 합성 데이터를 사용하여 전이 학습된 tl-CBRNN의 경우가 인공 합성 데이터를 사용하지 않은 tl-CBRNN보다 정확성 측면에서 더 높은 결과를 보임을 알 수 있다.
또한, 인공 합성 데이터를 이용하여 학습된 CNN을 이용하여 전이학습된 CNN을 포함하는 tl-CBRNN의 성능과 전이 학습 되지 않고 직접 인공 합성 데이터를 이용하여 학습된 CNN포함하는 CBRNN의 성능을 비교한 결과는 아래와 같다.
Method | F1 | ER |
CBRNN(using synthetic data) | 70.7±0.6 | 0.40±0.01 |
tl-CBRNN(using synthetic data) | 74.0±0.5 | 0.36±0.01 |
표 2을 참조하면, 인공 합성 데이터를 사용하여 전이 학습된 tl_CRBNN의 F1수치는 74.0에 오차범위 0.5인 반면, 인공 합성 데이터를 사용하였으나 전이 학습되지 않은 tl-CBRNN의 F1수치는 70.7에 오차범위 0.6이다. F1 수치의 정의에 따라 인공 합성 데이터를 사용하여 전이 학습된 tl-CBRNN의 경우가 전이 학습 되지 않은 CBRNN보다 정확성 측면에서 더 높은 결과를 보임을 알 수 있다.
상기 표 1 및 표 2를 참조할 때, 인공합성 데이터를 이용하여 학습된 CNN을 이용해 전이학습된 CNN을 포함하는 tl-CBRNN이 다른 모델보다 정확도(F1)가 높고 오류율(ER)이 낮음을 알 수 있다.
단계 S313에서, 제2 CNN은 실제 사운드 데이터를 이용하여 학습될 수 있다. 상기 제2 CNN이 실제 대상 사운드 데이터를 이용하여 학습 됨으로써 발생할 수 있는 과적합(overfitting)문제는 단계 S311 내지 단계 S312에서 수행된 전이 학습에 의해 미리 방지될 수 있다.
과적합 이란, 머신러닝에서 학습 데이터를 과하게 잘 학습하여, 상기 학습 데이터를 이용하여 검증(Validation) 할 경우 오차가 매우 적지만, 실제 다른 데이터에 대하여는 오차가 증가하는 지점이 존재하는 문제이다. 본 발명의 일 실시예에 따른 인공 학습 데이터를 학습한 CNN을 이용해 전이학습된 CNN을 통해 실제 데이터를 모두 수집하지 않더라도 다양한 데이터를 통해 학습된 모델을 획득할 수 있으므로 상기 과적합 문제의 발생은 배제될 수 있다.
단계 S314에서 이벤트 사운드의 패턴을 분류하는 모델이 수립될 수 있다. 상기 수립된 모델은 이후 예측 단계에서 실제 대상 사운드 데이터에 포함된 이벤트 사운드를 탐지한 수 있다.
이하 도 6 내지 도 8을 참조하여 인공 합성 사운드 데이터를 생성하는 방법을 상세히 설명한다.
본 발명의 일 실시예에 따른 인공 합성 데이터에는 지정된 길이의 빈 사운드 데이터 또는 노이즈 사운드 데이터에 이벤트 사운드를 삽입된 형태일 수 있다.
도 6을 참조하면 5초 동안 재생되는 인공 합성 사운드(300)는 5초 동안 재생되는 빈 사운드 데이터에 자동차 이벤트 사운드(301, 302, 303)를 삽입하여 생성될 수 있다. 상기 삽입되는 이벤트 사운드(301, 302, 303)은 지정된 위치에 지정된 시간동안 재생되도록 합성될 수 있고, 랜덤으로 삽입 위치 및 시간이 결정될 수도 있으며, 지정된 이벤트 사운드 데이터의 재생 비율에 상응하는 재생시간을 갖도록 상기 이벤트 사운드가 삽입될 수도 있다.
예를 들어 전체 인공 합성 사운드 데이터의 60% ~ 80%가 이벤트 사운드의 재생 구간이 되도록 인공 합성 사운드 데이터가 생성될 경우, 3개의 자동차 소리(301, 302, 303)가 전체 재생 시간의 60%의 비율을 차지하도록 인공 합성 사운드(300)가 생성될 수 있고, 2개의 음악 소리(311, 312)가 전체 재생 시간의 80%의 비율을 차지하도록 인공 합성 사운드 데이터(310)가 생성될 수도 있다.
또한 도 7을 참조할 때, 본 발명의 다른 실시예에 따라 복수개의 이벤트 사운드 데이터가 포함된 인공 합성 사운드 데이터가 생성될 수 있다.
본 발명의 일 실시예에 따른 인공 합성 데이터는 지정된 개수의 이벤트 사운드를 포함하도록 생성될 수 있다. 또한 지정된 구간 또는 비율만큼 상기 이벤트 사운드간 재생 구간이 겹치도록 합성될 수 있다.
예를 들어 2개의 이벤트 사운드의 재생 구간이 전체 대상 사운드의 30% 비율만큼 겹치는 구간(321, 322, 323, 331, 332)을 포함하는 인공 합성 사운드(320, 330)가 생성되는 경우, 도 7을 참조할 때 생성되는 인공 합성 사운드 데이터(320. 330)에 포함된 복수개의 이벤트 사운드의 재생 구간(321, 322, 323, 331, 332)은 상이하더라도 복수개의 이벤트 사운드의 재생 구간이 겹치는 구간의 길이는 동일할 수 있다.
도 8을 참조할 때, 본 발명의 또 다른 실시예에 따라 다양한 조합의 복수개의 이벤트 사운드가 포함된 인공 합성 사운드가 생성될 수 있다.
예를 들어 자동차 소리를 포함하는 인공 합성 사운드 데이터(340, 350)를 생성하되, 상기 인공 합성 사운드 데이터(340, 350)는 자동차 소리의 재생 구간과 자동차 소리가 아닌 이벤트 사운드 데이터의 재생 구간과 겹치는 구간(341, 342, 343, 351, 352, 353)이 존재하도록 생성될 수 있다. 본 실시예에 따른 인공 합성 데이터(340)의 자동차 소리가 아닌 다른 이벤트 사운드는 랜덤으로 지정될 수 있으며, 이벤트 사운드간 겹치는 재생 구간의 비율은 지정된 수치일 수도 있고, 랜덤으로 정해질 수도 있음에 유의한다.
도 9를 참조할 때, 본 발명의 또 다른 실시예에 따라 지정된 개수의 이벤트 사운드가 포함된 인공 합성 사운드가 생성될 수 있다.
예를 들어 3개의 이벤트 사운드를 포함하는 인공 합성 사운드가 생성되도록 지정된 경우 경고음, 자동차 소리 및 음악 소리를 포함하는 사운드 데이터(360, 370)가 생성될 수 있다. 이 경우 이벤트 사운드간 겹치는 구간에 대한 지정을 하지 않으면, 겹치는 구간이 존재하지 않는 인공 합성 사운드 데이터(360)가 생성될 수 있고, 2개의 이벤트 사운드만 겹치는 구간(371, 372)이 존재하는 인공 합성 사운드 데이터(370)가 생성될 수도 있다. 상기 이벤트 사운드의 개수는 랜덤 함수에 의해 지정된 다양한 숫자가 될 수 있다. 이로써 이벤트 사운드 탐지 모델의 학습 데이터가 더욱 다양하게 생성됨으로써 상기 모델의 정확성이 높아질 수 있다.
도 10을 참조할 때, 본 발명의 또 다른 실시예에 따른 최대 겹칠 수 있는 이벤트 사운드의 개수가 지정된 경우 생성된 인공 합성 사운드에 대해 설명한다.
예를 들어 최대 3개까지 이벤트 사운드가 겹칠 수 있도록 지정된 경우 경고음, 자동차 소리 및 음악소리가 모두 겹치는 구간(381, 391, 392)이 존재할 수 있고, 본 실시예에 따라 반드시 3개가 겹치는 구간이 인공 합성 사운드(380, 390)에 존재해야 할 수도 있다. 상기 최대 겹칠 수 있는 이벤트 사운드의 개수는 랜덤 함수에 의해 지정된 다양한 숫자가 될 수 있음에 유의한다.
이하 도 11을 참조하여 양방향 LSTM의 학습과정을 상세히 설명한다. 양방향 LSTM은 복수개의 레이어로 구성될 수 있다. 본 발명의 일 실시예에 따른 양방향 LSTM은 세개의 레이어로 구성될 수 있다.
단계 S321에서 양방향 LSTM의 제1 레이어에서 전이학습된 CNN의 결과값을 이용하여 학습이 진행될 수 있다. 본 발명의 일 실시예에 따른 양방향 LSTM의 각각의 레이어는 100개의 LSTM 셀(cell)로 구성될 수 있고, 각각의 셀(cell)은 100개의 유닛(unit)을 가질 수 있다.
단계 S322에서 양방향 LSTM의 제2 레이어는 제1 레이어의 학습 결과값을 이용하여 학습이 진행 될 수 있다. 상기 제1 레이어의 학습 결과값은 벡터 형태의 데이터 일 수 있다.
단계 S323에서 양방향 LSTM의 제3 레이어는 제2 레이어의 학습 결과값을 이용하여 학습이 진행될 수 있다. 상기 제1 내지 제3 레이어는 대상 사운드 데이터에서 이벤트 사운드 데이터가 재생되는 구간을 탐지하기 위한 학습을 수행한다. 따라서 본 발명의 일 실시예에 따라, 양방향 LSTM의 학습 결과는 완전 결합 레이어에 의하여 탐지되는 이벤트 사운드에 대한 분류(classification) 및 라벨링(labeling)이 수행 될 수 있다.
단계 S324에서 상기 복수개의 레이어의 학습 결과 대상 사운드 데이터에 존재하는 복수개의 이벤트 사운드 데이터 및 상기 이벤트 사운드가 재생되는 재생구간을 탐지하는 모델이 수립될 수 있다.
이하 도 12을 참조하여 양방향 LSTM의 각 레이어에서 수행되는 학습 과정을 상세히 설명한다. 각 레이어에서 수행되는 방법에 대한 중복 서술을 최소화 하기 위해 제1 레이어에 대한 학습 수행 방법만 설명한다.
양방향 LSTM(Bi-directional LSTM)은 정방향 LSTM(forward LSTM)및 역방향 LSTM(backward LSTM)에 의한 학습이 모두 수행된다. 상기 정방향 LSTM과 역방향 LSTM은 입력값이 입력되는 순서가 다르다. 역방향 LSTM의 입력값은 정방향 LSTM과 반대방향으로 입력된다.
단계 S3211에서, 정방향 LSTM에서 이벤트 사운드 패턴 데이터에 대한 학습이 수행될 수 있다.
단계 S3212에서, 역방향 LSTM에서 이벤트 사운드 패턴 데이터에 대한 학습이 수행될 수 있다. 단계 S3211과 단계 S3212는 병렬적으로 수행될 수 있으며 행관계에 있는 것은 아니다.
단계 S3213에서 상기 정방향 LSTM의 학습 결과 및 상기 역방향 LSTM의 학습 결과를 결합한 벡터가 양방향 LSTM의 제1 레이어 학습 결과값이 될 수 있다. 상기 제1 레이어 학습 결과값은 다음 레이어의 입력값이 될 수 있다.
양방향 LSTM을 포함하는 CBRNN의 성능과, 단방향의 RNN을 포함하는 CRNN의 성능을 비교한 결과는 아래와 같다. 아래 성능 비교는 양방향 LSTM을 사용한 효과만을 확인하기 위하여, 인공 합성 데이터로 학습되지 않고, 전이 학습 되지 않은 CNN을 포함하는 CBRNN 및 CBNN의 성능에 대한 비교임을 유의한다.
Method | F1 | ER |
CRNN | 27.5±2.6 | 0.98±0.04 |
CBRNN | 49.9±5.8 | 0.61±0.06 |
표 3을 참조하면, 양방향 LSTM을 포함하는 CBRNN의 F1수치는 49.9에 오차범위 5.8인 반면, RNN을 포함하는 CRNN의 F1수치는 27.5에 오차범위 2.6이다. F1 수치의 정의에 따라 양방향 LSTM을 포함하는 CBRNN의 경우가 단순 RNN을 포함하는 CRNN보다 정확성 측면에서 더 높은 결과를 보임을 알 수 있다.
따라서, 본 발명의 일 실시예에 따른 특징인 인공합성 데이터를 학습한 CNN을 이용하여 전이학습된 CNN 및 양방향 LSTM을 사용한 CBRNN은 종래의 CNN 및 RNN을 이용한 CRNN과 비교했을 때 아래의 성능 차이가 발생한다. 종래 CRNN은 논문 'T. Heittola, A. Mesaros, A, Eronen, and T.Virtanen, "Audio context recognition using audio event histograms,"Proc. Of the 18소 European Signal Processing Conference(EUSIPCO), pp. 1272-1276, 2010.'에서 소개된 CBNN일 수 있다.
따라서, 상기 설명한 본 발명의 일 실시예에 따른 tl-CBRNN의 성능과 종래 CRNN의 성능을 비교하면 아래와 같다.
Method | F1 | ER |
CRNN | 27.5±2.6 | 0.98±0.04 |
tl-CBRNN(using synthetic data) | 74.0±0.5 | 0.36±0.01 |
표 4를 참조하면, 인공 합성 데이터를 이용하여 전이학습된 CNN 및 양방향 LSTM을 포함하는 tl-CBRNN의 F1 수치는 74.0에 오차범위 0.5인 반면, 종래 CNN과 RNN을 포함하는 CRNN의 F1수치는 27.5에 오차범위 2.6으로 본 발명의 일 실시예에 따른 tl-CBRNN의 정확성이 월등히 높음을 알 수 있다. 또한 오류율을 측면에서도 tl-CBRNN의 ER수치는 0.36에 0.01의 오차범위를 갖는 반면 CRNN의 ER수치는 0.98에 오차범위 0.04로 본 발명의 일 실시예에 따른 tl-CBRNN의 오류율 수치가 월등히 낮음을 알 수 있다.
본 발명의 일 실시예에 따라 상기 설명한 CBRNN(이하, tl-CNRNN과 동일한 의미로 사용)을 이용하여 다양한 이벤트 사운드를 포함하는 대상 사운드 데이터에 대하여 어떤 이벤트를 포함하는 지 알려주는 비디오 자동 태깅(tagging)서비스를 제공할 수 있다. 예를 들어 스포츠 중계 방송 영상에서 중계 음성만 탐지해 낼 수 있고, 관객의 함성만 탐지해낼 수 있다.
또한, 본 발명의 일 실시 예에 따라 CBRNN을 이용하여 보안 서비스에 이용할 수 있다. 예를 들어 이미지 분석이 힘든 환경의 주차장에서 차량 소리만으로 차량 인식을 수행할 수 있고, 차량의 충돌 소리를 탐지하여 사고 발생 여부를 판단할 수 있다. 또한 사람의 비명소리 및 총소리 등을 탐지하여 다양한 사고 발생 여부를 탐지해낼 수도 있을 것이다.
이에 한하지 않고 본 발명의 일 실시예에 따라 CBRNN을 이용하여, Sound Visualization, 낙상 감지 등의 서비스를 제공할 수도 있다.
도 13을 참조하여 본 발명의 일 실시예에 따른 이벤트 사운드 탐지 모델 학습 장치의 하드웨어 구성도를 상세히 설명한다.
이벤트 사운드 탐지 모델 학습 장치(100)는 데이터 전처리부(120), 인공신경망부(130), 데이터 예측부(140) 및 인공 합성 사운드 데이터 DB(150)를 포함할 수 있고, 데이터 수집부(110) 및 사운드 데이터 DB(160)중 적어도 하나를 더 포함할 수 있다.
데이터 수집부(110)는 본 발명의 이벤트 사운드를 탐지하기 위해 필요한 사운드 데이터를 수집할 수 있다. 특히 이벤트 사운드를 포함하는 대상 사운드가 저장된 사운드 데이터 DB(160)에서 상기 사운드 데이터를 불러올 수 있다.
사운드 데이터 DB(160)에는 이벤트 사운드를 포함하는 대상 사운드 데이터가 저장 되어 있다. 예를 들어 대상 사운드에는 학습용 대상 사운드 데이터 및 예측용 대상 사운드 데이터가 포함될 수 있다. 사운드 데이터 DB(160)는 반드시 이벤트 사운드 장치(100)에 물리적으로 포함되어 있어야 하는 것은 아니며 물리적으로 분리된 외부 DB일 수 있고, 네트워크 상에서 접근할 수 있는 DB일 수도 있다.
데이터 전처리부(120)는 오디오 형태의 사운드 데이터를 신호처리 및 Spectrogram으로 변환하는 전처리를 수행할 수 있다. 본 발명의 일 실시예에 따라 오디오 형태의 사운드 데이터를 STFT로 처리한 후, Mel-Spectrogram 형태로 변환할 수 있다. 다만 이에 한하지 않고 FTT와 같은 다양한 신호처리를 할 수 있고, 단순 Spectrogram 형태로 변환할 수도 있으며, STFT와 Mel-Spectrogram중 어느 하나의 전처리만 수행될 수도 있음에 유의한다.
인공신경망부(130)는 본 발명의 일 실시예에 따른 신경망에 의해 이벤트 사운드 탐지를 위한 인공신경망을 포함할 수 있다. 즉, CBRNN을 이용하여 상기 사운드 데이터를 학습할 수 있다. 인공신경망부(130)는 인공 합성 사운드 데이터 DB(150)에서 수신한 인공 합성 데이터를 이용하여 상기 CBRNN을 학습 시킬 수 있다.
인공 합성 사운드 데이터 DB(150)는 이벤트 사운드와 관련된 사운드 데이터를 인공적으로 합성한 데이터를 포함할 수 있다. 상기 인공 합성 데이터는 다양한 외부 소스에서 획득한 이벤트 사운드와 빈 오디오를 합성하여 생성될 수 있다. 인공 합성 데이터를 이용한 학습을 통해 정확도와 속도가 높은 이벤트 사운드 탐지가 수행될 수 있다.
데이터 예측부(140)는 본 발명의 일 실시예에 따른 신경망에 의해 이벤트 대상 사운드의 재생 구간에서 복수개의 이벤트 사운드에 대해 각각의 이벤트 사운드의 재생 구간을 탐지할 수 있다. 즉, CBRNN을 이용하여 상기 사운드 데이터에 포함된 이벤트 사운드 데이터를 예측할 수 있다.
이하, 도 14를 참조하여 본 발명의 일 실시예에 따른 이벤트 사운드 탐지 장치의 하드웨어 구성에 대해 상세히 설명한다.
이벤트 사운드 탐지 장치(200)는 프로세서(210) 및 메모리(220)를 포함하고, 몇몇 실시예들에서 스토리지(240), 네트워크 인터페이스(230) 및 시스템 버스(250) 중 적어도 하나를 더 포함할 수 있다.
메모리(220)에 로드 되어 저장되는 하나 이상의 인스트럭션(221, 222)은 프로세서(210)를 통하여 실행된다. 본 실시예에 따른 이벤트 사운드 탐지 모델 학습을 수행하는 컴퓨팅 장치(200)는 별도의 설명이 없더라도 도 1a 및 도 1b 참조하여 설명한 이벤트 사운드 탐지 모델 학습 방법을 수행할 수 있는 점을 유의한다.
네트워크 인터페이스(230)는 대상 사운드 데이터를 수신하거나, 대상 사운드 데이터에서 탐지한 이벤트 사운드에 대한 정보를 송신할 수 있다. 상기 수신된 대상 사운드 데이터에 대한 정보는 스토리지(240)에 저장되도록 할 수 있다.
스토리지(240)는 탐지 대상 사운드 데이터(241)를 저장할 수 있다.
상기 하나 이상의 인스트럭션은, 대상 사운드에 포함되는 복수개의 이벤트 사운드의 재생 구간을 탐지하는 모델을 수립하는 인스트럭션(222)을 포함할 수 있고, 몇몇 실시예에 따라 이벤트 사운드 데이터의 패턴을 분류하는 모델을 수립하는 인스트럭션(221)을 더 포함할 수 있다.
일 실시예에서, 이벤트 사운드 데이터 패턴 분류 모델 인스트럭션(221)은 메모리상에 로드 된 인공 합성 데이터(223)를 이용하여 전이 학습된 알고리즘을 사용하여 이벤트 사운드 데이터의 특징 및 패턴을 분류하는 모델을 수립할 수 있다.
일 실시예에서, 이벤트 사운드 탐지 모델 인스트럭션(222)은 대상 사운드 데이터(241)에 포함된 이벤트 사운드에 대하여 상기 수립된 이벤트 사운드 데이터 패턴 분류 모델의 결과값을 이용하여 대상 사운드 데이터의 재생 구간중 복수개의 이벤트 사운드에 대하여 각각의 이벤트 사운드의 재생 구간을 탐지할 수 있다.
지금까지 설명된 본 발명의 실시예에 따른 방법들은 컴퓨터가 읽을 수 있는 코드로 구현된 컴퓨터프로그램의 실행에 의하여 수행될 수 있다. 상기 컴퓨터프로그램은 인터넷 등의 네트워크를 통하여 제1 컴퓨팅 장치로부터 제2 컴퓨팅 장치에 전송되어 상기 제2 컴퓨팅 장치에 설치될 수 있고, 이로써 상기 제2 컴퓨팅 장치에서 사용될 수 있다. 상기 제1 컴퓨팅 장치 및 상기 제2 컴퓨팅 장치는, 서버 장치, 클라우드 서비스를 위한 서버 풀에 속한 물리 서버, 데스크탑 피씨와 같은 고정식 컴퓨팅 장치를 모두 포함한다.
상기 컴퓨터프로그램은 DVD-ROM, 플래시 메모리 장치 등의 기록매체에 저장된 것일 수도 있다.
이상 첨부된 도면을 참조하여 본 발명의 실시예들을 설명하였지만, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로 이해해야만 한다.
Claims (9)
- 컴퓨팅장치에 의해 수행되는 방법에 있어서,인공 합성된 제1 이벤트 사운드를 포함하는 인공 합성 사운드의 데이터 및 제2 이벤트 사운드를 포함하는 인공 합성 사운드의 데이터를 이용하여 초기 학습(initial learning)된 CBRNN(Convolutional Bi-directional Recurrent Neural Networks)에 포함된 제1 CNN(Convolutional Neural Networks)을 획득하는 단계; 및실제 녹음된 상기 제1 이벤트 사운드 및 상기 제2 이벤트 사운드가 포함된 제1 대상 사운드의 데이터를 이용하여 제2 CNN 및 상기 제2 CNN의 출력 레이어에서 출력 된 데이터를 입력 받는 양방향 LSTM 구조의 RNN을 학습시키는 단계를 포함하되,상기 제2 CNN은 상기 제1 CNN의 가중치(weight)를 이용하여 전이 학습(transfer learning)된 것이고,상기 학습된 양방향 LSTM 구조의 RNN은 상기 제1 대상 사운드의 재생 구간 중 제1 이벤트 사운드의 재생 구간 및 제2 이벤트 사운드의 재생 구간을 동시에 탐지하는 모델인 것인,이벤트 사운드 탐지 모델 학습 방법.
- 제1 항에 있어서,상기 제1 CNN을 획득하는 단계는,인공 합성된 제2 이벤트 사운드를 포함하는 상기 인공 합성 사운드의 데이터를 이용하여 초기 학습된 CBRNN에 포함된 상기 제1 CNN을 획득하는 단계를 더 포함하되,상기 인공 합성 사운드에 포함된 상기 제1 이벤트 사운드의 재생 구간과 상기 제2 이벤트 사운드의 재생 구간은 지정된 시간만큼 겹치는,이벤트 사운드 탐지 모델 학습 방법.
- 제2 항에 있어서,상기 제1 CNN을 획득하는 단계는,랜덤 함수에 의해 지정된 시간만큼 상기 제1 이벤트 사운드와 상기 제2 이벤트 사운드의 재생 구간이 겹치는 상기 인공 합성 사운드의 데이터를 이용하여 초기 학습된 CBRNN에 포함된 상기 제1 CNN을 획득하는 단계를 포함하는,이벤트 사운드 탐지 모델 학습 방법.
- 제2 항에 있어서,상기 제1 CNN을 획득하는 단계는,지정된 비율만큼 상기 제1 이벤트 사운드와 상기 제2 이벤트 사운드의 재생 구간이 겹치도록 생성된 상기 인공 합성 사운드의 데이터를 이용하여 초기 학습된 CBRNN에 포함된 상기 제1 CNN을 획득하는 단계를 포함하는,이벤트 사운드 탐지 모델 학습 방법.
- 제2 항에 있어서,상기 제1 CNN을 획득하는 단계는,상기 제2 이벤트 사운드와 상이한 제3 이벤트 사운드를 포함하는 상기 인공 합성 사운드의 데이터를 이용하여 초기 학습된 CBRNN에 포함된 상기 제1 CNN을 획득하는 단계를 더 포함하는,이벤트 사운드 탐지 모델 학습 방법.
- 제2 항에 있어서,상기 제1 CNN을 획득하는 단계는,지정된 개수만큼의 이벤트 사운드를 더 포함하는 인공 합성 사운드의 데이터를 이용하여 초기 학습된 CBRNN에 포함된 제1 CNN을 획득하는 단계를 포함하는,이벤트 사운드 탐지 모델 학습 방법.
- 제2 항에 있어서,상기 제1 CNN을 획득하는 단계는,지정된 개수만큼의 이벤트 사운드의 재생 구간이 더 겹치도록 생성된 상기 인공 합성 사운드의 데이터를 이용하여 초기 학습된 CBRNN에 포함된 상기 제1 CNN을 획득하는 단계를 포함하되,상기 지정된 개수는 동시에 겹칠 수 있는 이벤트 사운드의 최대 개수인,이벤트 사운드 탐지 모델 학습 방법.
- 제1 항에 있어서,상기 실제 녹음된 상기 제1 이벤트 사운드가 포함된 제1 대상 사운드의 데이터를 이용하여 제2 CNN 및 상기 제2 CNN의 출력 레이어에서 출력 된 데이터를 입력 받는 양방향 LSTM 구조의 RNN을 학습시키는 단계는,상기 학습된 양방향 LSTM 구조의 RNN을 이용하여 상기 제1 대상 사운드의 재생 구간 중 복수개의 이벤트 사운드의 재생 구간을 동시에 탐지하는 모델을 학습하는 단계를 포함하되,상기 복수개의 이벤트 사운드는 상기 제1 대상 사운드에 포함된 것인,이벤트 사운드 탐지 모델 학습 방법.
- 이벤트 사운드 탐지 모델 학습 프로그램이 로드 되는 메모리; 및상기 메모리에 로드된 이벤트 사운드 탐지 모델 학습 프로그램을 실행하는 프로세서를 포함하되,상기 이벤트 사운드 탐지 모델 학습 프로그램은,인공 합성된 제1 이벤트 사운드를 포함하는 인공 합성 사운드의 데이터 및 제2 이벤트 사운드를 포함하는 인공 합성 사운드의 데이터를 이용하여 초기 학습(initial learning)된 CBRNN(Convolutional Bi-directional Recurrent Neural Networks)에 포함된 제1 CNN(Convolutional Neural Networks)을 획득하는 인스트럭션(instruction); 및실제 녹음된 상기 제1 이벤트 사운드 및 상기 제2 이벤트 사운드가 포함된 제1 대상 사운드의 데이터를 이용하여 제2 CNN 및 상기 제2 CNN의 출력 레이어에서 출력 된 데이터를 입력 받는 양방향 LSTM 구조의 RNN을 학습시키는 인스트럭션을 포함하되, 상기 제2 CNN은 상기 제1 CNN의 가중치(weight)를 이용하여 전이 학습(transfer learning)된 것이고,상기 학습된 양방향 LSTM 구조의 RNN은 상기 제1 대상 사운드의 재생 구간 중 제1 이벤트 사운드의 재생 구간 및 제2 이벤트 사운드의 재생 구간을 동시에 탐지하는 모델인 것인,컴퓨팅 장치.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2019-0007575 | 2019-01-21 | ||
KR1020190007575A KR102025652B1 (ko) | 2019-01-21 | 2019-01-21 | 사운드 이벤트 탐지 모델 학습 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2020153572A1 true WO2020153572A1 (ko) | 2020-07-30 |
Family
ID=68096977
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/KR2019/012932 WO2020153572A1 (ko) | 2019-01-21 | 2019-10-02 | 사운드 이벤트 탐지 모델 학습 방법 |
Country Status (2)
Country | Link |
---|---|
KR (1) | KR102025652B1 (ko) |
WO (1) | WO2020153572A1 (ko) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112632319A (zh) * | 2020-12-22 | 2021-04-09 | 天津大学 | 基于迁移学习的提升长尾分布语音总体分类准确度的方法 |
CN113724733A (zh) * | 2021-08-31 | 2021-11-30 | 上海师范大学 | 生物声音事件检测模型训练方法、声音事件的检测方法 |
US20210387584A1 (en) * | 2020-06-15 | 2021-12-16 | Lytx, Inc. | Sensor fusion for collision detection |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102025652B1 (ko) * | 2019-01-21 | 2019-09-27 | 휴멜로 주식회사 | 사운드 이벤트 탐지 모델 학습 방법 |
US11664044B2 (en) * | 2019-11-25 | 2023-05-30 | Qualcomm Incorporated | Sound event detection learning |
KR102217414B1 (ko) * | 2019-12-24 | 2021-02-19 | 광운대학교 산학협력단 | 4d 영화 이펙트 자동 생성장치 |
KR102148378B1 (ko) * | 2020-01-22 | 2020-08-26 | 강태욱 | 기계 학습 모델을 이용한 관심 이벤트의 알림 제공 장치 및 방법 |
KR102247023B1 (ko) * | 2020-05-08 | 2021-05-03 | 주식회사 사운드에어 | 사운드 데이터 기반 자율주행 시스템, 이동체 이동 안전 시스템 및 방법 |
KR102213768B1 (ko) * | 2020-05-19 | 2021-02-08 | 주식회사 스타일씨코퍼레이션 | 빅데이터 기반의 ai가 고객의 정보를 기반으로 구매전환율이 높은 상품을 노출시키는 고객 맞춤형 상품 추천 시스템 |
CN111998936B (zh) * | 2020-08-25 | 2022-04-15 | 四川长虹电器股份有限公司 | 一种基于迁移学习的设备异音检测方法及系统 |
KR102225212B1 (ko) * | 2020-09-29 | 2021-03-09 | 이대성 | 인공지능 기반의 고객 맞춤형 쇼핑몰 상품 추천 및 상품 페이지 자동 구성 시스템 |
CN113221277B (zh) * | 2021-05-14 | 2022-12-09 | 西安交通大学 | 一种基于数字孪生模型的轴承性能退化评估方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9263036B1 (en) * | 2012-11-29 | 2016-02-16 | Google Inc. | System and method for speech recognition using deep recurrent neural networks |
KR20170046751A (ko) * | 2014-12-15 | 2017-05-02 | 바이두 유에스에이 엘엘씨 | 음성 전사를 위한 시스템 및 방법 |
KR101891778B1 (ko) * | 2017-04-07 | 2018-08-24 | 네이버 주식회사 | 음원의 하이라이트 구간을 결정하는 방법, 장치 및 컴퓨터 프로그램 |
KR20180122171A (ko) * | 2017-05-02 | 2018-11-12 | 서강대학교산학협력단 | 심층 신경망을 기반으로 한 사운드 이벤트 검출 방법 및 사운드 이벤트 검출 장치 |
KR102025652B1 (ko) * | 2019-01-21 | 2019-09-27 | 휴멜로 주식회사 | 사운드 이벤트 탐지 모델 학습 방법 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050012197A1 (en) | 2003-07-15 | 2005-01-20 | Smith Mark A. | Fluidic MEMS device |
-
2019
- 2019-01-21 KR KR1020190007575A patent/KR102025652B1/ko active IP Right Grant
- 2019-10-02 WO PCT/KR2019/012932 patent/WO2020153572A1/ko active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9263036B1 (en) * | 2012-11-29 | 2016-02-16 | Google Inc. | System and method for speech recognition using deep recurrent neural networks |
KR20170046751A (ko) * | 2014-12-15 | 2017-05-02 | 바이두 유에스에이 엘엘씨 | 음성 전사를 위한 시스템 및 방법 |
KR101891778B1 (ko) * | 2017-04-07 | 2018-08-24 | 네이버 주식회사 | 음원의 하이라이트 구간을 결정하는 방법, 장치 및 컴퓨터 프로그램 |
KR20180122171A (ko) * | 2017-05-02 | 2018-11-12 | 서강대학교산학협력단 | 심층 신경망을 기반으로 한 사운드 이벤트 검출 방법 및 사운드 이벤트 검출 장치 |
KR102025652B1 (ko) * | 2019-01-21 | 2019-09-27 | 휴멜로 주식회사 | 사운드 이벤트 탐지 모델 학습 방법 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210387584A1 (en) * | 2020-06-15 | 2021-12-16 | Lytx, Inc. | Sensor fusion for collision detection |
US11769332B2 (en) * | 2020-06-15 | 2023-09-26 | Lytx, Inc. | Sensor fusion for collision detection |
CN112632319A (zh) * | 2020-12-22 | 2021-04-09 | 天津大学 | 基于迁移学习的提升长尾分布语音总体分类准确度的方法 |
CN113724733A (zh) * | 2021-08-31 | 2021-11-30 | 上海师范大学 | 生物声音事件检测模型训练方法、声音事件的检测方法 |
CN113724733B (zh) * | 2021-08-31 | 2023-08-01 | 上海师范大学 | 生物声音事件检测模型训练方法、声音事件的检测方法 |
Also Published As
Publication number | Publication date |
---|---|
KR102025652B1 (ko) | 2019-09-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020153572A1 (ko) | 사운드 이벤트 탐지 모델 학습 방법 | |
Harb et al. | Gender identification using a general audio classifier | |
WO2021177730A1 (ko) | 음성 및 연하 장애를 유발하는 질환 진단 장치 및 그 진단 방법 | |
WO2021196802A1 (zh) | 多模态语音识别模型训练方法、装置、设备及存储介质 | |
WO2022146050A1 (ko) | 우울증 진단을 위한 인공지능 연합학습 방법 및 시스템 | |
CN110148418B (zh) | 一种场景记录分析系统、方法及其装置 | |
WO2021002649A1 (ko) | 개별 화자 별 음성 생성 방법 및 컴퓨터 프로그램 | |
WO2020117028A1 (ko) | 질의 응답 장치 및 방법 | |
WO2023163383A1 (ko) | 멀티모달 기반 실시간 감정인식 방법 및 장치 | |
Nawaz et al. | Cross-modal speaker verification and recognition: A multilingual perspective | |
WO2022080774A1 (ko) | 말 장애 평가 장치, 방법 및 프로그램 | |
KR102397563B1 (ko) | 사운드 이벤트 탐지 모델 학습 방법 | |
CN112309398B (zh) | 工作时长监控方法、装置、电子设备和存储介质 | |
Gillet et al. | Automatic transcription of drum sequences using audiovisual features | |
WO2023075381A1 (ko) | 딥러닝 네트워크를 이용한 입 모양 생성 방법 및 장치 | |
WO2022086196A1 (ko) | 기계 학습 모델을 이용하여 복수의 신호 성분을 포함하는 오디오 신호 처리 장치 | |
KR20200090601A (ko) | 사운드 이벤트 탐지 모델 학습 방법 | |
WO2023063718A1 (en) | Method and system for device feature analysis to improve user experience | |
WO2013147374A1 (ko) | 멀티 채널 분석을 이용한 비디오 스트림 분석 방법 | |
WO2020091123A1 (ko) | 문맥 기반의 음성인식 서비스를 제공하기 위한 방법 및 장치 | |
WO2022054994A1 (ko) | 비화자 요소에 강인한 화자 임베딩 추출 방법 및 장치, 그리고 이를 위한 기록매체 | |
WO2022177091A1 (ko) | 전자 장치 및 이의 제어 방법 | |
WO2021049802A1 (ko) | 전자 장치 및 이의 제어 방법 | |
WO2021153843A1 (ko) | 가중치를 이용한 음성 신호의 스트레스 판별 방법 및 그를 위한 장치 | |
WO2019156427A1 (ko) | 발화된 단어에 기초하여 화자를 식별하기 위한 방법 및 그 장치, 문맥 기반 음성 모델 관리 장치 및 그 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 19911654 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 19911654 Country of ref document: EP Kind code of ref document: A1 |