WO2021192433A1 - コンピュータにより実現される方法、処理システム、及び記憶媒体 - Google Patents

コンピュータにより実現される方法、処理システム、及び記憶媒体 Download PDF

Info

Publication number
WO2021192433A1
WO2021192433A1 PCT/JP2020/045672 JP2020045672W WO2021192433A1 WO 2021192433 A1 WO2021192433 A1 WO 2021192433A1 JP 2020045672 W JP2020045672 W JP 2020045672W WO 2021192433 A1 WO2021192433 A1 WO 2021192433A1
Authority
WO
WIPO (PCT)
Prior art keywords
convolution
spectrogram
data
feature data
sound
Prior art date
Application number
PCT/JP2020/045672
Other languages
English (en)
French (fr)
Inventor
祐 高橋
徹郎 大竹
Original Assignee
ヤマハ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ヤマハ株式会社 filed Critical ヤマハ株式会社
Publication of WO2021192433A1 publication Critical patent/WO2021192433A1/ja
Priority to US17/949,717 priority Critical patent/US20230016242A1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/0308Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Definitions

  • the present invention relates to a method, a processing system, and a storage medium realized by a computer.
  • Non-Patent Document 1 describes a technique for obtaining two-dimensional feature data by repeatedly performing two-dimensional convolution on a spectrogram of a sound signal in which a plurality of sounds are mixed.
  • a mask for separating a predetermined sound from a mixed sound of a plurality of sounds is generated based on two-dimensional feature data.
  • Non-Patent Document 1 only the local information of the spectrogram is considered at the time of convolution. For example, since a voice having a harmonic structure up to a high frequency has characteristic information in a wide range in the frequency direction, it is not possible to accurately obtain the characteristic data of the voice even if only the local information is considered.
  • Features that efficiently represent the features of the spectrogram because it is necessary to deepen the layer of the training model or use a large filter in order to obtain accurate feature data in consideration of the features distributed throughout the spectrogram. I can't get the data.
  • the present invention has been made in view of the above problems, and an object of the present invention is to obtain feature data that efficiently expresses the features of a spectrogram of a sound signal.
  • a method realized by a computer acquires a spectrogram of a sound signal, performs a first convolution on the spectrogram at a predetermined width on a frequency axis or a time axis, and then performs a first convolution.
  • the results of the first convolution performed for each predetermined width are combined to obtain one-dimensional first feature data, and the first feature data is subjected to at least one second convolution.
  • the processing system is a processing system including one or more processors and one or more memories, and by executing a program stored in the one or more memories, the one or more processors can be used.
  • a spectrogram of a sound signal is acquired, the spectrogram is first convoluted for each predetermined width on the frequency axis or the time axis, and the results of the first convolution performed for each predetermined width are combined to form a one-dimensional data.
  • the first feature data of the above is obtained, and the first feature data is subjected to at least one second convolution to obtain a one-dimensional second feature data showing the features of the spectrogram.
  • the storage medium according to the present invention is one or more storage media for storing a program that can be read by a computer, and the program acquires a spectrogram of a sound signal from one or more processors and has a frequency with respect to the spectrogram.
  • the first convolution is performed for each predetermined width on the axis or the time axis, and the results of the first convolution performed for each predetermined width are combined to obtain one-dimensional first feature data, and the first feature data is obtained.
  • the second convolution is performed at least once to obtain the one-dimensional second feature data indicating the feature of the spectrogram, and the operation is performed.
  • FIG. 1 is a diagram showing an example of a processing device according to an embodiment.
  • the processing device 10 is a digital mixer, a signal processing engine, an audio device, an electronic musical instrument, an effector, a personal computer, a smartphone, or a tablet terminal.
  • the processing device 10 is connected to the CPU 11, the non-volatile memory 12, the RAM 13, the operation unit 14, the display unit 15, the input unit 16, and the speaker 17.
  • the CPU 11 includes at least one processor. It is not limited to a plurality of processors in one chip, and may be a plurality of processors distributed in a plurality of devices connected by a network or the like.
  • the CPU 11 executes a predetermined process based on the program and data stored in the non-volatile memory 12.
  • the non-volatile memory 12 is a memory such as a ROM, EEPROM, a flash memory, or a hard disk.
  • the RAM 13 is an example of a volatile memory.
  • the operation unit 14 is an input device such as a touch panel, a keyboard, a mouse, a button, or a lever.
  • the display unit 15 is a display such as a liquid crystal display or an organic EL display.
  • the input unit 16 acquires a sound signal.
  • a sound signal is a signal indicating sound.
  • An acoustic signal or an audio signal is a type of sound signal. Sound is not limited to human voice.
  • the sound signal may be any sound.
  • the sound signal may represent the sound of a non-human animal, music, sound contained in a moving image, sound of a machine, sound of a vehicle, sound of a natural phenomenon, or a sound obtained by mixing at least two of these.
  • the sound signal is a digital signal will be described.
  • the sound signal may be an analog signal.
  • the input unit 16 converts a digital sound signal into an analog sound signal and inputs it to the speaker 17.
  • the speaker 17 outputs a sound corresponding to the input analog sound signal.
  • obtaining means obtaining as a result of processing.
  • the processing device 10 since the feature data described later is obtained as a result of processing by the learning model described later, the processing device 10 "obtains” the feature data.
  • Get can also be rephrased as creating, defining, or generating.
  • acquire means to receive.
  • the processing device 10 since the spectrogram of the sound signal is received from the non-volatile memory 12, the processing device 10 acquires the spectrogram.
  • Acquire can be paraphrased as receiving. In this embodiment, “obtain” and “acquire” are used properly in this way.
  • the hardware configuration of the processing device 10 is not limited to the above example.
  • the processing device 10 may include a communication interface for wired communication or wireless communication.
  • the processing device 10 may include a reading device (for example, an optical disk drive or a memory card slot) that reads a computer-readable information storage medium.
  • the processing device 10 may include an input / output terminal (for example, a USB port) for inputting / outputting data.
  • the programs and data described as being stored in the non-volatile memory 12 in the present embodiment may be supplied to the processing device 10 via a communication interface, a reading device, or an input / output terminal.
  • FIG. 2 is a block diagram showing an example of the functions realized by the processing device 10.
  • the function realized by the processing device 10 will be described by taking a process of separating sounds as an example.
  • the processing device 10 may execute a process other than the process of separating sounds.
  • the data storage unit 100, the first acquisition unit 101, the first convolution unit 102, the synthesis unit 103, the second convolution unit 104, the deconvolution unit 105, the separation unit 106, and the adjustment unit Part 107 is realized.
  • the data storage unit 100 is mainly realized by the non-volatile memory 12, and each of the other functions is mainly realized by the CPU 11.
  • the data storage unit 100 stores data necessary for executing the process described in this embodiment.
  • a spectrogram of a sound signal, training data, and a learning model will be described as an example of this data.
  • FIG. 3 is a diagram showing an example of a spectrogram of a sound signal.
  • the spectrogram SG is obtained by converting a sound signal in the time domain into a frequency domain by using a short-time Fourier transform, a bandpass filter, or the like.
  • the spectrogram to be processed for sound separation is designated by the symbol "SG”.
  • Spectrograms and the like included in the training data are not marked with "SG".
  • the spectrogram SG is two-dimensional data.
  • the horizontal axis is the time axis.
  • the vertical axis is the frequency axis.
  • the spectrogram SG is represented in a two-dimensional format.
  • the data in the two-dimensional format may be image data.
  • Each value of the spectrogram SG indicates the intensity (amplitude) of each frequency component in the corresponding frame.
  • the color of each pixel is schematically represented by the density of halftone dots.
  • the brightness of a pixel color indicates the strength of a sound signal having a frequency at a time corresponding to the pixel.
  • the intensity of color and frequency is not limited to this relationship, and may have any relationship.
  • the size of the data used for one processing of the spectrogram SG is 100 ⁇ 2000, but this size (number of bins and number of frames) may be arbitrary.
  • "X x Y" (X and Y are natural numbers) is described in this embodiment, this description represents the size of the data. For example, X is the number of data on the frequency axis and Y is the number of data on the time axis.
  • the spectrogram SG is not limited to the example shown in FIG.
  • the spectrogram SG may be in any form.
  • the spectrogram SG may be on a logarithmic scale instead of a linear scale.
  • the spectrogram SG of the present embodiment is calculated from a sound signal in which a plurality of sounds including a predetermined sound are mixed.
  • the predetermined sound is a sound to be separated.
  • the predetermined sound may be a single sound (solo signal) or a plurality of sounds (mixed signal).
  • a predetermined sound may be a human voice and other sounds may be the sound of a musical instrument.
  • the spectrogram SG shows a sound signal in which human voice and musical instrument sound are mixed.
  • the data storage unit 100 stores training data in machine learning or deep learning.
  • Machine learning or deep learning itself can utilize various techniques in image and audio processing.
  • a convolutional neural network is taken as an example.
  • a method called U-Net for extracting a specific region from an image, or a method of Non-Patent Document 1 using U-net may be used.
  • the method of the present embodiment has a slightly similar framework as compared with the conventional method, but the specific processing is fundamentally different.
  • the training data is used to train the learning model (adjustment of variables).
  • Training data is a pair of input and output (correct answer).
  • the training data is a pair of data in the same format as the data input to the learning model and the data that is the correct answer to be output by the learning model.
  • the training data means one pair.
  • the data storage unit 100 stores a plurality of training data having different contents from each other.
  • the training data includes a spectrogram of a sound signal in which a plurality of sounds are mixed as an input, and a spectrogram of a predetermined sound signal included in the plurality of sounds as an output.
  • This spectrogram has the same format as the spectrogram SG (spectrogram SG to be separated) input to the learning model.
  • This predetermined sound is expressed in the same format as the data output by the learning model.
  • the spectrogram of the sound signal included in the training data is two-dimensional data.
  • one axis is the frequency axis and the other axis is the time axis.
  • the training data is prepared by the user of the processing device 10.
  • the user records a predetermined sound to be separated and another sound separately.
  • the user mixes a predetermined sound recorded with another sound, obtains a mixed sound, and converts the mixed sound into data in the frequency domain to obtain a spectrogram.
  • the user creates a pair in which this spectrogram is used as an input and a predetermined sound recorded first is output (correct answer) as training data.
  • the user performs the same work for various sounds and creates a plurality of training data (data sets).
  • the data storage unit 100 stores the learning model.
  • the learning model is trained by supervised learning.
  • the learning model includes a multi-layer encoder and a multi-layer decoder.
  • the encoder and the decoder of the same layer are skip-connected will be described, but the skip connection may be omitted.
  • the encoder includes a plurality of convolution layers and one or more pooling layers.
  • the decoder includes a plurality of deconvolution layers and one or more upsampling layers corresponding to each layer of the encoder. These layers are convolutional neural networks.
  • the learning model contains variables such as the convolution coefficient. Filter coefficients and biases are examples of variables.
  • the data storage unit 100 stores the learning model before learning.
  • the learning model before learning is a learning model before variables are adjusted by the adjustment unit 107 described later.
  • the learning model in which the variables are adjusted is stored in the data storage unit 100 as a learned model.
  • the variables of the trained model are updated by the additional training.
  • FIG. 4 is a diagram showing the overall flow of processing executed by the learning model.
  • FIG. 5 is a diagram showing a process of processing a sliced two-dimensional spectrogram to obtain one-dimensional data.
  • FIG. 6 is a diagram showing a process of processing one-dimensional data to obtain two-dimensional data.
  • the first convolution unit 102 to the second convolution unit 104 are encoders, and the deconvolution unit 105 is a decoder.
  • the first acquisition unit 101 acquires the spectrogram SG of the sound signal. If the sound signal is longer than 2000 frames, it is divided into spectrograms every 2000 frames and the processing is executed. In this case, multiple spectrograms may be used to train the learning model for the separation of the same sound signal.
  • the processing device 10 calculates the frequency spectrum of the sound signal based on a known algorithm to generate the spectrogram SG.
  • the sound signal is stored in the data storage unit 100, an external device, or an external information storage medium.
  • the processing device 10 may convert the sound signal input from the input unit 16 into digital data to generate the spectrogram SG.
  • the first convolution unit 102 performs the first convolution of the spectrogram SG by a filter having the same width for each predetermined width on the frequency axis or the time axis.
  • the predetermined width is a width having a certain length on the frequency axis or the time axis.
  • the predetermined width may match the resolution of the frequency axis or the time axis, or may be a width that is an integral multiple of the resolution.
  • the spectrogram SG is expressed in a two-dimensional format, and the predetermined width is a width of at least one resolution.
  • the predetermined width and the number of dimensions of the first feature data (result of convolution) described later are mutually independent values.
  • the first convolution unit 102 performs the first convolution with respect to the spectrogram SG at each predetermined width on the frequency axis.
  • the predetermined width is the width of one frequency bin.
  • One frequency bin is the resolution of the frequency in the spectrogram SG.
  • the first convolution unit 102 may perform the first convolution every two frequency bins or every three frequency bins.
  • the first convolution is the convolution performed in the first convolution layer (first stage convolution layer) in the encoder.
  • the first convolution and the synthesis immediately after that are performed for, for example, 48 channels.
  • the second convolution which will be described later, is a convolution performed by a plurality of convolution layers after the convolution layer of the first convolution. These convolutions are part of the processing performed by the learning model.
  • a filter having a length in the time axis direction longer than the width in the frequency axis direction is used.
  • a 1x100 size filter is used.
  • the filter may have other sizes, for example, the width on the time axis may be tens to hundreds times or more the length on the frequency axis.
  • the number of filters may be any number. For example, the same number of filters as the number of components (for example, the number of bins) of the spectrogram SG are prepared.
  • the two-dimensional spectrogram SG is regarded as a group of signals having a predetermined width in which signals having a predetermined width (for example, 1 bin) exist by the number of data divided by the predetermined width (for example, the total number of frequency bins / 1).
  • signals having a predetermined width for example, 1 bin
  • the spectrogram SG is sliced by a predetermined width in the frequency direction.
  • each one-dimensional signal is indicated by a code of sg1 to sg100.
  • the first convolution unit 102 performs the first convolution on the spectrogram SG for a plurality of channels with a filter having a predetermined width and a predetermined length (for example, 100 frames) for each predetermined width (for example, 1 bin). That is, the width at which the spectrogram SG is sliced and the width of the filter are the same. In the present embodiment, filters are independently prepared for each width of a predetermined length. The first convolution unit 102 convolves the spectrogram SG with a corresponding filter for each width of a predetermined length.
  • the first convolution unit 102 convolves a one-dimensional filter for each of the one-dimensional signals sg1 to sg100.
  • the one-dimensional signal in the first row is first convolved with a 1 ⁇ 100 filter for the first row.
  • the first convolution of the one-dimensional signal in the second row is performed by the 1 ⁇ 100 filter for the second row.
  • the filters in each column have their own coefficients.
  • the compositing unit 103 which will be described later, combines the convolution results to obtain 1 ⁇ 2000 data d1.
  • the stride width of the filter is 1.
  • the filter is not prepared for each one-dimensional signal (one frequency bin), but may be common to a plurality of one-dimensional signals. For example, one filter common to all one-dimensional signals may be prepared.
  • the synthesizing unit 103 obtains one-dimensional first feature data D1 by combining a number of data obtained by dividing the total width obtained by the first convolution performed for each predetermined width by a predetermined width. ..
  • each 1 ⁇ 2000 data in which each of the one-dimensional signals sg1 to sg100 is convolved by a 1 ⁇ 100 filter is the result of the first convolution.
  • Combining the results of the first convolution means combining the individual results into a single piece of data.
  • combining the results of the first convolution means combining, synthesizing, or accumulating individual 1x2000 data to obtain one data of the same size.
  • the above 100 pieces of data (data having a size of 1 ⁇ 2000) are added and combined to obtain the first feature data D1 of 1 ⁇ 2000 by combining the results of the first convolution.
  • the above 100 pieces of data data having a size of 1 ⁇ 2000
  • the one-dimensional first feature data D1 is feature data having one number of data on the frequency axis or the time axis. For example, the first convolution is performed for each frequency bin, and one-dimensional data corresponding to the number of data on the time axis is obtained.
  • the feature data is data showing the features of the sound signal indicated by the spectrogram SG.
  • the feature data is the data obtained by at least one convolution.
  • the first feature data D1 has a size of 1 ⁇ 1000
  • the first feature data D1 includes 1000 feature quantities.
  • the feature data is sometimes called a feature map in the case of mainly two-dimensional data.
  • the features between frequency bins are combined into one.
  • first feature data D1 having a size of 1 ⁇ 2000 are obtained.
  • the second convolution unit 104 which will be described later, convolves a one-dimensional filter with the first feature data D1, obtains the second feature data D2-1 (size is 1 ⁇ 2000) for 48 channels, pools the data, and performs 48 channels.
  • the second feature data D2-2 of 1 ⁇ 1000 is obtained.
  • the synthesis unit 103 calculates the sum of the results of the first convolution to obtain the first feature data D1.
  • the first feature data D1 may be a sum given a predetermined weight, not a simple sum of the results of the first convolution.
  • the first feature data D1 may be obtained by substituting the result of the first convolution into a calculation formula including a formula other than the sum.
  • the second convolution unit 104 performs at least one second convolution on the first feature data D1 to encode the first feature data D1 and obtains the one-dimensional second feature data D2 showing the features of the spectrogram SG. obtain.
  • the second feature data D2 any of data D2-1 to data D2-6 obtained in each layer of the second convolution may be used.
  • the second feature data D2 may be synthesized from the data obtained in any two or more layers.
  • the second convolution is a convolution performed after the first convolution. In this embodiment, it is assumed that the second convolution has padding and the data size is maintained before and after the convolution. There is no particular padding, and the size may be reduced to some extent.
  • the second convolution is a one-dimensional convolution with respect to the one-dimensional data.
  • the second convolution unit 104 performs at least one second convolution and pooling on the first feature data D1 to obtain the second feature data D2 (any of the data D2-1 to D2-6). obtain.
  • the pooling is a pooling performed by a pooling layer arranged immediately after a predetermined convolution layer in the second convolution.
  • the second convolution unit 104 performs the second convolution of 48 channels in the first layer with respect to the first feature data D1 of 1 ⁇ 1000 for 48 channels, and 48 channels.
  • the data D2-1 of 1 / ⁇ 2000 is obtained, the size of the data D2-1 is reduced by pooling, and the data D2-2 of 1 ⁇ 1000 of 48 channels is obtained.
  • the second convolution unit 104 performs the second convolution in the second layer with respect to the data D2-2 to obtain data D2-3 of 1 ⁇ 1000 for 96 channels.
  • the second convolution unit 104 performs the second convolution in the third layer with respect to the data D2-3 to obtain 1 ⁇ 1000 data D2-4 for 96 channels.
  • the second convolution unit 104 reduces the size of the data D2-4 by pooling to obtain data D2-5 of 1 ⁇ 500 for 96 channels.
  • the second convolution unit 104 performs the second convolution in the fourth layer with respect to the data D2-5 to obtain 1 ⁇ 500 data D2-6 for 192 channels.
  • the second convolution unit 104 since the second convolution is performed by the one-dimensional filter, the second convolution unit 104 performs at least one second convolution and pooling with the one-dimensional filter on the first feature data D1.
  • the second feature data D2 is obtained.
  • a filter of any size can be used.
  • a filter long in the time axis direction (a filter having a longer time axis width than a frequency axis width) is used.
  • a 1x100 size filter is used.
  • the number of channels may be any number.
  • the deconvolution unit 105 performs deconvolution at least once with respect to the second feature data D2 to obtain a mask M for separating a predetermined sound.
  • Deconvolution is a process performed in the deconvolution layer in a convolutional neural network. It is assumed that the deconvolution layer exists in a one-to-one correspondence with the convolution layer of the encoder. For example, Ta D2-6 is used as the second feature data.
  • the skip connection from the second convolution of the first layer and the skip connection from the second convolution of the third layer in FIG. 4 may be regarded as the second feature data.
  • the deconvolution unit 105 performs deconvolution corresponding to the second convolution of the fourth layer on the data D2-6 for 192 channels, and data D3 of 1 ⁇ 500 for 192 channels. Get -6.
  • the deconvolution unit 105 simultaneously performs upsampling to obtain 1 ⁇ 1000 data D3-5 for 192 channels. Upsampling is realized by the stride at the time of deconvolution in the immediately preceding stage, and is also called amplifiering.
  • the deconvolution unit 105 performs deconvolution corresponding to the second convolution of the third layer with respect to the data D3-5 for 192 channels, and obtains 1 ⁇ 1000 data D3-4 for 96 channels.
  • the deconvolution unit 105 performs deconvolution corresponding to the second convolution of the second layer on the data D3-4 for 96 channels to obtain the data D3-3.
  • the deconvolution unit 105 simultaneously performs upsampling in the calculation process of the data D3-3 to obtain 1 ⁇ 2000 data D3-2 for 96 channels.
  • the deconvolution unit 105 performs deconvolution corresponding to the second convolution of the first layer with respect to the data D3-2 for 96 channels to obtain 1 ⁇ 2000 data D3-1 for 48 channels.
  • the deconvolution unit 105 uses a filter for each frequency bin (size is, for example, 100 ⁇ 100) for each of the 48 channels of data D3-1 to perform 1D / 2D conversion.
  • the convolution is performed to obtain the data D4, and the conversion operation is further performed to obtain the mask M.
  • This conversion operation may be a full combination or a convolution. Alternatively, weighting for each individual data may be used.
  • the mask M is data that can identify the sound to be separated.
  • the mask M can also be regarded as a time-varying filter for acoustic signal processing.
  • the data D4 and the mask M are data of the same size as the spectrogram SG.
  • the sound to be separated (sound to be transmitted) is expressed by the color of each data in the mask M.
  • the sound to be separated is a component of the predetermined sound described above.
  • the sounds that should not be separated are the other sounds mentioned above.
  • black may mean a sound that should be separated
  • white may mean a sound that should not be separated.
  • the degree of separation may be represented by color. The degree of separation is the probability or probability that the sound should be separated. For example, when the mask M has 256 steps, if the probability that a certain bin at a certain time is a predetermined sound component is 50%, the value is expressed by an intermediate value such as 128.
  • the deconvolution may be performed by adding the data obtained in the corresponding convolution layer to the input data of each layer.
  • the skip connection used in U-Net, RESNET, and the like is used. Either concatenation or summation may be used for this skip connection.
  • the skip connection feeds the result of the second convolution of one layer to the input of the deconvolution of the same layer.
  • information lost in processing below a layer of the encoder can be recovered and used in that layer of the decoder.
  • the output D2-1 of the second convolution of the first layer is skip-connected to the input of the deconvolution of the first layer.
  • the output D2-4 of the second convolution of the third layer is skip-connected to the input of the deconvolution of the third layer.
  • the output D1 of the first convolution and composition (2D / 1D conversion) is skip-connected to the input of the deconvolution that also serves as 1D / 2D conversion.
  • the separation unit 106 applies the mask M to the spectrogram SG to separate the predetermined sound from the plurality of sounds. Applying the mask M means using the mask M to separate the sounds.
  • the separation unit 106 uses the mask M to separate a part of the plurality of sound components shown in the spectrogram SG as a predetermined sound. For example, the separation unit 106 separates a predetermined sound from the mixed sounds of a plurality of sounds by multiplying the spectrogram SG by the mask M.
  • the separated sounds are represented as spectrogram PS.
  • the spectrogram PS obtained by the separation unit 106 is converted into a sound signal and recorded in the data storage unit 100.
  • the adjusting unit 107 adjusts the variables used for the first convolution, the second convolution, and the deconvolution by a machine learning method. These variables are variables determined by iteratively adjusting so that the specific sound of the training data is separated from the spectrogram SG of the training data by the method described in this embodiment.
  • the adjustment unit 107 adjusts the variables of the training model before training so that the relationship between the input and the output included in the training data can be obtained. For example, the details of the processing of the adjusting unit 107 are the processing of FIG. 7 which will be described later.
  • FIG. 7 is a flow chart showing an example of the adjustment process. This adjustment process (training) using one or more pairs is repeated until the loss of the learning model clears a predetermined criterion. As shown in FIG. 7, the CPU 11 acquires a pair of a spectrogram of a mixed signal and a spectrogram of a solo signal from a data set of training data stored in the non-volatile memory 12 (S100). When a plurality of pairs are stored in the non-volatile memory 12, the CPU 11 sequentially acquires the plurality of pairs.
  • the CPU 11 inputs the spectrogram of the mixed signal included in the pair acquired in S100 into the current learning model (learning model before adjusting the variables) to estimate the mask M (S101).
  • the spectrogram of the mixed signal is input to the learning model, a series of processes described with reference to FIG. 4 (processes similar to the separation process described later) are executed.
  • the training model performs the first convolution to obtain the first feature data D1 of the spectrogram of the mixed signal.
  • the learning model performs at least one second convolution on the first feature data D1 to obtain the second feature data D2 of the spectrogram of the mixed signal.
  • the learning model estimates the mask M by performing at least one deconvolution on the second feature data D2.
  • the CPU 11 applies the mask M to the spectrogram of the mixed signal to obtain the spectrogram of the separated signal (S102).
  • the spectrogram of the separation signal obtained in S102 is a spectrogram obtained by the current learning model. This spectrogram is used to evaluate the performance of the current learning model in the subsequent processing of S103.
  • the CPU 11 compares the spectrogram of the separated signal with the spectrogram of the solo signal to obtain the loss of the learning model (S103).
  • the loss the L1 norm may be used as in Non-Patent Document 1, or another L2 norm or the like may be used.
  • the loss is information that is an index of the performance of the learning model. In other words, the loss is information that corresponds to the difference between the spectrogram of the separated signal and the spectrogram of the solo signal. The larger the loss, the lower the performance of the current learning model and the larger the variables need to be changed.
  • the CPU 11 adjusts the variables of the learning model based on the loss obtained in S103 (S104).
  • the variable adjustment itself may be performed by general error back propagation. After that, the processes of S100 to S104 are repeated until the loss becomes sufficiently small, and the training of the learning model is completed.
  • FIG. 8 is a flow chart showing an example of the separation process.
  • the CPU 11 acquires the spectrogram SG of the mixed signal stored in the non-volatile memory 12 (S200).
  • the spectrogram SG acquired in S200 is the spectrogram SG that is the target of sound separation.
  • the CPU 11 performs the first convolution for each frequency bin width with respect to the spectrogram SG of the mixed signal (S201).
  • the CPU 11 regards the spectrogram SG (for example, 100 ⁇ 2000) of the mixed signal as a one-dimensional signal (for example, 1 ⁇ 2000 ⁇ 100) for each width of one frequency bin, and filters corresponding to each frequency bin (for example, 1 ⁇ 2000 ⁇ 100). For example, 1 ⁇ 100 ⁇ 100 ⁇ 48) is used for the first convolution.
  • the CPU 11 calculates the sum of 100 pieces as a result of the first convolution performed in S201 to obtain one-dimensional first feature data D1 (for example, 1 ⁇ 2000 ⁇ 48) (S202).
  • first feature data D1 for example, 1 ⁇ 2000 ⁇ 48
  • the first feature data D1 is obtained by the processing of S202.
  • the CPU 11 performs at least one second convolution with a one-dimensional filter on the first feature data D1 and pooling as necessary to obtain the second feature data D2 (various sizes) (S203).
  • the data D2-1 to D2-6 are obtained by the processing of S203, and here, the data D2-6 is used as the second feature data D2.
  • the processing from S201 to S203 is the encoding processing.
  • the CPU 11 performs a decoding process including at least one deconvolution on the second feature data D2 to obtain a mask M (S204).
  • the processing of S204 obtains data D3-6 to D3-1, data D4, and mask M.
  • the CPU 11 applies the mask M to the spectrogram SG of the mixed signal, and separates a predetermined sound from the mixed sounds of the plurality of sounds (S205).
  • the CPU 11 separates the spectrogram of a predetermined sound from the spectrogram of the mixed sound by multiplying the spectrogram SG of the mixed signal by the mask M.
  • the CPU 11 converts the separated sound spectrogram PS from the frequency domain to the time domain by using an inverse short-time Fourier transform or the like, and obtains digital data of the separated predetermined sound signal. This digital data is recorded in the non-volatile memory 12.
  • the CPU 11 outputs a predetermined sound separated from the speaker 17 (S206), and this process ends.
  • the CPU 11 reproduces the digital data recorded in S205 and outputs the separated predetermined sound.
  • the processing device 10 of the present embodiment efficiently expresses the features of the spectrogram SG of the sound signal by obtaining the one-dimensional first feature data D1 by combining the results of the first convolution performed for each predetermined width.
  • Characteristic data can be obtained. For example, in the case of a sound having characteristic information in a wide range in the frequency direction (a sound whose characteristic in the time axis direction is a local sound), the first convolution is performed for each predetermined width in the time axis to make the sound in the frequency direction.
  • One-dimensional data in the frequency direction (for example, 100 ⁇ 1) representing a wide range of information can be obtained.
  • the first convolution is performed for each predetermined width on the frequency axis, so that the sound has a wide range in the time direction.
  • One-dimensional data (for example, 1 ⁇ 2000) in the time axis direction representing various information can be obtained.
  • the processing device 10 since all the processes after the first feature data D1 is obtained in the encoding process are the one-dimensional data, the feature data can be efficiently obtained. As a result, the process of obtaining feature data can be speeded up. The processing load of the processing device 10 can also be reduced.
  • the processing device 10 combines the results of the first convolution to obtain the first feature data D1.
  • the processing device 10 performs at least one second convolution and pooling on the first feature data D1 to obtain the second feature data D2.
  • the size of the feature data is reduced by pooling, and the feature data can be obtained more efficiently.
  • the data obtained in the corresponding convolution layer is added to the input data of each layer to perform deconvolution, so that the accuracy of deconvolution is improved.
  • the accuracy of the mask M is improved, and the accuracy of sound separation can also be improved.
  • the case where pooling is executed after convolution has been described, but it is not necessary to reduce the data size without executing pooling in particular.
  • the case where the first convolution using the one-dimensional filter is executed has been described, it suffices if the first feature data D1 becomes one-dimensional, and the two-dimensional filter may be used for the first convolution.
  • the processing device 10 can be used in any other situation.
  • the processing device 10 may be used for voiceprint identification.
  • voiceprint appraisal that determines whether or not it is a specific human voice
  • the variables of the training model are adjusted based on the training data including (information indicating whether or not).
  • the processing device 10 inputs the spectrogram SG, which is the target of the voiceprint test, into the learning model.
  • the learning model performs the first convolution and the second convolution as described in the embodiment to obtain the one-dimensional second feature data D2.
  • the learning model outputs the appraisal information according to the second feature data D2.
  • This appraisal information indicates the probability that the voice is a specific human voice that has been learned, and if this value is larger than the threshold value, it is determined that the voice is a specific human voice. In the case of voiceprint appraisal, deconvolution is not performed.
  • the processing device 10 inputs the spectrogram SG, which is the target of the voiceprint test, into the learning model.
  • the learning model performs the first convolution and the second convolution as described in the embodiment to obtain the one-dimensional second feature data D2.
  • the learning model outputs a label ID corresponding to the second feature data D2.
  • the processing device 10 can be used in any situation such as music genre estimation or noise removal in a sound signal.
  • the processing system is not limited to one processing device 10.
  • the processing system may include a plurality of devices connected by a network or a serial bus.

Abstract

処理装置(10)は、音信号のスペクトログラムを取得する。処理装置(10)は、スペクトログラムに対し、周波数軸又は時間軸における所定幅ごとに第1の畳み込みを行う。処理装置(10)は、所定幅ごとに行われた第1の畳み込みの結果を合わせて、1次元の第1特徴データを得る。処理装置(10)は、第1特徴データに対し、少なくとも1回の第2の畳み込みを行って、スペクトログラムの特徴を示す1次元の第2特徴データを得る。

Description

コンピュータにより実現される方法、処理システム、及び記憶媒体
 本発明は、コンピュータにより実現される方法、処理システム、及び記憶媒体に関する。
 近年、学習モデルを利用して、音信号のスペクトログラムを解析する技術が検討されている。例えば、非特許文献1には、複数の音が混合された音信号のスペクトログラムに対し、2次元の畳み込みを繰り返し行って、2次元の特徴データを得る技術が記載されている。この技術では、2次元の特徴データに基づいて、複数の音の混合音の中から所定の音を分離するためのマスクが生成される。
ISMIR 2017,「SINGING VOICE SEPARATION WITH DEEP U-NET CONVOLUTIONAL NETWORKS」,Andreas Jansson,Eric Humphrey,Nicola Montecchio,Rachel Bittner,Aparna Kumar,Tillman Weyde1
 しかしながら、非特許文献1のように2次元の特徴データを得る技術では、畳み込みの際にスペクトログラムの局所的な情報しか考慮されない。例えば、高域まで調波構造を有する音声は、周波数方向に広範囲に特徴的な情報を有するので、局所的な情報だけを考慮しても、音声の特徴データを精度良く得ることができない。スペクトログラム全体に分散された特徴量を考慮して精度の良い特徴データを得るには、学習モデルの層を深くする必要又は大きなフィルタを利用する必要があるので、スペクトログラムの特徴を効率良く表現する特徴データを得られない。
 本発明は上記課題を鑑みてなされたものであって、その目的は、音信号のスペクトログラムの特徴を効率良く表現する特徴データを得ることである。
 上記課題を解決するために、本発明に係るコンピュータにより実現される方法は、音信号のスペクトログラムを取得し、前記スペクトログラムに対し、周波数軸又は時間軸における所定幅ごとに第1の畳み込みを行い、前記所定幅ごとに行われた第1の畳み込みの結果を合わせて、1次元の第1特徴データを得て、前記第1特徴データに対し、少なくとも1回の第2の畳み込みを行って、前記スペクトログラムの特徴を示す1次元の第2特徴データを得る。
 本発明に係る処理システムは、1以上のプロセッサと1以上のメモリとを具備する処理システムであって、前記1以上のメモリに記憶されたプログラムを実行することにより、前記1以上のプロセッサが、音信号のスペクトログラムを取得し、前記スペクトログラムに対し、周波数軸又は時間軸における所定幅ごとに第1の畳み込みを行い、前記所定幅ごとに行われた第1の畳み込みの結果を合わせて、1次元の第1特徴データを得て、前記第1特徴データに対し、少なくとも1回の第2の畳み込みを行って、前記スペクトログラムの特徴を示す1次元の第2特徴データを得る。
 本発明に係る記憶媒体は、コンピュータが読み出せるプログラムを記憶する1以上の記憶媒体であって、前記プログラムは1以上のプロセッサに、に、音信号のスペクトログラムを取得し、前記スペクトログラムに対し、周波数軸又は時間軸における所定幅ごとに第1の畳み込みを行い、前記所定幅ごとに行われた第1の畳み込みの結果を合わせて、1次元の第1特徴データを得て、前記第1特徴データに対し、少なくとも1回の第2の畳み込みを行って、前記スペクトログラムの特徴を示す1次元の第2特徴データを得る、動作を行わせる。
 本発明によれば、音信号のスペクトログラムの特徴を効率良く表現する特徴データを得ることができる。
実施形態に係る処理装置の一例を示す図である。 処理装置で実現される機能の一例を示すブロック図である。 音信号のスペクトログラムの一例を示す図である。 学習モデルにより実行される処理の全体的な流れを示す図である。 2次元のスペクトログラムが1次元の信号にみなされる様子を示す図である。 1次元の信号が畳み込まれる処理を示す図である。 調整処理の一例を示すフロー図である。 分離処理の一例を示すフロー図である。
[1.処理装置のハードウェア構成]
 以下、本発明に係る実施形態の一例を図面に基づいて説明する。図1は、実施形態に係る処理装置の一例を示す図である。例えば、処理装置10は、デジタルミキサ、信号処理エンジン、オーディオ装置、電子楽器、エフェクタ、パーソナルコンピュータ、スマートフォン、又はタブレット端末である。図1に示すように、処理装置10は、CPU11、不揮発メモリ12、RAM13、操作部14、表示部15、入力部16、及びスピーカ17に接続される。
 CPU11は、少なくとも1つのプロセッサを含む。1チップの中の複数プロセッサに限られず、ネットワーク等で接続された複数の装置に分散された複数のプロセッサであってもよい。CPU11は、不揮発メモリ12に記憶されたプログラム及びデータに基づいて、所定の処理を実行する。不揮発メモリ12は、ROM、EEPROM、フラッシュメモリ、又はハードディスク等のメモリである。RAM13は、揮発メモリの一例である。操作部14は、タッチパネル、キーボード、マウス、ボタン、又はレバー等の入力デバイスである。表示部15は、液晶ディスプレイ又は有機ELディスプレイ等のディスプレイである。
 入力部16は、音信号を取得する。音信号は、音を示す信号である。音響信号又は音声信号は、音信号の一種である。音は、人間が発する音声に限られない。音信号は、任意の音を示せばよい。例えば、音信号は、人間以外の動物の音声、音楽、動画に含まれる音、機械の音、乗り物の音、自然現象の音、又はこれらの少なくとも2つが混合された音を示してもよい。本実施形態では、音信号がデジタルの信号である場合を説明する。音信号は、アナログの信号であってもよい。入力部16は、デジタルの音信号をアナログの音信号に変換し、スピーカ17に入力する。スピーカ17は、入力されたアナログの音信号に応じた音を出力する。
 本実施形態では、「得る」は、処理の結果として得ることを意味する。例えば、後述する特徴データは、後述する学習モデルによる処理の結果として得られるので、処理装置10は、特徴データを「得る」。「得る」は、作成する、定義する、又は生成すると言い換えることもできる。一方、「取得する」は、受け取ることを意味する。例えば、本実施形態では、音信号のスペクトログラムは、不揮発メモリ12から受け取るものなので、処理装置10は、スペクトログラムを取得する。「取得する」は、受信すると言い換えることもできる。本実施形態では、このようにして「得る」と「取得する」を使い分ける。
 なお、処理装置10のハードウェア構成は、上記の例に限られない。例えば、処理装置10は、有線通信又は無線通信用の通信インタフェースを含んでもよい。また例えば、処理装置10は、コンピュータ読み取り可能な情報記憶媒体を読み取る読取装置(例えば、光ディスクドライブ又はメモリカードスロット)を含んでもよい。また例えば、処理装置10は、データの入出力をするための入出力端子(例えば、USBポート)を含んでもよい。本実施形態で不揮発メモリ12に記憶されるものとして説明するプログラム及びデータは、通信インタフェース、読取装置、又は入出力端子を介して処理装置10に供給されてもよい。
[2.処理装置で実現される機能]
 図2は、処理装置10で実現される機能の一例を示すブロック図である。本実施形態では、音を分離する処理を例に挙げて、処理装置10で実現される機能を説明する。後述する変形例のように、処理装置10は、音を分離する処理以外の他の処理を実行してもよい。図2に示すように、処理装置10では、データ記憶部100、第1取得部101、第1畳み込み部102、合成部103、第2畳み込み部104、逆畳み込み部105、分離部106、及び調整部107が実現される。データ記憶部100は、不揮発メモリ12を主として実現され、他の各機能は、CPU11を主として実現される。
[2-1.データ記憶部]
 データ記憶部100は、本実施形態で説明する処理を実行するために必要なデータを記憶する。本実施形態では、このデータの一例として、音信号のスペクトログラム、訓練データ、及び学習モデルを説明する。
 図3は、音信号のスペクトログラムの一例を示す図である。スペクトログラムSGは、短時間フーリエ変換やバンドパスフィルタ等を用いて、時間領域の音信号を周波数領域に変換して得られる。本実施形態では、音分離の処理対象となるスペクトログラムに「SG」の符号を付す。訓練データに含まれるスペクトログラム等については、「SG」の符号を付さない。
 例えば、スペクトログラムSGは、2次元のデータである。横軸は、時間軸である。縦軸は、周波数軸である。例えば、スペクトログラムSGは、2次元形式で表現される。この2次元形式のデータは、画像データであってもよい。
 スペクトログラムSGの各値は、対応するフレームにおける各周波数成分の強さ(振幅)を示す。図3の例では、各画素の色を、模式的に網点の濃さで表現する。例えば、画素の色が明るさは、その画素に対応する時間における周波数の音信号が強さを示す。色と周波数の強さは、この関係に限られず、任意の関係にあってよい。本実施形態では、スペクトログラムSGのうち1回の処理に用いるデータのサイズを100×2000とするが、このサイズ(ビン数およびフレーム数)は、任意であってよい。なお、本実施形態で「X×Y」(XとYは自然数)と記載した場合、この記載はデータのサイズを表す。例えば、Xは周波数軸におけるデータ数であり、Yは時間軸におけるデータ数である。
 なお、スペクトログラムSGは、図3の例に限られない。スペクトログラムSGは、任意の形式であってよい。スペクトログラムSGは、リニアスケールではなく、対数スケールであってもよい。
 本実施形態のスペクトログラムSGは、所定の音を含む複数の音が混合された音信号から算出される。所定の音とは、分離の対象となる音である。所定の音は、単一の音(ソロ信号)でもよいし、複数の音(混合信号)でもよい。
 例えば、所定の音が人間の音声であり、他の音が楽器の音であってもよい。この場合、スペクトログラムSGは、人間の音声と楽器の音が混合された音信号を示す。本実施形態の処理により、この音信号から人間の音声が分離される。
 データ記憶部100は、機械学習又は深層学習における訓練データを記憶する。機械学習又は深層学習自体は、画像や音声の処理における種々の手法を利用可能である。本実施形態では、畳み込みニューラルネットワークを例に挙げる。畳み込みニューラルネットワークの具体例としては、画像から特定の領域を抽出するU-Netと呼ばれる手法、又は、U-netを利用した非特許文献1の手法であってもよい。本実施形態の手法は、従来の手法と比較して、大まかな枠組みはやや似ているが、具体的な処理が根本的に異なる。
 訓練データは、学習モデルを訓練するため(変数の調整)に用いられる。訓練データは、入力と出力(正解)のペアである。別の言い方をすれば、訓練データは、学習モデルに入力されるデータと同じ形式のデータと、学習モデルが出力すべき正解となるデータと、のペアである。本実施形態では、訓練データは、1つのペアを意味する。例えば、データ記憶部100は、互いに異なる内容の複数の訓練データを記憶する。
 本実施形態では、訓練データは、入力としての、複数の音が混合された音信号のスペクトログラムと、出力としての、当該複数の音に含まれる所定の音信号のスペクトログラムと、を含む。このスペクトログラムは、学習モデルに入力されるスペクトログラムSG(分離の対象となるスペクトログラムSG)と同じ形式である。この所定の音は、学習モデルが出力するデータの形式と同じ形式で表現される。
 例えば、訓練データに含まれる音信号のスペクトログラムは、2次元形式のデータである。このスペクトログラムは、1つの軸が周波数軸であり、もう1つの軸が時間軸である。
 例えば、訓練データは、処理装置10のユーザによって用意される。ユーザは、分離の対象となる所定の音と他の音とを別々に録音する。ユーザは、録音した所定の音と他の音を混合し、混合音を得、その混合音を周波数領域のデータに変換してスペクトログラムを得る。ユーザは、このスペクトログラムを入力とし、最初に録音した所定の音を出力(正解)とするペアを訓練データとして作成する。ユーザは、種々の音について同様の作業を行い、複数の訓練データ(データセット)を作成する。
 データ記憶部100は、学習モデルを記憶する。本実施形態では、学習モデルは、教師あり学習により訓練される。例えば、学習モデルは、複数層からなるエンコーダと、複数層からなるデコーダと、を含む。本実施形態では、同じ階層のエンコーダとデコーダがスキップ接続される場合を説明するが、スキップ接続は省略してよい。
 エンコーダは、複数の畳み込み層と1以上のプーリング層を含む。デコーダは、エンコーダの各層に対応する、複数の逆畳み込み層と1以上のアップサンプリング層を含む。これらの層は、畳み込みニューラルネットワークである。例えば、学習モデルは、畳み込み係数などの変数を含む。フィルタの係数やバイアスが変数の一例である。
 例えば、データ記憶部100は、学習前の学習モデルを記憶する。学習前の学習モデルは、後述する調整部107により変数が調整される前の学習モデルである。変数が調整された学習モデルは、学習済みのモデルとしてデータ記憶部100に記憶される。追加学習が実行される場合には、学習済みのモデルの変数が追加学習によって更新される。
 図4は、学習モデルにより実行される処理の全体的な流れを示す図である。図5は、スライスされた2次元のスペクトログラムを処理して1次元のデータを得る処理を示す図である。図6は、1次元のデータを処理して2次元のデータを得る処理を示す図である。第1畳み込み部102から第2畳み込み部104がエンコーダであり、逆畳み込み部105がデコーダである。以降、図4-図6を参照し、これら各機能の詳細を説明する。
[2-2.第1取得部]
 第1取得部101は、音信号のスペクトログラムSGを取得する。音信号が2000フレームより長い場合には、2000フレームごとのスペクトログラムに分割されて処理が実行される。この場合、同じ音信号の分離について学習モデルを訓練するために、複数のスペクトログラムが用いられてもよい。
 例えば、処理装置10は、公知のアルゴリズムに基づいて、音信号の周波数スペクトルを計算して、スペクトログラムSGを生成する。音信号は、データ記憶部100、外部の装置、又は外部の情報記憶媒体に記憶される。処理装置10は、入力部16から入力された音信号をデジタルデータに変換し、スペクトログラムSGを生成してもよい。
[2-3.第1畳み込み部]
 第1畳み込み部102は、スペクトログラムSGに対し、周波数軸又は時間軸における所定幅ごとに同幅のフィルタによる第1の畳み込みを行う。所定幅とは、周波数軸又は時間軸における一定の長さの幅である。所定幅は、周波数軸又は時間軸の分解能と一致してもよいし、分解能の整数倍の幅であってもよい。
 本実施形態では、スペクトログラムSGが2次元形式で表現され、所定幅は、少なくとも1分解能の幅である。所定幅と、後述する第1特徴データ(畳み込みの結果)の次元数と、は相互に独立な値である。本実施形態では、第1畳み込み部102は、スペクトログラムSGに対し、周波数軸における所定幅ごとに第1の畳み込みを行う。
 本実施形態では、所定幅は、1周波数ビンの幅である。1周波数ビンとは、スペクトログラムSGにおける周波数の分解能である。なお、第1畳み込み部102は、2周波数ビンごと又は3周波数ビンごとに第1の畳み込みを行ってもよい。
 第1の畳み込みは、エンコーダにおける最初の畳み込み層(1段階目の畳み込み層)で行われる畳み込みである。第1の畳み込みとその直後の合成は、例えば48チャンネル分行われる。後述する第2の畳み込みは、第1の畳み込みの畳み込み層の後の複数の畳み込み層で行われる畳み込みである。これらの畳み込みは、学習モデルにより実行される処理の一部である。
 第1の畳み込みにおけるフィルタは、周波数軸方向の幅よりも、時間軸方向の長さが長いフィルタが利用される。例えば、1×100のサイズのフィルタが用いられる。フィルタは、他のサイズであってもよく、例えば、時間軸における幅が周波数軸における長さの数十倍~数百倍又はそれ以上であってもよい。フィルタの数も、任意の数であってよい。例えば、スペクトログラムSGの成分数(例えばビン数)と同じ数のフィルタが用意される。
 2次元のスペクトログラムSGは、所定幅(例えば1ビン)の信号がデータ数をその所定幅で割った数(例えば、全周波数ビン数/1)だけ存在する所定幅の信号の集団とみなされる。例えば、スペクトログラムSGが100×2000の2次元データの場合、幅が1で長さが1000の1次元の信号が100個あるものとみなされる。別の言い方をすれば、スペクトログラムSGは、周波数方向に所定幅ずつスライスされる。図5では、個々の1次元の信号をsg1~sg100の符号で示す。
 第1畳み込み部102は、スペクトログラムSGに対し、所定幅(例えば1ビン)ごとに、所定幅で所定長(例えば100フレーム)のフィルタで第1の畳み込みを複数チャンネル分行う。即ち、スペクトログラムSGがスライスされる幅と、フィルタの幅と、は同じである。本実施形態では、所定長の幅ごとに、独立にフィルタが用意されている。第1畳み込み部102は、スペクトログラムSGに対し、所定長の幅ごとに、対応するフィルタで畳み込みを行う。
 図5に示すように、第1畳み込み部102は、1次元の信号sg1~sg100の各々に対し、1次元のフィルタを畳み込む。例えば、1列目の1次元信号は、1列目用の1×100のフィルタで第1の畳み込みが行われる。2列目の1次元信号は、2列目用の1×100のフィルタで第1の畳み込みが行われる。3列目以降も同様である。各列のフィルタは、独自の係数を有する。第1の畳み込みでは、時間軸方向の前後にそれぞれ50のパディングがあり、データサイズが維持される。特にパディングがなく、多少のデータサイズの縮小が許容されてもよい。後述する合成部103により、畳み込みの結果が合わせられて、1×2000のデータd1が得られる。
 なお、フィルタのストライド幅は、1である。フィルタは、1次元の信号(1周波数ビン)ごとに用意されるのではなく、複数の1次元の信号で共通であってもよい。例えば、全ての1次元の信号に共通の1つのフィルタが用意されていてもよい。
[2-4.合成部]
 合成部103は、各チャンネルについて、所定幅ごとに行われた第1の畳み込みにより得られた全部の幅を所定幅で除算した数のデータを合わせて、1次元の第1特徴データD1を得る。図5の例であれば、1次元の信号sg1~sg100の各々が1×100のフィルタによって畳み込まれた個々の1×2000のデータは、第1の畳み込みの結果である。
 第1の畳み込みの結果を合わせるとは、個々の結果を1つのデータとしてまとめることである。別の言い方をすれば、第1の畳み込みの結果を合わせるとは、個々の1×2000のデータを、結合、合成、又は累積して同じサイズの1つのデータを得ることである。図5の例であれば、上記100個のデータ(1×2000のサイズのデータ)を加算合成し、1×2000の第1特徴データD1を得ることは、第1の畳み込みの結果を合わせることに相当する。
 1次元の第1特徴データD1は、周波数軸又は時間軸におけるデータ数が1の特徴データである。例えば、周波数ビンごとに第1の畳み込みが行われ、時間軸のデータ数分の1次元データが得られる。
 特徴データとは、スペクトログラムSGが示す音信号の特徴を示すデータである。別の言い方をすれば、特徴データは、少なくとも1回の畳み込みによって得られたデータである。第1特徴データD1が1×1000のサイズである場合、第1特徴データD1は、1000個の特徴量を含む。なお、特徴データは、主に2次元データの場合には特徴マップと呼ばれることもある。第1特徴データD1は、周波数ビン間の特徴が1つにまとめられている。
 図4に示すように、第1の畳み込みと合成の結果として、サイズが1×2000の第1特徴データD1が48チャンネル分得られる。後述する第2畳み込み部104は、第1特徴データD1に1次元フィルタを畳み込み、48チャンネル分の第2特徴データD2-1(サイズは1×2000)を得、プーリングを行って、48チャンネル分の1×1000の第2特徴データD2-2を得る。
 例えば、合成部103は、第1の畳み込みの結果の和を計算して、第1特徴データD1を得る。第1特徴データD1は、第1の畳み込みの結果の単純な和ではなく、所定の重み付けがなされた和であってもよい。第1特徴データD1は、第1の畳み込みの結果を、和以外の数式を含む計算式に代入して得てもよい。
[2-5.第2畳み込み部]
 第2畳み込み部104は、第1特徴データD1に対し、少なくとも1回の第2の畳み込みを行って第1特徴データD1をエンコードし、スペクトログラムSGの特徴を示す1次元の第2特徴データD2を得る。第2特徴データD2として、第2の畳み込みの各層で得られたデータD2-1からデータD2-6までの何れを用いてもよい。何れか2以上の層で得られたデータから、第2特徴データD2を合成してもよい。第2の畳み込みは、第1の畳み込みよりも後に行われる畳み込みである。本実施形態では、第2の畳み込みにパディングがあり、データサイズが畳み込みの前後で維持されるものとする。特にパディングがなく、多少サイズが縮小してもよい。
 第1特徴データD1は1次元なので、第2の畳み込みは、1次元データに対する1次元の畳み込みとなる。例えば、第2畳み込み部104は、第1特徴データD1に対し、少なくとも1回の第2の畳み込みとプーリングを行って、第2特徴データD2(データD2-1からD2-6の何れか)を得る。プーリングは、第2の畳み込みのうちの所定の畳み込み層の直後に配置されたプーリング層によって行われるプーリングである。
 図4の例であれば、第2畳み込み部104は、48チャンネル分の1×1000の第1特徴データD1に対し、第1層目において、48チャンネルの第2の畳み込みを行って、48チャンネル分の1×2000のデータD2-1を得、プーリングによりデータD2-1のサイズを縮小し、48チャンネル分の1×1000のデータD2-2を得る。
 第2畳み込み部104は、データD2-2に対し、第2層における第2の畳み込みを行って、96チャンネル分の1×1000のデータD2-3を得る。第2畳み込み部104は、データD2-3に対し、第3層における第2の畳み込みを行って、96チャンネル分の1×1000のデータD2-4を得る。第2畳み込み部104は、プーリングによりデータD2-4のサイズを縮小し、96チャンネル分の1×500のデータD2-5を得る。第2畳み込み部104は、データD2-5に対し、第4層における第2の畳み込みを行って、192チャンネル分の1×500のデータD2-6を得る。
 本実施形態では、第2の畳み込みは1次元のフィルタで行われるので、第2畳み込み部104は、第1特徴データD1に対し、1次元のフィルタで少なくとも1回の第2の畳み込みとプーリングを行って、第2特徴データD2を得る。第2の畳み込みのフィルタは、任意のサイズのフィルタを利用可能である。本実施形態では、時間軸方向に長いフィルタ(周波数軸の幅よりも時間軸の幅の方が長いフィルタ)が利用される。例えば、1×100のサイズのフィルタが用いられる。チャンネル数は、任意の数であってよい。
[2-6.逆畳み込み部]
 逆畳み込み部105は、第2特徴データD2に対し、少なくとも1回の逆畳み込みを行って、所定の音を分離するマスクMを得る。逆畳み込みは、畳み込みニューラルネットワークにおける逆畳み込み層で行われる処理である。逆畳み込み層は、エンコーダの畳み込み層と1対1に対応して存在するものとする。例えば、タD2-6が第2特徴データとして用いられる。図4における第1層の第2畳み込みからのスキップ接続や、第3層の第2畳み込みからのスキップ接続を、第2特徴データと見做してもよい。
 図4に示すように、逆畳み込み部105は、192チャンネル分のデータD2-6に対し、第4層の第2畳み込みに対応する逆畳み込みを行って、192チャンネル分の1×500のデータD3-6を得る。逆畳み込み部105は、192チャンネル分のデータD3-6の算出過程の中で、同時に、アップサンプリングを行って、192チャンネル分の1×1000のデータD3-5を得る。アップサンプリングは、直前段の逆畳み込み時のストライドにより実現され、アンプーリングとも呼ばれる。
 逆畳み込み部105は、192チャンネル分のデータD3-5に対し、第3層の第2畳み込みに対応する逆畳み込みを行って、96チャンネル分の1×1000のデータD3-4を得る。逆畳み込み部105は、96チャンネル分のデータD3-4に対し、第2層の第2畳み込みに対応する逆畳み込みを行って、データD3-3を得る。逆畳み込み部105は、データD3-3の算出過程の中で、同時に、アップサンプリングを行って、96チャンネル分の1×2000のデータD3-2を得る。逆畳み込み部105は、96チャンネル分のデータD3-2に対し、第1層の第2畳み込みに対応する逆畳み込みを行って、48チャンネル分の1×2000のデータD3-1を得る。
 図6に示すように、逆畳み込み部105は、48チャンネル分のデータD3-1の各々に対し、1周波数ビンごとのフィルタ(サイズは、例えば100×100)で1D/2D変換を兼ねた逆畳み込みを行い、データD4を得、さらに変換演算を行ってマスクMを得る。この変換演算は、全結合でもよいし、畳み込みでもよい。或いは、個々のデータごとの重み付けでもよい。マスクMは、分離すべき音を特定可能なデータである。マスクMは、音響信号処理用の時間変化するフィルタとも見做せる。
 例えば、データD4及びマスクMは、スペクトログラムSGと同じサイズのデータである。図6の例では、マスクMにおける各データの色によって、分離すべき音(透過すべき音)が表現される。
 例えば、マスクMのある時刻のあるビンが白なら、その時刻にそのビンの周波数の音は透過し、黒なら、そのビンの周波数の音は阻止(除去)される。分離すべき音は、先述した所定の音の成分である。分離すべきではない音は、先述した他の音である。なお、黒が分離すべき音を意味し、白が分離すべきではない音を意味してもよい。分離の度合いが色によって表現されてもよい。分離の度合いとは、分離すべき音である確率又は蓋然性である。例えば、マスクMが256段階である場合、ある時刻のあるビンが所定の音の成分である確率が50%であれば、その値は128といったような中間値で表現される。
 なお、少なくとも1回の逆畳み込みでは、各層の入力データに対し、対応する畳み込み層で得られたデータを付加して、逆畳み込みが行われてもよい。このデータの付加は、例えば、U-NetやRESNETなどで使われているスキップ接続を用いる。このスキップ接続には、concatenationとsummationの何れを用いてもよい。スキップ接続は、ある層の第2畳み込みの結果を、同じ層の逆畳み込みの入力に供給する。スキップ接続によれば、エンコーダのある層よりより下層の処理で失われる情報を、デコーダのその層で回復して用いることができる。図4の例であれば、第1層の第2畳み込みの出力D2-1が、第1層の逆畳み込みの入力にスキップ接続される。第3層の第2畳み込みの出力D2-4が、第3層の逆畳み込みの入力にスキップ接続される。第1の畳み込み及び合成(2D/1D変換)の出力D1が、1D/2D変換を兼ねた逆畳み込みの入力にスキップ接続される。
[2-7.分離部]
 所定の音の分離が訓練された後であれば、分離部106は、スペクトログラムSGにマスクMを適用し、複数の音の中から所定の音を分離する。マスクMを適用するとは、マスクMを利用して音を分離することである。分離部106は、マスクMを利用して、スペクトログラムSGに示された複数の音の成分のうちの一部を、所定の音として分離する。例えば、分離部106は、スペクトログラムSGに対し、マスクMを乗算することによって、複数の音の混合音の中から所定の音を分離する。例えば、分離された音は、スペクトログラムPSとして表現される。
 分離部106によって得られたスペクトログラムPSは、音信号に変換され、データ記憶部100に記録される。
[2-8.調整部]
 調整部107は、機械学習の手法により第1の畳み込み、第2の畳み込み、及び逆畳み込みに用いられる変数を調整する。これらの変数は、訓練データのスペクトログラムSGから、本実施形態で説明する方法により訓練データの特定の音が分離されるように、繰り返し調整して決定された変数である。調整部107は、訓練データに含まれる入力と出力の関係が得られるように、学習前の学習モデルの変数を調整する。例えば、調整部107の処理の詳細は、後述する図7の処理である。
[3.処理装置が実行する処理]
 本実施形態では、処理装置10が実行する処理の一例として、学習モデルの変数を調整するための調整処理と、混合信号から所定の音信号を分離するための分離処理と、を説明する。調整処理と分離処理の各々は、CPU11が不揮発メモリ12に記憶されたプログラムに従って動作することによって実行される。調整処理と分離処理の各々は、図2に示す機能ブロックにより実行される処理の一例である。
[3-1.調整処理]
 図7は、調整処理の一例を示すフロー図である。1ないし複数のペアを用いた、この調整処理(訓練)が、学習モデルの損失が所定の基準をクリアするまで繰り返し行われる。図7に示すように、CPU11は、不揮発メモリ12に記憶された訓練データのデータセットから、混合信号のスペクトログラムと、ソロ信号のスペクトログラムと、のペアを取得する(S100)。不揮発メモリ12に複数のペアが記憶されている場合には、CPU11は、これら複数のペアを順次取得する。
 CPU11は、S100で取得したペアに含まれる混合信号のスペクトログラムを、現状の学習モデル(変数を調整する前の学習モデル)に入力して、マスクMを推定する(S101)。混合信号のスペクトログラムが学習モデルに入力されると、図4を参照して説明した一連の処理(後述する分離処理と同様の処理)が実行される。学習モデルは、第1の畳み込みを行って、混合信号のスペクトログラムの第1特徴データD1を得る。学習モデルは、第1特徴データD1に対し、少なくとも1回の第2の畳み込みを行って、混合信号のスペクトログラムの第2特徴データD2を得る。学習モデルは、第2特徴データD2に対し、少なくとも1回の逆畳み込みを行って、マスクMを推定する。
 CPU11は、マスクMを混合信号のスペクトログラムに適用して、分離信号のスペクトログラムを得る(S102)。S102において得られる分離信号のスペクトログラムは、現状の学習モデルによって得られるスペクトログラムである。このスペクトログラムは、続くS103の処理において、現状の学習モデルの性能を評価するために用いられる。
 CPU11は、分離信号のスペクトログラムと、ソロ信号のスペクトログラムと、を比較して、学習モデルの損失を得る(S103)。損失としては、非特許文献1と同じようにL1ノルムを用いてもよいし、その他のL2ノルムなどを用いてもよい。損失は、学習モデルの性能の指標となる情報である。別の言い方をすれば、損失は、分離信号のスペクトログラムと、ソロ信号のスペクトログラムと、の差異に相当する情報である。損失が大きいほど、現状の学習モデルの性能が低く変数を大幅に変更する必要がある。
 CPU11は、S103で得られた損失に基づいて、学習モデルの変数を調整する(S104)。変数の調整自体は、一般的な誤差逆伝搬で行えばよい。以降、損失が十分小さくなるまで、S100~S104の処理が繰り返され、学習モデルの訓練が完了する。
[3-2.分離処理]
 図8は、分離処理の一例を示すフロー図である。図8に示すように、CPU11は、不揮発メモリ12に記憶された混合信号のスペクトログラムSGを取得する(S200)。S200において取得されるスペクトログラムSGは、音分離の対象となるスペクトログラムSGである。
 CPU11は、混合信号のスペクトログラムSGに対し、1周波数ビンの幅ごとに第1の畳み込みを行う(S201)。S201においては、CPU11は、混合信号のスペクトログラムSG(例えば100×2000)を、1周波数ビンの幅ごとの1次元の信号(例えば1×2000×100)とみなし、各周波数ビンに対応するフィルタ(例えば1×100×100×48)で第1の畳み込みを行う。
 CPU11は、S201で行われた第1の畳み込みの結果100個の和を計算して、1次元の第1特徴データD1(例えば1×2000×48)を得る(S202)。図4の例であれば、S202の処理により、第1特徴データD1が得られる。
 CPU11は、第1特徴データD1に対し、1次元のフィルタで少なくとも1回の第2の畳み込みと必要に応じてプーリングを行って、第2特徴データD2(サイズは様々)を得る(S203)。図4の例であれば、S203の処理により、データD2-1からD2-6が得られ、ここでは、データD2-6が第2特徴データD2として用いられる。S201からS203までの処理が、エンコード処理である。
 CPU11は、第2特徴データD2に対し、少なくとも1回の逆畳み込みを含むデコード処理を行って、マスクMを得る(S204)。図4の例であれば、S204の処理により、データD3-6からD3-1と、データD4と、マスクMと、が得られる。
 CPU11は、混合信号のスペクトログラムSGにマスクMを適用し、複数の音の混合音の中から所定の音を分離する(S205)。S205においては、CPU11は、混合信号のスペクトログラムSGに対し、マスクMを乗算することによって、混合音のスペクトログラムから所定の音のスペクトログラムを分離する。CPU11は、分離された音のスペクトログラムPSを、逆短時間フーリエ変換等を用いて、周波数領域から時間領域へ変換し、分離された所定の音信号のデジタルデータを得る。このデジタルデータは、不揮発メモリ12に記録される。
 CPU11は、スピーカ17から、分離された所定の音を出力し(S206)、本処理は終了する。S206においては、CPU11は、S205において記録されたデジタルデータを再生し、分離された所定の音を出力する。
 本実施形態の処理装置10は、所定幅ごとに行われた第1の畳み込みの結果を合わせて、1次元の第1特徴データD1を得ることによって、音信号のスペクトログラムSGの特徴を効率良く表現する特徴データを得ることができる。例えば、周波数方向に広範囲に特徴的な情報を有する音(時間軸方向の特徴が局所的な音)の場合には、時間軸における所定幅ごとに第1の畳み込みを行うことで、周波数方向に広範囲な情報を表す、周波数方向の1次元データ(例えば100×1)が得られる。例えば、時間方向に広範囲に特徴的な情報を有する音(周波数方向の特徴が局所的な音)の場合には、周波数軸における所定幅ごとに第1の畳み込みを行うことで、時間方向に広範囲な情報を表す、時間軸方向の1次元データ(例えば1×2000)が得られる。処理装置10によれば、エンコード処理のうち、第1特徴データD1を得た以降の処理は、全て1次元データが対象の処理なので、効率良く特徴データを得ることができる。その結果、特徴データを得る処理を高速化できる。処理装置10の処理負荷も軽減できる。時間軸方向の1次元データを用いる場合、同じデータ量及び演算量であれば、時間方向により長いフィルタを実現でき、その点でも効率的に時間方向の情報を加味できる。波形のスペクトル時系列をある軸方向の1次元データに変換して推論を行い、他方の軸方向の成分間で変数が融通されるので、同じ規模の学習モデルにより効率的に推論を行うことができる。
 処理装置10は、第1の畳み込みの結果を合わせて、第1特徴データD1を得る。処理装置10は、第1特徴データD1に対し、少なくとも1回の第2の畳み込みとプーリングを行って、第2特徴データD2を得る。プーリングにより特徴データのサイズが縮小され、より効率良く特徴データを得ることができる。
 処理装置10では、少なくとも1回の逆畳み込みでは、各層の入力データに対し、対応する畳み込み層で得られたデータを付加して、逆畳み込みが行われるので、逆畳み込みの精度が向上する。マスクMの精度が高まり、音分離の精度も高めることができる。
[4.変形例]
 なお、本発明は、以上に説明した実施形態に限定されるものではない。本発明の趣旨を逸脱しない範囲で、適宜変更可能である。
 例えば、畳み込みの後にプーリングが実行される場合を説明したが、特にプーリングを実行せずにデータサイズを縮小しなくてもよい。1次元のフィルタを利用した第1の畳み込みが実行される場合を説明したが、第1特徴データD1が1次元になればよく、第1の畳み込みは2次元のフィルタが利用されてもよい。
 実施形態では、処理装置10を音声分離に利用する場合を説明したが、処理装置10は、他の任意の場面に利用可能である。例えば、処理装置10を声紋鑑定に利用してもよい。ある特定の人間の声であるか否かを鑑定する声紋鑑定であれば、人間の声を示す音信号のスペクトログラムSGと、この人間であるか否かを示す情報(正例であるか負例であるかを示す情報)と、を含む訓練データに基づいて、学習モデルの変数が調整される。処理装置10は、声紋鑑定の対象となるスペクトログラムSGを学習モデルに入力する。学習モデルは、実施形態で説明したような第1の畳み込みと第2の畳み込みを行って、1次元の第2特徴データD2を得る。学習モデルは、第2特徴データD2に応じた鑑定情報を出力する。この鑑定情報は、学習済みの特定の人間の声である確率を示し、この値が閾値より大きければ、「特定の人間の声である」と判定される。声紋鑑定の場合、逆畳み込みは行われない。
 複数の人間の中から発声者を特定する声紋鑑定であれば、人間の声を示す音信号のスペクトログラムSGと、この人間を識別する識別情報(例えば、人間を一意に識別するラベルID)と、を含む訓練データに基づいて、学習モデルの変数が調整される。処理装置10は、声紋鑑定の対象となるスペクトログラムSGを学習モデルに入力する。学習モデルは、実施形態で説明したような第1の畳み込みと第2の畳み込みを行って、1次元の第2特徴データD2を得る。学習モデルは、第2特徴データD2に応じたラベルIDを出力する。音声分離及び声紋鑑定以外にも、楽曲のジャンル推定又は音信号におけるノイズ除去といった任意の場面に処理装置10を利用可能である。なお、処理システムは、1台の処理装置10に限られない。処理システムは、ネットワーク又はシリアルバスで接続された複数台の装置を含んでもよい。

 

Claims (12)

  1.  音信号のスペクトログラムを取得し、
     前記スペクトログラムに対し、周波数軸又は時間軸における所定幅ごとに第1の畳み込みを行い、
     前記所定幅ごとに行われた第1の畳み込みの結果を合わせて、1次元の第1特徴データを得て、
     前記第1特徴データに対し、少なくとも1回の第2の畳み込みを行って、前記スペクトログラムの特徴を示す1次元の第2特徴データを得る、
     コンピュータにより実現される方法。
  2.  前記第1の畳み込みの結果を合わせて、前記第1特徴データを得て、
     前記第1特徴データに対し、少なくとも1回の前記第2の畳み込みとプーリングを行って、前記第2特徴データを得る、
     請求項1に記載の方法。
  3.  前記スペクトログラムに対し、前記所定幅ごとに、前記所定幅で所定長のフィルタで前記第1の畳み込みを行い、
     前記第1特徴データに対し、1次元のフィルタで少なくとも1回の前記第2の畳み込みを行って、前記第2特徴データを得る、
     請求項1又は2に記載の方法。
  4.  前記所定幅は、周波数軸における幅である、
     請求項1~3の何れかに記載の方法。
  5.  前記所定幅は、1周波数ビンの幅である、
     請求項4に記載の方法。
  6.  前記第1の畳み込みの結果の和を計算して、前記第1特徴データを得る、
     請求項1~5の何れかに記載の方法。
  7.  前記所定長の幅ごとに、独立にフィルタが用意されており、
     前記スペクトログラムに対し、前記所定長の幅ごとに、対応するフィルタで畳み込みを行う、
     請求項1~6の何れかに記載の方法。
  8.  前記スペクトログラムは、所定の音を含む複数の音が混合された音信号を示し、
     前記第2特徴データに対し、少なくとも1回の逆畳み込みを行って、前記所定の音を分離するマスクを得て、
     前記スペクトログラムに前記マスクを適用し、前記複数の音の中から前記所定の音を分離する、
     請求項1~7の何れかに記載の方法。
  9.  前記少なくとも1回の逆畳み込みでは、各層の入力データに対し、対応する畳み込み層で得られたデータを付加して、逆畳み込みが行われる、
     請求項8に記載の方法。
  10.  前記第1の畳み込み、前記第2の畳み込み、及び前記逆畳み込みに用いられる変数は、
     複数の音が混合された音信号のスペクトログラムと、当該複数の音に含まれる前記所定の音と、を含む訓練データのスペクトログラムから、前記方法により前記訓練データの特定の音が分離されるように、繰り返し調整して決定された変数である、
     請求項8又は9に記載の方法。
  11.  1以上のプロセッサと1以上のメモリとを具備する処理システムであって、
     前記1以上のメモリに記憶されたプログラムを実行することにより、
     前記1以上のプロセッサが、
     音信号のスペクトログラムを取得し、
     前記スペクトログラムに対し、周波数軸又は時間軸における所定幅ごとに第1の畳み込みを行い、
     前記所定幅ごとに行われた第1の畳み込みの結果を合わせて、1次元の第1特徴データを得て、
     前記第1特徴データに対し、少なくとも1回の第2の畳み込みを行って、前記スペクトログラムの特徴を示す1次元の第2特徴データを得る、
     処理システム。
  12.  コンピュータが読み出せるプログラムを記憶する1以上の記憶媒体であって、前記プログラムは1以上のプロセッサに、
     音信号のスペクトログラムを取得し、
     前記スペクトログラムに対し、周波数軸又は時間軸における所定幅ごとに第1の畳み込みを行い、
     前記所定幅ごとに行われた第1の畳み込みの結果を合わせて、1次元の第1特徴データを得て、
     前記第1特徴データに対し、少なくとも1回の第2の畳み込みを行って、前記スペクトログラムの特徴を示す1次元の第2特徴データを得る、
     動作を行わせる記憶媒体。

     
PCT/JP2020/045672 2020-03-23 2020-12-08 コンピュータにより実現される方法、処理システム、及び記憶媒体 WO2021192433A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/949,717 US20230016242A1 (en) 2020-03-23 2022-09-21 Processing Apparatus, Processing Method, and Storage Medium

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020-051019 2020-03-23
JP2020051019A JP7472575B2 (ja) 2020-03-23 2020-03-23 処理方法、処理装置、及びプログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US17/949,717 Continuation US20230016242A1 (en) 2020-03-23 2022-09-21 Processing Apparatus, Processing Method, and Storage Medium

Publications (1)

Publication Number Publication Date
WO2021192433A1 true WO2021192433A1 (ja) 2021-09-30

Family

ID=77849054

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/045672 WO2021192433A1 (ja) 2020-03-23 2020-12-08 コンピュータにより実現される方法、処理システム、及び記憶媒体

Country Status (3)

Country Link
US (1) US20230016242A1 (ja)
JP (1) JP7472575B2 (ja)
WO (1) WO2021192433A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019144511A (ja) * 2018-02-23 2019-08-29 日本電信電話株式会社 音響信号モデル学習装置、音響信号解析装置、方法、及びプログラム
JP2019191558A (ja) * 2018-04-23 2019-10-31 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 音声を増幅する方法及び装置
US20190355347A1 (en) * 2018-05-18 2019-11-21 Baidu Usa Llc Spectrogram to waveform synthesis using convolutional networks

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170140260A1 (en) 2015-11-17 2017-05-18 RCRDCLUB Corporation Content filtering with convolutional neural networks

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019144511A (ja) * 2018-02-23 2019-08-29 日本電信電話株式会社 音響信号モデル学習装置、音響信号解析装置、方法、及びプログラム
JP2019191558A (ja) * 2018-04-23 2019-10-31 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 音声を増幅する方法及び装置
US20190355347A1 (en) * 2018-05-18 2019-11-21 Baidu Usa Llc Spectrogram to waveform synthesis using convolutional networks

Also Published As

Publication number Publication date
JP7472575B2 (ja) 2024-04-23
JP2021149784A (ja) 2021-09-27
US20230016242A1 (en) 2023-01-19

Similar Documents

Publication Publication Date Title
Stoller et al. Wave-u-net: A multi-scale neural network for end-to-end audio source separation
CN103996401B (zh) 解码设备和解码方法
JP4374448B2 (ja) 多チャネル信号符号化方法、その復号化方法、これらの装置、プログラム及びその記録媒体
EP3511937A1 (en) Device and method for sound source separation, and program
RU2007104933A (ru) Устройство и способ для формирования многоканального выходного сигнала
CN103811023A (zh) 音频处理装置以及音频处理方法
JP6482173B2 (ja) 音響信号処理装置およびその方法
JP6099032B2 (ja) 信号処理装置、信号処理方法及びコンピュータプログラム
KR20220020351A (ko) 사운드 분리 방법 및 장치, 전자 기기
WO2021192433A1 (ja) コンピュータにより実現される方法、処理システム、及び記憶媒体
CN115116469B (zh) 特征表示的提取方法、装置、设备、介质及程序产品
Lordelo et al. Investigating kernel shapes and skip connections for deep learning-based harmonic-percussive separation
WO2020162048A1 (ja) 信号変換システム、機械学習システムおよび信号変換プログラム
US9398387B2 (en) Sound processing device, sound processing method, and program
CN116959468A (zh) 一种基于dcctn网络模型的语音增强方法、系统及设备
CN112086085B (zh) 音频信号的和声处理方法、装置、电子设备和存储介质
EP4131257A1 (en) Signal processing device and method, and program
US20210089926A1 (en) Machine learning method and machine learning apparatus
CN115019824A (zh) 视频处理方法、装置、计算机设备及可读存储介质
Yu et al. Monaural Music Source Separation Using Deep Convolutional Neural Network Embedded with Feature Extraction Module
EP3726464A1 (en) Learning device, learning method and storage medium
EP3726463A1 (en) Learning device, learning method, sorting method, and storage medium
WO2013145578A1 (ja) 音声処理装置、音声処理方法および音声処理プログラム
CN112837670B (zh) 语音合成方法、装置及电子设备
Hanssian Music Demixing with the Sliced Constant-Q Transform

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20928006

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20928006

Country of ref document: EP

Kind code of ref document: A1