WO2019171457A1 - 音源分離装置、音源分離方法およびプログラムが格納された非一時的なコンピュータ可読媒体 - Google Patents

音源分離装置、音源分離方法およびプログラムが格納された非一時的なコンピュータ可読媒体 Download PDF

Info

Publication number
WO2019171457A1
WO2019171457A1 PCT/JP2018/008503 JP2018008503W WO2019171457A1 WO 2019171457 A1 WO2019171457 A1 WO 2019171457A1 JP 2018008503 W JP2018008503 W JP 2018008503W WO 2019171457 A1 WO2019171457 A1 WO 2019171457A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound source
mixed signal
time
feature
parameter
Prior art date
Application number
PCT/JP2018/008503
Other languages
English (en)
French (fr)
Inventor
孝文 越仲
鈴木 隆之
薫 鯉田
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to JP2020504518A priority Critical patent/JP6992873B2/ja
Priority to PCT/JP2018/008503 priority patent/WO2019171457A1/ja
Publication of WO2019171457A1 publication Critical patent/WO2019171457A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating

Definitions

  • the present disclosure relates to a sound source separation device, a sound source separation method, and a non-transitory computer-readable medium storing a program.
  • Patent Document 1 discloses an acoustic process for storing a first basis matrix indicating acoustic characteristics of a first sound source that is a sound source learned in advance and does not include the sound of a second sound source.
  • An apparatus is disclosed.
  • the sound processing apparatus obtains, from the observation matrix indicating the time series of the spectrum of the sound signal indicating the mixed sound of the sound of the first sound source and the sound of the second sound source, by non-negative matrix factorization using the first basis matrix.
  • a two basis matrix and a second coefficient matrix are generated.
  • the sound processing device generates sound signals of the first sound source and the second sound source using the sound signal corresponding to the first basis matrix and the first coefficient matrix, and the second basis matrix and the second coefficient matrix.
  • Non-Patent Document 1 is disclosed in relation to the above technique.
  • Non-Patent Document 1 discloses a sound source separation method in which a voice uttered by a certain speaker is used as a sound source and a voice uttered by a plurality of speakers is separated into individual speaker sounds.
  • the sound source separation method receives a single channel mixed signal, converts the received mixed signal into a time-frequency representation (spectrogram), and extracts a feature vector from each time-frequency bin using a deep neural network. Then, by clustering the extracted feature vectors, the time-frequency bins are classified into the same number of clusters as the number of target sound sources (the number of speakers), and each cluster is reconstructed from the time-frequency bins contained therein. Create a sound source signal for each speaker from the spectrogram.
  • Non-Patent Document 1 The deep neural network disclosed in Non-Patent Document 1 is prepared by prior training (learning).
  • the data used for learning is a collection of many sound source signals spoken by various speakers. These are all independent sound source signals, not mixed signals spoken by multiple speakers at the same time.
  • Non-Patent Document 1 first, short-time Fourier transform is performed on learning data, and each sound source signal is converted into a spectrogram.
  • a spectrogram of the mixed signal is generated by superimposing the spectrograms of the two sound source signals, and a speaker label is assigned by determining which speaker belongs to each time-frequency bin.
  • the speaker label is determined from the amplitude of each original sound source signal. That is, it is assumed that the time-frequency bin belongs to the speaker having the larger amplitude.
  • Patent Document 1 separates individual sound sources from a mixed signal obtained by mixing a plurality of sound sources, using a first sound source that is a previously learned reference.
  • the technique disclosed in Non-Patent Document 1 separates individual sound sources using a mixed signal that is artificially generated by superimposing two or more different sound source signals. That is, the learning data used in Patent Document 1 and Non-Patent Document 1 is different from the actually observed mixed signal.
  • the actually observed mixed signal is different from a simple superposition of spectrograms of individual sound source signals.
  • the amplitude ratio when superimposing the sound source signal depends on the positional relationship between the microphone and the speaker, the actually observed mixed signal is not always constant in all observations. .
  • the actually observed mixed signal is not always constant in time. For this reason, if the data used for learning is not an actually observed mixed signal, a mismatch occurs between the data used for learning and the actually observed mixed signal. If a mismatch occurs between the data used for learning and the actually observed mixed signal, appropriate learning cannot be performed.
  • An object of the present disclosure is to solve such a problem, and stores a sound source separation device, a sound source separation method, and a program that can accurately separate individual sound source signals from a mixed signal.
  • Another non-transitory computer readable medium is provided.
  • a sound source separation device uses a feature vector to which a parameter used for feature extraction is applied for each time frequency bin in a spectrogram obtained by converting a mixed signal in which a plurality of sound source signals are mixed. For each classified cluster, using feature extraction means for extracting the extracted feature vectors, clustering means for classifying the extracted feature vectors into a plurality of clusters, and time frequency bins included in each of the classified clusters. Separating means for generating a sound source signal and parameter updating means for updating the parameter based on a learning mixed signal including the observed mixed signal.
  • the sound source separation method uses a feature extractor to which a parameter used for feature extraction is applied for each time frequency bin in a spectrogram obtained by converting a mixed signal obtained by mixing a plurality of sound source signals. Extracting a feature vector, classifying the extracted feature vector into a plurality of clusters, and using a time-frequency bin included in each of the classified clusters, a sound source for each classified cluster
  • a sound source separation method comprising: generating a signal; and updating the parameter based on a learning mixed signal including an observed mixed signal.
  • the non-transitory computer readable medium is a feature extraction in which a parameter used for feature extraction is applied for each time frequency bin in a spectrogram obtained by converting a mixed signal in which a plurality of sound source signals are mixed.
  • a feature vector is extracted using a classifier, the extracted feature vector is classified into a plurality of clusters, and a time frequency bin included in each of the classified clusters is classified.
  • a non-transitory computer-readable program that stores a program that causes a computer to generate a sound source signal for each cluster and update the parameter based on a learning mixed signal including an observed mixed signal It is a medium.
  • a non-transitory computer-readable medium storing a sound source separation device, a sound source separation method, and a program capable of accurately separating individual sound source signals from a mixed signal.
  • FIG. 3 is a flowchart showing an operation example of the sound source separation device according to the first exemplary embodiment; 3 is a flowchart showing an operation example of the sound source separation device according to the first exemplary embodiment; 3 is a flowchart showing an operation example of the sound source separation device according to the first exemplary embodiment; 3 is a flowchart showing an operation example of the sound source separation device according to the first exemplary embodiment; FIG. 3 is a configuration diagram illustrating a configuration example of a sound source separation device according to a second exemplary embodiment; It is a figure which shows the structural example of the sound source separation apparatus concerning other embodiment.
  • FIG. 1 is a diagram illustrating an outline of a sound source separation device 1 according to an embodiment of the present disclosure.
  • the sound source separation device 1 includes a feature extraction unit 2 that functions as a feature extraction unit, a clustering unit 3 that functions as a clustering unit, a separation unit 4 that functions as a separation unit, a parameter update unit 5 that functions as a parameter update unit, Is provided.
  • the feature extraction unit 2 extracts a feature vector using a feature extractor to which a parameter used for feature extraction is applied for each time-frequency bin in a spectrogram obtained by converting a mixed signal obtained by mixing a plurality of sound source signals. .
  • the clustering unit 3 classifies the extracted feature vectors into a plurality of clusters.
  • the separation unit 4 generates a sound source signal for each classified cluster using time frequency bins included in each of the plurality of classified clusters.
  • the parameter updating unit 5 updates the parameter based on the learning mixed signal including the observed mixed signal.
  • the sound source separation device 1 uses, as a learning mixed signal, a mixed signal actually observed, not a mixed signal in which a plurality of sound source signals are artificially superimposed. Therefore, the use of the sound source separation device 1 makes it possible to obtain the optimum feature vector for the mixed signal to be separated into individual sound source signals, so that the mixed signal can be accurately separated into individual sound source signals. It becomes. Therefore, by using the sound source separation device 1 according to the embodiment, individual sound source signals can be accurately separated from the mixed signal.
  • FIG. 2 is a configuration diagram of a configuration example of the sound source separation device according to the first embodiment.
  • the sound source separation device 10 may be a computer such as a server device or a personal computer device, for example.
  • the sound source separation device 10 includes a learning mixed signal storage unit 11, a learning label data storage unit 12, a feature extractor learning unit 13, and a sound source separation unit 14.
  • the mixed signal storage unit for learning 11, the label data storage unit for learning 12, the feature extractor learning unit 13 and the sound source separation unit are respectively a mixed signal storage unit for learning, a label data storage unit for learning, and a feature extractor learning unit. And function as sound source separation means.
  • the learning mixed signal storage unit 11 stores actually acquired mixed signals as learning data, which are actually observed mixed signals.
  • the learning mixed signal is a signal emitted from a plurality of sound sources, for example, audio data obtained by monaural (single channel) recording of speech spoken by a plurality of speakers.
  • the learning mixed signal is actually observed instead of the mixed signal in which a plurality of sound sources are artificially superimposed, like the learning mixed signal in the related art shown as Non-Patent Document 1.
  • It is a mixed signal.
  • the mixed signal may be, for example, a sampling frequency of 8 kHz, a sample size of 16 bits, and uncompressed linear PCM (Pulse Code Modulation). Note that the format of the mixed signal is not limited to the above content, and may be other formats.
  • the learning label data storage unit 12 stores label data representing the time interval of each sound source signal, which is determined by analyzing the mixed signal stored in the learning mixed signal storage unit 11 in advance.
  • the label data is data indicating in which time section each sound source is included in each mixed signal, for example, data set by associating the sound source type and the start and end of the time section. It is.
  • the label data when it is analyzed that the sound source of the speaker A is included from O minutes o seconds to P minutes p seconds, the label data includes the sound source type: speaker A and the beginning: O minutes o seconds. , End: P minutes and p seconds are set in association with the sound source type and the start and end of the time interval.
  • the above-described label data is an example, and other information may be set.
  • the feature extractor learning unit 13 learns feature extraction parameters indicating parameters used for feature extraction applied to the feature extractor.
  • the feature extractor may be a neural network, or other algorithms may be used. In the following description, the feature extractor may be described as a neural network.
  • the sound source separation unit 14 separates a mixed signal obtained by mixing a plurality of sound sources into individual sound source signals using a neural network that is a feature extractor.
  • the feature extractor learning unit 13 includes a feature extraction unit 101, a feature extraction parameter storage unit 102, a parameter update unit 103, a supervised loss function calculation unit 104, and an unsupervised loss function calculation unit 105.
  • the feature extraction unit 101, the feature extraction parameter storage unit 102, and the parameter update unit 103 function as a feature extraction unit, a feature extraction parameter storage unit, and a parameter update unit, respectively.
  • the supervised loss function calculation unit 104 and the unsupervised loss function calculation unit 105 function as a supervised loss calculation unit and an unsupervised loss function calculation unit, respectively.
  • the feature extraction unit 101 and the feature extraction parameter storage unit 102 are functional units shared with the sound source separation unit 14.
  • Feature extraction unit 101 corresponds to feature extraction unit 2 in the outline of the embodiment.
  • the feature extraction unit 101 acquires all the mixed signals stored in the learning mixed signal storage unit 11.
  • the feature extraction unit 101 applies a short-time Fourier transform (STFT: Short-Fourier Transform) to each acquired mixed signal to convert it into a time-frequency representation (spectrogram).
  • STFT Short-Fourier Transform
  • spectrogram time-frequency representation
  • the feature extraction unit 101 applies a short-time Fourier transform to a determination target mixed signal to be separated into individual sound source signals and converts it into a spectrogram.
  • the feature extraction unit 101 acquires feature extraction parameters applied to the feature extractor (neural network) stored in the feature extraction parameter storage unit 102.
  • the feature extraction unit 101 divides the spectrogram converted from the mixed signal into a predetermined number of time-frequency bins, and inputs a partial spectrogram corresponding to each time-frequency bin to the neural network.
  • the feature extraction unit 101 uses the result output from the neural network as a feature vector.
  • the time-frequency bin divided by the feature extraction unit 101 is represented as (t, f), and the partial spectrogram corresponding to the time-frequency bin (t, f) is represented as x (t, f).
  • the feature vector be represented as v t, f .
  • a time-frequency bin may be described as a time frequency bin.
  • the format of the mixed signal is an uncompressed linear PCM with a sampling frequency of 8 kHz, a sample size of 16 bits.
  • the spectrogram obtained by the short-time Fourier transform is obtained by transforming the mixed signal while shifting the Fourier transform at a window width of 32 msec (256 points) per frame, for example, every 8 msec (64 points).
  • the resolution in the frequency direction is 31.25 Hz (256 points at 8 kHz)
  • the number of time-frequency bins is 125 per second in the time direction and 256 in the frequency direction.
  • v t, f For the time-frequency bin (t, f), it is effective to consider the context before and after including (t, f). For example, a 100-dimensional vector in which bins of 100 frames including t are collected is given to the neural network as input x t, f .
  • the output v t, f of the neural network is usually lower in dimension than the input. For example, when the input has 100 dimensions, the output may be set to about 50 dimensions.
  • the feature extraction parameter storage unit 102 stores feature extraction parameters used when the feature extraction unit 101 extracts feature vectors. Specifically, the feature extraction parameter storage unit 102 stores the feature extraction parameter determined by the parameter update unit 103 described later. The feature extraction parameter storage unit 102 stores the initialized feature extraction parameter by performing processing such as generation (generation) of a random number by the parameter update unit 103 at an initial stage where the feature extraction parameter is not yet determined.
  • the parameter update unit 103 corresponds to the parameter update unit 5 in the outline of the embodiment.
  • the parameter updating unit 103 updates the feature extraction parameter applied to the neural network based on the learning mixed signal that is learning data.
  • the parameter update unit 103 acquires the feature vector extracted by the feature extraction unit 101 and the feature extraction parameter stored in the feature extraction parameter storage unit 102.
  • the parameter update unit 103 outputs the acquired information to the supervised loss function calculation unit 104 and the unsupervised loss function calculation unit 105 described later.
  • the parameter update unit 103 evaluates the feature vector extracted by the feature extraction unit 101 using an evaluation standard determined by the supervised loss function calculation unit 104 and the unsupervised loss function calculation unit 105.
  • the parameter update unit 103 determines a feature extraction parameter so that a better feature vector is generated based on the evaluation result of the feature vector, and updates the determined feature extraction parameter.
  • the parameter update unit 103 determines the feature extraction parameter by applying an iterative solution method used in neural network learning, such as error backpropagation.
  • the parameter update unit 103 stores the determined feature extraction parameter in the feature extraction parameter storage unit 102 and updates the determined feature extraction parameter so that it is applied to the neural network. That is, the parameter update unit 103 defines the evaluation criterion used when determining the feature extraction parameter as a loss function indicating an evaluation function mathematically defined. Then, the parameter update unit 103 repeatedly determines the feature extraction parameter using a numerical method such as stochastic gradient descent (SGD) so that the loss function is minimized. And update the feature extraction parameters.
  • SGD stochastic gradient descent
  • the parameter update unit 103 defines a loss function indicating an evaluation function related to the feature extraction parameter of the neural network as in the following formula (11). Specifically, the parameter updating unit 103 uses a supervised loss function indicating the first evaluation function and an unsupervised loss function indicating the second evaluation function as the evaluation function related to the feature extraction parameter.
  • is a feature extraction parameter
  • L ⁇ (S) is a supervised loss function
  • L ⁇ (U) is an unsupervised loss function
  • is a weighting factor
  • X is a set of all spectrograms obtained from learning data
  • V is a set of all feature vectors obtained from X.
  • Y (y t, f ) is a sound source label expressing which sound source corresponds to the time-frequency bin (t, f) corresponding to the feature vector v t, f .
  • yt, f is a speaker label that uniquely identifies the speaker.
  • Y t, f is a two-dimensional vector (1, 0).
  • y t, f is a two-dimensional vector (0, 1).
  • N speakers ie, N sound sources
  • these vectors are N-dimensional, and only one element of the N-dimensional vectors is 1, and the other (N ⁇ The element 1) is 0.
  • the supervised loss function calculation unit 104 calculates the supervised loss function in equation (11). As described above, since the supervised loss function can be said to be the first evaluation function, the supervised loss function calculation unit 104 can also be said to be the first calculation means. It can also be said that the supervised loss function calculation unit 104 calculates the first evaluation value by using the supervised loss function indicating the first evaluation function.
  • the supervised loss function calculation unit 104 acquires the label data stored in the learning label data storage unit 12 and generates sound source labels yt , f .
  • the supervised loss function calculation unit 104 sets a sound source label for a time-frequency bin included in a time interval in which only a single sound source exists.
  • the supervised loss function calculation unit 104 does not set a sound source label for a time-frequency bin included in a time interval in which a plurality of sound sources are mixed.
  • the supervised loss function calculation unit 104 obtains the feature vector v t, f from the parameter update unit 103 and calculates the supervised loss function L ⁇ (S) which is the first term on the right side in the equation (11). The calculation result is output to the parameter update unit 103.
  • the details of the supervised loss function L ⁇ (S) and the sound source label will be described later.
  • the unsupervised loss function calculation unit 105 calculates the unsupervised loss function in equation (11). As described above, since the unsupervised loss function can be said to be the second evaluation function, the unsupervised loss function calculation unit 105 can also be said to be the second calculation means. It can also be said that the unsupervised loss function calculation unit 105 calculates the second evaluation value by using an unsupervised loss function indicating the second evaluation function.
  • the unsupervised loss function calculation unit 105 acquires the feature vector v t, f from the parameter update unit 103 and also acquires the sound source label y t, f from the supervised loss function calculation unit 104.
  • the unsupervised loss function calculation unit 105 calculates the unsupervised loss function L ⁇ (U) , which is the second term on the right side in Equation (11), and outputs the calculation result to the parameter update unit 103.
  • the feature extraction unit 101, parameter update unit 103, supervised loss function calculation unit 104, and unsupervised loss function calculation unit 105 operate repeatedly while interacting with each other, and feature extraction stored in the feature extraction parameter storage unit 102 Update parameters sequentially.
  • the feature extraction unit 101, the parameter update unit 103, the supervised loss function calculation unit 104, and the unsupervised loss function calculation unit 105 update the feature extraction parameters a sufficient number of times so that the feature extraction parameters converge. When the feature extraction parameters converge, the final feature extraction parameters are stored in the feature extraction parameter storage unit 102.
  • the supervised loss function L ⁇ (S) is defined as the following equation (12).
  • VV T is a matrix having elements of cosine similarity (normalized inner product) for all pairs of feature vectors v t, f
  • YY T is an inner product for all pairs of sound source labels yt , f.
  • Is a matrix with VV T and YY T are 1 when the time-frequency bins (t, f) and (t ′, f ′) belong to the same sound source class, and 0 when they do not belong to the same sound source class.
  • F is a Frobenius norm and represents the square root of the sum of squares of all elements of the matrix. That is, as the cosine similarity of feature vector pairs belonging to the same sound source class is closer to 1 and the cosine similarity of feature vector pairs not belonging to the same sound source class is closer to 0, the loss function of Expression (12) becomes smaller. .
  • the supervised loss function L ⁇ (S) can extract the feature vector V that well represents the sound source class as the feature extraction parameter ⁇ .
  • the sound source class is information indicating individual sound sources included in the mixed signal. For example, if the mixed signal includes sound sources of speaker A and speaker B, the sound source of speaker A becomes the first sound source class, and the sound source of speaker B becomes the second sound source class.
  • FIG. 3 is a diagram for explaining a sound source label in the related art.
  • FIG. 4 is a diagram for explaining a sound source label in the first embodiment.
  • Non-Patent Document 1 In the related art such as Non-Patent Document 1, it is assumed that all the time-frequency bins y t, f are known. As described above, in Non-Patent Document 1, since a mixed signal is artificially generated by superimposing a plurality of sound source signals, the loss function is defined only by the above equation (12). In the related art such as Non-Patent Document 1, the time of each sound source signal—the amplitude of the frequency bin (t, f) is already known. A sound source label can be set for the frequency bin (t, f).
  • FIG. 3 shows an example of a sound source label set in the time-frequency bin in Non-Patent Document 1.
  • FIG. 3 shows that a mixed signal in which sound source signals having two speakers as sound sources are mixed is converted into a spectrogram, and a sound source label is set for each time-frequency bin.
  • a mixed signal is artificially generated by superimposing a plurality of sound source signals, a speaker is provided for each time-frequency bin (t, f).
  • a sound source label of A or speaker B is set.
  • FIG. 4 is an example in which a sound source label is set for a mixed signal in which two speakers are sound sources as in FIG.
  • a sound source label is set for a time-frequency bin included in a time section in which only the sound source of speaker A or speaker B is included in the mixed signal.
  • a sound source label is set for a time-frequency bin in a time section in which only a single sound source is included in the mixed signal.
  • the sound source label is set by the supervised loss function calculation unit 104 based on the label data stored in the learning label data storage unit 12 as described above. For example, if the mixed signal includes the sound sources of speaker A and speaker B, the beginning and end of the time interval in which the sound source of speaker A is included are set in the label data. Similarly, the start and end of a time interval in which the sound source of speaker B is included are set. Since the supervised loss function calculation unit 104 can determine which speaker's sound source is included in which time interval by referring to the label data, the sound source label is set based on the label data. I can do it.
  • FIG. 4 shows that the sound source label of speaker A is set for the eighth time-frequency bin from the front in the time domain.
  • the sound source label of speaker B is set for the 11th to 16th time-frequency bins from the front.
  • the sound source label is not set and the sound source label is not set.
  • the sound source labels are unknown because the sound sources of speaker A and speaker B are mixed. Do not set a label.
  • the supervised loss function calculation unit 104 sets sound source labels in time-frequency bins included in a time interval in which only a single sound source exists among all time-frequency bins. In addition, the supervised loss function calculation unit 104 does not set a sound source label for a time-frequency bin included in a time interval in which a plurality of sound sources are mixed.
  • “no sound source” indicating a special label different from the sound source label may be assigned to a time-frequency bin having a sufficiently small amplitude in the mixed signal.
  • This special label can be automatically applied by simple signal processing. In the present disclosure, the special label is not included in the sound source label.
  • a time-frequency bin for which a sound source label cannot be set is included. Therefore, it is necessary to define a loss function for a feature vector extracted from a time-frequency bin for which no sound source label is set.
  • an unsupervised loss function calculation unit 105 is provided, and the unsupervised loss function is defined as in the following equation (13). That is, in the present embodiment, a loss function relating to a time-frequency bin with unknown sound source label in which the sound source label in FIG. 4 is not set is defined. By using the following equation (13), it is determined which sound source includes a time-frequency bin whose sound source label for which a sound source label is not set is unknown.
  • y t, f NULL represents a time-frequency bin for which no sound source label is set
  • ⁇ t, f, i is the attribution rate of the feature vector v t, f for the sound source class i
  • c is the sound source The number of classes.
  • ⁇ i is the average of the feature vectors v t, f over the time-frequency bin (t, f) belonging to the sound source class i.
  • the attribution ratio of the feature vector v t, f with respect to the sound source class i is an index value indicating which sound source it belongs to.
  • the number of sound source classes can be determined from the label data.
  • ⁇ i is calculated according to the following equation (14).
  • a discrete membership rate based on the nearest neighbor method such that f, i 0 can be defined.
  • the unsupervised loss function based on the equations (13) and (14) and the discrete attribution rate is a form of hard clustering that classifies feature vectors into unique clusters based on the Euclidean distance, as is apparent from the above description. It is.
  • the unsupervised loss function is in particular semi-supervised hard clustering in which the sound source class includes known and unknown feature vectors. In other words, it can be said that the unsupervised loss function calculation unit 105 calculates a loss function based on hard clustering.
  • the above-described unsupervised loss function is an example, and is not limited to this.
  • L2 norm Euclidean distance
  • L1 norm Manhattan distance
  • Lp norm Lp norm
  • cosine similarity is preferable because it is highly consistent with the supervised loss function of Equation (12).
  • the attribution rate ⁇ t, f, i may be continuous, and for example, ⁇ t, f, i and ⁇ i may be defined based on soft clustering assuming a Gaussian mixture distribution. In general, in clustering, any similarity measure and loss function can be defined, so the unsupervised loss function of the present embodiment may be defined in the same manner.
  • the sound source label to which the sound source label cannot be attached is sufficiently smaller than the time-frequency bin in which the sound source label to which the sound source label can be attached is known for the time-frequency bin where the sound source label is unknown
  • the right side of the above equation (14) The second term of the numerator and denominator can be ignored. That is, in the above equation (14), the term relating to the feature vector to which no sound source label is assigned can be ignored.
  • the sound source separation unit 14 separates the mixed signal into individual sound source signals using a neural network that is a feature extractor.
  • the sound source separation unit 14 includes a feature extraction unit 101, a feature extraction parameter storage unit 102, a clustering unit 106, and a separation unit 107.
  • the clustering unit 106 and the separation unit 107 function as a clustering unit and a separation unit, respectively.
  • the feature extraction unit 101 and the feature extraction parameter storage unit 102 are functional units shared with the feature extractor learning unit 13.
  • the feature extraction unit 101 acquires a mixed signal, converts the mixed signal into a spectrogram X, and generates a feature vector v t, f from the partial spectrogram x t, f. .
  • the clustering unit 106 corresponds to the clustering unit 3 in the outline of the embodiment.
  • the clustering unit 106 applies a feature vector v t by applying any one of, for example, a K-means method, a mean-shift method, a shortest / longest distance method, and a Ward method. , F are classified into a plurality of clusters.
  • the separation unit 107 corresponds to the separation unit 4 in the outline of the embodiment.
  • the separation unit 107 generates a sound source signal for each classified cluster using the time-frequency bins included in each of the plurality of clusters classified by the clustering unit 106. Specifically, for each cluster classified by the clustering unit 106, the separation unit 107 performs an inverse Fourier transform on the spectrogram reconstructed from only the time-frequency bin (t, f) included in each cluster. The sound source signal is generated.
  • FIGS. 5 to 7 are flowcharts showing an operation example of the sound source separation device according to the first embodiment.
  • the sound source separation device 10 performs a feature extractor learning process (step A1) and a sound source separation process (step A2).
  • the sound source separation device 10 learns the feature extraction parameters of the neural network that is the feature extractor using the actually observed mixed signal in the feature extractor learning process (step A1).
  • the sound source separation device 10 separates the mixed signal into individual sound source signals by using the feature extractor to which the feature extraction parameter determined in step A1 is applied in the sound source separation process (step A2).
  • FIG. 6 is a flowchart executed in step A1 of FIG. 5 and is executed by the feature extractor learning unit 13.
  • the operation described below is clearly different from the operation disclosed in Non-Patent Document 1.
  • the feature extraction unit 101 sequentially acquires the mixed signals stored in the learning mixed signal storage unit 11, performs short-time Fourier transform, and converts them into spectrograms (step B1).
  • the feature extraction unit 101 acquires a feature extraction parameter stored in the feature extraction parameter storage unit 102.
  • the feature extraction unit 101 extracts a feature vector v t, f from each time-frequency bin (t, f) in the converted spectrogram using a neural network which is a feature extractor to which the acquired parameter is applied ( Step B2).
  • the parameter update unit 103 performs an operation such as generating a random number, initializes the feature extraction parameter, and stores the feature extraction parameter storage unit 102 in advance. Output to.
  • the parameter update unit 103 acquires the feature vector extracted by the feature extraction unit 101 from the feature extraction unit 101, and calculates a loss function, which is a measure for measuring the quality of the feature vector, based on Expression (11). Specifically, the parameter updating unit 103 calculates the loss function shown in Expression (11) using the calculation result calculated in Step B3 and Step B4, which will be described later.
  • the supervised loss function calculation unit 104 calculates the supervised loss function shown in equation (12) (step B3). Specifically, the supervised loss function calculation unit 104 acquires the feature vector extracted by the feature extraction unit 101 via the parameter update unit 103. Further, the supervised loss function calculation unit 104 acquires label data representing the time interval of each sound source stored in the learning label data storage unit 12. Based on the acquired label data, the supervised loss function calculation unit 104 sets a sound source label in a time-frequency bin in a time interval in which only a single sound source exists among the time-frequency bins of each sound source. Then, the supervised loss function calculation unit 104 calculates the supervised loss function based on Expression (12) for the time-frequency bin in which the sound source label is set.
  • step B4 the unsupervised loss function calculation unit 105 calculates the unsupervised loss function shown in equation (13) (step B4). Specifically, the unsupervised loss function calculation unit 105 acquires the feature vector extracted by the feature extraction unit 101 via the parameter update unit 103. Also, the unsupervised loss function calculation unit 105 acquires the sound source label set by the supervised loss function calculation unit 104. The unsupervised loss function calculation unit 105 calculates an unsupervised loss function based on Equation (13) and Equation (14) for time-frequency bins for which no sound source label is set.
  • the parameter update unit 103 updates the feature extraction parameter based on the calculation result of the loss function shown in Expression (11) (step B5). Specifically, the parameter updating unit 103 uses the calculation result of the supervised loss function calculated in step B3 and the calculation result of the unsupervised loss function calculated in step B4 to calculate the loss represented by equation (11). Calculate the function. The parameter update unit 103 determines the feature extraction parameter so that the calculation result of the loss function shown in Expression (11) decreases. The parameter updating unit 103 stores the determined feature extraction parameter in the feature extraction parameter storage unit 102 and updates the feature extraction parameter.
  • the parameter update unit 103 determines whether or not a predetermined convergence condition is satisfied, for example, the decrease tendency of the loss function calculation result shown in Expression (11) is eliminated (step B6). Note that the parameter update unit 103 may determine in step B6 whether the processing from step B2 to step B5 has been performed a predetermined number of times.
  • step B6 determines in step B6 that a predetermined convergence condition is satisfied (YES in step B6), the process ends. On the other hand, when the parameter update unit 103 determines that the predetermined convergence condition is not satisfied (NO in step B6), the parameter update unit 103 returns to step B2 and performs the processes after step B2 again.
  • FIG. 7 is a flowchart executed in step A2 of FIG. 5, and is executed by the sound source separation unit 14.
  • the feature extraction unit 101 performs a short-time Fourier transform on the mixed signal to be determined, which is separated into individual sound source signals, and converts it into a spectrogram (step C1).
  • the mixed signal to be determined may be a mixed signal observed by the sound source separation device 10 with a microphone (not shown), or may be a previously recorded and stored mixed signal.
  • the feature extraction unit 101 acquires a feature extraction parameter stored in the feature extraction parameter storage unit 102.
  • the feature extraction unit 101 extracts feature vectors v t, f from each time-frequency bin (t, f) in the converted spectrogram using a neural network that is a feature extractor to which the acquired feature extraction parameters are applied. (Step C2).
  • the clustering unit 106 clusters the feature vectors v t, f extracted by the feature extraction unit 101 (step C3). Specifically, the clustering unit 106 performs clustering on the feature vectors v t, f extracted by the feature extraction unit 101, so that the same number of clusters as the number of sound sources assumed to be included in the mixed signal are included in the time-frequency bin. Classify into:
  • the clustering unit 106 performs clustering by applying one of the algorithms among, for example, the K-means (K-means), the mean-shift method (Mean-shift), the shortest / longest distance method, and the Ward method. May be.
  • the clustering unit 106 may determine the number of clusters for classifying the feature vectors v t and f according to the prior information when there is prior information such as “conversation between two speakers”, for example.
  • the clustering unit 106 may use a method for determining the number of clusters provided by any of the above algorithms when there is no prior information.
  • the separation unit 107 performs an inverse Fourier transform on the spectrogram reconstructed from the time-frequency bins included in each of the classified plurality of clusters, and is separated into a single sound source for each classified cluster.
  • the generated sound source signal is generated and output (step C4).
  • the sound source separation device 10 uses the actually observed mixed signal and the label data of the time interval of each sound source assigned thereto, and features of the feature extractor. Determine extraction parameters. Further, when determining the feature extraction parameter, the sound source separation apparatus 10 according to the present embodiment uses a loss function including two loss functions, a supervised loss function and an unsupervised loss function, to calculate the result of each loss function. To the feature extraction parameter that minimizes the sum of Therefore, by using the sound source separation device 10 according to the present embodiment, an optimal feature extractor is obtained for the actually observed mixed signal, not the artificially generated mixed signal, and the mixed signal is obtained. Can be accurately separated into individual sound source signals. That is, by using the sound source separation device 10 according to the present embodiment, it is possible to accurately separate individual sound source signals from the mixed signal.
  • FIG. 8 is a configuration diagram of a configuration example of the sound source separation device according to the second embodiment.
  • the sound source separation device 80 according to the present embodiment includes a sound source separation program 81, a data processing device 82, and a storage device 83.
  • the storage device 83 includes a feature extraction parameter storage area 831, a learning mixed signal storage area 832, and a learning label data storage area 833.
  • This embodiment is a configuration example when the feature extractor learning unit 13 and the sound source separation unit 14 in the first embodiment are realized by a computer operated by a program.
  • the sound source separation program 81 is read into the data processing device 82 and controls the operation of the data processing device 82.
  • the sound source separation program 81 describes the operations of the feature extractor learning unit 13 and the sound source separation unit 14 in the first embodiment using a program language.
  • the data processing device 82 executes the same processing as the processing of the feature extractor learning unit 13 and the sound source separation unit 14 in the first embodiment under the control of the sound source separation program 81. That is, the data processing device 82 includes the feature extraction parameter, learning mixed signal, learning stored in the feature extraction parameter storage region 831, the learning mixed signal storage region 832, and the learning label data storage region 833 in the storage device 83. Get label data. Then, the data processing device 82 performs processing of the feature extractor learning unit 13 and the sound source separation unit 14 in the first embodiment in the first embodiment.
  • the data processing device 82 includes the feature extraction unit 101, the parameter update unit 103, the supervised loss function calculation unit 104, the unsupervised loss function calculation unit 105, the clustering unit 106, and the separation unit in the first embodiment. Each process performed by the CPU 107 is performed.
  • the sound source separation device 80 according to the second embodiment also performs each process executed by each functional unit in the first embodiment, it is possible to obtain the same effect as in the first embodiment. Become. That is, by using the sound source separation device 80 according to the present embodiment, an optimum feature extractor is obtained for the actually observed mixed signal instead of the artificially generated mixed signal, and the mixed signal is obtained. Can be accurately separated into individual sound source signals. Therefore, by using the sound source separation device 80 according to the present embodiment, it is possible to accurately separate individual sound source signals from the mixed signal.
  • the sound source separation program 81 according to the second embodiment it is possible to obtain the same effect as that of the first embodiment. That is, according to the sound source separation program 81 according to the present embodiment, it is possible to accurately separate individual sound source signals from the mixed signal.
  • FIG. 9 is a block diagram illustrating a configuration example of the sound source separation devices 1, 10 and 80 (hereinafter referred to as the sound source separation device 1 and the like) described in the above-described embodiment.
  • the sound source separation device 1 and the like include a processor 1201 and a memory 1202.
  • the processor 1201 reads out and executes software (computer program) from the memory 1202, thereby performing processing of the sound source separation device 1 and the like described using the flowchart in the above-described embodiment.
  • the processor 1201 may be, for example, a microprocessor, an MPU (Micro Processing Unit), or a CPU (Central Processing Unit).
  • the processor 1201 may include a plurality of processors.
  • the memory 1202 is configured by a combination of a volatile memory and a nonvolatile memory.
  • Memory 1202 may include storage located remotely from processor 1201. In this case, the processor 1201 may access the memory 1202 via an I / O interface (not shown).
  • the memory 1202 is used for storing software module groups.
  • the processor 1201 can perform processing of the sound source separation device 1 and the like described in the above-described embodiment by reading these software module groups from the memory 1202 and executing them.
  • each of the processors included in the sound source separation device 1 or the like executes one or a plurality of programs including a group of instructions for causing a computer to execute the algorithm described with reference to the drawings.
  • Non-transitory computer readable media include various types of tangible storage media (tangible storage medium). Examples of non-transitory computer readable media include magnetic recording media (eg, flexible disks, magnetic tapes, hard disk drives), magneto-optical recording media (eg, magneto-optical disks). Furthermore, examples of non-transitory computer-readable media include CD-ROM (Read Only Memory), CD-R, and CD-R / W. Further examples of non-transitory computer readable media include semiconductor memory.
  • the semiconductor memory includes, for example, a mask ROM, a PROM (Programmable ROM), an EPROM (Erasable ROM), a flash ROM, and a RAM (Random Access Memory).
  • the program may also be supplied to the computer by various types of temporary computer-readable media. Examples of transitory computer readable media include electrical signals, optical signals, and electromagnetic waves.
  • the temporary computer-readable medium can supply the program to the computer via a wired communication path such as an electric wire and an optical fiber, or a wireless communication path.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

混合信号から個々の音源信号を精度良く分離することが可能な音源分離装置を提供する。音源分離装置(1)は、複数の音源信号が混合された混合信号を変換したスペクトログラムにおいて、時間周波数ビン毎に、特徴抽出の際に用いるパラメタが適用された特徴抽出器を用いて特徴ベクトルを抽出する特徴抽出手段(2)と、抽出された特徴ベクトルを複数のクラスタに分類するクラスタリング手段(3)と、分類された複数のクラスタの各々に含まれる時間周波数ビンを用いて、分類されたクラスタ毎に音源信号を生成する分離手段(4)と、観測された混合信号を含む学習用混合信号に基づいて、特徴抽出器のパラメタを更新するパラメタ更新手段(5)と、を備える。

Description

音源分離装置、音源分離方法およびプログラムが格納された非一時的なコンピュータ可読媒体
 本開示は、音源分離装置、音源分離方法およびプログラムが格納された非一時的なコンピュータ可読媒体に関する。
 複数の話者が同時に発した音声などの複数の音源信号を含む混合信号を個々の音源信号に分離する技術が検討されている。このような技術に関連し、特許文献1には、事前に学習された音源であって、第2音源の音響を含まない第1音源の音響の特徴を示す第1基底行列を記憶する音響処理装置が開示されている。音響処理装置は、第1基底行列を利用した非負値行列因子分解により、第1音源の音響と第2音源の音響との混合音を示す音響信号のスペクトルの時系列を示す観測行列から、第2基底行列と、第2係数行列とを生成する。そして、音響処理装置は、第1基底行列と第1係数行列とに応じた音響信号および第2基底行列と第2係数行列とを用いて、第1音源および第2音源の音響信号を生成する。
 また、上記技術に関連して、非特許文献1が開示されている。非特許文献1には、ある話者が発する音声を音源とし、複数の話者が同時に発した音声を個々の話者の音声に分離する音源分離方法が開示されている。音源分離方法は、単一チャネルの混合信号を受信し、受信した混合信号を時間-周波数表現(スペクトログラム)に変換し、深層ニューラルネットワークを用いて各々の時間-周波数ビンから特徴ベクトルを抽出する。そして、抽出した特徴ベクトルをクラスタリングすることにより時間-周波数ビンを目的の音源数(話者数)と同数のクラスタに分類し、クラスタごとに、そこに含まれる時間-周波数ビンから再構成されたスペクトログラムから話者ごとの音源信号を作成する。
 非特許文献1に開示された深層ニューラルネットワークは、事前のトレーニング(学習)によって用意される。学習に用いるデータは、様々な話者が話す音源信号を多数集めたものである。これらはすべて独立した音源信号であり、複数の話者が同時に話す混合信号ではない。非特許文献1では、まず、学習用データに短時間フーリエ変換を実施し、各音源信号をスペクトログラムに変換する。次に、2つの音源信号のスペクトログラムを重畳して混合信号のスペクトログラムを生成し、時間-周波数ビンごとに、いずれの話者に属するかを決定して話者ラベルを付与する。ここで、話者ラベルは、元になった個々の音源信号の振幅から決定する。すなわち、振幅の大きい方の話者に、その時間-周波数ビンが属するとする。続いて、その時点で得られている深層ニューラルネットワークを用いて各々の時間-周波数ビンから特徴ベクトルを抽出する。次に、話者ラベルとの整合性を測る尺度を算出する損失関数を計算し、その損失関数が減少するように、特徴抽出を行う深層ニューラルネットワークのパラメタを更新する。
特開2013-33196号公報
J. R. Hershey, Z. Chen, J. Le Roux, and S. Watanabe, "Deep clustering: Discriminative embeddings for segmentation and separation," in Proc. of the 41st IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP 2016), Mar. 2016.
 特許文献1に開示された技術は、事前に学習された基準となる第1の音源を用いて、複数の音源が混合された混合信号から個々の音源を分離する。また、非特許文献1に開示された技術は、異なる2つ以上の音源信号を重畳して人工的に生成された混合信号を用いて、個々の音源を分離する。すなわち、特許文献1および非特許文献1において用いられる学習データは、実際に観測される混合信号とは異なる。
 ここで、実際の環境では、通常、ノイズや残響が存在するため、実際に観測される混合信号は、個々の音源信号のスペクトログラムを単純に重ね合わせたものとは異なる。その理由は、音源信号を重畳する際の振幅比は、マイクと話者の位置関係などに依存するため、実際に観測される混合信号は、すべての観測で一定になるとは限らないからである。また、会話では話者間のインタラクションがあるので、実際に観測される混合信号は、時間的にも一定になるとは限らないからである。そのため、学習に用いるデータが、実際に観測された混合信号ではないと、学習に用いるデータと、実際に観測された混合信号との間にミスマッチが発生する。学習に用いるデータと、実際に観測される混合信号と、の間にミスマッチが発生すると、適切な学習を行うことが出来ない。したがって、適切な学習が行われてないと、混合信号から個々の音源信号を精度良く分離することが出来ない。すなわち、上述した特許文献1および非特許文献1に開示された技術は、実際に観測された混合信号を学習用データとして用いていないため、実際に観測された混合信号に対して精度良く音源分離ができない。
 本開示の目的は、このような課題を解決するためになされたものであり、混合信号から個々の音源信号を精度良く分離することが可能な、音源分離装置、音源分離方法およびプログラムが格納された非一時的なコンピュータ可読媒体を提供することにある。
 本開示にかかる音源分離装置は、複数の音源信号が混合された混合信号を変換したスペクトログラムにおいて、時間周波数ビン毎に、特徴抽出の際に用いるパラメタが適用された特徴抽出器を用いて特徴ベクトルを抽出する特徴抽出手段と、抽出された前記特徴ベクトルを複数のクラスタに分類するクラスタリング手段と、分類された前記複数のクラスタの各々に含まれる時間周波数ビンを用いて、分類されたクラスタ毎に音源信号を生成する分離手段と、観測された混合信号を含む学習用混合信号に基づいて、前記パラメタを更新するパラメタ更新手段と、を備える。
 また、本開示にかかる音源分離方法は、複数の音源信号が混合された混合信号を変換したスペクトログラムにおいて、時間周波数ビン毎に、特徴抽出の際に用いるパラメタが適用された特徴抽出器を用いて特徴ベクトルを抽出することと、抽出された前記特徴ベクトルを複数のクラスタに分類することと、分類された前記複数のクラスタの各々に含まれる時間周波数ビンを用いて、分類されたクラスタ毎に音源信号を生成することと、観測された混合信号を含む学習用混合信号に基づいて、前記パラメタを更新することと、を含む音源分離方法である。
 また、本開示にかかる非一時的なコンピュータ可読媒体は、複数の音源信号が混合された混合信号を変換したスペクトログラムにおいて、時間周波数ビン毎に、特徴抽出の際に用いるパラメタが適用された特徴抽出器を用いて特徴ベクトルを抽出することと、抽出された前記特徴ベクトルを複数のクラスタに分類することと、分類された前記複数のクラスタの各々に含まれる時間周波数ビンを用いて、分類されたクラスタ毎に音源信号を生成することと、観測された混合信号を含む学習用混合信号に基づいて、前記パラメタを更新することと、をコンピュータに実行させるプログラムが格納された非一時的なコンピュータ可読媒体である。
 本開示によれば、混合信号から個々の音源信号を精度良く分離することが可能な、音源分離装置、音源分離方法およびプログラムが格納された非一時的なコンピュータ可読媒体を提供できる。
本開示の実施の形態にかかる音源分離装置1の概要を示す図である。 実施の形態1にかかる音源分離装置の構成例を示す構成図である。 関連技術における音源ラベルを説明する図である。 実施の形態1における音源ラベルを説明する図である。 実施の形態1にかかる音源分離装置の動作例を示すフローチャートである。 実施の形態1にかかる音源分離装置の動作例を示すフローチャートである。 実施の形態1にかかる音源分離装置の動作例を示すフローチャートである。 実施の形態2にかかる音源分離装置の構成例を示す構成図である。 その他の実施の形態にかかる音源分離装置の構成例を示す図である。
(実施の形態の概要)
 本開示の実施形態の説明に先立って、実施の形態の概要について説明する。図1は、本開示の実施の形態にかかる音源分離装置1の概要を示す図である。
 音源分離装置1は、特徴抽出手段として機能する特徴抽出部2と、クラスタリング手段として機能するクラスタリング部3と、分離手段として機能する分離部4と、パラメタ更新手段として機能するパラメタ更新部5と、を備える。
 特徴抽出部2は、複数の音源信号が混合された混合信号を変換したスペクトログラムにおいて、時間周波数ビン毎に、特徴抽出の際に用いるパラメタが適用された特徴抽出器を用いて特徴ベクトルを抽出する。
 クラスタリング部3は、抽出された特徴ベクトルを複数のクラスタに分類する。
 分離部4は、分類された複数のクラスタの各々に含まれる時間周波数ビンを用いて、分類されたクラスタ毎に音源信号を生成する。
 パラメタ更新部5は、観測された混合信号を含む学習用混合信号に基づいて、前記パラメタを更新する。
 実施の形態にかかる音源分離装置1は、学習用混合信号として、複数の音源信号を人工的に重畳した混合信号ではなく、実際に観測される混合信号を用いる。そのため、音源分離装置1を用いることにより、個々の音源信号に分離する混合信号に対して最適な特徴ベクトルを取得することが出来るので、混合信号を正確に個々の音源信号に分離することが可能となる。したがって、実施の形態にかかる音源分離装置1を用いることにより、混合信号から個々の音源信号を精度良く分離することが可能となる。
 なお、音源分離装置1における音源分離方法を用いても、混合信号から個々の音源信号を精度良く分離することが可能となる。さらに、音源分離方法を実行可能なプログラムを用いても、混合信号から個々の音源信号を精度良く分離することが可能となる。
(実施の形態1)
 以下、図面を参照して、本開示の実施の形態について説明する。
 <音源分離装置の構成例>
 まず、図2を用いて、実施の形態1にかかる音源分離装置10の構成例を説明する。図2は、実施の形態1にかかる音源分離装置の構成例を示す構成図である。
 音源分離装置10は、例えば、サーバ装置、パーソナルコンピュータ装置等のコンピュータであってもよい。音源分離装置10は、学習用混合信号記憶部11と、学習用ラベルデータ記憶部12と、特徴抽出器学習部13と、音源分離部14と、を備える。学習用混合信号記憶部11、学習用ラベルデータ記憶部12、特徴抽出器学習部13および音源分離部14は、それぞれ、学習用混合信号記憶手段、学習用ラベルデータ記憶手段、特徴抽出器学習手段および音源分離手段として機能する。
 学習用混合信号記憶部11は、実際に観測された混合信号であって、予め取得された混合信号を学習用データとして記憶する。学習用混合信号は、複数の音源から発せれる信号であって、例えば、複数の話者が話す音声をモノラル(単一チャネル)録音したオーディオデータである。本実施の形態では、学習用混合信号は、非特許文献1として示した関連技術における学習用混合信号のように、複数の音源を人工的に重畳された混合信号ではなく、実際に観測された混合信号である。混合信号は、例えば、サンプリング周波数が8kHz、サンプルサイズが16bit、圧縮されていない線形PCM(Pulse Code Modulation)であってもよい。なお、混合信号の形式は、上記内容には限定されず、他の形式であってもよい。
 学習用ラベルデータ記憶部12は、学習用混合信号記憶部11に記憶された混合信号を予め分析して決定された、各音源信号の時間区間を表すラベルデータを記憶する。具体的には、ラベルデータは、各混合信号において、各音源がどの時間区間に含まれるかを示すデータであって、例えば、音源種別、時間区間の始端および終端が関連付けられて設定されるデータである。例えば、ある混合信号において、O分o秒からP分p秒まで話者Aの音源が含まれていると分析された場合、ラベルデータは、音源種別:話者A、始端:O分o秒、終端:P分p秒のように、音源種別、時間区間の始端および終端が関連付けられて設定される。なお、当然ながら、上記したラベルデータは、一例であるので、他の情報が設定されていてもよい。
 特徴抽出器学習部13は、特徴抽出器に適用された特徴抽出の際に用いるパラメタを示す特徴抽出パラメタを学習する。特徴抽出器は、ニューラルネットワークであってもよいし、他のアルゴリズムが用いられてもよい。以降の説明において、特徴抽出器はニューラルネットワークであるとして記載することがある。
 音源分離部14は、複数の音源が混合された混合信号を特徴抽出器であるニューラルネットワークを用いて個々の音源信号に分離する。
 続いて、特徴抽出器学習部13および音源分離部14の詳細について説明する。
 特徴抽出器学習部13は、特徴抽出部101と、特徴抽出パラメタ記憶部102と、パラメタ更新部103と、教師付き損失関数算出部104と、教師なし損失関数算出部105と、を備える。特徴抽出部101、特徴抽出パラメタ記憶部102およびパラメタ更新部103は、それぞれ、特徴抽出手段、特徴抽出パラメタ記憶手段、パラメタ更新手段として機能する。また、教師付き損失関数算出部104および教師なし損失関数算出部105は、それぞれ、教師付き損失関する算出手段および教師なし損失関数算出手段として機能する。特徴抽出部101および特徴抽出パラメタ記憶部102は、音源分離部14と共有する機能部である。
 特徴抽出部101は、実施の形態の概要における特徴抽出部2に対応する。特徴抽出部101は、学習用混合信号記憶部11に記憶された全ての混合信号を取得する。特徴抽出部101は、取得した各混合信号に短時間フーリエ変換(STFT:Short-Term Fourier Transform)を適用して時間-周波数表現(スペクトログラム)に変換する。また、特徴抽出部101は、個々の音源信号に分離を行う判定対象の混合信号に対しても同様に、短時間フーリエ変換を適用してスペクトログラムに変換する。
 また、特徴抽出部101は、特徴抽出パラメタ記憶部102に記憶された特徴抽出器(ニューラルネットワーク)に適用される特徴抽出パラメタを取得する。特徴抽出部101は、混合信号から変換されたスペクトログラムを所定数の時間-周波数ビンに分割し、各時間-周波数ビンに対応する部分スペクトログラムをニューラルネットワークに入力する。そして、特徴抽出部101は、ニューラルネットワークから出力される結果を特徴ベクトルとする。
 なお、本開示において、特徴抽出部101が分割した時間-周波数ビンを(t,f)として表し、時間-周波数ビン(t,f)に対応する部分スペクトログラムをx(t,f)として表し、特徴ベクトルをvt,fとして表すとする。また、本開示において、時間-周波数ビンを時間周波数ビンとして記載することがある。
 例えば、混合信号の形式が、サンプリング周波数が8kHzであり、サンプルサイズが16bitであり、圧縮されていない線形PCMであるとする。そうすると、短時間フーリエ変換により得られるスペクトログラムは、混合信号を、例えば、1フレームにつき窓幅が32msec(256点)でのフーリエ変換を8msec(64点)毎にずらしながら変換することにより取得される。この場合、周波数方向の解像度は31.25Hz(8kHzで256点)となり、時間-周波数ビンの個数は時間方向に毎秒125、周波数方向に256となる。時間-周波数ビン(t,f)に対して、特徴ベクトルvt,fを得る際、(t,f)を含む前後のコンテキストを考慮するのが有効である。例えば、tを含む100フレーム分のビンをまとめた100次元ベクトルを入力xt,fとしてニューラルネットワークに与える。ニューラルネットワークの出力vt,fは、通常は入力よりも低次元とし、例えば、入力が100次元である場合、出力は50次元程度に設定してもよい。
 特徴抽出パラメタ記憶部102は、特徴抽出部101が特徴ベクトルを抽出する際に用いる特徴抽出パラメタを記憶する。具体的には、特徴抽出パラメタ記憶部102は、後述するパラメタ更新部103が決定した特徴抽出パラメタを記憶する。特徴抽出パラメタ記憶部102は、特徴抽出パラメタが未定の初期段階においては、パラメタ更新部103が乱数を発生(生成)する等の処理を行い初期化された特徴抽出パラメタを記憶する。
 パラメタ更新部103は、実施の形態の概要におけるパラメタ更新部5に対応する。パラメタ更新部103は、ニューラルネットワークに適用される特徴抽出パラメタを学習用データである学習混合信号に基づいて更新する。
 パラメタ更新部103は、特徴抽出部101が抽出した特徴ベクトルおよび特徴抽出パラメタ記憶部102に記憶された特徴抽出パラメタを取得する。パラメタ更新部103は、取得した情報を、後述する教師付き損失関数算出部104および教師なし損失関数算出部105に出力する。パラメタ更新部103は、教師付き損失関数算出部104および教師なし損失関数算出部105によって定まる評価基準を用いて、特徴抽出部101が抽出した特徴ベクトルを評価する。パラメタ更新部103は、特徴ベクトルの評価結果に基づいて、より良い特徴ベクトルが生成されるように特徴抽出パラメタを決定し、決定した特徴抽出パラメタに更新する。
 パラメタ更新部103は、特徴抽出パラメタを決定(更新)する際、例えば、誤差逆伝搬法(Error backpropagation)等の、ニューラルネットワークの学習において用いられる反復解法を適用して特徴抽出パラメタを決定する。パラメタ更新部103は、決定した特徴抽出パラメタを特徴抽出パラメタ記憶部102に記憶し、決定した特徴抽出パラメタがニューラルネットワークに適用されるように更新する。すなわち、パラメタ更新部103は、特徴抽出パラメタを決定する際に用いる評価基準を、数学的に規定される評価関数を示す損失関数として定義する。そして、パラメタ更新部103は、その損失関数が最小化されるように、例えば、確率的勾配降下法(SGD:Stochastic Gradient Descent)等の数値的手法を用いて、特徴抽出パラメタを反復的に決定し、特徴抽出パラメタを更新する。
 パラメタ更新部103は、ニューラルネットワークの特徴抽出パラメタに関する評価関数を示す損失関数を以下の式(11)のように定義する。具体的には、パラメタ更新部103は、特徴抽出パラメタに関する評価関数を、第1の評価関数を示す教師付き(Supervised)損失関数と、第2の評価関数を示す教師なし(Unsupervised)損失関数と、を用いて定義する。
Figure JPOXMLDOC01-appb-M000004
ここで、θは特徴抽出パラメタであり、Lθ (S)は教師付き損失関数であり、Lθ (U)は教師なし損失関数であり、λは重み係数である。また、Xは学習用データから得られる全てのスペクトログラムの集合であり、VはXから得られる全ての特徴ベクトルの集合である。さらに、Y=(yt,f)は特徴ベクトルvt,fに対応する時間-周波数ビン(t,f)がどの音源に対応するかを表現した音源ラベルである。例えば、音源が話者である場合、yt,fは話者を一意に特定する話者ラベルとなる。
 例えば、ある混合信号に2人の話者が含まれており、時間-周波数ビン(t,f)に、第1の話者の音声が、第2の話者よりも強く含まれていたとすると、yt,fは2次元ベクトル(1,0)となる。一方、時間-周波数ビン(t,f)に、第2の話者の音声が第1の話者よりも強く含まれていたとすると、yt,fは2次元ベクトル(0,1)となる。このように、N人の話者(つまり、N個の音源)が含まれる場合、これらのベクトルはN次元となり、N次元のベクトルのうち、ただ1つの要素が1となり、その他の(N-1)の要素は0となる。
 教師付き損失関数算出部104は、式(11)における教師付き損失関数を計算する。上述したように、教師付き損失関数は、第1の評価関数と言えるので、教師付き損失関数算出部104は、第1の算出手段とも言える。また、教師付き損失関数算出部104は、第1の評価関数を示す教師付き損失関数を用いて、第1の評価値を算出するとも言える。
 教師付き損失関数算出部104は、学習用ラベルデータ記憶部12に記憶されたラベルデータを取得し、音源ラベルyt,fを生成する。教師付き損失関数算出部104は、単一の音源のみが存在する時間区間に含まれる時間-周波数ビンに対して音源ラベルを設定する。一方、教師付き損失関数算出部104は、複数の音源が混在する時間区間に含まれる時間-周波数ビンに対して音源ラベルを設定しない。
 また、教師付き損失関数算出部104は、パラメタ更新部103から特徴ベクトルvt,fを取得し、式(11)における右辺第1項である教師付き損失関数Lθ (S)を計算してパラメタ更新部103に計算結果を出力する。なお、教師付き損失関数Lθ (S)の詳細および音源ラベルについては後述する。
 教師なし損失関数算出部105は、式(11)における教師なし損失関数を計算する。上述したように、教師なし損失関数は、第2の評価関数と言えるので、教師なし損失関数算出部105は、第2の算出手段とも言える。また、教師なし損失関数算出部105は、第2の評価関数を示す教師なし損失関数を用いて、第2の評価値を算出するとも言える。
 教師なし損失関数算出部105は、パラメタ更新部103から特徴ベクトルvt,fを取得すると共に、教師付き損失関数算出部104から音源ラベルyt,fを取得する。教師なし損失関数算出部105は、式(11)における右辺第2項である教師なし損失関数Lθ (U)を計算してパラメタ更新部103に計算結果を出力する。
 特徴抽出部101、パラメタ更新部103、教師付き損失関数算出部104および教師なし損失関数算出部105は、相互に作用しつつ反復的に動作し、特徴抽出パラメタ記憶部102に記憶された特徴抽出パラメタを逐次的に更新する。特徴抽出部101、パラメタ更新部103、教師付き損失関数算出部104および教師なし損失関数算出部105は、特徴抽出パラメタが収束するように、特徴抽出パラメタを十分な回数分更新する。そして、特徴抽出パラメタが収束すると、最終的な特徴抽出パラメタが、特徴抽出パラメタ記憶部102に記憶される。
 ここで、上記式(11)に含まれる、教師付き損失関数および教師なし損失関数の詳細を説明する。
 教師付き損失関数Lθ (S)は、以下の式(12)のように定義される。教師付き損失関数Lθ (S)は、音源ラベルが設定された時間-周波数ビンから抽出された特徴ベクトルV=(vt,f)に関する損失を表す関数である。
Figure JPOXMLDOC01-appb-M000005
ここで、VVは特徴ベクトルvt,fの全てのペアに関する余弦類似度(正規化された内積)を要素に持つ行列であり、YYは音源ラベルyt,fの全てのペアに関する内積をもつ行列となる。VVおよびYYは、時間-周波数ビン(t,f)と(t’,f’)が同じ音源クラスに属している場合、1となり、同じ音源クラスに属していない場合、0となる。また、||・||は、フロベニウスノルムであり、行列の全ての要素の自乗和の平方根を表す。すなわち、同じ音源クラスに属する特徴ベクトルのペアの余弦類似度が1に近く、同じ音源クラスに属さない特徴ベクトルのペアの余弦類似度が0に近くなるほど、式(12)の損失関数は小さくなる。この場合、教師付き損失関数Lθ (S)は、特徴抽出パラメタθは、音源クラスをよく表す特徴ベクトルVを抽出出来ていると言える。
 音源クラスとは、混合信号に含まれる個々の音源を示す情報である。例えば、混合信号に話者Aおよび話者Bの音源が含まれる場合、話者Aの音源が第1の音源クラスとなり、話者Bの音源が第2の音源クラスとなる。
 ここで、図3および図4を用いて、教師付き損失関数算出部104が設定する音源ラベルについて、非特許文献1のような関連技術における音源ラベルとの違いを説明する。図3は、関連技術における音源ラベルを説明する図である。図4は、実施の形態1における音源ラベルを説明する図である。
 非特許文献1のような関連技術においては、全ての時間-周波数ビンyt,fは既知であるとして仮定される。上述したように、非特許文献1においては、複数の音源信号を重畳して人工的に混合信号を生成しているので、損失関数は上記式(12)のみで定義される。非特許文献1のような関連技術においては、個々の音源信号の時間-周波数ビン(t,f)の振幅は既知であるので、振幅が最大となる音源信号を求めることにより、全ての時間-周波数ビン(t,f)に対して音源ラベルを設定することが出来る。
 図3は、非特許文献1において、時間-周波数ビンに設定された音源ラベルの一例を示している。図3は、2人の話者を音源とした音源信号が混合された混合信号をスペクトログラムに変換し、各時間-周波数ビンに対して音源ラベルが設定されていることを示している。図3に示すように、非特許文献1においては、複数の音源信号を重畳して人工的に混合信号を生成しているので、各時間-周波数ビン(t,f)に対して、話者Aまたは話者Bの音源ラベルが設定されている。
 一方、本実施の形態においては、全ての時間-周波数ビンのうち、一部の時間-周波数ビンの音源ラベルyt,fは未知であると仮定した上で、所定条件を満たす時間-周波数ビンに対して音源ラベルが設定される。本実施の形態では、上述した関連技術とは異なり、実際に観測された混合信号を変換したスペクトログラムに対して音声ラベルが付与される。図4は、図3と同様に2人の話者を音源とした混合信号に対して、音源ラベルを設定した一例である。図4に示すように、混合信号のうち、話者Aまたは話者Bの音源のみが含まれる時間区間に含まれる時間-周波数ビンに対して音源ラベルが設定される。換言すると、混合信号のうち、単一の音源のみが含まれる時間区間における時間-周波数ビンに対して音源ラベルが設定される。
 なお、音源ラベルは、上述したように、学習用ラベルデータ記憶部12に記憶されたラベルデータに基づいて、教師付き損失関数算出部104により設定される。例えば、混合信号に話者Aおよび話者Bの音源が含まれているとすると、ラベルデータには、話者Aの音源が含まれる時間区間の始端および終端が設定されている。同様に、話者Bの音源が含まれる時間区間の始端および終端が設定されている。教師付き損失関数算出部104は、ラベルデータを参照することにより、どの時間区間にどの話者の音源が含まれているかを判断することが出来るので、ラベルデータに基づいて、音源ラベルを設定することが出来る。
 図4は、時間領域において、前から8番目までの時間-周波数ビンに対しては話者Aの音源ラベルが設定されていることを示している。同様に、時間領域において、前から11番目~16番目の時間-周波数ビンに対しては話者Bの音源ラベルが設定されていることを示している。一方、複数の音源が混在する時間-周波数ビンに対しては、複数の音源が含まれており、いずれの音源であるかが分からないため、音源ラベルが未知であるとして、音源ラベルを設定しない。図4に示すように、時間領域において、前から9番目および10番目の時間-周波数ビンに対しては、話者Aおよび話者Bの音源が混在していることから音源ラベルを未知として音源ラベルを設定しない。その理由は、実際に観測された混合信号に対して、各音源信号の時間区間の始終端は比較的容易に設定することができるのに対して、各音源信号の全ての時間-周波数ビンに対して音源ラベルを付与することは、ほぼ不可能であるからである。したがって、本実施の形態において、教師付き損失関数算出部104は、全ての時間-周波数ビンのうち、単一の音源のみが存在する時間区間に含まれる時間-周波数ビンに音源ラベルを設定する。また、教師付き損失関数算出部104は、複数の音源が混在する時間区間に含まれる時間-周波数ビンには音源ラベルを設定しない。
 なお、混合信号において振幅が十分小さい時間-周波数ビンについては、音源ラベルとは異なる特殊なラベルを示す「音源なし」を付与してもよい。この特殊なラベルは、簡単な信号処理によって自動的に付与することができる。なお、本開示においては、特殊なラベルは音源ラベルには含まれないこととする。
 上述したように、本実施の形態においては、音源ラベルを設定することが出来ない時間-周波数ビンが含まれることとなる。そのため、音源ラベルが設定されていない時間-周波数ビンから抽出された特徴ベクトルに対する損失関数を定義する必要がある。
 そこで、本実施の形態においては、教師なし損失関数算出部105を備え、教師なし損失関数を以下の式(13)のように定義する。すなわち、本実施の形態では、図4における音源ラベルが設定されない音源ラベル未知の時間-周波数ビンに関する損失関数を定義する。以下に示す式(13)を用いることにより、音源ラベルが設定されない音源ラベルが未知の時間-周波数ビンが、どの音源に含まれるかを決定する。
Figure JPOXMLDOC01-appb-M000006
ここで、yt,f=NULLは音源ラベルが設定されていない時間-周波数ビンを表し、γt,f,iは音源クラスiに対する特徴ベクトルvt,fの帰属率であり、cは音源クラス数である。また、μは音源クラスiに属する時間-周波数ビン(t,f)にわたる特徴ベクトルvt,fの平均である。音源クラスiに対する特徴ベクトルvt,fの帰属率は、どの音源に帰属するかを示す指標値である。また、音源クラス数は、ラベルデータより決定することが出来る。
 μは、以下の式(14)に従って計算される。
Figure JPOXMLDOC01-appb-M000007
 ここで、帰属率γt,f,iは、例えば、i=argmin|vt,f―μ|が成り立つ場合、γt,f,i=1となり、そうではない場合、γt,f,i=0となるような、最近傍法に基づく離散的な帰属率を定義することができる。
 式(13)および式(14)、および離散的な帰属率による教師なし損失関数は、上述した内容から明らかなように、ユークリッド距離に基づき特徴ベクトルを一意なクラスタに分類するハードクラスタリングの一形態である。教師なし損失関数は、特に、音源クラスが既知および未知の特徴ベクトルを含んだ準教師付きハードクラスタリングである。換言すると、教師なし損失関数算出部105は、ハードクラスタリングに基づく損失関数を計算すると言える。
 なお、上述した教師なし損失関数は、一例であるので、これには限定されない。例えば、特徴ベクトルの近さをユークリッド距離(L2ノルム)で測るのではなく、マンハッタン距離(L1ノルム)、またはLpノルムや余弦類似度などの類似度尺度で測ることも可能である。特に、余弦類似度は、式(12)の教師付き損失関数との整合性が高く好適である。
 また、帰属率γt,f,iは連続的でもよく、例えば、ガウス混合分布を仮定したソフトクラスタリングに基づいてγt,f,iおよびμを定義してもよい。一般にクラスタリングでは、あらゆる類似度尺度と損失関数とを定義できるので、本実施の形態の教師なし損失関数も同様に定義してもよい。さらに、音源ラベルが付与できない音源ラベルが未知の時間-周波数ビンに対して、音源ラベルが付与できる音源ラベルが既知である時間-周波数ビンに比べて十分に少ない場合、上記式(14)の右辺の分子および分母の第2項は無視することが出来る。すなわち、上記式(14)において、音源ラベルが付与されていない特徴ベクトルに関する項は無視することが可能である。
 図2に戻り、音源分離部14について説明する。音源分離部14は、特徴抽出器であるニューラルネットワークを用いて混合信号を個々の音源信号に分離する。音源分離部14は、特徴抽出部101と、特徴抽出パラメタ記憶部102と、クラスタリング部106と、分離部107と、を備える。クラスタリング部106および分離部107は、それぞれクラスタリング手段および分離手段として機能する。また、特徴抽出部101および特徴抽出パラメタ記憶部102は、特徴抽出器学習部13と共有する機能部である。
 特徴抽出部101は、特徴抽出器学習部13における構成と同様に、混合信号を取得して、混合信号をスペクトログラムXに変換し、部分スペクトログラムxt,fから特徴ベクトルvt,fを生成する。
 クラスタリング部106は、実施の形態の概要におけるクラスタリング部3に対応する。クラスタリング部106は、例えば、K平均法(K-means)、平均シフト法(Mean-shift)、最短/最長距離法、ウォード法等のうち、いずれかのアルゴリズムを適用して、特徴ベクトルvt,fを複数のクラスタに分類する。
 分離部107は、実施の形態の概要における分離部4に対応する。分離部107は、クラスタリング部106により分類された複数のクラスタの各々に含まれる時間周波数ビンを用いて、分類されたクラスタ毎に音源信号を生成する。具体的には、分離部107は、クラスタリング部106が分類したクラスタ毎に、各クラスタに含まれる時間-周波数ビン(t,f)のみから再構成されたスペクトログラムに逆フーリエ変換を実施し、個々の音源信号を生成する。
 <音源分離装置の動作例>
 続いて、図5~図7を用いて、音源分離装置10の動作例を説明する。図5~図7は、実施の形態1にかかる音源分離装置の動作例を示すフローチャートである。
 まず、図5を用いて、音源分離装置10の全体動作について説明する。図5に示すように、音源分離装置10は、特徴抽出器学習処理(ステップA1)および音源分離処理(ステップA2)を実行する。
 具体的には、音源分離装置10は、特徴抽出器学習処理において、実際に観測された混合信号を用いて、特徴抽出器であるニューラルネットワークの特徴抽出パラメタを学習する(ステップA1)。
 次に、音源分離装置10は、音源分離処理において、ステップA1において決定された特徴抽出パラメタが適用された特徴抽出器を用いて、混合信号を個々の音源信号に分離する(ステップA2)。
 続いて、図6を用いて、特徴抽出器学習処理について説明する。図6に示すフローチャートは、図5のステップA1において実行されるフローチャートであり、特徴抽出器学習部13が実行する。なお、以下に示す動作は、非特許文献1に開示された動作と明確に異なる。
 まず、特徴抽出部101は、学習用混合信号記憶部11に記憶された混合信号を順次取得して、短時間フーリエ変換を実行し、スペクトログラムに変換する(ステップB1)。
 次に、特徴抽出部101は、特徴抽出パラメタ記憶部102に記憶された特徴抽出パラメタを取得する。特徴抽出部101は、取得したパラメタが適用された特徴抽出器であるニューラルネットワークを用いて、変換されたスペクトログラムにおける各時間-周波数ビン(t,f)から特徴ベクトルvt,fを抽出する(ステップB2)。
 なお、特徴抽出パラメタが未定の初期の段階では、図示しない初期化ステップにおいて、パラメタ更新部103が乱数を発生させる等の動作を行い、特徴抽出パラメタを初期化して、予め特徴抽出パラメタ記憶部102に出力しておく。
 次に、パラメタ更新部103は、特徴抽出部101が抽出した特徴ベクトルを特徴抽出部101から取得し、特徴ベクトルの良し悪しを測る尺度である損失関数を式(11)に基づいて計算する。具体的には、パラメタ更新部103は、損失関数を後述するステップB3およびステップB4において計算された算出結果を用いて、式(11)に示した損失関数を計算する。
 ステップB3において、教師付き損失関数算出部104は、式(12)に示した教師付き損失関数を計算する(ステップB3)。具体的には、教師付き損失関数算出部104は、特徴抽出部101が抽出した特徴ベクトルを、パラメタ更新部103を介して取得する。また、教師付き損失関数算出部104は、学習用ラベルデータ記憶部12に記憶された、各音源の時間区間を表すラベルデータを取得する。教師付き損失関数算出部104は、取得したラベルデータに基づいて、各音源の時間-周波数ビンのうち、単一の音源のみが存在する時間区間における時間-周波数ビンに音源ラベルを設定する。そして、教師付き損失関数算出部104は、音源ラベルが設定された時間-周波数ビンに関して、式(12)に基づいて教師付き損失関数を計算する。
 ステップB4において、教師なし損失関数算出部105は、式(13)に示した教師なし損失関数を計算する(ステップB4)。具体的には、教師なし損失関数算出部105は、特徴抽出部101が抽出した特徴ベクトルを、パラメタ更新部103を介して取得する。また、教師なし損失関数算出部105は、教師付き損失関数算出部104が設定した音源ラベルを取得する。教師なし損失関数算出部105は、音源ラベルが設定されていない時間-周波数ビンに関して、式(13)および式(14)に基づいて教師なし損失関数を計算する。
 パラメタ更新部103は、式(11)に示した損失関数の算出結果に基づいて、特徴抽出パラメタを更新する(ステップB5)。具体的には、パラメタ更新部103は、ステップB3において算出された教師付き損失関数の算出結果、およびステップB4において算出された教師なし損失関数の算出結果を用いて、式(11)で示す損失関数を計算する。パラメタ更新部103は、式(11)で示した損失関数の算出結果が減少するように、特徴抽出パラメタを決定する。そして、パラメタ更新部103は、決定した特徴抽出パラメタを特徴抽出パラメタ記憶部102に記憶し、特徴抽出パラメタを更新する。
 次に、パラメタ更新部103は、例えば、式(11)で示した損失関数の算出結果の減少傾向がなくなるなど、予め定められた収束条件を満たしているかを判定する(ステップB6)。なお、パラメタ更新部103は、ステップB6において、ステップB2からステップB5の処理が、所定回数分実施されたかを判定してもよい。
 ステップB6において、パラメタ更新部103は、予め定められた収束条件を満たしていると判定すると(ステップB6のYES)、処理を終了する。
 一方、パラメタ更新部103は、予め定められた収束条件を満たしていないと判定すると(ステップB6のNO)、ステップB2に戻り、ステップB2以降の処理を再度行う。
 続いて、図7を用いて、音源分離処理について説明する。図7に示すフローチャートは、図5のステップA2において実行されるフローチャートであり、音源分離部14が実行する。
 まず、特徴抽出部101は、個々の音源信号に分離する判定対象の混合信号に、短時間フーリエ変換を実施してスペクトログラムに変換する(ステップC1)。判定対象の混合信号は、音源分離装置10が図示しないマイクにより観測した混合信号であってもよいし、予め録音等され、記憶された混合信号であってもよい。
 次に、特徴抽出部101は、特徴抽出パラメタ記憶部102に記憶された特徴抽出パラメタを取得する。特徴抽出部101は、取得した特徴抽出パラメタが適用された特徴抽出器であるニューラルネットワークを用いて、変換されたスペクトログラムにおける各時間-周波数ビン(t,f)から特徴ベクトルvt,fを抽出する(ステップC2)。
 次に、クラスタリング部106は、特徴抽出部101が抽出した特徴ベクトルvt,fをクラスタリングする(ステップC3)。具体的には、クラスタリング部106は、特徴抽出部101が抽出した特徴ベクトルvt,fをクラスタリングすることにより、時間-周波数ビンを、混合信号に含まれると想定される音源数と同数のクラスタに分類する。
 なお、クラスタリング部106は、例えば、K平均法(K-means)、平均シフト法(Mean-shift)、最短/最長距離法、ウォード法等のうち、いずれかのアルゴリズムを適用してクラスタリングを行ってもよい。また、クラスタリング部106は、特徴ベクトルvt,fを分類するクラスタ数を、例えば、「2人の話者の会話である」などの事前情報がある場合、当該事前情報に従って定めてもよい。もしくは、クラスタリング部106は、上記事前情報がない場合、上記のうちのいずれかのアルゴリズムが提供するクラスタ数の決定法を利用してもよい。
 次に、分離部107は、分類された複数のクラスタの各々に含まれる時間-周波数ビンから再構成されたスペクトログラムに逆フーリエ変換を実施し、分類されたクラスタ毎に単一の音源に分離された音源信号を生成し出力する(ステップC4)。
 以上説明したように、本実施の形態にかかる音源分離装置10は、実際に観測された混合信号と、それに付与された各音源の時間区間のラベルデータと、を用いて、特徴抽出器の特徴抽出パラメタを決定する。また、本実施の形態にかかる音源分離装置10は、特徴抽出パラメタを決定する際、教師付き損失関数および教師なし損失関数の2つの損失関数を含む損失関数を用いて、各損失関数の算出結果の和が最小化される特徴抽出パラメタに更新する。したがって、本実施の形態にかかる音源分離装置10を用いることにより、人工的に作られた混合信号ではなく、実際に観測される混合信号に対して最適な特徴抽出器を獲得して、混合信号を正確に個々の音源信号に分離できる。すなわち、本実施の形態にかかる音源分離装置10を用いることにより、混合信号から個々の音源信号を精度良く分離することが可能となる。
(実施の形態2)
 続いて、実施の形態2について説明する。
 <音源分離装置の構成例>
 図8を用いて、実施の形態2にかかる音源分離装置80について説明する。図8は、実施の形態2にかかる音源分離装置の構成例を示す構成図である。図8に示す様に、本実施の形態にかかる音源分離装置80は、音源分離用プログラム81と、データ処理装置82と、記憶装置83とを備える。また、記憶装置83には、特徴抽出パラメタ記憶領域831と、学習用混合信号記憶領域832と、学習用ラベルデータ記憶領域833と、を備える。なお、本実施の形態は、実施の形態1における特徴抽出器学習部13および音源分離部14をプログラムにより動作されるコンピュータにより実現した場合の構成例である。
 音源分離用プログラム81は、データ処理装置82に読み込まれ、データ処理装置82の動作を制御する。なお、音源分離用プログラム81には、実施の形態1における特徴抽出器学習部13および音源分離部14の動作がプログラム言語を用いて記述されている。
 具体的には、データ処理装置82は、音源分離用プログラム81の制御により、実施の形態1における特徴抽出器学習部13および音源分離部14の処理と同一の処理を実行する。すなわち、データ処理装置82は、記憶装置83内の特徴抽出パラメタ記憶領域831、学習用混合信号記憶領域832および学習用ラベルデータ記憶領域833にそれぞれ記憶された特徴抽出パラメタ、学習用混合信号、学習用ラベルデータを取得する。そして、データ処理装置82は、実施の形態1における実施の形態1における特徴抽出器学習部13および音源分離部14の処理を行う。
 より具体的には、データ処理装置82は、実施の形態1における、特徴抽出部101、パラメタ更新部103、教師付き損失関数算出部104、教師なし損失関数算出部105、クラスタリング部106および分離部107が実施する各処理を行う。
 以上説明したように、実施の形態2にかかる音源分離装置80についても、実施の形態1における各機能部が実行する各処理を行うので、実施の形態1と同様の効果を得ることが可能となる。すなわち、本実施の形態にかかる音源分離装置80を用いることにより、人工的に作られた混合信号ではなく、実際に観測される混合信号に対して最適な特徴抽出器を獲得して、混合信号を正確に個々の音源信号に分離できる。したがって、本実施の形態にかかる音源分離装置80を用いることにより、混合信号から個々の音源信号を精度良く分離することが可能となる。
 また、実施の形態2にかかる音源分離用プログラム81を用いることにより、実施の形態1と同様の効果を得ることが可能となる。すなわち、本実施の形態にかかる音源分離用プログラム81によれば、混合信号から個々の音源信号を精度良く分離することが可能となる。
(その他の実施の形態)
 上述した実施の形態にかかる音源分離装置は、次のようなハードウェア構成を有していてもよい。図9は、上述した実施の形態において説明した音源分離装置1、10および80(以下、音源分離装置1等と称する)の構成例を示すブロック図である。図9を参照すると、音源分離装置1等は、プロセッサ1201およびメモリ1202を含む。
 プロセッサ1201は、メモリ1202からソフトウェア(コンピュータプログラム)を読み出して実行することで、上述の実施形態においてフローチャートを用いて説明された音源分離装置1等の処理を行う。プロセッサ1201は、例えば、マイクロプロセッサ、MPU(Micro Processing Unit)またはCPU(Central Processing Unit)であってもよい。プロセッサ1201は、複数のプロセッサを含んでもよい。
 メモリ1202は、揮発性メモリ及び不揮発性メモリの組み合わせによって構成される。メモリ1202は、プロセッサ1201から離れて配置されたストレージを含んでもよい。この場合、プロセッサ1201は、図示されていないI/Oインタフェースを介してメモリ1202にアクセスしてもよい。
 図9の例では、メモリ1202は、ソフトウェアモジュール群を格納するために使用される。プロセッサ1201は、これらのソフトウェアモジュール群をメモリ1202から読み出して実行することで、上述の実施形態において説明された音源分離装置1等の処理を行うことができる。
 図9を用いて説明したように、音源分離装置1等が有するプロセッサの各々は、図面を用いて説明されたアルゴリズムをコンピュータに行わせるための命令群を含む1または複数のプログラムを実行する。
 上述の例において、プログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば光磁気ディスク)を含む。さらに、非一時的なコンピュータ可読媒体の例は、CD-ROM(Read Only Memory)、CD-R、CD-R/Wを含む。さらに、非一時的なコンピュータ可読媒体の例は、半導体メモリを含む。半導体メモリは、例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(Random Access Memory)を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。
 なお、本開示は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。また、本開示は、それぞれの実施の形態を適宜組み合わせて実施されてもよい。
 1、10、80 音源分離装置
 2、101 特徴抽出部
 3、106 クラスタリング部
 4、107 分離部
 5、103 パラメタ更新部
 11 学習用混合信号記憶部
 12 学習用ラベルデータ記憶部
 13 特徴抽出器学習部
 14 音源分離部
 102 特徴抽出パラメタ記憶部
 104 教師付き損失関数算出部
 105 教師なし損失関数算出部
 81 音源分離用プログラム
 82 データ処理装置
 83 記憶装置

Claims (10)

  1.  複数の音源信号が混合された混合信号を変換したスペクトログラムにおいて、時間周波数ビン毎に、特徴抽出の際に用いるパラメタが適用された特徴抽出器を用いて特徴ベクトルを抽出する特徴抽出手段と、
     抽出された前記特徴ベクトルを複数のクラスタに分類するクラスタリング手段と、
     分類された前記複数のクラスタの各々に含まれる時間周波数ビンを用いて、分類されたクラスタ毎に音源信号を生成する分離手段と、
     観測された混合信号を含む学習用混合信号に基づいて、前記パラメタを更新するパラメタ更新手段と、を備える音源分離装置。
  2.  前記学習用混合信号を変換したスペクトログラムにおいて、所定条件を満たす時間周波数ビンに音源ラベルを設定すると共に、前記音源ラベルが設定された時間周波数ビンから抽出された特徴ベクトルに対する第1の評価値を、第1の評価関数を用いて算出する第1の算出手段と、
     前記音源ラベルが設定されていない時間周波数ビンから抽出された特徴ベクトルに対する第2の評価値を、第2の評価関数を用いて算出する第2の算出手段と、をさらに備え、
     前記パラメタ更新手段は、前記第1の評価値および前記第2の評価値に基づいて、前記パラメタを更新する、請求項1に記載の音源分離装置。
  3.  前記パラメタ更新手段は、前記第1の評価値および前記第2の評価値の合計値を減少させるように前記パラメタを更新する、請求項2に記載の音源分離装置。
  4.  前記第1の算出手段は、前記学習用混合信号において各音源信号が含まれる時間区間を示すラベルデータに基づいて、単一の音源が存在する時間区間における時間周波数ビンに前記音源ラベルを設定し、複数の音源が存在する時間区間における時間周波数ビンに前記音源ラベルを設定しない、請求項2または3に記載の音源分離装置。
  5.  前記第2の評価関数は、ハードクラスタリングおよびソフトクラスタリングの少なくとも一方に基づく損失関数である、請求項2~4のいずれか1項に記載の音源分離装置。
  6.  前記第1の評価関数は、教師付き損失関数であり、前記第2の評価関数は、教師なし損失関数である、請求項2~5のいずれか1項に記載の音源分離装置。
  7.  前記教師付き損失関数は、以下の式(1)であり、前記教師なし損失関数は、以下の式(2)である、請求項6に記載の音源分離装置。
    Figure JPOXMLDOC01-appb-M000001
    ここで、θは前記パラメタであり、Xは前記学習用混合信号から得られる全てのスペクトログラムの集合であり、(t,f)および(t’,f’)は時間周波数ビンであり、vt,fは時間周波数ビン(t,f)の特徴ベクトルであり、VはXから得られる全ての特徴ベクトルvt,fの集合であり、Y=(yt,f)は特徴ベクトルvt,fに対応する時間周波数ビン(t,f)の音源ラベルである。
    Figure JPOXMLDOC01-appb-M000002
    ここで、yt,f=NULLは音源ラベルが設定されていない時間周波数ビンであり、γt,f,iは音源クラスiに対する特徴ベクトルvt,fの帰属率であり、cは音源クラス数であり、μは音源クラスiに属する時間周波数ビン(t,f)にわたる特徴ベクトルvt,fの平均であり、式(3)によって決定される。
    Figure JPOXMLDOC01-appb-M000003
  8.  前記特徴抽出器は、ニューラルネットワークである、請求項1~7のいずれか1項に記載の音源分離装置。
  9.  複数の音源信号が混合された混合信号を変換したスペクトログラムにおいて、時間周波数ビン毎に、特徴抽出の際に用いるパラメタが適用された特徴抽出器を用いて特徴ベクトルを抽出することと、
     抽出された前記特徴ベクトルを複数のクラスタに分類することと、
     分類された前記複数のクラスタの各々に含まれる時間周波数ビンを用いて、分類されたクラスタ毎に音源信号を生成することと、
     観測された混合信号を含む学習用混合信号に基づいて、前記パラメタを更新することと、を含む音源分離方法。
  10.  複数の音源信号が混合された混合信号を変換したスペクトログラムにおいて、時間周波数ビン毎に、特徴抽出の際に用いるパラメタが適用された特徴抽出器を用いて特徴ベクトルを抽出することと、
     抽出された前記特徴ベクトルを複数のクラスタに分類することと、
     分類された前記複数のクラスタの各々に含まれる時間周波数ビンを用いて、分類されたクラスタ毎に音源信号を生成することと、
     観測された混合信号を含む学習用混合信号に基づいて、前記パラメタを更新することと、をコンピュータに実行させるプログラムが格納された非一時的なコンピュータ可読媒体。
PCT/JP2018/008503 2018-03-06 2018-03-06 音源分離装置、音源分離方法およびプログラムが格納された非一時的なコンピュータ可読媒体 WO2019171457A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2020504518A JP6992873B2 (ja) 2018-03-06 2018-03-06 音源分離装置、音源分離方法およびプログラム
PCT/JP2018/008503 WO2019171457A1 (ja) 2018-03-06 2018-03-06 音源分離装置、音源分離方法およびプログラムが格納された非一時的なコンピュータ可読媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2018/008503 WO2019171457A1 (ja) 2018-03-06 2018-03-06 音源分離装置、音源分離方法およびプログラムが格納された非一時的なコンピュータ可読媒体

Publications (1)

Publication Number Publication Date
WO2019171457A1 true WO2019171457A1 (ja) 2019-09-12

Family

ID=67847036

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/008503 WO2019171457A1 (ja) 2018-03-06 2018-03-06 音源分離装置、音源分離方法およびプログラムが格納された非一時的なコンピュータ可読媒体

Country Status (2)

Country Link
JP (1) JP6992873B2 (ja)
WO (1) WO2019171457A1 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021156945A1 (ja) * 2020-02-04 2021-08-12 三菱電機株式会社 音声分離装置及び音声分離方法
CN113257271A (zh) * 2021-05-17 2021-08-13 浙江大学 多发声者发声运动特征波形的获取方法及装置、电子设备
WO2021246304A1 (ja) * 2020-06-01 2021-12-09 ソニーグループ株式会社 信号処理装置、信号処理方法およびプログラム
US20230112622A1 (en) * 2020-03-09 2023-04-13 Puzzle Ai Co., Ltd. Voice Authentication Apparatus Using Watermark Embedding And Method Thereof
WO2023127058A1 (ja) * 2021-12-27 2023-07-06 日本電信電話株式会社 信号フィルタリング装置、信号フィルタリング方法及びプログラム
JP7605698B2 (ja) 2021-06-04 2024-12-24 日本電信電話株式会社 抽出装置、抽出方法、学習装置、学習方法及びプログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6430528B1 (en) * 1999-08-20 2002-08-06 Siemens Corporate Research, Inc. Method and apparatus for demixing of degenerate mixtures
JP2004126198A (ja) * 2002-10-02 2004-04-22 Institute Of Physical & Chemical Research 信号抽出システム、信号抽出方法および信号抽出プログラム
JP2006337851A (ja) * 2005-06-03 2006-12-14 Sony Corp 音声信号分離装置及び方法
JP2018502319A (ja) * 2015-07-07 2018-01-25 三菱電機株式会社 信号の1つ又は複数の成分を区別する方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6430528B1 (en) * 1999-08-20 2002-08-06 Siemens Corporate Research, Inc. Method and apparatus for demixing of degenerate mixtures
JP2004126198A (ja) * 2002-10-02 2004-04-22 Institute Of Physical & Chemical Research 信号抽出システム、信号抽出方法および信号抽出プログラム
JP2006337851A (ja) * 2005-06-03 2006-12-14 Sony Corp 音声信号分離装置及び方法
JP2018502319A (ja) * 2015-07-07 2018-01-25 三菱電機株式会社 信号の1つ又は複数の成分を区別する方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
ANDREW SIMPSON, J.R.: "Deep Transform: Cocktail Party Source Separation via Complex Convolution in a Deep Neural Network", ARXIV, 12 April 2015 (2015-04-12), XP055315248, Retrieved from the Internet <URL:https://arxiv.org/ftp/arxiv/papers/1504/1504.02945.pdf> *
OKUNO HIROSHI ET AL.: "Understanding two simultaneous speeches by Blind source separation", JAPANESE SOCIETY FOR ARTIFICIAL INTELLIGENCE SPECIAL INTEREST GROUP MATERIALS, 1ST SIG CHALLENGE, vol. 11, November 1998 (1998-11-01), pages 1 - 6, XP002951030 *
PO-SEN HUANG ET AL.: "Deep Learning for Monaural Speech Separation", PROCEEDINGS OF THE 2004 IEEE CONFERENCE ON ACOUSTIC, SPEECH AND SIGNAL PROCESSING(ICASSP 2014, May 2014 (2014-05-01), pages 1562 - 1566, XP032617016, doi:10.1109/ICASSP.2014.6853860 *
TAESU KIM ET AL.: "Independent Vector Analysis : An Extension of ICA to Multivariate Components", PROCEEDINGS OF THE 6TH INTERNATIONAL CONFERENCE ON INDEPENDENT COMPONENT ANALYSIS AND BLIND SOURCE SEPARATION(ICA 2006, March 2006 (2006-03-01), pages 165 - 172, XP019028810 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021156945A1 (ja) * 2020-02-04 2021-08-12 三菱電機株式会社 音声分離装置及び音声分離方法
US20230112622A1 (en) * 2020-03-09 2023-04-13 Puzzle Ai Co., Ltd. Voice Authentication Apparatus Using Watermark Embedding And Method Thereof
WO2021246304A1 (ja) * 2020-06-01 2021-12-09 ソニーグループ株式会社 信号処理装置、信号処理方法およびプログラム
CN113257271A (zh) * 2021-05-17 2021-08-13 浙江大学 多发声者发声运动特征波形的获取方法及装置、电子设备
JP7605698B2 (ja) 2021-06-04 2024-12-24 日本電信電話株式会社 抽出装置、抽出方法、学習装置、学習方法及びプログラム
WO2023127058A1 (ja) * 2021-12-27 2023-07-06 日本電信電話株式会社 信号フィルタリング装置、信号フィルタリング方法及びプログラム

Also Published As

Publication number Publication date
JP6992873B2 (ja) 2022-01-13
JPWO2019171457A1 (ja) 2021-01-07

Similar Documents

Publication Publication Date Title
WO2019171457A1 (ja) 音源分離装置、音源分離方法およびプログラムが格納された非一時的なコンピュータ可読媒体
US9536525B2 (en) Speaker indexing device and speaker indexing method
US7729914B2 (en) Method for detecting emotions involving subspace specialists
JP3037864B2 (ja) 音声コード化装置及び方法
Patel et al. Speech recognition and verification using MFCC & VQ
Wang et al. A gender mixture detection approach to unsupervised single-channel speech separation based on deep neural networks
US20080052074A1 (en) System and method for speech separation and multi-talker speech recognition
JP6908045B2 (ja) 音声処理装置、音声処理方法、およびプログラム
JP6543848B2 (ja) 音声処理装置、音声処理方法及びプログラム
Phan et al. Learning representations for nonspeech audio events through their similarities to speech patterns
WO2013030134A1 (en) Method and apparatus for acoustic source separation
Jadhav et al. A Speaker Recognition System Using Gaussian Mixture Model, EM Algorithm and K-Means Clustering
JP7176627B2 (ja) 信号抽出システム、信号抽出学習方法および信号抽出学習プログラム
Hsu et al. Local wavelet acoustic pattern: A novel time–frequency descriptor for birdsong recognition
Kumar et al. Comparative analysis of different feature extraction and classifier techniques for speaker identification systems: A review
JP5083951B2 (ja) 音声処理装置およびプログラム
WO2012023268A1 (ja) 多マイクロホン話者分類装置、方法およびプログラム
Prakash et al. Analysis of emotion recognition system through speech signal using KNN & GMM classifier
JP2011081324A (ja) ピッチ・クラスター・マップを用いた音声認識方法
JP6220733B2 (ja) 音声分類装置、音声分類方法、プログラム
Pimpale et al. A survey on: Sound source separation methods
Roy et al. A hybrid VQ-GMM approach for identifying Indian languages
Zubair et al. Audio classification based on sparse coefficients
JP2020038315A (ja) 音声情報処理装置および方法
CN110675890B (zh) 声音信号处理装置以及声音信号处理方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18908541

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2020504518

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18908541

Country of ref document: EP

Kind code of ref document: A1