WO2020240682A1 - 信号抽出システム、信号抽出学習方法および信号抽出学習プログラム - Google Patents

信号抽出システム、信号抽出学習方法および信号抽出学習プログラム Download PDF

Info

Publication number
WO2020240682A1
WO2020240682A1 PCT/JP2019/021038 JP2019021038W WO2020240682A1 WO 2020240682 A1 WO2020240682 A1 WO 2020240682A1 JP 2019021038 W JP2019021038 W JP 2019021038W WO 2020240682 A1 WO2020240682 A1 WO 2020240682A1
Authority
WO
WIPO (PCT)
Prior art keywords
signal
network
reconstruction
class
unit
Prior art date
Application number
PCT/JP2019/021038
Other languages
English (en)
French (fr)
Inventor
孝文 越仲
山本 仁
薫 鯉田
鈴木 隆之
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to CN201980096829.7A priority Critical patent/CN113892136A/zh
Priority to JP2021521610A priority patent/JP7176627B2/ja
Priority to EP19930251.4A priority patent/EP3979240A4/en
Priority to US17/612,736 priority patent/US11900949B2/en
Priority to PCT/JP2019/021038 priority patent/WO2020240682A1/ja
Publication of WO2020240682A1 publication Critical patent/WO2020240682A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/10Multimodal systems, i.e. based on the integration of multiple recognition engines or fusion of expert systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/0308Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Definitions

  • the present invention relates to a signal extraction system for extracting signals belonging to each class, a signal extraction learning method, and a signal extraction learning program.
  • speaker dialization is a technology that analyzes a voice signal whose speaker information (number of people, etc.) is unknown and estimates which speaker spoke when, and is a segment of each speaker. It is a technique to identify a set from an audio signal.
  • FIG. 10 is an explanatory diagram showing a method of identifying the speaker's voice signal from the segmented voice signal.
  • the monaural audio stream 201 is segmented by extracting an audio portion.
  • FIG. 10 shows an example in which four segments 202 to 205 are extracted.
  • segment 202, segment 203, segment 205, and segment 204 being determined to be similar signals and clustered, the former segment is identified as speaker A and the latter segment is identified as speaker B. ..
  • the clustering of segments as illustrated in FIG. 10 has a problem that it is easily affected by noise and that the voice signals of speakers that temporarily overlap cannot be separated.
  • a method of specifying the voice signal by using the voice signal of the target speaker (sometimes referred to as an anchor) has also been proposed.
  • FIG. 11 is an explanatory diagram showing a method of identifying a speaker's voice signal using an anchor.
  • an anchor 206 which is a voice signal of the target speaker A to be specified, is prepared for the monaural voice stream 201. Then, the audio stream 201 and the anchor 206 are compared to identify a set of speaker A segments (segment 207, segment 208, segment 209).
  • Non-Patent Document 1 describes a method of extracting a speaker's voice signal by using a deep learning technique.
  • a mask for extracting the voice signal (segment) of the target speaker based on the anchor which is the voice signal of the target speaker and the mixed voice signal ( Reconstruction mask) is learned.
  • the learned reconstruction mask is learned to the mixed speech signal.
  • Non-Patent Document 2 describes a method of extracting a feature amount from an input voice.
  • Non-Patent Document 1 reconstruction is performed based on the speaker anchors X f, tas and the mixed audio signal X f, t ms , which are represented in two dimensions of time-frequency.
  • the masks M f and t are learned.
  • the speaker spectrogram S ⁇ f, t ms is estimated (note that S ⁇ is S). Shows a superscript hat).
  • the speaker's spectrogram S ⁇ f, t ms is calculated based on Equation 1 shown below.
  • the reconstruction mask is learned by optimizing so as to minimize the loss function of Equation 2 shown below.
  • S f, tms in Equation 2 is a speaker spectrogram.
  • the neural network described in Non-Patent Document 1 learns a reconstruction mask that can handle overlapping utterances from irrelevant noise.
  • the true values of the reconstruction masks M f and t and the true values of the reconstructed speaker spectrogram S f and t ms contained in the above equation 2 are generally unknown. Therefore, the optimization using the above equation 2 has a problem that there is a limit in improving the accuracy of the reconstruction mask.
  • an object of the present invention is to provide a signal extraction system, a signal extraction learning method, and a signal extraction learning program that can accurately extract signals belonging to each class from observed signals.
  • the signal extraction system estimates a layer for inputting a mixed signal including an anchor signal belonging to a predetermined class and a target signal belonging to the class, and a reconstruction mask indicating a time frequency region in which the target signal exists in the mixed signal.
  • a neural network input unit that inputs a neural network in which a second network having an output layer is connected, and an anchor signal and a mixed signal are applied to the first network to reconstruct the class to which the anchor signal belongs.
  • a reconstruction mask estimation unit that estimates the mask, and a signal classification that applies a mixed signal to the estimated reconstruction mask to extract the target signal, and applies the extracted target signal to the second network to classify it into classes.
  • the loss calculation part that calculates the loss function of the part, the class in which the extracted target signal is classified, and the true class, and the first network parameter and the first in the neural network based on the calculation result of the loss function. It is characterized by including a parameter update unit for updating the parameters of the second network and an output unit for outputting the updated first network.
  • the signal extraction learning method includes a layer for inputting a mixed signal including an anchor signal belonging to a predetermined class and a target signal belonging to the class, and a reconstruction mask indicating a time frequency region in which the target signal exists in the mixed signal.
  • Input a neural network that is coupled with a second network that has a layer that outputs, and applies the anchor and mixed signals to the first network to estimate the reconstruction mask of the class to which the anchor signal belongs.
  • the signal extraction learning program indicates to a computer a layer for inputting a mixed signal including an anchor signal belonging to a predetermined class and a target signal belonging to the class, and a time frequency region in which the target signal exists in the mixed signal.
  • a first network having a layer that outputs the construction mask as an estimation result, a layer that inputs a target signal extracted by applying a mixed signal to the reconstruction mask, and a layer that inputs the input target signal to a predetermined class.
  • the class to which the anchor signal belongs by applying the neural network input processing, anchor signal and mixed signal to the first network to input the neural network combined with the second network having the layer to output the classification result.
  • Reconstruction mask estimation process that estimates the reconstruction mask of, applies a mixed signal to the estimated reconstruction mask to extract the target signal, and applies the extracted target signal to the second network to classify it into classes.
  • Signal classification processing, loss calculation processing to calculate the loss function between the class in which the extracted target signal is classified and the true class, the first network parameter in the neural network and the first based on the calculation result of the loss function. It is characterized in that a parameter update process for updating the parameters of the second network and an output process for outputting the updated first network are executed.
  • signals belonging to each class can be accurately extracted from the observed signals.
  • FIG. 1 is a block diagram showing a configuration example of the first embodiment of the signal extraction system according to the present invention.
  • the signal extraction system 100 of the present embodiment includes a neural network input unit 10, an anchor signal input unit 20, a mixed signal input unit 30, a learning unit 40, an output unit 50, and an extraction unit 60.
  • the neural network input unit 10 inputs a neural network for extracting a signal belonging to a certain class.
  • the class means a set of signals having a specific property.
  • the class is specifically an individual speaker, gender, age, language, emotion, and the like.
  • speaker A is defined as a class
  • the signal indicating the utterance of speaker A is a signal belonging to the class of speaker A.
  • the neural network input in this embodiment is configured as a neural network in which two types of networks are combined.
  • the first network has a layer for inputting a mixed signal including an anchor signal belonging to a predetermined class and a signal belonging to the class (hereinafter referred to as a target signal), and a target signal in the input mixed signal. It has a layer that outputs a mask indicating a time frequency domain (hereinafter referred to as a reconstruction mask) as an estimation result.
  • the time frequency domain refers to a region that can be identified from a signal based on time and frequency. For example, when speaker A is defined as a class, the target signal is a signal indicating the utterance of speaker A.
  • a specific example of the first network is CNN (Convolutional Neural Network).
  • CNN Convolutional Neural Network
  • the length of the signal may be variable. Therefore, it is preferable to use TDNN (Time Delay Neural Network), which is a one-dimensional convolutional neural network model (1D CNN), as the first network.
  • the first network may be a network in which the mixed signal is input by dividing the mixed signal into a predetermined length (for example, 4 seconds).
  • the second network has a layer for inputting the target signal extracted by applying the mixed signal to the reconstruction mask, and a layer for outputting the result of classifying the input target signal into a predetermined class. Therefore, it can be said that the neural network input to the present embodiment is a neural network that inputs an anchor signal and a mixed signal and outputs a class in which the extracted target signal is classified.
  • the second network corresponds to each of the outputs corresponding to the number of classes assumed as the extraction target, that is, all or some of the classes included in the learning data referred to in the learning unit 40 described later. It has a layer with set output.
  • the second network is a layer in which the output is set by adding 1 to the number of classes assumed to be extracted. May have. The added output is the output for detecting exception handling.
  • FIG. 2 is an explanatory diagram showing an example of an input neural network.
  • First network N1 illustrated in FIG. 2 the speaker of the utterance X f is an anchor signal, and t the as, mixed sound X f including utterance of the speaker, the input and t ms, reconstruction mask M f , T is the output network.
  • the second network N2 is input by inputting signals S ⁇ f, t ms indicating the speaker's utterance extracted by applying mixed voices X f, t m to the reconstruction masks M f and t. It is a network that outputs the result of classifying the signals into predetermined classes. These two types of networks are combined to form one neural network N3.
  • the anchor signal input unit 20 inputs an anchor signal to be input to the neural network. Specifically, the anchor signal input unit 20 inputs an anchor signal belonging to the class to be extracted by using the reconstruction mask. In other words, the learning unit 40 described later learns the reconstruction mask for extracting the class to which the input anchor signal belongs.
  • the utterance X f is t the as corresponds to the anchor signal.
  • the mixed signal input unit 30 inputs a signal (that is, a mixed signal) including the target signal to be extracted.
  • a signal that is, a mixed signal
  • the mixed voice X f, t ms corresponds to the mixed signal.
  • the learning unit 40 learns the entire neural network including the two types of networks. Since the target reconstruction mask is unknown, the learning unit 40 of the present embodiment learns with a weak label with the label of the class to be classified as the target.
  • the learning unit 40 includes a reconstruction mask estimation unit 42, a signal classification unit 44, a loss calculation unit 46, and a parameter update unit 48.
  • the reconstruction mask estimation unit 42 applies the input anchor signal and mixed signal to the first network, and estimates the reconstruction mask of the class to which the anchor signal belongs. Specifically, the reconstruction mask estimation unit 42 estimates the output of the first network in the neural network as the reconstruction mask.
  • the signal classification unit 44 applies the mixed signal to the estimated reconstruction mask to extract the target signal, and applies the extracted target signal to the second network to classify the target signal into classes. Specifically, the signal classification unit 44 acquires the output of the second network in the neural network as a class in which the target signal is classified. For example, when the mixed signal is a voice stream indicating the speaker's utterance, the signal classification unit 44 extracts the speaker's spectrogram as the target signal and applies the extracted spectrogram to the second network to make the speaker. Classify.
  • the loss calculation unit 46 calculates the loss function between the class in which the extracted target signal is classified and the true class.
  • the true class is the class to which the input anchor signal belongs.
  • the loss calculation unit 46 may calculate the loss function using, for example, the cross entropy exemplified in the following equation 3.
  • Equation 3 c i is the true label information of the anchor signal, 1 when the anchor signal belongs to the i th class, it takes values 0 otherwise. Further, c ⁇ i is the label information of the classified class, and is the output value of each element of the output layer of the second network. It is desirable that this output value is normalized by a softmax activation function or the like in the second network.
  • the label information is given by the signal classification unit 44 and is preset in the anchor signal.
  • the parameter update unit 48 updates the parameters of the first network and the parameters of the second network in the neural network based on the calculation result of the loss function. Specifically, the parameter update unit 48 updates each parameter in the neural network so as to minimize the loss function.
  • the parameter update unit 48 may update the parameters by, for example, the error back propagation method. However, the parameter updating method is not limited to the error back propagation method, and the parameter updating unit 48 may update the parameters using a generally known method.
  • the output unit 50 outputs the updated first network. That is, the output unit 50 outputs a neural network excluding the network for classifying the target signal into the class (that is, the second network) from the input neural network.
  • the extraction unit 60 applies an anchor signal and a mixed signal to the output first network, and extracts a signal (target signal) of the class to which the anchor signal belongs.
  • the extracted signal can be used, for example, for speaker identification.
  • Non-Patent Document 1 a process of optimizing the loss function illustrated in the above equation 2 is performed.
  • the learning unit 40 learns the neural network so as to optimize the loss function (that is, the loss function between classes) of the above equation 3. Therefore, it is possible to learn a reconstruction mask that can accurately extract signals belonging to each class from the observed signals.
  • Neural network input unit 10, anchor signal input unit 20, mixed signal input unit 30, learning unit 40 (more specifically, reconstruction mask estimation unit 42, signal classification unit 44, loss calculation unit 46, and parameters.
  • the update unit 48), the output unit 50, and the extraction unit 60 are realized by a computer processor (for example, a CPU (Central Processing Unit), a GPU (Graphics Processing Unit)) that operates according to a program (signal extraction learning program).
  • a computer processor for example, a CPU (Central Processing Unit), a GPU (Graphics Processing Unit)
  • a program signal extraction learning program
  • the program is stored in a storage unit (not shown) included in the signal extraction system 100, the processor reads the program, and the neural network input unit 10, the anchor signal input unit 20, and the mixed signal input unit 30 follow the program.
  • Learning unit 40 more specifically, reconstruction mask estimation unit 42, signal classification unit 44, loss calculation unit 46, parameter update unit 48), output unit 50, and extraction unit 60. ..
  • the function of the signal extraction system 100 may be provided in the SaaS (Software as a Service) format.
  • Neural network input unit 10, anchor signal input unit 20, mixed signal input unit 30, learning unit 40 (more specifically, reconstruction mask estimation unit 42, signal classification unit 44, loss calculation unit 46, and parameters.
  • the update unit 48), the output unit 50, and the extraction unit 60 may each be realized by dedicated hardware. Further, a part or all of each component of each device may be realized by a general-purpose or dedicated circuit (circuitry), a processor, or a combination thereof. These may be composed of a single chip or may be composed of a plurality of chips connected via a bus. A part or all of each component of each device may be realized by a combination of the above-mentioned circuit or the like and a program.
  • each component of the signal extraction system 100 when a part or all of each component of the signal extraction system 100 is realized by a plurality of information processing devices and circuits, the plurality of information processing devices and circuits may be centrally arranged. It may be distributed.
  • the information processing device, the circuit, and the like may be realized as a form in which each of the client-server system, the cloud computing system, and the like is connected via a communication network.
  • FIG. 3 is a flowchart showing an operation example of the signal extraction system 100 of the present embodiment.
  • the neural network input unit 10 inputs a neural network in which the first network and the second network are combined (step S11).
  • the anchor signal input unit 20 inputs the anchor signal (step S12), and the mixed signal input unit 30 inputs the mixed signal (step S13).
  • the learning unit 40 applies the input anchor signal and the mixed signal to the first network to estimate the reconstruction mask of the class to which the anchor signal belongs (more specifically, the reconstruction mask estimation unit 42). Step S14).
  • the learning unit 40 (more specifically, the signal classification unit 44) applies the mixed signal to the estimated reconstruction mask to extract the target signal, and applies the extracted target signal to the second network. Classify into classes (step S15).
  • the learning unit 40 (more specifically, the loss calculation unit 46) calculates a loss function between the class in which the extracted objective signal is classified and the true class (step S16).
  • the learning unit 40 updates the parameters of the first network and the parameters of the second network in the neural network based on the calculation result of the loss function (step S17). Then, the output unit 50 outputs the updated first network (step S18).
  • FIG. 4 is a flowchart showing another operation example of the signal extraction system 100 of the present embodiment.
  • the extraction unit 60 inputs the output first network (step S21). Further, the anchor signal input unit 20 inputs the anchor signal (step S22), and the mixed signal input unit 30 inputs the mixed signal (step S23). Then, the extraction unit 60 applies the input anchor signal and the mixed signal to the first network to estimate the reconstruction mask (step S24), and applies the estimated reconstruction mask to the mixed signal to obtain the target signal. Is extracted (step S25).
  • the neural network input unit 10 inputs the neural network in which the first network and the second network are combined, and the reconstruction mask estimation unit 42 inputs the anchor signal and the mixed signal. Is applied to the first network to estimate the reconstruction mask of the class to which the anchor signal belongs. Further, the signal classification unit 44 applies the mixed signal to the estimated reconstruction mask to extract the target signal, and applies the extracted target signal to the second network to classify the target signal into classes. Then, the loss calculation unit 46 calculates the loss function of the class in which the extracted target signal is classified and the true class, and the parameter update unit 48 calculates the loss function in the neural network based on the calculation result of the loss function. Update the parameters of the first network and the parameters of the second network. After that, the output unit 50 outputs the updated first network.
  • the accuracy of the reconstruction mask estimated by the first network can be improved.
  • signals belonging to each class can be accurately extracted from the observed mixed signals.
  • the signal extraction system of the present embodiment can be realized as, for example, a system that extracts signals of an arbitrary class as illustrated below.
  • -A system that extracts signals of a specific speaker, gender, age, language, and emotion class from mixed speech-A system that extracts signals of a specific instrument class from mixed music-A specific sound from a mixed voice
  • a system that extracts signals of a specific electric device class from an event, for example, an explosion sound or a gunshot class.
  • A system that extracts a signal of a specific electric device class from a mixed electric flow.
  • Embodiment 2 Next, a second embodiment of the signal extraction system according to the present invention will be described.
  • the reconstruction mask estimated by the first embodiment it becomes possible to accurately extract the signals belonging to each class from the mixed signals. Further, in the present embodiment, a method of more accurately extracting the target signal of each speaker from the audio signal will be described.
  • the utterances (segments) of individual speakers are generally estimated independently. Also, in normal conversation, it is common for each speaker to speak alternately and exclusively.
  • FIG. 5 is an explanatory diagram showing an example of a signal to be extracted in conversation.
  • signals of a plurality of speakers are generally observed alternately and exclusively, and simultaneously observed as illustrated in FIG. 5 (b). It is rarely done.
  • a method of modifying the reconstruction mask in relation to other signals will be described.
  • FIG. 6 is a block diagram showing a configuration example of a second embodiment of the signal extraction system according to the present invention.
  • the signal extraction system 200 of the present embodiment extracts the neural network input unit 10, the anchor signal input unit 20, the mixed signal input unit 30, the learning unit 40, the output unit 50, the reconstruction mask conversion unit 52, and the reconstructed mask conversion unit 52. It is provided with a unit 60.
  • the signal extraction system 200 of the present embodiment is different from the signal extraction system 100 of the first embodiment in that it further includes a reconstruction mask conversion unit 52.
  • Other configurations are the same as in the first embodiment.
  • the signal extraction system 200 uses the reconstruction masks of a plurality of speakers to change at least one reconstruction mask. Therefore, the anchor signal input unit 20 inputs anchor signals of a plurality of speakers.
  • the anchor signal input unit 20 inputs the anchor signals of the two speakers, respectively.
  • the mixed signal input unit 30 inputs the mixed signal.
  • the learning unit 40 estimates the first network for each speaker based on each input anchor signal and mixed signal, and the output unit 50 outputs the generated first network, respectively.
  • the reconstruction mask conversion unit 52 inputs the generated first network, applies the anchor signal and the mixed signal of each speaker to the first network corresponding to each speaker, and applies the reconstruction mask. Estimate each. Then, the reconstruction mask conversion unit 52 converts at least one of the estimated reconstruction masks based on the degree of similarity with the other reconstruction masks. Specifically, the reconstruction mask conversion unit 52 converts the reconstruction mask so that the higher the similarity with the frequency of the other reconstruction mask, the lower the reliability of the frequency.
  • the conversion by the reconstruction mask conversion unit 52 means that the target reconstruction mask is not used so as to be similar to other reconstruction masks.
  • the fact that the reconstruction mask is similar to other reconstruction masks means that signals of similar frequencies are attempted to be extracted with reconstruction masks of different speakers. However, since such a signal is rarely generated in conversation, the accuracy is improved by lowering the reliability of such a reconstruction mask.
  • the method by which the reconstruction mask conversion unit 52 calculates the similarity is arbitrary.
  • Sim be the function for calculating the similarity
  • M f, t A be the set of reconstruction masks for speaker A
  • M f, t B be the set of reconstruction masks for speaker B.
  • the frequency similarity s f is represented by the equation 4 illustrated below.
  • the reconstruction mask conversion unit 52 may calculate the cosine similarity as the similarity, for example.
  • the similarity s f is calculated by the formula 5 illustrated below.
  • the reconstruction mask conversion unit 52 converts the reconstruction mask so that the higher the calculated similarity is, the lower the reliability is. For example, assuming that the reconstruction mask of any speaker is M f, t * , the reconstruction mask conversion unit 52 may convert the reconstruction mask using the equation 6 illustrated below.
  • is a normalization coefficient, and is calculated by the formula 7 illustrated below.
  • the extraction unit 60 extracts the target signal using the converted reconstruction mask.
  • Neural network input unit 10 anchor signal input unit 20, mixed signal input unit 30, learning unit 40 (more specifically, reconstruction mask estimation unit 42, signal classification unit 44, loss calculation unit 46, and parameters.
  • the update unit 48), the output unit 50, the reconstruction mask conversion unit 52, and the extraction unit 60 are realized by a computer processor that operates according to a program (signal extraction learning program).
  • FIG. 7 is a flowchart showing an operation example of the signal extraction system 200 of the present embodiment. Here, it is assumed that the processing of the flowchart illustrated in FIG. 3 is executed and the reconstruction mask for each speaker is generated.
  • the reconstruction mask conversion unit 52 converts at least one of the estimated reconstruction masks based on the similarity with the other reconstruction masks (step S31).
  • the extraction unit 60 extracts the target signal using the converted reconstruction mask (step S32).
  • the reconstruction mask conversion unit 52 converts at least one of the estimated reconstruction masks based on the similarity with the other reconstruction masks
  • the extraction unit 60 converts the estimated reconstruction masks.
  • the target signal is extracted using the converted reconstruction mask. Therefore, in addition to the effect of the first embodiment, it is possible to extract the utterances of each speaker in consideration of the nature of the conversation.
  • FIG. 8 is a block diagram showing an outline of the signal extraction system according to the present invention.
  • the signal extraction system 80 (for example, the signal extraction system 100) according to the present invention includes an anchor signal belonging to a predetermined class (for example, a certain speaker) and an object signal belonging to the class (actual speech of a certain speaker).
  • Neural network input unit 81 for inputting a neural network for example, the neural network N3 illustrated in FIG. 2 to which a second network having a layer (for example, the second network N2 illustrated in FIG. 2) is connected.
  • a neural network for example, the neural network N3 illustrated in FIG. 2
  • the reconstruction mask estimation unit 82 for example, reconstruction
  • the mask estimation unit 42) and the signal classification unit 83 (for example, a signal classification unit 83) that applies a mixed signal to the estimated reconstruction mask to extract a target signal, and applies the extracted target signal to a second network to classify them into classes.
  • Signal classification unit 44 loss calculation unit 84 (for example, loss) that calculates the loss function of the class in which the extracted target signal is classified and the true class (for example, the class to which the input anchor signal belongs).
  • the calculation unit 46) and the parameter update unit 85 (for example, the parameter update unit 48) that updates the parameters of the first network and the parameters of the second network in the neural network based on the calculation result of the loss function are updated. It also includes an output unit 86 (for example, an output unit 50) that outputs the first network.
  • the signal extraction system 80 (for example, the signal extraction system 200) is a reconstruction mask conversion unit that converts at least one of the estimated plurality of reconstruction masks based on the similarity with other reconstruction masks.
  • a reconstruction mask conversion unit 52 and an extraction unit (for example, an extraction unit 60) that extracts a target signal using the converted reconstruction mask may be provided.
  • the reconstruction mask conversion unit may convert the reconstruction mask so that the higher the similarity with the frequency of the other reconstruction mask, the lower the reliability of the frequency.
  • parameter update unit 85 may update the parameters of the first network and the parameters of the second network in the neural network so as to reduce the loss calculated by the loss function.
  • the neural network input unit 81 may input a neural network to which a second network having a layer in which an output corresponding to the number of classes assumed as an extraction target is set is connected.
  • the reconstruction mask estimation unit 82 applies an anchor signal and a voice stream indicating the speaker's utterance to the first network to estimate the speaker's reconstruction mask. You may. Then, the signal classification unit 83 may apply the mixed signal to the estimated reconstruction mask to extract the speaker spectrogram, and apply the extracted spectrogram to the second network to classify the speaker. ..
  • FIG. 9 is a schematic block diagram showing a configuration of a computer according to at least one embodiment.
  • the computer 1000 includes a processor 1001, a main storage device 1002, an auxiliary storage device 1003, and an interface 1004.
  • the above-mentioned signal extraction system is mounted on the computer 1000.
  • the operation of each processing unit described above is stored in the auxiliary storage device 1003 in the form of a program (signal extraction learning program).
  • the processor 1001 reads a program from the auxiliary storage device 1003, deploys it to the main storage device 1002, and executes the above processing according to the program.
  • the auxiliary storage device 1003 is an example of a non-temporary tangible medium.
  • non-temporary tangible media include magnetic disks, magneto-optical disks, CD-ROMs (Compact Disc Read-only memory), DVD-ROMs (Read-only memory), which are connected via interface 1004. Examples include semiconductor memory.
  • the program may be for realizing a part of the above-mentioned functions. Further, the program may be a so-called difference file (difference program) that realizes the above-mentioned function in combination with another program already stored in the auxiliary storage device 1003.
  • difference file difference program
  • Neural network input unit 20 Anchor signal input unit 30 Mixed signal input unit 40 Learning unit 42 Reconstruction mask estimation unit 44 Signal classification unit 46 Loss calculation unit 48 Parameter update unit 50 Output unit 52 Reconstruction mask conversion unit 60 Extraction unit 100, 200 signal extraction system

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

ニューラルネットワーク入力部81は、予め定めたクラスに属するアンカー信号およびそのクラスに属する目的信号を含む混合信号を入力する層と、その混合信号において目的信号が存在する時間周波数領域を示す再構築マスクを推定結果として出力する層とを有する第一のネットワークと、再構築マスクに混合信号を適用して抽出される目的信号を入力する層と入力された目的信号を予め定められたクラスへ分類した結果を出力する層とを有する第二のネットワークとが結合されたニューラルネットワークを入力する。再構築マスク推定部82は、アンカー信号および混合信号を第一のネットワークに適用して、そのアンカー信号が属するクラスの再構築マスクを推定する。信号分類部83は、推定された再構築マスクに混合信号を適用して目的信号を抽出し、抽出された目的信号を第二のネットワークに適用してクラスに分類する。

Description

信号抽出システム、信号抽出学習方法および信号抽出学習プログラム
 本発明は、各クラスに属する信号を抽出する信号抽出システム、信号抽出学習方法および信号抽出学習プログラムに関する。
 観測された信号から、各クラスに属する信号を抽出する技術が各種知られている。例えば、話者ダイアライゼーション(Speaker Diarization )とは、話者の情報(人数等)が未知の音声信号を解析して、どの話者がいつ話したか推定する技術であり、話者ごとのセグメントの集合を音声信号から特定する技術である。
 話者ダイアライゼーションの一般的な方法として、音声信号をセグメント化し、セグメント化された音声信号をクラスタリングすることにより、各話者のセグメントの集合を特定する方法が挙げられる。
 図10は、セグメント化された音声信号から話者の音声信号を特定する方法を示す説明図である。図10に示す方法では、モノラルの音声ストリーム201に対し、音声の部分を抽出するセグメント化が行われる。図10では、4つのセグメント202~205が抽出された例を示す。ここで、セグメント202、セグメント203およびセグメント205と、セグメント204とが、それぞれ類似の信号と判断されてクラスタリングされた結果、前者のセグメントが話者A、後者のセグメントが話者Bと特定される。
 一方、図10に例示するようなセグメントのクラスタ化は、ノイズに影響されやすく、また、一時的に重なっている話者の音声信号を分離できないという問題がある。このような問題に対応するため、対象とする話者の音声信号(アンカーと記すこともある。)を用いて、音声信号を特定する方法も提案されている。
 図11は、アンカーを用いて話者の音声信号を特定する方法を示す説明図である。図11に示す方法では、モノラルの音声ストリーム201に対し、特定しようとする対象の話者Aの音声信号であるアンカー206が準備される。そして、音声ストリーム201とアンカー206とを比較して、話者Aセグメントの集合(セグメント207、セグメント208、セグメント209)を特定する。
 非特許文献1には、ディープラーニングの技術を用いて話者の音声信号を抽出する方法が記載されている。非特許文献1に記載された方法では、対象とする話者の音声信号であるアンカーと、混合音声信号とに基づいて、対象とする話者の音声信号(セグメント)を抽出するためのマスク(再構築マスク)を学習する。学習された再構築マスクを混合音声信号に適用することで、対象とする話者のセグメントの集合が特定される。
 なお、非特許文献2には、入力音声から特徴量を抽出する方法が記載されている。
Jun Wang, et al., "Deep Extractor Network for Target Speaker Recovery From Single Channel Speech Mixtures", Interspeech 2018, 2 - 6 September 2018. David Snyder et al., "X-Vectors: Robust DNN Embeddings for Speaker Recognition", ICASSP 2018 - 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), April 2018.
 非特許文献1に記載された方法では、時間-周波数(time-frequency)の二次元で表される話者のアンカーXf,t asおよび、混合音声信号Xf,t msに基づいて再構築マスクMf,tが学習される。そして、学習された再構築マスクMf,tを混合音声信号Xf,t msに適用することで、話者のスペクトログラムS^f,t msが推定される(なお、S^は、Sの上付きハットを示す)。具体的には、以下に示す式1に基づいて、話者のスペクトログラムS^f,t msが算出される。
Figure JPOXMLDOC01-appb-M000001
 
 学習時には、以下に示す式2の損失関数を最小化するように最適化することで、再構築マスクが学習される。式2におけるSf,t msは、話者のスペクトログラムである。具体的には、非特許文献1に記載されたニューラルネットワークは、無関係な雑音の中から重なっている発話も扱える再構築マスクを学習する。
Figure JPOXMLDOC01-appb-M000002
 
 しかし、上記式2に含まれる再構築マスクMf,tの真の値(ground truth)および再構築される話者のスペクトログラムSf,t msの真の値は、一般には不明である。そのため、上記式2を用いた最適化では、再構築マスクの精度を向上させるには限界があるという問題がある。
 なお、複数(例えば、2つ)の音声信号を重畳させた学習用データを人工的に生成することで、再構築マスクの精度を向上させることも考えられる。しかし、人工的なデータは、実際のデータに存在する要因(例えば、会話のやりとりや残響など)を十分に反映させるのが難しいことから、人工的なデータを用いて学習したとしても、実際の環境音から対象の話者の音声信号を抽出できるような再構築マスクを生成するのは難しい。
 そこで、本発明は、観測される信号から各クラスに属する信号を精度よく抽出できる信号抽出システム、信号抽出学習方法および信号抽出学習プログラムを提供することを目的とする。
 本発明による信号抽出システムは、予め定めたクラスに属するアンカー信号およびそのクラスに属する目的信号を含む混合信号を入力する層と混合信号において目的信号が存在する時間周波数領域を示す再構築マスクを推定結果として出力する層とを有する第一のネットワークと、再構築マスクに混合信号を適用して抽出される目的信号を入力する層と入力された目的信号を予め定められたクラスへ分類した結果を出力する層とを有する第二のネットワークとが結合されたニューラルネットワークを入力するニューラルネットワーク入力部と、アンカー信号および混合信号を第一のネットワークに適用して、そのアンカー信号が属するクラスの再構築マスクを推定する再構築マスク推定部と、推定された再構築マスクに混合信号を適用して目的信号を抽出し、抽出された目的信号を第二のネットワークに適用してクラスに分類する信号分類部と、抽出された目的信号が分類されたクラスと、真のクラスとの損失関数を計算する損失計算部と、損失関数の計算結果に基づいて、ニューラルネットワークにおける第一のネットワークのパラメータおよび第二のネットワークのパラメータを更新するパラメータ更新部と、更新された第一のネットワークを出力する出力部とを備えたことを特徴とする。
 本発明による信号抽出学習方法は、予め定めたクラスに属するアンカー信号およびそのクラスに属する目的信号を含む混合信号を入力する層と混合信号において目的信号が存在する時間周波数領域を示す再構築マスクを推定結果として出力する層とを有する第一のネットワークと、再構築マスクに混合信号を適用して抽出される目的信号を入力する層と入力された目的信号を予め定められたクラスへ分類した結果を出力する層とを有する第二のネットワークとが結合されたニューラルネットワークを入力し、アンカー信号および混合信号を第一のネットワークに適用して、そのアンカー信号が属するクラスの再構築マスクを推定し、推定された再構築マスクに混合信号を適用して目的信号を抽出し、抽出された目的信号を第二のネットワークに適用してクラスに分類し、抽出された目的信号が分類されたクラスと、真のクラスとの損失関数を計算し、損失関数の計算結果に基づいて、ニューラルネットワークにおける第一のネットワークのパラメータおよび第二のネットワークのパラメータを更新し、更新された前記第一のネットワークを出力することを特徴とする。
 本発明による信号抽出学習プログラムは、コンピュータに、予め定めたクラスに属するアンカー信号およびそのクラスに属する目的信号を含む混合信号を入力する層と混合信号において目的信号が存在する時間周波数領域を示す再構築マスクを推定結果として出力する層とを有する第一のネットワークと、再構築マスクに混合信号を適用して抽出される目的信号を入力する層と入力された目的信号を予め定められたクラスへ分類した結果を出力する層とを有する第二のネットワークとが結合されたニューラルネットワークを入力するニューラルネットワーク入力処理、アンカー信号および混合信号を第一のネットワークに適用して、そのアンカー信号が属するクラスの再構築マスクを推定する再構築マスク推定処理、推定された再構築マスクに混合信号を適用して目的信号を抽出し、抽出された目的信号を第二のネットワークに適用してクラスに分類する信号分類処理、抽出された目的信号が分類されたクラスと、真のクラスとの損失関数を計算する損失計算処理、損失関数の計算結果に基づいて、ニューラルネットワークにおける第一のネットワークのパラメータおよび第二のネットワークのパラメータを更新するパラメータ更新処理、および、更新された第一のネットワークを出力する出力処理を実行させることを特徴とする。
 本発明によれば、観測される信号から各クラスに属する信号を精度よく抽出できる。
本発明による信号抽出システムの第一の実施形態の構成例を示すブロック図である。 入力されるニューラルネットワークの例を示す説明図である。 第一の実施形態の信号抽出システムの動作例を示すフローチャートである。 第一の実施形態の信号抽出システムの他の動作例を示すフローチャートである。 会話において抽出対象になる信号の例を示す説明図である。 本発明による信号抽出システムの第二の実施形態の構成例を示すブロック図である。 第二の実施形態の信号抽出システムの動作例を示すフローチャートである。 本発明による信号抽出システムの概要を示すブロック図である。 少なくとも1つの実施形態に係るコンピュータの構成を示す概略ブロック図である。 セグメント化された音声信号から話者の音声信号を特定する方法を示す説明図である。 アンカーを用いて話者の音声信号を特定する方法を示す説明図である。
 以下、本発明の実施形態を図面を参照して説明する。以下の説明では、観測された信号から各クラスに属する信号を抽出する具体例として、音声ストリームから、それぞれの話者の音声信号(セグメント)を抽出する方法を説明する。ただし、本発明が抽出対象とする信号は、音声信号に限定されない。
実施形態1.
 図1は、本発明による信号抽出システムの第一の実施形態の構成例を示すブロック図である。本実施形態の信号抽出システム100は、ニューラルネットワーク入力部10と、アンカー信号入力部20と、混合信号入力部30と、学習部40と、出力部50と、抽出部60とを備えている。
 ニューラルネットワーク入力部10は、あるクラスに属する信号を抽出するためのニューラルネットワークを入力する。本実施形態でクラスとは、ある特定された性質を有する信号の集合を意味する。音声信号の場合、クラスとは、具体的には、個々の話者や、性別、年齢、言語、感情などである。例えば、クラスとして話者Aが定められた場合、話者Aの発話を示す信号は、話者Aのクラスに属する信号である。
 また、本実施形態で入力されるニューラルネットワークは、二種類のネットワークが結合されたニューラルネットワークとして構成される。第一のネットワークは、予め定めたクラスに属するアンカー信号およびそのクラスに属する信号(以下、目的信号と記す。)を含む混合信号を入力する層と、入力された混合信号において目的信号が存在する時間周波数領域を示すマスク(以下、再構築マスクと記す。)を推定結果として出力する層とを有する。時間周波数領域とは、時間および周波数に基づいて信号から特定できる領域を示す。例えば、クラスとして話者Aが定められた場合、目的信号は、話者Aの発話を示す信号である。
 第一のネットワークの具体的な一例として、CNN(Convolutional Neural Network)が挙げられる。特に、混合信号として音声ストリームを想定する場合、信号の長さが可変長になることが考えられる。そのため、第一のネットワークには、一次元の畳み込みニューラルネットワーク (1D CNN:one-dimensional convolutional neural network model)であるTDNN(Time Delay Neural Network )を用いることが好ましい。なお、第一のネットワークが、混合信号を予め定めた長さ(例えば、4秒など)に区切った混合信号を入力するネットワークであってもよい。
 第二のネットワークは、再構築マスクに混合信号を適用して抽出される目的信号を入力する層と、入力された目的信号を予め定められたクラスへ分類した結果を出力する層とを有する。したがって、本実施形態に入力されるニューラルネットワークは、アンカー信号および混合信号を入力とし、抽出される目的信号が分類されるクラスを出力とするニューラルネットワークであると言える。
 具体的には、第二のネットワークは、抽出対象として想定するクラス数に相当する出力、すなわち、後述する学習部40において参照される学習データに含まれる全てまたは一部のクラスの各々に対応する出力が設定された層を有する。なお、例外処理として、混合信号に、想定するいずれのクラスの信号も含まれない場合を想定し、第二のネットワークは、抽出対象として想定するクラス数に1を加えた出力が設定された層を有していてもよい。この加えた出力が、例外処理を検出するための出力である。
 図2は、入力されるニューラルネットワークの例を示す説明図である。図2に例示する第一のネットワークN1は、アンカー信号である話者の発話Xf,t asと、話者の発話を含む混合音声Xf,t msとを入力とし、再構築マスクMf,tを出力とするネットワークである。また、第二のネットワークN2は、再構築マスクMf,tに混合音声Xf,t を適用して抽出される話者の発話を示す信号S^f,t msを入力とし、入力された信号を予め定められたクラスへ分類した結果を出力とするネットワークである。この二種類のネットワークが結合されて、1つのニューラルネットワークN3が構成される。
 アンカー信号入力部20は、ニューラルネットワークに入力するアンカー信号を入力する。具体的には、アンカー信号入力部20は、再構築マスクを用いて抽出対象とするクラスに属するアンカー信号を入力する。言い換えると、後述する学習部40によって、入力されるアンカー信号が属するクラスを抽出するための再構築マスクが学習される。図2に示す例では、発話Xf,t asがアンカー信号に対応する。
 混合信号入力部30は、抽出する目的信号が含まれる信号(すなわち、混合信号)を入力する。図2に示す例では、混合音声Xf,t msが混合信号に対応する。
 学習部40は、二種類のネットワークを含むニューラルネットワーク全体を学習する。本実施形態の学習部40は、目標とする再構築マスクが未知であるため、分類すべきクラスのラベルを目標として弱ラベルによる学習を行う。学習部40は、再構築マスク推定部42と、信号分類部44と、損失計算部46と、パラメータ更新部48とを含む。
 再構築マスク推定部42は、入力されたアンカー信号および混合信号を第一のネットワークに適用して、そのアンカー信号が属するクラスの再構築マスクを推定する。具体的には、再構築マスク推定部42は、ニューラルネットワークにおける第一のネットワークの出力を再構築マスクと推定する。
 信号分類部44は、推定された再構築マスクに混合信号を適用して目的信号を抽出し、抽出された目的信号を第二のネットワークに適用してクラスに分類する。具体的には、信号分類部44は、ニューラルネットワークにおける第二のネットワークの出力を目的信号が分類されるクラスとして取得する。例えば、混合信号が話者の発話を示す音声ストリームである場合、信号分類部44は、目的信号として、話者のスペクトログラムを抽出し、抽出したスペクトログラムを第二のネットワークに適用して話者を分類する。
 損失計算部46は、抽出された目的信号が分類されたクラスと、真のクラスとの損失関数を計算する。真のクラスとは、入力されたアンカー信号が属するクラスである。損失計算部46は、例えば、以下の式3に例示する交差エントロピーを用いて損失関数を計算してもよい。
Figure JPOXMLDOC01-appb-M000003
 
 式3において、cは、アンカー信号の真のラベル情報であり、アンカー信号がi番目のクラスに属するときに1、そうでなければ0の値を取る。また、c^は、分類されたクラスのラベル情報であり、第二のネットワークの出力層の各素子の出力値である。この出力値は、第二のネットワーク内で、ソフトマックス(softmax )活性化関数などで正規化されていることが望ましい。ラベル情報は、信号分類部44によって付与され、アンカー信号に予め設定される。
 パラメータ更新部48は、損失関数の計算結果に基づいて、ニューラルネットワークにおける第一のネットワークのパラメータおよび第二のネットワークのパラメータを更新する。具体的には、パラメータ更新部48は、損失関数を最小化するように、ニューラルネットワークにおける各パラメータを更新する。パラメータ更新部48は、例えば、誤差逆伝播法により、パラメータを更新してもよい。ただし、パラメータの更新方法は誤差逆伝播法に限定されず、パラメータ更新部48は、一般的に知られた方法を用いてパラメータを更新してもよい。
 出力部50は、更新された第一のネットワークを出力する。すなわち、出力部50は、入力されたニューラルネットワークから、目的信号をクラスへ分類するためのネットワーク(すなわち、第二のネットワーク)を除いたニューラルネットワークを出力する。
 抽出部60は、出力された第一のネットワークにアンカー信号および混合信号を適用して、そのアンカー信号が属するクラスの信号(目的信号)を抽出する。抽出された信号は、例えば、話者識別などに利用することが可能である。
 例えば、非特許文献1に記載された方法では、上記式2に例示する損失関数を最適化する処理を行う。しかし、上述するように、再構築マスクMf,tおよび再構築される話者のスペクトログラムSf,t msの真の値は、一般には不明であるため、再構築マスクの精度を向上させるには限界がある。一方、本実施形態では、学習部40が、上記に示す式3の損失関数(すなわち、クラス間の損失関数)を最適化するようにニューラルネットワークを学習する。そのため、観測される信号から各クラスに属する信号を精度よく抽出できる再構築マスクを学習することが可能になる。
 ニューラルネットワーク入力部10と、アンカー信号入力部20と、混合信号入力部30と、学習部40(より詳しくは、再構築マスク推定部42と、信号分類部44と、損失計算部46と、パラメータ更新部48)と、出力部50と、抽出部60とは、プログラム(信号抽出学習プログラム)に従って動作するコンピュータのプロセッサ(例えば、CPU(Central Processing Unit )、GPU(Graphics Processing Unit))によって実現される。
 例えば、プログラムは、信号抽出システム100が備える記憶部(図示せず)に記憶され、プロセッサは、そのプログラムを読み込み、プログラムに従って、ニューラルネットワーク入力部10、アンカー信号入力部20、混合信号入力部30、学習部40(より詳しくは、再構築マスク推定部42と、信号分類部44と、損失計算部46と、パラメータ更新部48)、出力部50、および、抽出部60として動作してもよい。また、信号抽出システム100の機能がSaaS(Software as a Service )形式で提供されてもよい。
 ニューラルネットワーク入力部10と、アンカー信号入力部20と、混合信号入力部30と、学習部40(より詳しくは、再構築マスク推定部42と、信号分類部44と、損失計算部46と、パラメータ更新部48)と、出力部50と、抽出部60とは、それぞれが専用のハードウェアで実現されていてもよい。また、各装置の各構成要素の一部又は全部は、汎用または専用の回路(circuitry )、プロセッサ等やこれらの組合せによって実現されもよい。これらは、単一のチップによって構成されてもよいし、バスを介して接続される複数のチップによって構成されてもよい。各装置の各構成要素の一部又は全部は、上述した回路等とプログラムとの組合せによって実現されてもよい。
 また、信号抽出システム100の各構成要素の一部又は全部が複数の情報処理装置や回路等により実現される場合には、複数の情報処理装置や回路等は、集中配置されてもよいし、分散配置されてもよい。例えば、情報処理装置や回路等は、クライアントサーバシステム、クラウドコンピューティングシステム等、各々が通信ネットワークを介して接続される形態として実現されてもよい。
 次に、本実施形態の信号抽出システム100の動作を説明する。図3は、本実施形態の信号抽出システム100の動作例を示すフローチャートである。ニューラルネットワーク入力部10は、第一のネットワークと、第二のネットワークとが結合されたニューラルネットワークを入力する(ステップS11)。
 アンカー信号入力部20は、アンカー信号を入力し(ステップS12)、混合信号入力部30は、混合信号を入力する(ステップS13)。学習部40(より具体的には、再構築マスク推定部42)は、入力されたアンカー信号および混合信号を第一のネットワークに適用して、アンカー信号が属するクラスの再構築マスクを推定する(ステップS14)。
 学習部40(より具体的には、信号分類部44)は、推定された再構築マスクに混合信号を適用して目的信号を抽出し、抽出された目的信号を第二のネットワークに適用してクラスに分類する(ステップS15)。学習部40(より具体的には、損失計算部46)は、抽出された目的信号が分類されたクラスと、真のクラスとの損失関数を計算する(ステップS16)。
 学習部40(より具体的には、信号分類部44)は、損失関数の計算結果に基づいて、ニューラルネットワークにおける第一のネットワークのパラメータおよび第二のネットワークのパラメータを更新する(ステップS17)。そして、出力部50は、更新された第一のネットワークを出力する(ステップS18)。
 図4は、本実施形態の信号抽出システム100の他の動作例を示すフローチャートである。抽出部60は、出力された第一のネットワークを入力する(ステップS21)。また、アンカー信号入力部20は、アンカー信号を入力し(ステップS22)、混合信号入力部30は、混合信号を入力する(ステップS23)。そして、抽出部60は、入力されたアンカー信号および混合信号を第一のネットワークに適用して再構築マスクを推定し(ステップS24)、推定された再構築マスクを混合信号に適用して目的信号を抽出する(ステップS25)。
 以上のように、本実施形態では、ニューラルネットワーク入力部10が、第一のネットワークと第二のネットワークとが結合されたニューラルネットワークを入力し、再構築マスク推定部42が、アンカー信号および混合信号を第一のネットワークに適用して、アンカー信号が属するクラスの再構築マスクを推定する。また、信号分類部44が、推定された再構築マスクに混合信号を適用して目的信号を抽出し、抽出された目的信号を第二のネットワークに適用してクラスに分類する。そして、損失計算部46が、抽出された目的信号が分類されたクラスと、真のクラスとの損失関数を計算し、パラメータ更新部48が、損失関数の計算結果に基づいて、ニューラルネットワークにおける第一のネットワークのパラメータおよび第二のネットワークのパラメータを更新する。その後、出力部50が、更新された第一のネットワークを出力する。
 このような構成により、第一のネットワークにより推定される再構築マスクの精度を向上させることができる。その結果、観測される混合信号から各クラスに属する信号を精度よく抽出できる。
 また、本実施形態の信号抽出システムは、例えば、以下に例示するような任意のクラスの信号を抽出するシステムとして実現可能である。
 ・混在した発話から、特定の話者、性別、年齢、言語、感情のクラスの信号を抽出するシステム
 ・混在した音楽から特定の楽器のクラスの信号を抽出するシステム
 ・混在した音声から特定の音響事象、例えば、爆発音や銃声のクラスの信号を抽出するシステム
 ・混在した電気の流れから特定の電気機器のクラスの信号を抽出するシステム
 ・混在した電波から特定の通信機器のクラスの信号を抽出するシステム
実施形態2.
 次に、本発明による信号抽出システムの第二の実施形態を説明する。第一の実施形態により推定された再構築マスクを用いることで、混合信号から各クラスに属する信号を精度よく抽出することができるようになる。さらに、本実施形態では、音声信号から、各話者の目的信号をより精度よく抽出する方法を説明する。
 音声信号から目的信号を抽出する過程では、一般的に、個々の話者の発話(セグメント)が独立に推定される。また、通常の会話において、各話者は、交互かつ排他的に話すことが一般的である。
 図5は、会話において抽出対象になる信号の例を示す説明図である。図5(a)に例示するように、一般には複数の話者(話者Aおよび話者B)の信号は、交互かつ排他的に観測され、図5(b)に例示するように同時に観測されることは稀である。本実施形態では、この会話における特性に着目し、他の信号との関係において再構築マスクを修正する方法を説明する。
 図6は、本発明による信号抽出システムの第二の実施形態の構成例を示すブロック図である。本実施形態の信号抽出システム200は、ニューラルネットワーク入力部10と、アンカー信号入力部20と、混合信号入力部30と、学習部40と、出力部50と、再構築マスク変換部52と、抽出部60とを備えている。
 すなわち、本実施形態の信号抽出システム200は、第一の実施形態の信号抽出システム100と比較し、再構築マスク変換部52を更に備えている点において異なる。それ以外の構成は、第一の実施形態と同様である。
 本実施形態では、信号抽出システム200は、複数の話者の再構築マスクを用いて、少なくとも一方の再構築マスクを変更する。そのため、アンカー信号入力部20は、複数の話者のアンカー信号を入力する。以下の説明では、二人の話者の再構築マスクを用いる場合について説明するが、話者が三人以上であっても同様である。すなわち、アンカー信号入力部20は、二人の話者のアンカー信号をそれぞれ入力する。
 混合信号入力部30は、混合信号を入力する。
 学習部40は、入力された各アンカー信号および混合信号に基づいて、話者ごとに第一のネットワークを推定し、出力部50は、生成された第一のネットワークをそれぞれ出力する。
 再構築マスク変換部52は、生成された複数の第一のネットワークを入力し、各話者のアンカー信号および混合信号を、各話者に対応する第一のネットワークに適用して再構築マスクをそれぞれ推定する。そして、再構築マスク変換部52は、推定された再構築マスクのうち、少なくとも一つを他の再構築マスクとの類似度に基づいて変換する。具体的には、再構築マスク変換部52は、他の再構築マスクの周波数との類似度が高いほど、その周波数の信頼度を小さくするように再構築マスクを変換する。
 この再構築マスク変換部52による変換は、他の再構築マスクと類似するほど対象とする再構築マスクを使用しないように変換することを意味する。再構築マスクが他の再構築マスクと類似するということは、同様の周波数の信号を異なる話者の再構築マスクで抽出しようとすることを意味する。しかし、会話においてそのような信号が発生することは稀であるため、そのような再構築マスクの信頼度を低くすることで、精度を向上させようとするものである。
 再構築マスク変換部52が類似度を算出する方法は任意である。類似度を算出する関数をSimとし、話者Aの再構築マスクの集合をMf,t 、話者Bの再構築マスクの集合をMf,t とする。このとき、周波数の類似度sは、以下に例示する式4で表される。
Figure JPOXMLDOC01-appb-M000004
 
 再構築マスク変換部52は、例えば、類似度としてコサイン類似度を算出してもよい。この場合、類似度sは、以下に例示する式5で算出される。
Figure JPOXMLDOC01-appb-M000005
 
 再構築マスク変換部52は、算出された類似度が高いほど信頼度を低くするように再構築マスクを変換する。例えば、任意の話者の再構築マスクをMf,t とすると、再構築マスク変換部52は、以下に例示する式6を用いて再構築マスクを変換してもよい。
Figure JPOXMLDOC01-appb-M000006
 
 上記式6においてαは規格化係数であり、以下に例示する式7で算出される。
Figure JPOXMLDOC01-appb-M000007
 
 抽出部60は、変換された再構築マスクを用いて目的信号を抽出する。
 ニューラルネットワーク入力部10と、アンカー信号入力部20と、混合信号入力部30と、学習部40(より詳しくは、再構築マスク推定部42と、信号分類部44と、損失計算部46と、パラメータ更新部48)と、出力部50と、再構築マスク変換部52と、抽出部60とは、プログラム(信号抽出学習プログラム)に従って動作するコンピュータのプロセッサによって実現される。
 次に、本実施形態の信号抽出システム200の動作を説明する。図7は、本実施形態の信号抽出システム200の動作例を示すフローチャートである。ここでは、図3に例示するフローチャートの処理が実行され、話者ごとの再構築マスクが生成されているものとする。
 再構築マスク変換部52は、推定された再構築マスクのうち、少なくとも一つを他の再構築マスクとの類似度に基づいて変換する(ステップS31)。抽出部60は、変換された再構築マスクを用いて目的信号を抽出する(ステップS32)。
 以上のように、本実施形態では、再構築マスク変換部52が、推定された再構築マスクのうち、少なくとも一つを他の再構築マスクとの類似度に基づいて変換し、抽出部60が、変換された再構築マスクを用いて目的信号を抽出する。よって、第一の実施形態の効果に加え、会話の性質を考慮して各話者の発話を抽出することが可能になる。
 次に、本発明の概要を説明する。図8は、本発明による信号抽出システムの概要を示すブロック図である。本発明による信号抽出システム80(例えば、信号抽出システム100)は、予め定めたクラス(例えば、ある話者)に属するアンカー信号およびそのクラスに属する目的信号(ある話者の実際の発話)を含む混合信号(例えば、音声ストリーム)を入力する層と、その混合信号において目的信号が存在する時間周波数領域を示す再構築マスクを推定結果として出力する層とを有する第一のネットワーク(例えば、TDNN、図2に例示する第一のネットワークN1)と、再構築マスクに混合信号を適用して抽出される目的信号を入力する層と入力された目的信号を予め定められたクラスへ分類した結果を出力する層とを有する第二のネットワーク(例えば、図2に例示する第二のネットワークN2)とが結合されたニューラルネットワーク(例えば、図2に例示するニューラルネットワークN3)を入力するニューラルネットワーク入力部81(例えば、ニューラルネットワーク入力部10)と、アンカー信号および混合信号を第一のネットワークに適用して、そのアンカー信号が属するクラスの再構築マスクを推定する再構築マスク推定部82(例えば、再構築マスク推定部42)と、推定された再構築マスクに混合信号を適用して目的信号を抽出し、抽出された目的信号を第二のネットワークに適用してクラスに分類する信号分類部83(例えば、信号分類部44)と、抽出された目的信号が分類されたクラスと、真のクラス(例えば、入力されたアンカー信号が属するクラス)との損失関数を計算する損失計算部84(例えば、損失計算部46)と、損失関数の計算結果に基づいて、ニューラルネットワークにおける第一のネットワークのパラメータおよび第二のネットワークのパラメータを更新するパラメータ更新部85(例えば、パラメータ更新部48)と、更新された第一のネットワークを出力する出力部86(例えば、出力部50)とを備えている。
 そのような構成により、観測される信号から各クラスに属する信号を精度よく抽出できる。
 また、信号抽出システム80(例えば、信号抽出システム200)は、推定された複数の再構築マスクのうち、少なくとも一つを他の再構築マスクとの類似度に基づいて変換する再構築マスク変換部(例えば、再構築マスク変換部52)と、変換された再構築マスクを用いて目的信号を抽出する抽出部(例えば、抽出部60)とを備えていてもよい。
 具体的には、再構築マスク変換部は、他の再構築マスクの周波数との類似度が高いほど、周波数の信頼度を小さくするように再構築マスクを変換してもよい。
 また、パラメータ更新部85は、損失関数により算出される損失を小さくするように、ニューラルネットワークにおける第一のネットワークのパラメータおよび第二のネットワークのパラメータを更新してもよい。
 また、ニューラルネットワーク入力部81は、抽出対象として想定するクラス数に相当する出力が設定された層を有する第二のネットワークが結合されたニューラルネットワークを入力してもよい。
 例えば、話者の音声を抽出る場面において、再構築マスク推定部82は、話者の発話を示すアンカー信号および音声ストリームを第一のネットワークに適用して、当該話者の再構築マスクを推定してもよい。そして、信号分類部83は、推定された再構築マスクに混合信号を適用して話者のスペクトログラムを抽出し、抽出されたスペクトログラムを第二のネットワークに適用して話者を分類してもよい。
 図9は、少なくとも1つの実施形態に係るコンピュータの構成を示す概略ブロック図である。コンピュータ1000は、プロセッサ1001、主記憶装置1002、補助記憶装置1003、インタフェース1004を備える。
 上述の信号抽出システムは、コンピュータ1000に実装される。そして、上述した各処理部の動作は、プログラム(信号抽出学習プログラム)の形式で補助記憶装置1003に記憶されている。プロセッサ1001は、プログラムを補助記憶装置1003から読み出して主記憶装置1002に展開し、当該プログラムに従って上記処理を実行する。
 なお、少なくとも1つの実施形態において、補助記憶装置1003は、一時的でない有形の媒体の一例である。一時的でない有形の媒体の他の例としては、インタフェース1004を介して接続される磁気ディスク、光磁気ディスク、CD-ROM(Compact Disc Read-only memory )、DVD-ROM(Read-only memory)、半導体メモリ等が挙げられる。また、このプログラムが通信回線によってコンピュータ1000に配信される場合、配信を受けたコンピュータ1000が当該プログラムを主記憶装置1002に展開し、上記処理を実行してもよい。
 また、当該プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、当該プログラムは、前述した機能を補助記憶装置1003に既に記憶されている他のプログラムとの組み合わせで実現するもの、いわゆる差分ファイル(差分プログラム)であってもよい。
 10 ニューラルネットワーク入力部
 20 アンカー信号入力部
 30 混合信号入力部
 40 学習部
 42 再構築マスク推定部
 44 信号分類部
 46 損失計算部
 48 パラメータ更新部
 50 出力部
 52 再構築マスク変換部
 60 抽出部
 100,200 信号抽出システム

Claims (10)

  1.  予め定めたクラスに属するアンカー信号および当該クラスに属する目的信号を含む混合信号を入力する層と前記混合信号において前記目的信号が存在する時間周波数領域を示す再構築マスクを推定結果として出力する層とを有する第一のネットワークと、前記再構築マスクに前記混合信号を適用して抽出される前記目的信号を入力する層と入力された前記目的信号を予め定められたクラスへ分類した結果を出力する層とを有する第二のネットワークとが結合されたニューラルネットワークを入力するニューラルネットワーク入力部と、
     アンカー信号および前記混合信号を前記第一のネットワークに適用して、当該アンカー信号が属するクラスの再構築マスクを推定する再構築マスク推定部と、
     推定された再構築マスクに前記混合信号を適用して目的信号を抽出し、抽出された目的信号を前記第二のネットワークに適用してクラスに分類する信号分類部と、
     抽出された目的信号が分類されたクラスと、真のクラスとの損失関数を計算する損失計算部と、
     前記損失関数の計算結果に基づいて、前記ニューラルネットワークにおける前記第一のネットワークのパラメータおよび第二のネットワークのパラメータを更新するパラメータ更新部と、
     更新された前記第一のネットワークを出力する出力部とを備えた
     ことを特徴とする信号抽出システム。
  2.  推定された複数の再構築マスクのうち、少なくとも一つを他の再構築マスクとの類似度に基づいて変換する再構築マスク変換部と、
     変換された再構築マスクを用いて目的信号を抽出する抽出部とを備えた
     請求項1記載の信号抽出システム。
  3.  再構築マスク変換部は、他の再構築マスクの周波数との類似度が高いほど、周波数の信頼度を小さくするように再構築マスクを変換する
     請求項2記載の信号抽出システム。
  4.  パラメータ更新部は、損失関数により算出される損失を小さくするように、ニューラルネットワークにおける第一のネットワークのパラメータおよび第二のネットワークのパラメータを更新する
     請求項1から請求項3のうちのいずれか1項に記載の信号抽出システム。
  5.  ニューラルネットワーク入力部は、抽出対象として想定するクラス数に相当する出力が設定された層を有する第二のネットワークが結合されたニューラルネットワークを入力する
     請求項1から請求項4のうちのいずれか1項に記載の信号抽出システム。
  6.  再構築マスク推定部は、話者の発話を示すアンカー信号および音声ストリームを第一のネットワークに適用して、当該話者の再構築マスクを推定し、
     信号分類部は、推定された再構築マスクに混合信号を適用して話者のスペクトログラムを抽出し、抽出されたスペクトログラムを第二のネットワークに適用して話者を分類する
     請求項1から請求項5のうちのいずれか1項に記載の信号抽出システム。
  7.  予め定めたクラスに属するアンカー信号および当該クラスに属する目的信号を含む混合信号を入力する層と前記混合信号において前記目的信号が存在する時間周波数領域を示す再構築マスクを推定結果として出力する層とを有する第一のネットワークと、前記再構築マスクに前記混合信号を適用して抽出される前記目的信号を入力する層と入力された前記目的信号を予め定められたクラスへ分類した結果を出力する層とを有する第二のネットワークとが結合されたニューラルネットワークを入力し、
     アンカー信号および前記混合信号を前記第一のネットワークに適用して、当該アンカー信号が属するクラスの再構築マスクを推定し、
     推定された再構築マスクに前記混合信号を適用して目的信号を抽出し、抽出された目的信号を前記第二のネットワークに適用してクラスに分類し、
     抽出された目的信号が分類されたクラスと、真のクラスとの損失関数を計算し、
     前記損失関数の計算結果に基づいて、前記ニューラルネットワークにおける前記第一のネットワークのパラメータおよび第二のネットワークのパラメータを更新し、
     更新された前記第一のネットワークを出力する
     ことを特徴とする信号抽出学習方法。
  8.  推定された複数の再構築マスクのうち、少なくとも一つを他の再構築マスクとの類似度に基づいて変換し、
     変換された再構築マスクを用いて目的信号を抽出する
     請求項7記載の信号抽出学習方法。
  9.  コンピュータに、
     予め定めたクラスに属するアンカー信号および当該クラスに属する目的信号を含む混合信号を入力する層と前記混合信号において前記目的信号が存在する時間周波数領域を示す再構築マスクを推定結果として出力する層とを有する第一のネットワークと、前記再構築マスクに前記混合信号を適用して抽出される前記目的信号を入力する層と入力された前記目的信号を予め定められたクラスへ分類した結果を出力する層とを有する第二のネットワークとが結合されたニューラルネットワークを入力するニューラルネットワーク入力処理、
     アンカー信号および前記混合信号を前記第一のネットワークに適用して、当該アンカー信号が属するクラスの再構築マスクを推定する再構築マスク推定処理、
     推定された再構築マスクに前記混合信号を適用して目的信号を抽出し、抽出された目的信号を前記第二のネットワークに適用してクラスに分類する信号分類処理、
     抽出された目的信号が分類されたクラスと、真のクラスとの損失関数を計算する損失計算処理、
     前記損失関数の計算結果に基づいて、前記ニューラルネットワークにおける前記第一のネットワークのパラメータおよび第二のネットワークのパラメータを更新するパラメータ更新処理、および、
     更新された前記第一のネットワークを出力する出力処理
     を実行させるための信号抽出学習プログラム。
  10.  コンピュータに、
     推定された複数の再構築マスクのうち、少なくとも一つを他の再構築マスクとの類似度に基づいて変換する再構築マスク変換処理、および、
     変換された再構築マスクを用いて目的信号を抽出する抽出処理を実行させる
     請求項9記載の信号抽出学習プログラム。
PCT/JP2019/021038 2019-05-28 2019-05-28 信号抽出システム、信号抽出学習方法および信号抽出学習プログラム WO2020240682A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201980096829.7A CN113892136A (zh) 2019-05-28 2019-05-28 信号提取系统、信号提取学习方法以及信号提取学习程序
JP2021521610A JP7176627B2 (ja) 2019-05-28 2019-05-28 信号抽出システム、信号抽出学習方法および信号抽出学習プログラム
EP19930251.4A EP3979240A4 (en) 2019-05-28 2019-05-28 SIGNAL EXTRACTION SYSTEM, SIGNAL EXTRACTION TRAINING PROCEDURE AND SIGNAL EXTRACTION TUTORIAL PROGRAM
US17/612,736 US11900949B2 (en) 2019-05-28 2019-05-28 Signal extraction system, signal extraction learning method, and signal extraction learning program
PCT/JP2019/021038 WO2020240682A1 (ja) 2019-05-28 2019-05-28 信号抽出システム、信号抽出学習方法および信号抽出学習プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/021038 WO2020240682A1 (ja) 2019-05-28 2019-05-28 信号抽出システム、信号抽出学習方法および信号抽出学習プログラム

Publications (1)

Publication Number Publication Date
WO2020240682A1 true WO2020240682A1 (ja) 2020-12-03

Family

ID=73552073

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/021038 WO2020240682A1 (ja) 2019-05-28 2019-05-28 信号抽出システム、信号抽出学習方法および信号抽出学習プログラム

Country Status (5)

Country Link
US (1) US11900949B2 (ja)
EP (1) EP3979240A4 (ja)
JP (1) JP7176627B2 (ja)
CN (1) CN113892136A (ja)
WO (1) WO2020240682A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022149196A1 (ja) * 2021-01-05 2022-07-14 日本電信電話株式会社 抽出装置、抽出方法、学習装置、学習方法及びプログラム
WO2023281717A1 (ja) * 2021-07-08 2023-01-12 日本電信電話株式会社 話者ダイアライゼーション方法、話者ダイアライゼーション装置および話者ダイアライゼーションプログラム
JP7414214B1 (ja) 2023-08-30 2024-01-16 学校法人幾徳学園 学習モデル作成方法、学習モデル作成装置、背景音除去方法、および背景音除去装置

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210089295A (ko) * 2020-01-07 2021-07-16 엘지전자 주식회사 인공지능 기반의 정보 처리 방법

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018508799A (ja) * 2015-12-30 2018-03-29 バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド 声紋認証処理方法及び装置
WO2019017403A1 (ja) * 2017-07-19 2019-01-24 日本電信電話株式会社 マスク計算装置、クラスタ重み学習装置、マスク計算ニューラルネットワーク学習装置、マスク計算方法、クラスタ重み学習方法及びマスク計算ニューラルネットワーク学習方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170061978A1 (en) * 2014-11-07 2017-03-02 Shannon Campbell Real-time method for implementing deep neural network based speech separation
US10347271B2 (en) 2015-12-04 2019-07-09 Synaptics Incorporated Semi-supervised system for multichannel source enhancement through configurable unsupervised adaptive transformations and supervised deep neural network
US11373672B2 (en) * 2016-06-14 2022-06-28 The Trustees Of Columbia University In The City Of New York Systems and methods for speech separation and neural decoding of attentional selection in multi-speaker environments
CN107221320A (zh) 2017-05-19 2017-09-29 百度在线网络技术(北京)有限公司 训练声学特征提取模型的方法、装置、设备和计算机存储介质
US10529349B2 (en) * 2018-04-16 2020-01-07 Mitsubishi Electric Research Laboratories, Inc. Methods and systems for end-to-end speech separation with unfolded iterative phase reconstruction
CN110176226B (zh) 2018-10-25 2024-02-02 腾讯科技(深圳)有限公司 一种语音识别、及语音识别模型训练方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018508799A (ja) * 2015-12-30 2018-03-29 バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド 声紋認証処理方法及び装置
WO2019017403A1 (ja) * 2017-07-19 2019-01-24 日本電信電話株式会社 マスク計算装置、クラスタ重み学習装置、マスク計算ニューラルネットワーク学習装置、マスク計算方法、クラスタ重み学習方法及びマスク計算ニューラルネットワーク学習方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
DAVID SNYDER ET AL.: "X-Vectors: Robust DNN Embeddings for Speaker Recognition", ICASSP 2018 - 2018 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP, April 2018 (2018-04-01)
JUN WANG ET AL.: "Deep Extractor Network for Target Speaker Recovery From Single Channel Speech Mixtures", INTERSPEECH 2018, 2 September 2018 (2018-09-02)
See also references of EP3979240A4

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022149196A1 (ja) * 2021-01-05 2022-07-14 日本電信電話株式会社 抽出装置、抽出方法、学習装置、学習方法及びプログラム
WO2023281717A1 (ja) * 2021-07-08 2023-01-12 日本電信電話株式会社 話者ダイアライゼーション方法、話者ダイアライゼーション装置および話者ダイアライゼーションプログラム
JP7414214B1 (ja) 2023-08-30 2024-01-16 学校法人幾徳学園 学習モデル作成方法、学習モデル作成装置、背景音除去方法、および背景音除去装置

Also Published As

Publication number Publication date
CN113892136A (zh) 2022-01-04
EP3979240A1 (en) 2022-04-06
JP7176627B2 (ja) 2022-11-22
JPWO2020240682A1 (ja) 2020-12-03
US20220238119A1 (en) 2022-07-28
US11900949B2 (en) 2024-02-13
EP3979240A4 (en) 2022-06-15

Similar Documents

Publication Publication Date Title
WO2020240682A1 (ja) 信号抽出システム、信号抽出学習方法および信号抽出学習プログラム
US10699698B2 (en) Adaptive permutation invariant training with auxiliary information for monaural multi-talker speech recognition
KR101704926B1 (ko) 음향 환경 분류를 이용한 심화신경망의 앙상블이 구성된 통계모델 기반의 음성 검출 장치 및 음성 검출 방법
KR101807948B1 (ko) 잔향 환경에서의 음성인식을 위한 결합 학습된 심화신경망 앙상블 기반의 음향 모델 및 이를 이용한 음성인식 방법
US8554562B2 (en) Method and system for speaker diarization
Sun et al. Speaker diarization system for RT07 and RT09 meeting room audio
KR102294638B1 (ko) 잡음 환경에 강인한 화자 인식을 위한 심화 신경망 기반의 특징 강화 및 변형된 손실 함수를 이용한 결합 학습 방법 및 장치
KR20200080681A (ko) 음성 합성 방법 및 장치
US11417344B2 (en) Information processing method, information processing device, and recording medium for determining registered speakers as target speakers in speaker recognition
KR101618512B1 (ko) 가우시안 혼합모델을 이용한 화자 인식 시스템 및 추가 학습 발화 선택 방법
JP6348427B2 (ja) 雑音除去装置及び雑音除去プログラム
JP6992873B2 (ja) 音源分離装置、音源分離方法およびプログラム
WO2021171956A1 (ja) 話者識別装置、話者識別方法、及び、プログラム
WO2012105386A1 (ja) 有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム
JP5083951B2 (ja) 音声処理装置およびプログラム
KR20170124854A (ko) 음성/비음성 구간 검출 장치 및 방법
US20220189496A1 (en) Signal processing device, signal processing method, and program
JP5496945B2 (ja) 話者分類装置、話者分類方法、プログラム
Chellali et al. Middle eastern and north african english speech corpus (MENAESC): automatic identification of MENA english accents.
JPWO2020049687A1 (ja) 音声処理装置、音声処理方法、およびプログラム
Karthik et al. Performance Analysis of Acoustic Scene Classification Using ANN and CNN Techniques
Devi et al. Automatic speaker recognition from speech signal using principal component analysis and artificial neural network
WO2023152915A1 (ja) 信号処理装置、信号処理方法、および、信号処理プログラム
US11250871B2 (en) Acoustic signal separation device and acoustic signal separating method
TN et al. An Improved Method for Speech Enhancement Using Convolutional Neural Network Approach

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19930251

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021521610

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2019930251

Country of ref document: EP

Effective date: 20220103