WO2023223529A1 - 情報処理装置、プログラム及び情報処理方法 - Google Patents

情報処理装置、プログラム及び情報処理方法 Download PDF

Info

Publication number
WO2023223529A1
WO2023223529A1 PCT/JP2022/020921 JP2022020921W WO2023223529A1 WO 2023223529 A1 WO2023223529 A1 WO 2023223529A1 JP 2022020921 W JP2022020921 W JP 2022020921W WO 2023223529 A1 WO2023223529 A1 WO 2023223529A1
Authority
WO
WIPO (PCT)
Prior art keywords
noise
acoustic
unit
feature
estimation
Prior art date
Application number
PCT/JP2022/020921
Other languages
English (en)
French (fr)
Inventor
龍 相原
Original Assignee
三菱電機株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 三菱電機株式会社 filed Critical 三菱電機株式会社
Priority to PCT/JP2022/020921 priority Critical patent/WO2023223529A1/ja
Priority to JP2024511961A priority patent/JPWO2023223529A1/ja
Publication of WO2023223529A1 publication Critical patent/WO2023223529A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Definitions

  • the present disclosure relates to an information processing device, a program, and an information processing method.
  • Speech recognition processing for recognizing speech has been performed for some time now. Normally, speech recognition processing is affected by noise other than the target speech, so if noise is included, the accuracy of speech recognition will be greatly reduced. Therefore, it is necessary to extract the target speech from the speech mixed with noise.
  • Non-Patent Document 1 proposes a method of learning pair data of mixed speech and target speech using a neural network (NN) and extracting the target speech from the mixed speech.
  • NN neural network
  • the conventional method of learning sounds that are a mixture of speech and non-speech has a problem in that the speech enhancement performance deteriorates for unlearned non-speech.
  • one or more aspects of the present disclosure aim to enable speech enhancement to be performed even for unknown noise that is not included in learning data.
  • the information processing device uses a predetermined function to obtain the target voice from mixed voice data including a target voice to be emphasized and mixed noise that is noise mixed with the target voice.
  • an acoustic component calculation unit that calculates an acoustic component that is a component of voice and the mixed noise; and inputting the acoustic component to a feature estimation model trained to estimate acoustic feature amounts of voice and noise.
  • an acoustic feature amount estimation unit that estimates an acoustic feature amount, and a noise component that calculates a noise component that is a noise component using the predetermined function from noise data that does not include the target speech but includes noise.
  • a component calculation unit a noise feature estimation unit that estimates a noise feature by inputting the noise component to a noise estimation model learned to estimate an acoustic feature of noise; and the acoustic feature.
  • the acoustic feature amount By inputting the amount and the noise feature amount into a correlation estimation model learned to estimate the correlation between the acoustic feature amount of speech and noise and the acoustic feature amount of noise, the acoustic feature amount a correlation estimation unit that estimates a correlation with the noise feature; a feature integration unit that calculates an integrated feature by weighting the acoustic feature using the estimated correlation; a mask estimator that estimates a target audio mask by inputting the amount into a voice enhancement model learned to estimate a mask for emphasizing the voice;
  • the present invention is characterized by comprising a voice restoring unit that restores the voice with the voice emphasized.
  • a program causes a computer to use a predetermined function to calculate the target voice from mixed voice data including a target voice to be emphasized and mixed noise that is noise to be mixed with the target voice.
  • an acoustic component calculation unit that calculates an acoustic component that is a component of the target voice and the mixed noise; , an acoustic feature estimation unit that estimates an acoustic feature; a noise component that calculates a noise component that is a noise component from noise data that does not include the target speech but includes noise, using the predetermined function; a calculation unit, a noise feature estimation unit that estimates a noise feature by inputting the noise component into a noise estimation model trained to estimate an acoustic feature of noise; a noise feature estimation unit that estimates a noise feature; By inputting the noise feature amount into a correlation estimation model learned to estimate the correlation between the acoustic feature amount of speech and noise and the acoustic feature amount of noise, the acoustic feature amount and the a correlation
  • An information processing method uses a predetermined function to obtain the target voice from mixed voice data including a target voice to be emphasized and mixed noise that is noise mixed with the target voice.
  • Acoustic features are calculated by calculating acoustic components that are components of speech and the mixed noise, and inputting the acoustic components into a feature estimation model that has been trained to estimate acoustic features of speech and noise.
  • a noise component which is a noise component, is calculated using the predetermined function from the noise data that does not include the target speech but includes noise, and the noise component is calculated based on the acoustic characteristics of the noise.
  • the noise feature amount is estimated by inputting it into the noise estimation model learned to estimate the noise amount, and the acoustic feature amount and the noise feature amount are combined with the acoustic feature amount of speech and noise, and the noise acoustic feature amount.
  • the correlation between the acoustic feature and the noise feature is estimated by inputting the learned correlation estimation model to estimate the correlation with the acoustic feature.
  • the target speech mask is calculated by weighting the integrated feature by weighting the correlation and inputting the integrated feature into a speech enhancement model that has been trained to estimate a mask for enhancing speech.
  • the method is characterized in that a voice with an emphasis on the target voice is restored from the acoustic component and the target voice mask.
  • FIG. 1 is a block diagram schematically showing the configuration of a speech enhancement system according to embodiments 1 to 4.
  • FIG. 1 is a block diagram schematically showing the configuration of a learning device in Embodiment 1.
  • FIG. (A) and (B) are block diagrams showing examples of hardware configurations.
  • 1 is a block diagram schematically showing the configuration of a voice enhancement device in Embodiment 1.
  • FIG. 3 is a flowchart showing the operation of the learning device in the first embodiment. 3 is a flowchart showing the operation of the voice enhancement device in the first embodiment.
  • FIG. 2 is a block diagram schematically showing the configuration of a speech enhancement device in Embodiment 2.
  • FIG. 7 is a flowchart showing the operation of the voice enhancement device in Embodiment 2.
  • FIG. 3 is a block diagram schematically showing the configuration of a learning device in Embodiment 3.
  • FIG. 12 is a block diagram schematically showing the configuration of a voice enhancement device in Embodiment 3.
  • FIG. 3 is a flowchart showing the operation of the learning device in the first embodiment. 12 is a flowchart showing the operation of the voice enhancement device in Embodiment 3.
  • FIG. 3 is a block diagram schematically showing the configuration of a voice enhancement device in Embodiment 4.
  • FIG. 12 is a flowchart showing the operation of the voice enhancement device in Embodiment 4.
  • FIG. 1 is a block diagram schematically showing the configuration of a speech enhancement system 100 according to the first embodiment.
  • the speech enhancement system 100 includes a learning device 110 and a speech enhancement device 130 as an information processing device.
  • the learning device 110 includes a feature estimation NN which is a feature estimation model for estimating the acoustic features of speech and noise, a noise estimation NN which is a noise estimation model for estimating the acoustic features of noise, and speech. and a correlation estimation NN which is a correlation estimation model for estimating the correlation between the acoustic feature amount of noise and the acoustic feature amount of noise, and a speech enhancement model for estimating a mask for enhancing speech.
  • a learning model that functions as a certain speech enhancement NN is learned.
  • the speech enhancement device 130 obtains the learned feature estimation NN, noise estimation NN, correlation estimation NN, and speech enhancement NN from the learning device 110, and uses these learning models to enhance the target speech from the mixed speech. do.
  • the learning phase is a phase in which the learning device 110 learns the learning model used by the speech enhancement device 130.
  • the inference phase is a phase in which the speech enhancement device 130 enhances the target speech from the mixed speech using the learning model learned by the learning device.
  • FIG. 2 is a block diagram schematically showing the configuration of learning device 110 in the first embodiment.
  • the learning device 110 includes a voice data storage section 111, a noise data storage section 112, a voice mixing section 113, a component calculation section 114, a teacher mask estimation section 115, a model learning section 116, a model storage section 117, A communication section 118 is provided.
  • the audio data storage unit 111 stores learning audio data indicating a target learning audio that is a target audio for learning.
  • the noise data storage unit 112 stores learning noise data indicating learning noise that is learning noise.
  • the audio mixing unit 113 acquires the learning audio data from the audio data storage unit 111 and the learning noise data from the noise data storage unit 112, and combines the learning target audio indicated by the learning audio data with the learning noise data.
  • a mixed speech is generated by selecting the learning noise indicated by and superimposing them, and providing the target speech and the mixed speech to the component calculation unit 114.
  • the component calculation unit 114 calculates a target audio component that is a component of the target audio from the audio mixing unit 113, and calculates a mixed audio component that is a component of the mixed audio from the audio mixing unit 113.
  • the component calculation unit 114 uses, as the audio component, a time series of the power spectrum calculated from the audio signal by short-time Fourier transform (STFT).
  • STFT short-time Fourier transform
  • the teacher mask estimation unit 115 generates a teacher mask from the target audio component and mixed audio component from the component calculation unit 114. For example, the teacher mask estimates the power spectrum of the target voice and the mixed voice from each of the target voice component and the mixed voice component, and sets the ratio of the power spectrum of the target voice to the mixed voice as the teacher mask.
  • the teacher mask is provided to the model learning unit 116.
  • the model learning unit 116 receives mixed speech from the audio mixing unit 113, learning noise data from the noise data storage unit 112, and a teacher mask from the teacher mask estimation unit 115, and learns the NN.
  • Learning of the NN is a process of determining input weighting coefficients that are parameters of the NN.
  • the feature estimation NN, noise estimation NN, correlation estimation NN, and speech enhancement NN are combined and input to the loss function shown in the following literature, for example, and the error is calculated based on the target speech for learning. Ru.
  • the input weight coefficients of each layer of the feature estimation NN, noise estimation NN, correlation estimation NN, and speech enhancement NN are determined based on the back error propagation method. All you have to do is learn.
  • the generated feature estimation NN, noise estimation NN, correlation estimation NN, and voice enhancement NN are stored in the model storage unit 117.
  • the model storage unit 117 stores the feature estimation NN, noise estimation NN, correlation estimation NN, and voice enhancement NN learned by the model learning unit 116.
  • the communication unit 118 functions as a transmitting unit that transmits the feature estimation NN, noise estimation NN, correlation estimation NN, and voice enhancement NN stored in the model storage unit 117 to the voice enhancement device 130.
  • Part or all of the audio mixing unit 113, component calculation unit 114, teacher mask estimation unit 115, and model learning unit 116 described above may be connected to the memory 10 as shown in FIG. 3(A), for example. , and a processor 11 such as a CPU (Central Processing Unit) that executes a program stored in the memory 10.
  • the learning device can be realized by a so-called computer.
  • a program may be provided through a network, or may be provided recorded on a recording medium. That is, such a program may be provided as a program product, for example.
  • the voice mixing unit 113, component calculation unit 114, teacher mask estimation unit 115, and model learning unit 116 may be configured as a single circuit or a composite circuit, for example, as shown in FIG. 3(B).
  • a processor that operates on a program a parallel processor that operates on a program, an ASIC (Application Specific Integrated Circuit), or an FPGA (Field Programmable Gate Array).
  • the audio mixing section 113, the component calculating section 114, the teacher mask estimating section 115, and the model learning section 116 can be realized by a processing circuit network.
  • the audio data storage section 111, the noise data storage section 112, and the model storage section 117 can be realized by a storage device (not shown) such as an HDD (Hard Disk Drive), an SSD (Solid State Drive), or a nonvolatile memory.
  • a storage device such as an HDD (Hard Disk Drive), an SSD (Solid State Drive), or a nonvolatile memory.
  • the communication unit 118 can be realized by a communication interface such as a NIC (Network Interface Card).
  • FIG. 4 is a block diagram schematically showing the configuration of speech enhancement device 130 in the first embodiment.
  • the speech enhancement device 130 includes a communication section 131, a feature estimation NN storage section 132, a noise estimation NN storage section 133, a correlation estimation NN storage section 134, a speech enhancement NN storage section 135, and a noise mixed speech acquisition section 136. , a noise acquisition unit 137, an acoustic component calculation unit 138, an acoustic feature estimation unit 139, a noise component calculation unit 140, a noise feature estimation unit 141, a correlation estimation unit 142, a feature integration unit 143, It includes a mask estimation section 144 and a voice restoration section 145.
  • the communication unit 131 functions as a receiving unit that receives the feature estimation NN, noise estimation NN, correlation estimation NN, and voice enhancement NN from the learning device 110.
  • the feature estimation NN storage unit 132 stores the feature estimation NN received by the communication unit 131.
  • the noise estimation NN storage section 133 stores the noise estimation NN received by the communication section 131.
  • the correlation estimation NN storage unit 134 stores the correlation estimation NN received by the communication unit 131.
  • the voice enhancement NN storage unit 135 stores the voice enhancement NN received by the communication unit 131.
  • the noise mixed audio acquisition unit 136 acquires mixed audio data indicating a mixed audio including target audio and noise, recorded by a microphone (not shown) functioning as a sound collection unit. Noise included in mixed audio data is also called mixed noise.
  • the noise mixed voice acquisition unit 136 may acquire mixed voice data via the communication unit 131, or may acquire mixed voice data from a microphone connected to a connection interface such as a USB (Universal Serial Bus). You may obtain it.
  • the mixed voice data here is also referred to as inference mixed voice data, and the mixed voice indicated by the inference mixed voice data is also referred to as inference mixed voice.
  • the communication unit 131 or the connection interface functions as an interface (input interface) or an interface unit (input interface unit) that receives data input.
  • the noise acquisition unit 137 acquires noise data that indicates noise and does not include the target voice, which was recorded by the microphone.
  • the noise mixed audio acquisition unit 136 may acquire noise data via the communication unit 131, or may acquire noise data from a microphone connected to the connection interface.
  • the noise for example, sound before and after a certain period of time when a mixed voice including the target voice and noise is input to the microphone can be used.
  • the noise data here is also referred to as inference noise data
  • the noise indicated by the inference noise data is also referred to as inference noise.
  • the acoustic component calculation unit 138 calculates an acoustic component from the target voice to be emphasized and mixed voice data including mixed noise, which is noise mixed with the target voice, using a predetermined function. For example, the acoustic component calculation unit 138 receives the inference mixed voice data from the noise mixed voice acquisition unit 136, and calculates the acoustic component from the mixed voice indicated by the inference mixed voice data.
  • the acoustic component is, for example, a time series of a power spectrum calculated from an audio signal by short-time Fourier transform (STFT).
  • STFT short-time Fourier transform
  • the acoustic components are provided to the acoustic feature amount estimating section 139 and the audio restoring section 145.
  • the acoustic feature estimation unit 139 inputs the acoustic components from the acoustic component calculation unit 138 into a feature estimation NN, which is a feature estimation model trained to estimate acoustic features of speech and noise. Estimate acoustic features.
  • the acoustic feature estimation unit 139 inputs the acoustic component received from the acoustic component calculation unit 138 into the feature estimation NN stored in the feature estimation NN storage unit 132, and estimates the acoustic feature.
  • the feature estimation NN is a neural network composed of multiple layers, and for propagation between layers, for example, a method similar to LSTM (Long Short Term Memory) or a method combining one-dimensional convolution operations may be used. , the number of layers does not matter.
  • the acoustic feature amount is provided to a correlation estimation section 142 and a feature amount integration section 143.
  • the noise component calculation unit 140 calculates a noise component from noise data that does not include target speech but includes noise, using a predetermined function. For example, the noise component calculation unit 140 receives inference noise data from the noise acquisition unit 137, and calculates a noise component from the noise indicated by the inference noise data.
  • the noise component is, for example, a time series of a power spectrum calculated from an audio signal by short-time Fourier transform (STFT).
  • STFT short-time Fourier transform
  • the noise feature estimation unit 141 inputs the noise component from the noise component calculation unit 140 into a noise estimation NN, which is a noise estimation model trained to estimate the acoustic feature of noise, thereby calculating the noise feature. Estimate the amount.
  • the noise feature estimation unit 141 inputs the noise component from the noise component calculation unit 140 to the noise estimation NN stored in the noise estimation NN storage unit 133, and estimates the noise feature.
  • the noise estimation NN is a neural network composed of multiple layers, and for propagation between layers, for example, a method similar to LSTM or a method combining one-dimensional convolution operations may be used, or The number doesn't matter.
  • the correlation estimation unit 142 converts the acoustic feature amount and the noise feature amount into a correlation estimation model that is a learned correlation estimation model for estimating the correlation between the acoustic feature amount of speech and noise and the acoustic feature amount of noise. By inputting it to the estimation NN, the correlation between the acoustic feature and the noise feature is estimated.
  • the correlation estimation unit 142 uses the acoustic feature estimated by the acoustic feature estimation unit 139 and the noise feature estimated by the noise feature estimation unit 141 to perform the correlation estimation stored in the correlation estimation NN storage unit 134. input into the NN and estimate the correlation between the two feature quantities.
  • the correlation is provided to the feature amount integration unit 143.
  • the feature amount integrating unit 143 calculates an integrated feature amount by weighting the acoustic feature amount using the estimated correlation. For example, the feature amount integrating section 143 integrates the acoustic feature amount from the acoustic feature amount estimating section 139 and the correlation from the correlation estimating section 142. Integration means converting these two matrix representations into one matrix representation. For example, if the acoustic feature is a time-frequency representation of N x time, and the correlation is a time-frequency representation of M x time, these can be connected on a frequency axis different from time to create a time-frequency representation of (N+M) x time. It may be expressed as an element product of two matrices by unifying the number of dimensions of the frequency axis of the acoustic feature amount and the correlation through some dimensional transformation.
  • the mask estimating unit 144 estimates a target speech mask by inputting the integrated feature amount to a speech enhancement NN which is a speech enhancement model learned to estimate a mask for enhancing speech.
  • the mask estimation unit 144 receives the integrated feature quantity from the feature quantity integration unit 143 and estimates a mask using the voice enhancement NN stored in the voice enhancement NN storage unit 135.
  • a speech enhancement NN is a neural network composed of multiple layers, and for propagation between layers, for example, a method similar to LSTM or a method combining one-dimensional convolution operations may be used, and the number of layers may be used. do not have.
  • the mask is a time-frequency representation of the same size when the acoustic component is a time-frequency representation of N ⁇ time.
  • the mask estimation unit 144 may estimate only a target voice mask that emphasizes the target voice from the mixed voice, or may also estimate a noise mask that conversely emphasizes noise from the mixed voice, for example.
  • the target voice mask which is a mask that emphasizes the target voice estimated here, is provided to the voice restoration unit 145.
  • the audio restoration unit 145 restores audio with the target audio emphasized from the acoustic components and the target audio mask.
  • the audio restoration unit 145 applies the target audio mask from the mask estimation unit 144 to the audio components from the audio component calculation unit 138, and further uses, for example, inverse short-time Fourier transform (iSTFT) to Restore the signal.
  • iSTFT inverse short-time Fourier transform
  • Some or all of the integrating unit 143, mask estimating unit 144, and audio restoring unit 145 execute the memory 10 and the program stored in the memory 10, as shown in FIG. 3(A), for example. It can be configured with a processor 11 such as a CPU.
  • Such a program may be provided through a network, or may be provided recorded on a recording medium. That is, such a program may be provided as a program product, for example.
  • a noise mixed speech acquisition section 136, a noise acquisition section 137, an acoustic component calculation section 138, an acoustic feature estimation section 139, a noise component calculation section 140, a noise feature estimation section 141, a correlation estimation section 142, a feature integration section 143 , a part or all of the mask estimating unit 144 and the audio restoring unit 145 may be, for example, a single circuit, a composite circuit, a processor operating on a program, or a parallel processor operating on a program, as shown in FIG. It can also be configured with a processing circuit 12 such as a processor, ASIC, or FPGA.
  • the integrating unit 143, the mask estimating unit 144, and the audio restoring unit 145 can be realized by a processing circuit network.
  • FIG. 5 is a flowchart showing the operation of learning device 110 in the first embodiment.
  • the audio mixing unit 113 acquires the learning audio data from the audio data storage unit 111 and the learning noise data from the noise data storage unit 112, and combines the learning target audio indicated by the learning audio data with the noise data.
  • a mixed sound is generated by superimposing the sound and the noise (S10).
  • the component calculating unit 114 calculates a target audio component and a mixed audio component from the target audio and mixed audio from the audio mixing unit 113, respectively (S11).
  • the teacher mask estimation unit 115 generates a teacher mask from the target audio component and mixed audio component from the component calculation unit 114 (S12).
  • the model learning section 116 receives the mixed speech from the speech mixing section 113, the learning noise data from the noise data storage section 112, and the teacher mask from the teacher mask estimating section 115, and learns the NN to perform feature estimation.
  • a NN, a noise estimation NN, a correlation estimation NN, and a voice enhancement NN are generated (S13).
  • the feature estimation NN, noise estimation NN, correlation estimation NN, and speech enhancement NN generated by learning the NN are stored in the model storage unit 117 and sent to the speech enhancement device 130.
  • FIG. 6 is a flowchart showing the operation of the voice enhancement device 130 in the first embodiment.
  • the acoustic component calculation unit 138 receives the inference mixed voice data from the noise mixed voice acquisition unit 136, and calculates an acoustic component from the mixed voice indicated by the inference mixed voice data (S20).
  • the acoustic feature estimation unit 139 inputs the acoustic component received from the acoustic component calculation unit 138 into the feature estimation NN stored in the feature estimation NN storage unit 132, and estimates the acoustic feature (S21). .
  • the noise component calculation unit 140 receives the inference noise data from the noise acquisition unit 137, and calculates a noise component from the inference noise data (S22).
  • the noise feature estimation unit 141 inputs the noise component from the noise component calculation unit 140 to the noise estimation NN stored in the noise estimation NN storage unit 133, and estimates the noise feature (S23).
  • the correlation estimation unit 142 converts the acoustic feature estimated by the acoustic feature estimation unit 139 and the noise feature estimated by the noise feature estimation unit 141 into the correlations stored in the correlation estimation NN storage unit 134. It is input to the estimation NN and the correlation between the two feature quantities is estimated (S24).
  • the feature amount integration section 143 integrates the acoustic feature amount from the acoustic feature amount estimation section 139 and the correlation from the correlation estimation section 142 (S25). As a result, an integrated feature amount is generated.
  • the mask estimation unit 144 receives the integrated feature quantity from the feature quantity integration unit 143 and estimates a mask using the voice enhancement NN stored in the voice enhancement NN storage unit 135 (S26).
  • the audio restoration unit 145 applies the target audio mask from the mask estimation unit 144 to the audio component from the audio component calculation unit 138, and further uses, for example, inverse short-time Fourier transform (iSTFT), The audio signal with the target audio emphasized is restored (S27).
  • iSTFT inverse short-time Fourier transform
  • the noise mixed speech that includes the target speech and noise, but also the noise that does not include the target speech and is considered to be similar to the mixed noise is used.
  • the noise that does not include the target speech and is considered to be similar to the mixed noise is used.
  • the feature amount is extracted from the noise, and the correlation between the feature amount extracted from the noise and the feature amount extracted from the noise-superimposed speech is estimated by the NN.
  • a speech enhancement system 200 includes a learning device 110 and a speech enhancement device 230.
  • the learning device 110 of the speech enhancement system 200 according to the second embodiment is similar to the learning device 110 of the speech enhancement system 100 according to the first embodiment.
  • FIG. 7 is a block diagram schematically showing the configuration of speech enhancement device 230 in the second embodiment.
  • the speech enhancement device 230 includes a communication section 131, a feature estimation NN storage section 132, a noise estimation NN storage section 133, a correlation estimation NN storage section 134, a speech enhancement NN storage section 135, an acoustic component calculation section 138, Acoustic feature estimation section 139, noise component calculation section 140, noise feature estimation section 141, correlation estimation section 142, feature integration section 143, mask estimation section 144, speech restoration section 145, speech section A detection unit 246 is provided.
  • the amount estimation unit 139, the noise component calculation unit 140, the noise feature estimation unit 141, the feature integration unit 143, the mask estimation unit 144, and the audio restoration unit 145 are the communication unit 131 and the feature of the audio enhancement device 130 in the first embodiment.
  • the acoustic component calculation section 138 uses the speech section data from the speech section detection section 246 as mixed speech data for inference, and calculates an acoustic component from the mixed speech data for inference
  • the noise component calculation section 140 uses the speech section data from the speech section detection section 246 as mixed speech data for inference.
  • the non-speech section data from the section 246 is used as noise data for inference, and a noise component is calculated from the noise data for inference.
  • the voice section detection unit 246 generates mixed voice data from the acoustic data having a section including the target voice and a section not including the target voice using the data of the section including the target voice, and converts the acoustic data into Noise data is generated from the data in the section that does not include the target voice.
  • the voice section detecting section 246 detects a voice section that includes voice and a non-voice section that does not include voice from the sound indicated by the acoustic data recorded by a microphone (not shown) that functions as a sound collection section. Detect the voice section.
  • the voice section detection section 246 provides voice section data, which is data of a voice section, to the acoustic component calculation section 138, and provides non-voice section data, which is data of a non-voice section, to the noise component calculation section 140. .
  • the voice section for example, a known technique such as the voice section detection method disclosed in International Publication No. 2016/143125 may be used. Furthermore, the voice section may be determined using a threshold value based on the power of the acoustic signal input to the microphone.
  • the voice section detection unit 246 described above is also configured, for example, as shown in FIG. 3A, by a memory 10 and a processor 11 such as a CPU that executes a program stored in the memory 10. can do. Furthermore, as shown in FIG. 3B, the voice section detection unit 246 may process a single circuit, a composite circuit, a processor that operates on a program, a parallel processor that operates on a program, an ASIC, an FPGA, or the like, for example. It can also be configured with the circuit 12. As described above, the voice section detection unit 246 can be realized by a processing circuit network.
  • FIG. 8 is a flowchart showing the operation of the voice enhancement device 230 in the second embodiment. Note that in FIG. 8, steps that perform the same processing as steps included in the flowchart shown in FIG. 6 are given the same reference numerals as in FIG. 6.
  • the voice interval detection unit 246 generates voice interval data and non-voice interval data from the acoustic data recorded by the microphone, provides the voice interval data to the acoustic component calculation unit 138, and calculates the noise component from the non-voice interval data. 140 (S30). The process then proceeds to steps S20 and S22.
  • steps S20 to S27 in FIG. 8 is similar to the processing in steps S20 to S27 in FIG. However, voice section data is treated as mixed voice data for inference, and non-voice section data is treated as noise data for inference.
  • voice interval data and non-voice interval data from acoustic data recorded by a microphone, and treat them as mixed voice data for inference and noise data for inference, respectively. can.
  • the second embodiment by detecting speech sections, it is possible to detect noise-only sections and other sections from noise-mixed speech. This enables robust voice enhancement even against noise.
  • Embodiment 3 In the third embodiment, mixed speech for inference is divided into blocks and processed, and noise can be restored.
  • a speech enhancement system 300 includes a learning device 310 and a speech enhancement device 330.
  • FIG. 9 is a block diagram schematically showing the configuration of learning device 310 in the third embodiment.
  • the learning device 310 includes a voice data storage section 111, a noise data storage section 112, a voice mixing section 113, a component calculation section 114, a teacher mask estimation section 315, a model learning section 316, a model storage section 117, It includes a communication section 118 and a block division section 319.
  • the audio data storage unit 111, noise data storage unit 112, audio mixing unit 113, component calculation unit 114, model learning unit 116, model storage unit 117, and communication unit 118 of the learning device 310 in the third embodiment are the same as those in the first embodiment. This is the same as the audio data storage unit 111, noise data storage unit 112, audio mixing unit 113, component calculation unit 114, model learning unit 116, model storage unit 117, and communication unit 118 of the learning device 110 in .
  • the audio mixing unit 113 provides the target audio and the mixed audio to the block dividing unit 319.
  • the component calculation unit 114 calculates an acoustic component for each block given from the block division unit 319.
  • the block division unit 319 divides each of the target voice and mixed voice from the voice mixing unit 113 into a plurality of blocks each having a certain length of time, and divides each of the divided blocks into the component calculation unit 114 and the model learning unit 116. give to
  • the teacher mask estimation unit 315 performs the same processing as the teacher mask estimation unit 115 of the first embodiment, and also estimates a noise mask that emphasizes noise from blocks from the block division unit 319 as a teacher mask, and uses the model learning unit 316 give to
  • the model learning unit 316 receives the block from the block division unit 219, the learning noise data from the noise data storage unit 112, and the teacher mask from the teacher mask estimation unit 315, and learns the voice enhancement NN. In the third embodiment, the model learning unit 316 learns the voice enhancement NN while restoring noise from the block using the noise mask from the teacher mask estimation unit 315.
  • the model learning unit 316 receives blocks from the block division unit 319, learning noise data from the noise data storage unit 112, and teacher masks from the teacher mask estimation unit 315, and relearns the voice enhancement NN.
  • the model learning unit 316 re-learns the voice enhancement NN while restoring noise from the block using the noise mask from the teacher mask estimation unit 315.
  • the block dividing unit 319 described above also includes, for example, the memory 10 and a processor 11 such as a CPU that executes a program stored in the memory 10, as shown in FIG. 3(A). be able to.
  • a processor 11 such as a CPU that executes a program stored in the memory 10, as shown in FIG. 3(A).
  • the block dividing unit 319 may include, for example, a single circuit, a composite circuit, a processor that operates on a program, a parallel processor that operates on a program, a processing circuit such as an ASIC, or an FPGA, as shown in FIG. 3(B). It can also be configured with 12. As described above, the block dividing section 319 can be realized by a processing circuit network.
  • FIG. 10 is a block diagram schematically showing the configuration of voice enhancement device 330 in the third embodiment.
  • the speech enhancement device 330 includes a communication section 131, a feature estimation NN storage section 132, a noise estimation NN storage section 133, a correlation estimation NN storage section 134, a speech enhancement NN storage section 135, an acoustic component calculation section 138, Acoustic feature estimation section 139, noise component calculation section 140, noise feature estimation section 341, correlation estimation section 342, feature integration section 143, mask estimation section 144, audio restoration section 145, block division section 347 and a noise restoration section 348.
  • the amount estimation section 139, the noise component calculation section 140, the feature amount integration section 143, the mask estimation section 144, and the speech restoration section 145 are the communication section 131, the feature estimation NN storage section 132, and the noise Estimated NN storage unit 133, correlation estimation NN storage unit 134, speech enhancement NN storage unit 135, acoustic component calculation unit 138, acoustic feature estimation unit 139, noise component calculation unit 140, feature integration unit 143, mask estimation unit 144, and This is similar to the audio restoration unit 145.
  • the acoustic component calculation unit 138 calculates the acoustic component from the inference mixed audio data divided into blocks by the block division unit 347.
  • the mask estimation unit 144 also provides the estimated mask to the noise restoration unit 348.
  • the noise restoration unit 348 it is only necessary to provide a noise mask that is a mask for emphasizing noise, but if the mask estimating unit 144 does not estimate a noise mask, the mask estimating unit 144 emphasizes the noise based on the target speech mask.
  • the generated noise mask is provided to the noise restoration unit 348.
  • the teacher mask is expressed as the ratio of the power spectrum of the target voice to the power spectrum of the mixed voice
  • the noise mask can be obtained by subtracting from 1 each element of the mask that emphasizes the target voice from the mixed voice. Can be done.
  • the block dividing unit 347 divides the mixed audio data into a plurality of blocks.
  • the block division section 347 divides the inference mixed speech data from the noise mixed speech acquisition section 136 into blocks of a certain time length, and provides the blocks to the acoustic component calculation section 138.
  • the acoustic component calculation unit 138 in the third embodiment calculates an acoustic component for each of the plurality of blocks. It is desirable that the blocks be divided so as to include overlapping, for example as shown in the above-mentioned document "Deep clustering-based single-channel speech separation and recent advances".
  • the noise restoration unit 348 calculates a restored noise component by emphasizing noise from the acoustic component and the noise mask. For example, the noise restoration unit 348 applies the noise mask output by the mask estimation unit 144 to the acoustic component from the acoustic component calculation unit 138 to calculate a restored noise component. The restored noise component is provided to the noise feature estimation unit 341.
  • the noise feature estimation unit 341 inputs the restored noise component output by the noise restoration unit 348 to the noise estimation NN, and estimates the restored noise feature. .
  • the restored noise feature is combined with the already estimated noise feature in the time direction, and is output to the correlation estimation unit 342 as a combined noise feature.
  • the correlation estimation unit 342 estimates the correlation from the acoustic feature and the combined noise feature. For example, in addition to the processing in the correlation estimation unit 142 in the first embodiment, the correlation estimation unit 342 uses the acoustic feature estimated by the acoustic feature estimation unit 139 and the combined noise feature estimated by the noise feature estimation unit 341. is input to the correlation estimation NN stored in the correlation estimation NN storage unit 134, and the correlation between the two feature quantities is estimated. The correlation is provided to the feature amount integration unit 143.
  • the noise feature amount estimating unit 341 combines the restored noise feature amount in the temporal direction with the noise feature amount estimated in the block next to the block in which the restored noise component was calculated.
  • the correlation estimation unit 342 also estimates the correlation from the acoustic feature amount and the combined noise feature amount in the block next to the block in which the restored noise component was calculated.
  • Part or all of the block division unit 347 and the noise restoration unit 348 described above also execute the memory 10 and the program stored in the memory 10, as shown in FIG. 3(A), for example.
  • a processor 11 such as a CPU can be used.
  • part or all of the block division unit 347 and the noise restoration unit 348 may be, for example, a single circuit, a composite circuit, a processor that operates on a program, or a processor that operates on a program, as shown in FIG. 3(B). It can also be configured with a processing circuit 12 such as a parallel processor, ASIC, or FPGA.
  • part or all of the block division section 347 and the noise restoration section 348 can be realized by a processing circuit network.
  • FIG. 11 is a flowchart showing the operation of learning device 110 in the first embodiment.
  • the audio mixing unit 113 acquires the learning audio data from the audio data storage unit 111 and the learning noise data from the noise data storage unit 112, and mixes the learning target audio indicated by the learning audio data with the learning audio data.
  • a mixed voice is generated by superimposing the noise indicated by the noise data (S40).
  • the block dividing unit 319 divides the target audio and mixed audio from the audio mixing unit 113 into blocks, respectively (S41).
  • the component calculating unit 114 calculates the target audio component and the mixed audio component from each of the target audio and mixed audio blocks from the block dividing unit 319 (S42).
  • the teacher mask estimation unit 115 generates a target voice mask for emphasizing the target voice and a noise mask for emphasizing noise from the target voice component and the mixed voice component from the component calculation unit 114 as a teacher mask. (S43).
  • the model learning section 316 receives the mixed speech from the speech mixing section 113, the learning noise data from the noise data storage section 112, and the teacher mask from the teacher mask estimating section 115, and learns the NN to perform feature estimation.
  • NN, noise estimation NN, correlation estimation NN, and voice enhancement NN are generated (S44).
  • the feature estimation NN, noise estimation NN, correlation estimation NN, and speech enhancement NN generated by learning the NN are stored in the model storage unit 117.
  • the model learning unit 316 receives the mixed voice from the voice mixing unit 113, the learning noise data from the noise data storage unit 112, and the teacher mask from the teacher mask estimation unit 115, and re-learns the voice emphasis NN.
  • a feature estimation NN, a noise estimation NN, a correlation estimation NN, and a voice enhancement NN are generated (S45).
  • the feature estimation NN, noise estimation NN, correlation estimation NN, and speech enhancement NN generated by relearning the speech enhancement NN are stored in the model storage unit 117 and sent to the speech enhancement device 130 .
  • FIG. 12 is a flowchart showing the operation of the voice enhancement device 330 in the third embodiment.
  • the block division unit 347 receives the inference mixed voice data from the noise mixed voice acquisition unit 136, and divides the inference mixed voice data into blocks of a certain length of time (S50). Then, the block dividing unit 347 supplies the divided blocks one by one to the acoustic component calculating unit 138 in order from the earliest block.
  • the acoustic component calculation unit 138 receives a block from the block division unit 347, and calculates an acoustic component from the mixed audio indicated by the block (S51).
  • the acoustic feature estimation unit 139 inputs the acoustic component received from the acoustic component calculation unit 138 into the feature estimation NN stored in the feature estimation NN storage unit 132, and estimates the acoustic feature (S52). .
  • the noise component calculation unit 140 receives the inference noise data from the noise acquisition unit 137, and calculates a noise component from the inference noise data (S53).
  • the noise feature estimation unit 341 inputs the noise component from the noise component calculation unit 140 to the noise estimation NN stored in the noise estimation NN storage unit 133, and estimates the noise feature (S54).
  • the correlation estimation unit 342 converts the acoustic feature estimated by the acoustic feature estimation unit 139 and the noise feature estimated by the noise feature estimation unit 141 into the correlations stored in the correlation estimation NN storage unit 134. It is input to the estimation NN and the correlation between the two feature quantities is estimated (S55).
  • the feature amount integration section 143 integrates the acoustic feature amount from the acoustic feature amount estimation section 139 and the correlation from the correlation estimation section 342 (S56).
  • the mask estimation unit 144 receives the integrated feature quantity from the feature quantity integration unit 143 and estimates a mask using the voice enhancement NN stored in the voice enhancement NN storage unit 135 (S57).
  • the audio restoration unit 145 applies the target audio mask from the mask estimation unit 144 to the audio component from the audio component calculation unit 138, and further uses, for example, inverse short-time Fourier transform (iSTFT), The audio signal with the target audio emphasized is restored (S58).
  • iSTFT inverse short-time Fourier transform
  • the noise restoration unit 348 applies the noise mask output by the mask estimation unit 144 to the acoustic component from the acoustic component calculation unit 138 to calculate a restored noise component.
  • the block division unit 347 determines whether there are any remaining blocks that have not been given to the acoustic component calculation unit 138 (S60). If such a block remains (Yes in S60), the process returns to step S51 and step S54, and if no such block remains (No in S60), the process ends.
  • the noise feature estimation unit 341 adds the restored noise component restored by the noise restoration unit 348 to the noise estimation NN stored in the noise estimation NN storage unit 133. input and estimate the restored noise feature.
  • the correlation estimation unit 342 stores the acoustic feature estimated by the acoustic feature estimation unit 139 and the restored noise feature estimated by the noise feature estimation unit 141 in the correlation estimation NN storage unit 134. input into the correlation estimation NN that has been set up, and estimate the correlation between the two feature quantities.
  • Embodiment 3 by performing voice enhancement in block processing, it is possible to reduce the processing delay of voice enhancement, and furthermore, from the block immediately before the block currently undergoing voice enhancement. By using the estimated noise, it is possible to improve the robustness against unknown noise.
  • the mask estimated from the previous block is used as in inference. By learning using the noise extracted using , the model can be learned efficiently.
  • Embodiment 4 the likelihood of the restored noise component is calculated to determine whether to use the restored noise component.
  • a speech enhancement system 400 according to the fourth embodiment includes a learning device 310 and a speech enhancement device 430.
  • the learning device 310 of the speech enhancement system 400 according to the fourth embodiment is similar to the learning device 310 of the speech enhancement system 300 according to the third embodiment.
  • FIG. 13 is a block diagram schematically showing the configuration of speech enhancement device 430 in the fourth embodiment.
  • the speech enhancement device 430 includes a communication section 131, a feature estimation NN storage section 132, a noise estimation NN storage section 133, a correlation estimation NN storage section 134, a speech enhancement NN storage section 135, an acoustic component calculation section 138, Acoustic feature estimation section 139, noise component calculation section 140, noise feature estimation section 441, correlation estimation section 142, feature integration section 143, mask estimation section 144, audio restoration section 145, block division 347, a noise restoration section 348, and a noise likelihood determination section 449.
  • the amount estimation section 139, the noise component calculation section 140, the feature amount integration section 143, the mask estimation section 144, and the speech restoration section 145 are the communication section 131, the feature estimation NN storage section 132, and the noise Estimated NN storage unit 133, correlation estimation NN storage unit 134, speech enhancement NN storage unit 135, acoustic component calculation unit 138, acoustic feature estimation unit 139, noise component calculation unit 140, feature integration unit 143, mask estimation unit 144, and This is similar to the audio restoration unit 145.
  • the acoustic component calculation unit 138 calculates the acoustic component from the inference mixed audio data divided into blocks by the block division unit 347.
  • the mask estimation unit 144 also provides the estimated mask to the noise restoration unit 348.
  • the mask estimator 144 does not estimate a noise mask, the mask estimator 144 generates a mask that emphasizes noise based on the target speech mask, and The mask is provided to the noise restoration unit 348.
  • the teacher mask is expressed as the ratio of the power spectrum of the target voice to the power spectrum of the mixed voice
  • the noise mask can be obtained by subtracting from 1 each element of the mask that emphasizes the target voice from the mixed voice. Can be done.
  • the block division section 347 and noise restoration section 348 of the speech enhancement device 430 in the fourth embodiment are the same as the block division section 347 and the noise restoration section 348 of the speech enhancement device 330 in the third embodiment.
  • the noise restoration unit 348 in the fourth embodiment provides the restored noise component to the noise likelihood determination unit 449.
  • the noise likelihood determination unit 449 calculates the noise likelihood, which is the likelihood of the restored noise component, and determines whether the noise likelihood is equal to or greater than a predetermined threshold. For example, the noise likelihood determination unit 449 receives the restored noise component from the noise restoration unit 348 and calculates the noise likelihood. Then, the noise likelihood determining unit 449 provides the noise feature amount estimating unit 441 with the restored noise component corresponding to the block whose noise likelihood is greater than or equal to the threshold value.
  • the noise likelihood is calculated for each block corresponding to the time frame.
  • the noise likelihood can be calculated using a NN, for example, as in Non-Patent Document 1.
  • the threshold value for example, one determined experimentally can be used.
  • the noise feature estimation unit 441 inputs the restored noise component outputted by the noise likelihood determination unit 449 to the noise estimation NN.
  • a combined noise feature is calculated by estimating the restored noise feature and combining the restored noise feature in the time direction with the noise feature estimated from the noise component received from the noise component calculation unit 140.
  • the noise feature amount estimation unit 441 estimates the noise feature amount from the noise component received from the noise component calculation unit 140 in the block next to the block for which the restored noise component has not been received from the noise likelihood determination unit 449.
  • the noise feature estimation unit 441 provides the combined noise feature to the correlation estimation unit 342 in the block next to the block corresponding to the restored noise component received from the noise likelihood judgment unit 449, and in the other blocks. provides the noise feature amount to the correlation estimation unit 342. In other words, the noise feature estimation unit 441 generates the combined noise feature when the noise likelihood is equal to or greater than the threshold.
  • the correlation estimation section 442 calculates the acoustic feature amount estimated by the acoustic feature amount estimation section 139 and the noise feature amount estimated by the noise feature amount estimation section 341. is input to the correlation estimation NN stored in the correlation estimation NN storage unit 134, and the correlation between the two feature quantities is estimated.
  • the correlation estimation section 442 combines the acoustic feature estimated by the acoustic feature estimation section 139 with the combination estimated by the noise feature estimation section 341.
  • the noise feature amount is input to the correlation estimation NN stored in the correlation estimation NN storage unit 134, and the correlation between the two feature amounts is estimated.
  • the correlation is provided to the feature amount integration unit 143.
  • the noise likelihood determination unit 449 described above also includes a memory 10 and a processor 11 such as a CPU that executes a program stored in the memory 10, as shown in FIG. 3(A), for example. Can be configured. Further, as shown in FIG. 3B, the noise likelihood determination unit 449 may be configured to operate on a single circuit, a composite circuit, a processor that operates on a program, a parallel processor that operates on a program, an ASIC, an FPGA, or the like. It can also be configured with a processing circuit 12. As described above, the noise likelihood determination unit 449 can be realized by a processing circuit network.
  • FIG. 14 is a flowchart showing the operation of speech enhancement device 430 in the fourth embodiment. Note that in FIG. 14, steps that perform the same processing as steps included in the flowchart shown in FIG. 12 are given the same reference numerals as in FIG. 12.
  • steps S50 to S53 in FIG. 14 is the same as the processing in steps S50 to S53 in FIG. However, in FIG. 14, after the process in step S53, the process proceeds to step S70.
  • step S70 the noise feature estimation unit 441 estimates the noise feature from the noise component received from the noise component calculation unit 140. The process then proceeds to step S55.
  • steps S55 to S59 in FIG. 14 is the same as the processing in steps S55 to S59 in FIG. 12. However, in FIG. 14, after the process in step S59, the process proceeds to step S71.
  • step S71 the noise likelihood determination unit 449 receives the restored noise component from the noise restoration unit 348, and calculates the noise likelihood. Then, if the calculated noise likelihood is greater than or equal to the threshold, the noise likelihood determining unit 449 provides the restored noise component to the noise feature amount estimating unit 441. The process then proceeds to step S60.
  • step S60 the block division unit 347 determines whether there are any remaining blocks that have not been given to the acoustic component calculation unit 138. If such a block remains (Yes in S60), the process returns to step S51 and step S70, and if no such block remains (No in S60), the process ends.
  • the noise feature estimation unit 441 calculates the restored noise component restored by the noise restoration unit 348. , is input to the noise estimation NN stored in the noise estimation NN storage section 133 to estimate the restored noise feature amount, and the restored noise feature amount is used as the noise feature estimated from the noise component received from the noise component calculation section 140. By combining the amount and time direction, a combined noise feature amount is calculated.
  • the correlation estimation unit 342 stores the acoustic feature estimated by the acoustic feature estimation unit 139 and the restored noise feature estimated by the noise feature estimation unit 141 in the correlation estimation NN storage unit 134. It is input to the stored correlation estimation NN to estimate the correlation between the two feature quantities.
  • Speech enhancement system 110, 310 Learning device, 111 Speech data storage unit, 112 Noise data storage unit, 113 Speech mixing unit, 114 Component calculation unit, 115, 315 Teacher mask estimation unit, 116, 316 Model Learning Department, 117 Model Memory Department, 118 Communication Department, 319 block split portion, 130, 230, 330, 430 audio emphasis device, 131 communication portion, 132 Features NN Memories, 133 noise estimation NN Memories, 134 correlation estimation NN storage section, 135 Speech enhancement NN storage section, 136 Noise mixed speech acquisition section, 137 Noise acquisition section, 138 Acoustic component calculation section, 139 Acoustic feature amount estimation section, 140 Noise component calculation section, 141, 341, 441 Noise feature amount Estimation unit, 142, 342, 442 Correlation estimation unit, 143 Feature integration unit, 144 Mask estimation unit, 145 Speech restoration unit, 246 Speech section detection unit, 347 Block division unit, 348 Noise restoration unit, 449 Noise likelihood judgment unit .

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

音声強調装置(130)は、混合音声データから音響成分を算出する音響成分算出部(138)と、音響成分を特徴推定モデルに入力することで、音響特徴量を推定する音響特徴量推定部(139)と、ノイズデータからノイズ成分を算出するノイズ成分算出部(140)と、ノイズ成分をノイズ推定モデルに入力することで、ノイズ特徴量を推定するノイズ特徴量推定部(141)と、音響特徴量及びノイズ特徴量を相関推定モデルに入力することで、音響特徴量と、ノイズ特徴量との相関を推定する相関推定部(142)と、音響特徴量に、推定された相関で重み付けを行うことで、統合特徴量を算出する特徴量統合部(143)と、統合特徴量を音声強調モデルに入力することで、目的音声マスクを推定するマスク推定部(144)と、音響成分及び目的音声マスクから、目的音声を強調した音声を復元する音声復元部(145)とを備える。

Description

情報処理装置、プログラム及び情報処理方法
 本開示は、情報処理装置、プログラム及び情報処理方法に関する。
 従来から、音声を認識する音声認識処理が行われている。通常、音声認識処理は、目的音声以外のノイズの影響を受けるため、ノイズが含まれていると、音声認識の精度が大きく低下する。そこで、ノイズが混合されている音声から目的音声を抽出することが必要になる。
 例えば、非特許文献1は、ニューラルネットワーク(NN)を用いて、混合音声と目的音声とのペアデータを学習し、混合音声から目的音声を抽出する手法を提案している。
Felix Weniger、外1名、"Discriminatively trained recurrent neural networks for single-channel speech separation"、IEEE Global Conference on Signal and Information Processing (GlobalSIP)、February 2015
 しかしながら、従来の、音声と非音声が混合した音を学習する手法では、未学習の非音声に対して音声強調性能が低下するという課題がある。
 そこで、本開示の一又は複数の態様は、学習データに含まれていない未知のノイズであっても、音声強調を実施できるようにすることを目的とする。
 本開示の一態様に係る情報処理装置は、強調する対象となる目的音声及び前記目的音声と混合されるノイズである混合ノイズを含む混合音声データから、予め定められた関数を用いて、前記目的音声及び前記混合ノイズの成分である音響成分を算出する音響成分算出部と、前記音響成分を、音声及びノイズの音響的な特徴量を推定するために学習された特徴推定モデルに入力することで、音響特徴量を推定する音響特徴量推定部と、前記目的音声を含まないで、ノイズを含むノイズデータから、前記予め定められた関数を用いて、ノイズの成分であるノイズ成分を算出するノイズ成分算出部と、前記ノイズ成分を、ノイズの音響的な特徴量を推定するために学習されたノイズ推定モデルに入力することで、ノイズ特徴量を推定するノイズ特徴量推定部と、前記音響特徴量及び前記ノイズ特徴量を、音声及びノイズの音響的な特徴量と、ノイズの音響的な特徴量との相関を推定するために学習された相関推定モデルに入力することで、前記音響特徴量と、前記ノイズ特徴量との相関を推定する相関推定部と、前記音響特徴量に、前記推定された相関で重み付けを行うことで、統合特徴量を算出する特徴量統合部と、前記統合特徴量を、音声を強調するためのマスクを推定するために学習された音声強調モデルに入力することで、目的音声マスクを推定するマスク推定部と、前記音響成分及び前記目的音声マスクから、前記目的音声を強調した音声を復元する音声復元部と、を備えることを特徴とする。
 本開示の一態様に係るプログラムは、コンピュータを、強調する対象となる目的音声及び前記目的音声と混合されるノイズである混合ノイズを含む混合音声データから、予め定められた関数を用いて、前記目的音声及び前記混合ノイズの成分である音響成分を算出する音響成分算出部、前記音響成分を、音声及びノイズの音響的な特徴量を推定するために学習された特徴推定モデルに入力することで、音響特徴量を推定する音響特徴量推定部、前記目的音声を含まないで、ノイズを含むノイズデータから、前記予め定められた関数を用いて、ノイズの成分であるノイズ成分を算出するノイズ成分算出部、前記ノイズ成分を、ノイズの音響的な特徴量を推定するために学習されたノイズ推定モデルに入力することで、ノイズ特徴量を推定するノイズ特徴量推定部、前記音響特徴量及び前記ノイズ特徴量を、音声及びノイズの音響的な特徴量と、ノイズの音響的な特徴量との相関を推定するために学習された相関推定モデルに入力することで、前記音響特徴量と、前記ノイズ特徴量との相関を推定する相関推定部、前記音響特徴量に、前記推定された相関で重み付けを行うことで、統合特徴量を算出する特徴量統合部、前記統合特徴量を、音声を強調するためのマスクを推定するために学習された音声強調モデルに入力することで、目的音声マスクを推定するマスク推定部、前記音響成分及び前記目的音声マスクから、前記目的音声を強調した音声を復元する音声復元部、として機能させることを特徴とする。
 本開示の一態様に係る情報処理方法は、強調する対象となる目的音声及び前記目的音声と混合されるノイズである混合ノイズを含む混合音声データから、予め定められた関数を用いて、前記目的音声及び前記混合ノイズの成分である音響成分を算出し、前記音響成分を、音声及びノイズの音響的な特徴量を推定するために学習された特徴推定モデルに入力することで、音響特徴量を推定し、前記目的音声を含まないで、ノイズを含むノイズデータから、前記予め定められた関数を用いて、ノイズの成分であるノイズ成分を算出し、前記ノイズ成分を、ノイズの音響的な特徴量を推定するために学習されたノイズ推定モデルに入力することで、ノイズ特徴量を推定し、前記音響特徴量及び前記ノイズ特徴量を、音声及びノイズの音響的な特徴量と、ノイズの音響的な特徴量との相関を推定するために学習された相関推定モデルに入力することで、前記音響特徴量と、前記ノイズ特徴量との相関を推定し、前記音響特徴量に、前記推定された相関で重み付けを行うことで、統合特徴量を算出し、前記統合特徴量を、音声を強調するためのマスクを推定するために学習された音声強調モデルに入力することで、目的音声マスクを推定し、前記音響成分及び前記目的音声マスクから、前記目的音声を強調した音声を復元することを特徴とする。
 本開示の一又は複数の態様によれば、学習データに含まれていない未知のノイズであっても、音声強調を実施することができる。
実施の形態1~4に係る音声強調システムの構成を概略的に示すブロック図である。 実施の形態1における学習装置の構成を概略的に示すブロック図である。 (A)及び(B)は、ハードウェア構成例を示すブロック図である。 実施の形態1における音声強調装置の構成を概略的に示すブロック図である。 実施の形態1における学習装置の動作を示すフローチャートである。 実施の形態1における音声強調装置の動作を示すフローチャートである。 実施の形態2における音声強調装置の構成を概略的に示すブロック図である。 実施の形態2における音声強調装置の動作を示すフローチャートである。 実施の形態3における学習装置の構成を概略的に示すブロック図である。 実施の形態3における音声強調装置の構成を概略的に示すブロック図である。 実施の形態1における学習装置の動作を示すフローチャートである。 実施の形態3における音声強調装置の動作を示すフローチャートである。 実施の形態4における音声強調装置の構成を概略的に示すブロック図である。 実施の形態4における音声強調装置の動作を示すフローチャートである。
実施の形態1.
 図1は、実施の形態1に係る音声強調システム100の構成を概略的に示すブロック図である。
 音声強調システム100は、学習装置110と、情報処理装置としての音声強調装置130とを備える。
 学習装置110は、音声及びノイズの音響的な特徴量を推定するための特徴推定モデルである特徴推定NN、ノイズの音響的な特徴量を推定するためのノイズ推定モデルであるノイズ推定NN、音声及びノイズの音響的な特徴量と、ノイズの音響的な特徴量との相関を推定するための相関推定モデルである相関推定NN及び音声を強調するためのマスクを推定するための音声強調モデルである音声強調NNとして機能する学習モデルを学習する。
 音声強調装置130は、学習装置110から学習済みの、特徴推定NN、ノイズ推定NN、相関推定NN及び音声強調NNを取得して、これらの学習モデルを用いて、混合音声から目的音声を音声強調する。
 なお、学習フェーズは、音声強調装置130が用いる学習モデルを、学習装置110が学習するフェーズである。
 推論フェーズは、学習装置が学習した学習モデルを用いて、音声強調装置130が混合音声から目的音声を音声強調するフェーズである。
 図2は、実施の形態1における学習装置110の構成を概略的に示すブロック図である。
 学習装置110は、音声データ記憶部111と、ノイズデータ記憶部112と、音声混合部113と、成分算出部114と、教師マスク推定部115と、モデル学習部116と、モデル記憶部117と、通信部118とを備える。
 音声データ記憶部111は、学習用の目的音声である学習用目的音声を示す学習用音声データを記憶する。
 ノイズデータ記憶部112は、学習用のノイズである学習用ノイズを示す学習用ノイズデータを記憶する。
 音声混合部113は、音声データ記憶部111から学習用音声データを、ノイズデータ記憶部112から学習用ノイズデータを取得して、学習用音声データで示される学習用目的音声と、学習用ノイズデータで示される学習用ノイズとを選択し、これらを重畳することで混合音声を生成し、目的音声と、混合音声とを成分算出部114に与える。
 成分算出部114は、音声混合部113からの目的音声の成分である目的音声成分を算出し、音声混合部113からの混合音声の成分である混合音声成分を算出する。例えば、成分算出部114は、音声信号から短時間フーリエ変換(STFT)によって算出されたパワースペクトルの時系列を、音声成分とする。目的音声成分及び混合音声成分は、教師マスク推定部115に与えられる。
 教師マスク推定部115は、成分算出部114からの目的音声成分及び混合音声成分から教師マスクを生成する。例えば、教師マスクは、目的音声成分及び混合音声成分のそれぞれから、目的音声と、混合音声とのパワースペクトルを推定し、その混合音声に対する目的音声のパワースペクトルの比を教師マスクとする。教師マスクは、モデル学習部116に与えられる。
 モデル学習部116は、音声混合部113から混合音声を、ノイズデータ記憶部112から学習用ノイズデータを、教師マスク推定部115から教師マスクを受け取り、NNを学習する。NNの学習は、NNのパラメータである入力重み係数を決定する処理である。学習の際には、特徴推定NN、ノイズ推定NN、相関推定NN及び音声強調NNを結合し、例えば、下記の文献に示されるロス関数に入力し、学習用目的音声に基づいて誤差が計算される。そして、例えば、Adam(Adaptive Moment Estimation)等の最適化手法を使って、例えば、逆誤差伝播方に基づいて、特徴推定NN、ノイズ推定NN、相関推定NN及び音声強調NNの各層の入力重み係数を学習すればよい。なお、生成された特徴推定NN、ノイズ推定NN、相関推定NN及び音声強調NNは、モデル記憶部117に記憶される。
 文献:R. Aihara et al.、 “Deep clustering-based single-channel speech separation and recent advances”、 Acoust. Sci. & Tech. 41. 2、2020年
 モデル記憶部117は、モデル学習部116で学習された特徴推定NN、ノイズ推定NN、相関推定NN及び音声強調NNを記憶する。
 通信部118は、モデル記憶部117に記憶されている特徴推定NN、ノイズ推定NN、相関推定NN及び音声強調NNを音声強調装置130に送信する送信部として機能する。
 以上に記載された音声混合部113、成分算出部114、教師マスク推定部115及びモデル学習部116の一部又は全部は、例えば、図3(A)に示されているように、メモリ10と、メモリ10に格納されているプログラムを実行するCPU(Central Processing Unit)等のプロセッサ11とにより構成することができる。言い換えると、学習装置は、いわゆるコンピュータにより実現することができる。このようなプログラムは、ネットワークを通じて提供されてもよく、また、記録媒体に記録されて提供されてもよい。即ち、このようなプログラムは、例えば、プログラムプロダクトとして提供されてもよい。
 また、音声混合部113、成分算出部114、教師マスク推定部115及びモデル学習部116の一部又は全部は、例えば、図3(B)に示されているように、単一回路、複合回路、プログラムで動作するプロセッサ、プログラムで動作する並列プロセッサ、ASIC(Application Specific Integrated Circuit)又はFPGA(Field Programmable Gate Array)等の処理回路12で構成することもできる。
 以上のように、音声混合部113、成分算出部114、教師マスク推定部115及びモデル学習部116は、処理回路網により実現することができる。
 なお、音声データ記憶部111、ノイズデータ記憶部112及びモデル記憶部117はHDD(Hard Disk Drive)、SSD(Solid State Drive)又は不揮発性メモリ等の記憶装置(図示せず)により実現することができる。
 また、通信部118は、NIC(Network Interface Card)等の通信インタフェースにより実現することができる。
 図4は、実施の形態1における音声強調装置130の構成を概略的に示すブロック図である。
 音声強調装置130は、通信部131と、特徴推定NN記憶部132と、ノイズ推定NN記憶部133と、相関推定NN記憶部134と、音声強調NN記憶部135と、ノイズ混合音声取得部136と、ノイズ取得部137と、音響成分算出部138と、音響特徴量推定部139と、ノイズ成分算出部140と、ノイズ特徴量推定部141と、相関推定部142と、特徴量統合部143と、マスク推定部144と、音声復元部145とを備える。
 通信部131は、学習装置110からの特徴推定NN、ノイズ推定NN、相関推定NN及び音声強調NNを受信する受信部として機能する。
 特徴推定NN記憶部132は、通信部131で受信された特徴推定NNを記憶する。
 ノイズ推定NN記憶部133は、通信部131で受信されたノイズ推定NNを記憶する。
 相関推定NN記憶部134は、通信部131で受信された相関推定NNを記憶する。
 音声強調NN記憶部135は、通信部131で受信された音声強調NNを記憶する。
 ノイズ混合音声取得部136は、集音部として機能するマイクロフォン(図示せず)で収録された、目的音声と、ノイズとを含む混合音声を示す混合音声データを取得する。混合音声データに含まれているノイズを混合ノイズともいう。例えば、ノイズ混合音声取得部136は、通信部131を介して、混合音声データを取得してもよく、また、USB(Universal Serial Bus)等の接続インタフェースに接続されたマイクロフォンから、混合音声データを取得してもよい。ここでの混合音声データを推論用混合音声データともいい、推論用混合音声データで示される混合音声を推論用混合音声ともいう。なお、通信部131又は接続インタフェースは、データの入力を受け付けるインタフェース(入力インタフェース)又はインタフェース部(入力インタフェース部)として機能する。
 ノイズ取得部137は、マイクロフォンで収録された、目的音声を含まない、ノイズを示すノイズデータを取得する。例えば、ノイズ混合音声取得部136は、通信部131を介して、ノイズデータを取得してもよく、また、接続インタフェースに接続されたマイクロフォンから、ノイズデータを取得してもよい。ここで、ノイズとしては、例えば、マイクロフォンに、目的音声及びノイズを含む混合音声が入力される一定時間前後の音を用いることができる。なお、ここでのノイズデータを推論用ノイズデータともいい、推論用ノイズデータで示されるノイズを推論用ノイズともいう。
 音響成分算出部138は、強調する対象となる目的音声及び目的音声と混合されるノイズである混合ノイズを含む混合音声データから、予め定められた関数を用いて、音響成分を算出する。
 例えば、音響成分算出部138は、ノイズ混合音声取得部136から推論用混合音声データを受け取り、推論用混合音声データで示される混合音声から、音響成分を算出する。音響成分は、例えば、音声信号から短時間フーリエ変換(STFT)によって算出されたパワースペクトルの時系列である。音響成分は、音響特徴量推定部139及び音声復元部145に与えられる。
 音響特徴量推定部139は、音響成分算出部138からの音響成分を、音声及びノイズの音響的な特徴量を推定するために学習された特徴推定モデルである特徴推定NNに入力することで、音響特徴量を推定する。
 例えば、音響特徴量推定部139は、音響成分算出部138から受け取った音響成分を、特徴推定NN記憶部132に記憶されている特徴推定NNに入力し、音響特徴量を推定する。特徴推定NNは、複数の層で構成されるニューラルネットワークであり、層間における伝播については、例えば、LSTM(Long Short Term Memory)に類する手法又は1次元畳み込み演算を組み合わせた手法を用いてもよいし、層の数は問わない。音響特徴量は、相関推定部142及び特徴量統合部143に与えられる。
 ノイズ成分算出部140は、目的音声を含まないで、ノイズを含むノイズデータから、予め定められた関数を用いて、ノイズ成分を算出する。
 例えば、ノイズ成分算出部140は、ノイズ取得部137から推論用ノイズデータを受け取り、推論用ノイズデータで示されるノイズからノイズ成分を算出する。ノイズ成分は、例えば、音声信号から短時間フーリエ変換(STFT)によって算出されたパワースペクトルの時系列である。ノイズ成分は、ノイズ特徴量推定部141に与えられる。
 ノイズ特徴量推定部141は、ノイズ成分算出部140からのノイズ成分を、ノイズの音響的な特徴量を推定するために学習されたノイズ推定モデルであるノイズ推定NNに入力することで、ノイズ特徴量を推定する。
 例えば、ノイズ特徴量推定部141は、ノイズ成分算出部140からのノイズ成分を、ノイズ推定NN記憶部133に記憶されているノイズ推定NNに入力し、ノイズ特徴量を推定する。ここで、ノイズ推定NNは、複数の層で構成されるニューラルネットワークであり、層間における伝播については、例えば、LSTMに類する手法又は1次元畳み込み演算を組み合わせた手法を用いてもよいし、層の数は問わない。
 相関推定部142は、音響特徴量及びノイズ特徴量を、音声及びノイズの音響的な特徴量と、ノイズの音響的な特徴量との相関を推定するために学習された相関推定モデルである相関推定NNに入力することで、音響特徴量と、ノイズ特徴量との相関を推定する。
 例えば、相関推定部142は、音響特徴量推定部139が推定した音響特徴量と、ノイズ特徴量推定部141が推定したノイズ特徴量とを、相関推定NN記憶部134に記憶されている相関推定NNに入力し、2つの特徴量の相関を推定する。相関は、特徴量統合部143に与えられる。
 ここで相関推定NNは、例えば、下記の文献に示すようなAttention NNを用いればよい。
 文献:A. Vaswani et al.、 “Attention Is All You Need”、 in Proc. NIPS、 2017年
 特徴量統合部143は、音響特徴量に、推定された相関で重み付けを行うことで、統合特徴量を算出する。
 例えば、特徴量統合部143は、音響特徴量推定部139からの音響特徴量と、相関推定部142からの相関とを統合する。統合は、これらの二つの行列表現を、一つの行列表現に変換することを意味する。例えば、音響特徴量が、N×時間の時間周波数表現で、相関がM×時間の時間周波数表現であった場合、これらを時間とは異なる周波数軸で連結して(N+M)×時間の時間周波数表現としてもよいし、何らかの次元変換によって、音響特徴量と、相関との周波数軸の次元数を統一し、2つの行列の要素積としてもよい。
 マスク推定部144は、統合特徴量を、音声を強調するためのマスクを推定するために学習された音声強調モデルである音声強調NNに入力することで、目的音声マスクを推定する。
 例えば、マスク推定部144は、特徴量統合部143からの統合特徴量を入力として、音声強調NN記憶部135に記憶されている音声強調NNを用いてマスクを推定する。音声強調NNは、複数の層で構成されるニューラルネットワークであり、層間における伝播については、例えば、LSTMに類する手法又は1次元畳み込み演算を組み合わせた手法を用いてもよいし、層の数は問わない。
 ここでマスクとは、音響成分がN×時間の時間周波数表現であった場合、同じ大きさの時間周波数表現である。マスク推定部144は、混合音声から目的音声を強調する目的音声マスクのみを推定してもよいし、例えば、混合音声から逆にノイズを強調するノイズマスクも併せて推定してもよい。ここで推定された、目的音声を強調するマスクである目的音声マスクは、音声復元部145に与えられる。
 音声復元部145は、音響成分及び目的音声マスクから、目的音声を強調した音声を復元する。
 例えば、音声復元部145は、音響成分算出部138からの音響成分に対して、マスク推定部144からの目的音声マスクを適用し、さらに、例えば逆短時間フーリエ変換(iSTFT)を用いて、音声信号を復元する。
 以上に記載されたノイズ混合音声取得部136、ノイズ取得部137、音響成分算出部138、音響特徴量推定部139、ノイズ成分算出部140、ノイズ特徴量推定部141、相関推定部142、特徴量統合部143、マスク推定部144及び音声復元部145の一部又は全部は、例えば、図3(A)に示されているように、メモリ10と、メモリ10に格納されているプログラムを実行するCPU等のプロセッサ11とにより構成することができる。このようなプログラムは、ネットワークを通じて提供されてもよく、また、記録媒体に記録されて提供されてもよい。即ち、このようなプログラムは、例えば、プログラムプロダクトとして提供されてもよい。
 また、ノイズ混合音声取得部136、ノイズ取得部137、音響成分算出部138、音響特徴量推定部139、ノイズ成分算出部140、ノイズ特徴量推定部141、相関推定部142、特徴量統合部143、マスク推定部144及び音声復元部145の一部又は全部は、例えば、図3(B)に示されているように、単一回路、複合回路、プログラムで動作するプロセッサ、プログラムで動作する並列プロセッサ、ASIC又はFPGA等の処理回路12で構成することもできる。
 以上のように、ノイズ混合音声取得部136、ノイズ取得部137、音響成分算出部138、音響特徴量推定部139、ノイズ成分算出部140、ノイズ特徴量推定部141、相関推定部142、特徴量統合部143、マスク推定部144及び音声復元部145は、処理回路網により実現することができる。
 なお、特徴推定NN記憶部132、ノイズ推定NN記憶部133、相関推定NN記憶部134及び音声強調NN記憶部135はHDD、SSD又は不揮発性メモリ等の記憶装置(図示せず)により実現することができる。
 また、通信部131は、NIC等の通信インタフェースにより実現することができる。
 図5は、実施の形態1における学習装置110の動作を示すフローチャートである。
 まず、音声混合部113は、音声データ記憶部111から学習用音声データを、ノイズデータ記憶部112から学習用ノイズデータを取得して、学習用音声データで示される学習用目的音声と、ノイズデータからノイズとを重畳することで混合音声を生成する(S10)。
 次に、成分算出部114は、音声混合部113からの目的音声及び混合音声から、それぞれ、目的音声成分及び混合音声成分を算出する(S11)。
 次に、教師マスク推定部115は、成分算出部114からの目的音声成分及び混合音声成分から教師マスクを生成する(S12)。
 次に、モデル学習部116は、音声混合部113から混合音声を、ノイズデータ記憶部112から学習用ノイズデータを、教師マスク推定部115から教師マスクを受け取り、NNを学習することで、特徴推定NN、ノイズ推定NN、相関推定NN及び音声強調NNを生成する(S13)。NNを学習することで生成された特徴推定NN、ノイズ推定NN、相関推定NN及び音声強調NNは、モデル記憶部117に記憶され、音声強調装置130に送られる。
 図6は、実施の形態1における音声強調装置130の動作を示すフローチャートである。
 まず、音響成分算出部138は、ノイズ混合音声取得部136から推論用混合音声データを受け取り、推論用混合音声データで示される混合音声から、音響成分を算出する(S20)。
 次に、音響特徴量推定部139は、音響成分算出部138から受け取った音響成分を、特徴推定NN記憶部132に記憶されている特徴推定NNに入力し、音響特徴量を推定する(S21)。
 また、ノイズ成分算出部140は、ノイズ取得部137から推論用ノイズデータを受け取り、推論用ノイズデータからノイズ成分を算出する(S22)。
 次に、ノイズ特徴量推定部141は、ノイズ成分算出部140からのノイズ成分を、ノイズ推定NN記憶部133に記憶されているノイズ推定NNに入力し、ノイズ特徴量を推定する(S23)。
 次に、相関推定部142は、音響特徴量推定部139が推定した音響特徴量と、ノイズ特徴量推定部141が推定したノイズ特徴量とを、相関推定NN記憶部134に記憶されている相関推定NNに入力し、2つの特徴量の相関を推定する(S24)。
 次に、特徴量統合部143は、音響特徴量推定部139からの音響特徴量と、相関推定部142からの相関とを統合する(S25)。これにより、統合特徴量が生成される。
 マスク推定部144は、特徴量統合部143からの統合特徴量を入力として、音声強調NN記憶部135に記憶されている音声強調NNを用いてマスクを推定する(S26)。
 次に、音声復元部145は、音響成分算出部138からの音響成分に対して、マスク推定部144からの目的音声マスクを適用し、さらに、例えば逆短時間フーリエ変換(iSTFT)を用いて、目的音声を強調した音声信号を復元する(S27)。
 以上のように、実施の形態1によれば、目的音声とノイズを含むノイズ混合音声のデータだけでなく、混合しているノイズと類似していると考えられる、目的音声を含まないノイズも用いて、これらから抽出した特徴量の相関を推定し学習済みモデルに入力することで、学習データに含まれていない未知のノイズであっても、音声強調を実施することができる。
 言い換えると、実施の形態1によれば、ノイズから特徴量を抽出し、ノイズから抽出された特徴量と、ノイズ重畳音声から抽出された特徴量との相関をNNによって推定するため、未知のノイズに対しても頑健に音声強調が可能になる。
実施の形態2.
 実施の形態2では、音声区間を検出することで、混合音声と、ノイズとを区別できるようにする。
 図1に示されているように、実施の形態2に係る音声強調システム200は、学習装置110と、音声強調装置230とを備える。
 実施の形態2に係る音声強調システム200の学習装置110は、実施の形態1に係る音声強調システム100の学習装置110と同様である。
 図7は、実施の形態2における音声強調装置230の構成を概略的に示すブロック図である。
 音声強調装置230は、通信部131と、特徴推定NN記憶部132と、ノイズ推定NN記憶部133と、相関推定NN記憶部134と、音声強調NN記憶部135と、音響成分算出部138と、音響特徴量推定部139と、ノイズ成分算出部140と、ノイズ特徴量推定部141と、相関推定部142と、特徴量統合部143と、マスク推定部144と、音声復元部145と、音声区間検出部246とを備える。
 実施の形態2における音声強調装置230の通信部131、特徴推定NN記憶部132、ノイズ推定NN記憶部133、相関推定NN記憶部134、音声強調NN記憶部135、音響成分算出部138、音響特徴量推定部139、ノイズ成分算出部140、ノイズ特徴量推定部141、特徴量統合部143、マスク推定部144及び音声復元部145は、実施の形態1における音声強調装置130の通信部131、特徴推定NN記憶部132、ノイズ推定NN記憶部133、相関推定NN記憶部134、音声強調NN記憶部135、音響成分算出部138、音響特徴量推定部139、ノイズ成分算出部140、ノイズ特徴量推定部141、特徴量統合部143、マスク推定部144及び音声復元部145と同様である。
 但し、音響成分算出部138は、音声区間検出部246からの音声区間データを推論用混合音声データとして、その推論用混合音声データから音響成分を算出し、ノイズ成分算出部140は、音声区間検出部246からの非音声区間データを推論用ノイズデータとして、その推論用ノイズデータからノイズ成分を算出する。
 音声区間検出部246は、目的音声が含まれている区間及びその目的音声が含まれていない区間を有する音響データから目的音声が含まれている区間のデータにより混合音声データを生成し、音響データから目的音声が含まれていない区間のデータによりノイズデータを生成する。
 例えば、音声区間検出部246は、集音部として機能するマイクロフォン(図示せず)で収録された音響データで示される音響から、音声が含まれている音声区間と、音声が含まれていない非音声区間とを検出する。そして、音声区間検出部246は、音響データの内、音声区間のデータである音声区間データを音響成分算出部138に、非音声区間のデータである非音声区間データをノイズ成分算出部140に与える。
 ここで、音声区間の検出は、例えば、国際公開第2016/143125号公報に開示されている音声区間検出手法等の公知の技術が使用されればよい。また、音声区間は、マイクロフォンに入力された音響信号のパワーに基づいて閾値で判定されてもよい。
 以上に記載された音声区間検出部246も、例えば、図3(A)に示されているように、メモリ10と、メモリ10に格納されているプログラムを実行するCPU等のプロセッサ11とにより構成することができる。
 また、音声区間検出部246は、例えば、図3(B)に示されているように、単一回路、複合回路、プログラムで動作するプロセッサ、プログラムで動作する並列プロセッサ、ASIC又はFPGA等の処理回路12で構成することもできる。
 以上のように、音声区間検出部246は、処理回路網により実現することができる。
 図8は、実施の形態2における音声強調装置230の動作を示すフローチャートである。
 なお、図8において、図6に示されているフローチャートに含まれているステップと同様の処理を行うステップについては、図6と同じ符号が付されている。
 まず、音声区間検出部246は、マイクロフォンで収録された音響データから、音声区間データ及び非音声区間データを生成し、音声区間データを音響成分算出部138に与え、非音声区間データをノイズ成分算出部140に与える(S30)。そして、処理はステップS20及びS22に進む。
 図8におけるステップS20~S27の処理は、図6におけるステップS20~S27の処理と同様である。但し、音声区間データが推論用混合音声データとして扱われ、非音声区間データが推論用ノイズデータとして扱われる。
 以上のように、実施の形態2によれば、マイクロフォンで収録された音響データから音声区間データと非音声区間データとを生成し、それぞれ、推論用混合音声データ及び推論用ノイズデータとして扱うことができる。
 言い換えると、実施の形態2によれば、音声区間を検出することで、ノイズ混合音声からノイズのみの区間とそれ以外を検出することが可能になり、手動でノイズを与えなくても、未知のノイズに対しても頑健に音声強調が可能になる。
実施の形態3.
 実施の形態3では、推論用の混合音声をブロック毎に分割して処理するとともに、ノイズを復元できるようにしている。
 図1に示されているように、実施の形態3に係る音声強調システム300は、学習装置310と、音声強調装置330とを備える。
 図9は、実施の形態3における学習装置310の構成を概略的に示すブロック図である。
 学習装置310は、音声データ記憶部111と、ノイズデータ記憶部112と、音声混合部113と、成分算出部114と、教師マスク推定部315と、モデル学習部316と、モデル記憶部117と、通信部118と、ブロック分割部319とを備える。
 実施の形態3における学習装置310の音声データ記憶部111、ノイズデータ記憶部112、音声混合部113、成分算出部114、モデル学習部116、モデル記憶部117及び通信部118は、実施の形態1における学習装置110の音声データ記憶部111、ノイズデータ記憶部112、音声混合部113、成分算出部114、モデル学習部116、モデル記憶部117及び通信部118と同様である。
 但し、音声混合部113は、目的音声と、混合音声とをブロック分割部319に与える。
 また、成分算出部114は、ブロック分割部319から与えられるブロック毎に、音響成分を算出する。
 ブロック分割部319は、音声混合部113からの目的音声及び混合音声のそれぞれを、一定時間長の複数のブロックに分割し、分割された複数のブロックの各々を成分算出部114及びモデル学習部116に与える。
 教師マスク推定部315は、実施の形態1の教師マスク推定部115と同様の処理を行う他、ブロック分割部319からのブロックからノイズを強調するノイズマスクも教師マスクとして推定し、モデル学習部316に与える。
 モデル学習部316は、ブロック分割部219からブロックを、ノイズデータ記憶部112から学習用ノイズデータを、教師マスク推定部315から教師マスクを受け取り、音声強調NNを学習する。実施の形態3では、モデル学習部316は、教師マスク推定部315からのノイズマスクにより、ブロックからノイズを復元しながら、音声強調NNを学習する。
 また、モデル学習部316は、ブロック分割部319からブロックを、ノイズデータ記憶部112から学習用ノイズデータを、教師マスク推定部315から教師マスクを受け取り、音声強調NNを再学習する。ここでも、モデル学習部316は、教師マスク推定部315からのノイズマスクにより、ブロックからノイズを復元しながら、音声強調NNを再学習する。
 以上に記載されたブロック分割部319も、例えば、図3(A)に示されているように、メモリ10と、メモリ10に格納されているプログラムを実行するCPU等のプロセッサ11とにより構成することができる。
 また、ブロック分割部319は、例えば、図3(B)に示されているように、単一回路、複合回路、プログラムで動作するプロセッサ、プログラムで動作する並列プロセッサ、ASIC又はFPGA等の処理回路12で構成することもできる。
 以上のように、ブロック分割部319は、処理回路網により実現することができる。
 図10は、実施の形態3における音声強調装置330の構成を概略的に示すブロック図である。
 音声強調装置330は、通信部131と、特徴推定NN記憶部132と、ノイズ推定NN記憶部133と、相関推定NN記憶部134と、音声強調NN記憶部135と、音響成分算出部138と、音響特徴量推定部139と、ノイズ成分算出部140と、ノイズ特徴量推定部341と、相関推定部342と、特徴量統合部143と、マスク推定部144と、音声復元部145と、ブロック分割部347と、ノイズ復元部348とを備える。
 実施の形態3における音声強調装置330の通信部131、特徴推定NN記憶部132、ノイズ推定NN記憶部133、相関推定NN記憶部134、音声強調NN記憶部135、音響成分算出部138、音響特徴量推定部139、ノイズ成分算出部140、特徴量統合部143、マスク推定部144及び音声復元部145は、実施の形態1における音声強調装置130の通信部131、特徴推定NN記憶部132、ノイズ推定NN記憶部133、相関推定NN記憶部134、音声強調NN記憶部135、音響成分算出部138、音響特徴量推定部139、ノイズ成分算出部140、特徴量統合部143、マスク推定部144及び音声復元部145と同様である。
 但し、音響成分算出部138は、ブロック分割部347によりブロック毎に分割された推論用混合音声データから音響成分を算出する。
 また、マスク推定部144は、推定されたマスクをノイズ復元部348にも与える。ここでは、ノイズを強調するためのマスクであるノイズマスクが与えられればよいが、マスク推定部144がノイズマスクを推定しない場合には、マスク推定部144は、目的音声マスクに基づいてノイズを強調するマスクを生成し、生成したノイズマスクをノイズ復元部348に与える。なお、例えば、教師マスクが混合音声のパワースペクトルに対する目的音声のパワースペクトルの比で表現される場合、混合音声から目的音声を強調するマスクの各要素を1から引くことで、ノイズマスクを求めることができる。
 ブロック分割部347は、混合音声データを複数のブロックに分割する。
 例えば、ブロック分割部347は、ノイズ混合音声取得部136からの推論用混合音声データを、一定時間長のブロックに分割し、そのブロックを音響成分算出部138に与える。実施の形態3における音響成分算出部138は、その複数のブロックの各々で、音響成分を算出する。
 ブロックは、例えば、上記の文献“Deep clustering-based single-channel speech separation and recent advances”に示すような、重畳が含まれるように分割されることが望ましい。
 ノイズ復元部348は、音響成分及びノイズマスクから、ノイズを強調することで、復元ノイズ成分を算出する。
 例えば、ノイズ復元部348は、音響成分算出部138からの音響成分に対して、マスク推定部144が出力するノイズマスクを適用して、復元ノイズ成分を算出する。復元ノイズ成分は、ノイズ特徴量推定部341に与えられる。
 ノイズ特徴量推定部341は、実施の形態1におけるノイズ特徴量推定部141での処理に加え、ノイズ復元部348が出力する復元ノイズ成分をノイズ推定NNに入力し、復元ノイズ特徴量を推定する。復元ノイズ特徴量は、すでに推定されたノイズ特徴量と時間方向に結合し、これを結合ノイズ特徴量として相関推定部342に出力する。
 相関推定部342は、結合ノイズ特徴量が生成された場合には、音響特徴量及び結合ノイズ特徴量から、相関を推定する。
 例えば、相関推定部342は、実施の形態1における相関推定部142での処理に加え、音響特徴量推定部139が推定した音響特徴量と、ノイズ特徴量推定部341が推定した結合ノイズ特徴量とを、相関推定NN記憶部134に記憶されている相関推定NNに入力し、2つの特徴量の相関を推定する。相関は、特徴量統合部143に与えられる。
 実施の形態3では、ノイズ特徴量推定部341は、復元ノイズ成分が算出されたブロックの次のブロックにおいて推定されたノイズ特徴量に、復元ノイズ特徴量を時間方向に結合することで、結合ノイズ特徴量を生成するため、相関推定部342も、復元ノイズ成分が算出されたブロックの次のブロックにおいて、音響特徴量及び結合ノイズ特徴量から、相関を推定する。
 以上に記載されたブロック分割部347及びノイズ復元部348の一部又は全部も、例えば、図3(A)に示されているように、メモリ10と、メモリ10に格納されているプログラムを実行するCPU等のプロセッサ11とにより構成することができる。
 また、ブロック分割部347及びノイズ復元部348の一部又は全部は、例えば、図3(B)に示されているように、単一回路、複合回路、プログラムで動作するプロセッサ、プログラムで動作する並列プロセッサ、ASIC又はFPGA等の処理回路12で構成することもできる。
 以上のように、ブロック分割部347及びノイズ復元部348の一部又は全部は、処理回路網により実現することができる。
 図11は、実施の形態1における学習装置110の動作を示すフローチャートである。
 まず、音声混合部113は、音声データ記憶部111から学習用音声データを、ノイズデータ記憶部112から学習用ノイズデータを取得して、学習用音声データで示される学習用目的音声と、学習用ノイズデータで示されるノイズとを重畳することで混合音声を生成する(S40)。
 次に、ブロック分割部319は、音声混合部113からの目的音声及び混合音声を、それぞれブロックに分割する(S41)。
 次に、成分算出部114は、ブロック分割部319からの目的音声及び混合音声のブロックのそれぞれから、目的音声成分及び混合音声成分を算出する(S42)。
 次に、教師マスク推定部115は、成分算出部114からの目的音声成分及び混合音声成分から目的音声を強調するための目的音声マスクと、ノイズを強調するためのノイズマスクとを教師マスクとして生成する(S43)。
 次に、モデル学習部316は、音声混合部113から混合音声を、ノイズデータ記憶部112から学習用ノイズデータを、教師マスク推定部115から教師マスクを受け取り、NNを学習することで、特徴推定NN、ノイズ推定NN、相関推定NN及び音声強調NNを生成する(S44)。NNを学習することで生成された特徴推定NN、ノイズ推定NN、相関推定NN及び音声強調NNは、モデル記憶部117に記憶される。
 また、モデル学習部316は、音声混合部113から混合音声を、ノイズデータ記憶部112から学習用ノイズデータを、教師マスク推定部115から教師マスクを受け取り、音声強調NNを再学習することで、特徴推定NN、ノイズ推定NN、相関推定NN及び音声強調NNを生成する(S45)。音声強調NNを再学習することで生成された特徴推定NN、ノイズ推定NN、相関推定NN及び音声強調NNは、モデル記憶部117に記憶され、音声強調装置130に送られる。
 図12は、実施の形態3における音声強調装置330の動作を示すフローチャートである。
 まず、ブロック分割部347は、ノイズ混合音声取得部136から推論用混合音声データを受け取り、推論用混合音声データを、一定時間長のブロックに分割する(S50)。そして、ブロック分割部347は、分割されたブロックを時間の早いものから順に一つずつ、音響成分算出部138に与える。
 次に、音響成分算出部138は、ブロック分割部347からブロックを受け取り、そのブロックで示される混合音声から、音響成分を算出する(S51)。
 次に、音響特徴量推定部139は、音響成分算出部138から受け取った音響成分を、特徴推定NN記憶部132に記憶されている特徴推定NNに入力し、音響特徴量を推定する(S52)。
 また、ノイズ成分算出部140は、ノイズ取得部137から推論用ノイズデータを受け取り、推論用ノイズデータからノイズ成分を算出する(S53)。
 次に、ノイズ特徴量推定部341は、ノイズ成分算出部140からのノイズ成分を、ノイズ推定NN記憶部133に記憶されているノイズ推定NNに入力し、ノイズ特徴量を推定する(S54)。
 次に、相関推定部342は、音響特徴量推定部139が推定した音響特徴量と、ノイズ特徴量推定部141が推定したノイズ特徴量とを、相関推定NN記憶部134に記憶されている相関推定NNに入力し、2つの特徴量の相関を推定する(S55)。
 次に、特徴量統合部143は、音響特徴量推定部139からの音響特徴量と、相関推定部342からの相関とを統合する(S56)。
 マスク推定部144は、特徴量統合部143からの統合特徴量を入力として、音声強調NN記憶部135に記憶されている音声強調NNを用いてマスクを推定する(S57)。
 次に、音声復元部145は、音響成分算出部138からの音響成分に対して、マスク推定部144からの目的音声マスクを適用し、さらに、例えば逆短時間フーリエ変換(iSTFT)を用いて、目的音声を強調した音声信号を復元する(S58)。
 また、ノイズ復元部348は、音響成分算出部138からの音響成分に対して、マスク推定部144が出力するノイズマスクを適用して、復元ノイズ成分を算出する。
 そして、ブロック分割部347は、音響成分算出部138に与えていないブロックが残っているか否かを判断する(S60)。そのようなブロックが残っている場合(S60でYes)には、処理はステップS51及びステップS54に戻り、そのようなブロックが残っていない場合(S60でNo)には、処理は終了する。
 なお、ステップS60からステップS54に戻った場合には、ノイズ特徴量推定部341は、ノイズ復元部348で復元された復元ノイズ成分を、ノイズ推定NN記憶部133に記憶されているノイズ推定NNに入力し、復元ノイズ特徴量を推定する。
 そして、ステップS55では、相関推定部342は、音響特徴量推定部139が推定した音響特徴量と、ノイズ特徴量推定部141が推定した復元ノイズ特徴量とを、相関推定NN記憶部134に記憶されている相関推定NNに入力し、2つの特徴量の相関を推定する。
 以上のように、実施の形態3によれば、ブロック処理で音声強調を行うことにより、音声強調の処理遅延を低下させることができ、さらに現在音声強調しているブロックの一つ前のブロックから推定されたノイズを用いることにより、未知のノイズに対する頑健性を向上させることが可能になる。加えて、学習時には、教師マスク推定部で推定された真のマスクを用いて一つ前のブロックから抽出したノイズを用いて学習した後、推論時と同様に一つ前のブロックから推定したマスクを用いて抽出したノイズを用いて学習することにより、効率的にモデルを学習できる。
実施の形態4.
 実施の形態4では、復元されたノイズ成分の尤度を算出して、復元されたノイズ成分を使用するか否かを判断する。
 図1に示されているように、実施の形態4に係る音声強調システム400は、学習装置310と、音声強調装置430とを備える。
 実施の形態4に係る音声強調システム400の学習装置310は、実施の形態3に係る音声強調システム300の学習装置310と同様である。
 図13は、実施の形態4における音声強調装置430の構成を概略的に示すブロック図である。
 音声強調装置430は、通信部131と、特徴推定NN記憶部132と、ノイズ推定NN記憶部133と、相関推定NN記憶部134と、音声強調NN記憶部135と、音響成分算出部138と、音響特徴量推定部139と、ノイズ成分算出部140と、ノイズ特徴量推定部441と、相関推定部142と、特徴量統合部143と、マスク推定部144と、音声復元部145と、ブロック分割部347と、ノイズ復元部348と、ノイズ尤度判断部449とを備える。
 実施の形態4における音声強調装置430の通信部131、特徴推定NN記憶部132、ノイズ推定NN記憶部133、相関推定NN記憶部134、音声強調NN記憶部135、音響成分算出部138、音響特徴量推定部139、ノイズ成分算出部140、特徴量統合部143、マスク推定部144及び音声復元部145は、実施の形態1における音声強調装置130の通信部131、特徴推定NN記憶部132、ノイズ推定NN記憶部133、相関推定NN記憶部134、音声強調NN記憶部135、音響成分算出部138、音響特徴量推定部139、ノイズ成分算出部140、特徴量統合部143、マスク推定部144及び音声復元部145と同様である。
 但し、音響成分算出部138は、ブロック分割部347によりブロック毎に分割された推論用混合音声データから音響成分を算出する。
 また、マスク推定部144は、推定されたマスクをノイズ復元部348にも与える。ここでは、ノイズマスクが与えられればよいが、マスク推定部144がノイズマスクを推定しない場合には、マスク推定部144は、目的音声マスクに基づいてノイズを強調するマスクを生成し、生成したノイズマスクをノイズ復元部348に与える。なお、例えば、教師マスクが混合音声のパワースペクトルに対する目的音声のパワースペクトルの比で表現される場合、混合音声から目的音声を強調するマスクの各要素を1から引くことで、ノイズマスクを求めることができる。
 また、実施の形態4における音声強調装置430のブロック分割部347及びノイズ復元部348は、実施の形態3における音声強調装置330のブロック分割部347及びノイズ復元部348と同様である。
 但し、実施の形態4におけるノイズ復元部348は、復元ノイズ成分をノイズ尤度判断部449に与える。
 ノイズ尤度判断部449は、復元ノイズ成分の尤度であるノイズ尤度を算出し、そのノイズ尤度が予め定められた閾値以上となっているか否かを判断する。
 例えば、ノイズ尤度判断部449は、ノイズ復元部348から復元ノイズ成分を受け取り、ノイズ尤度を算出する。そして、ノイズ尤度判断部449は、閾値の以上のノイズ尤度となっているブロックに対応する復元ノイズ成分をノイズ特徴量推定部441に与える。
 ここで、復元ノイズ成分がN×時間の時間周波数表現であるとき、ノイズ尤度は、時間フレームに対応するブロック毎に算出される。ノイズ尤度は、例えば、非特許文献1のように、NNを用いて算出することができる。閾値は、例えば実験的に求めたものを用いることができる。
 ノイズ特徴量推定部441は、ノイズ尤度判断部449から受け取った復元ノイズ成分に対応するブロックの次のブロックにおいては、ノイズ尤度判断部449が出力する復元ノイズ成分をノイズ推定NNに入力して、復元ノイズ特徴量を推定し、その復元ノイズ特徴量を、ノイズ成分算出部140から受け取ったノイズ成分から推定されたノイズ特徴量と時間方向に結合することで、結合ノイズ特徴量を算出する。
 一方、ノイズ特徴量推定部441は、ノイズ尤度判断部449から復元ノイズ成分を受け取っていないブロックの次のブロックにおいては、ノイズ成分算出部140から受け取ったノイズ成分からノイズ特徴量を推定する。
 そして、ノイズ特徴量推定部441は、ノイズ尤度判断部449から受け取った復元ノイズ成分に対応するブロックの次のブロックにおいては、結合ノイズ特徴量を相関推定部342に与え、それ以外のブロックにおいては、ノイズ特徴量を相関推定部342に与える。
 言い換えると、ノイズ特徴量推定部441は、ノイズ尤度が閾値以上となっている場合に、結合ノイズ特徴量を生成する。
 相関推定部442は、ノイズ特徴量推定部441からノイズ特徴量を受け取ったブロックについては、音響特徴量推定部139が推定した音響特徴量と、ノイズ特徴量推定部341が推定したノイズ特徴量とを、相関推定NN記憶部134に記憶されている相関推定NNに入力し、2つの特徴量の相関を推定する。
 一方、相関推定部442は、ノイズ特徴量推定部441から結合ノイズ特徴量を受け取ったブロックについては、音響特徴量推定部139が推定した音響特徴量と、ノイズ特徴量推定部341が推定した結合ノイズ特徴量とを、相関推定NN記憶部134に記憶されている相関推定NNに入力し、2つの特徴量の相関を推定する。相関は、特徴量統合部143に与えられる。
 以上に記載されたノイズ尤度判断部449も、例えば、図3(A)に示されているように、メモリ10と、メモリ10に格納されているプログラムを実行するCPU等のプロセッサ11とにより構成することができる。
 また、ノイズ尤度判断部449は、例えば、図3(B)に示されているように、単一回路、複合回路、プログラムで動作するプロセッサ、プログラムで動作する並列プロセッサ、ASIC又はFPGA等の処理回路12で構成することもできる。
 以上のように、ノイズ尤度判断部449は、処理回路網により実現することができる。
 図14は、実施の形態4における音声強調装置430の動作を示すフローチャートである。
 なお、図14において、図12に示されているフローチャートに含まれているステップと同様の処理を行うステップについては、図12と同じ符号が付されている。
 図14のステップS50~S53での処理については、図12のステップS50~S53での処理と同様である。但し、図14においては、ステップS53の処理の後に、処理はステップS70に進む。
 ステップS70では、ノイズ特徴量推定部441は、ノイズ成分算出部140から受け取ったノイズ成分からノイズ特徴量を推定する。そして、処理はステップS55に進む。
 図14のステップS55~S59での処理については、図12のステップS55~S59での処理と同様である。但し、図14においては、ステップS59の処理の後に,処理はステップS71に進む。
 ステップS71では、ノイズ尤度判断部449は、ノイズ復元部348から復元ノイズ成分を受け取り、ノイズ尤度を算出する。そして、ノイズ尤度判断部449は、算出されたノイズ尤度が閾値の以上となっている場合には、その復元ノイズ成分をノイズ特徴量推定部441に与える。そして、処理はステップS60に進む。
 ステップS60では、ブロック分割部347は、音響成分算出部138に与えていないブロックが残っているか否かを判断する。そのようなブロックが残っている場合(S60でYes)には、処理はステップS51及びステップS70に戻り、そのようなブロックが残っていない場合(S60でNo)には、処理は終了する。
 なお、ステップS60からステップS70に戻った場合であって、ノイズ尤度判断部449から復元ノイズ成分を受け取ったときには、ノイズ特徴量推定部441は、ノイズ復元部348で復元された復元ノイズ成分を、ノイズ推定NN記憶部133に記憶されているノイズ推定NNに入力し、復元ノイズ特徴量を推定し、その復元ノイズ特徴量を、ノイズ成分算出部140から受け取ったノイズ成分から推定されたノイズ特徴量と時間方向に結合することで、結合ノイズ特徴量を算出する。
 この場合、ステップS55において、相関推定部342は、音響特徴量推定部139が推定した音響特徴量と、ノイズ特徴量推定部141が推定した復元ノイズ特徴量とを、相関推定NN記憶部134に記憶されている相関推定NNに入力し、2つの特徴量の相関を推定する。
 以上のように、実施の形態4によれば、一つ前のブロックから推定されたノイズのうち、ノイズ尤度が高い部分のみを用いることで、推定誤りを含むノイズを学習することを防ぐことが可能になる。
 100,200,300,400 音声強調システム、 110,310 学習装置、 111 音声データ記憶部、 112 ノイズデータ記憶部、 113 音声混合部、 114 成分算出部、 115,315 教師マスク推定部、 116,316 モデル学習部、 117 モデル記憶部、 118 通信部、 319 ブロック分割部、 130,230,330,430 音声強調装置、 131 通信部、 132 特徴推定NN記憶部、 133 ノイズ推定NN記憶部、 134 相関推定NN記憶部、 135 音声強調NN記憶部、 136 ノイズ混合音声取得部、 137 ノイズ取得部、 138 音響成分算出部、 139 音響特徴量推定部、 140 ノイズ成分算出部、 141,341,441 ノイズ特徴量推定部、 142,342,442 相関推定部、 143 特徴量統合部、 144 マスク推定部、 145 音声復元部、 246 音声区間検出部、 347 ブロック分割部、 348 ノイズ復元部、 449 ノイズ尤度判断部。

Claims (9)

  1.  強調する対象となる目的音声及び前記目的音声と混合されるノイズである混合ノイズを含む混合音声データから、予め定められた関数を用いて、前記目的音声及び前記混合ノイズの成分である音響成分を算出する音響成分算出部と、
     前記音響成分を、音声及びノイズの音響的な特徴量を推定するために学習された特徴推定モデルに入力することで、音響特徴量を推定する音響特徴量推定部と、
     前記目的音声を含まないで、ノイズを含むノイズデータから、前記予め定められた関数を用いて、ノイズの成分であるノイズ成分を算出するノイズ成分算出部と、
     前記ノイズ成分を、ノイズの音響的な特徴量を推定するために学習されたノイズ推定モデルに入力することで、ノイズ特徴量を推定するノイズ特徴量推定部と、
     前記音響特徴量及び前記ノイズ特徴量を、音声及びノイズの音響的な特徴量と、ノイズの音響的な特徴量との相関を推定するために学習された相関推定モデルに入力することで、前記音響特徴量と、前記ノイズ特徴量との相関を推定する相関推定部と、
     前記音響特徴量に、前記推定された相関で重み付けを行うことで、統合特徴量を算出する特徴量統合部と、
     前記統合特徴量を、音声を強調するためのマスクを推定するために学習された音声強調モデルに入力することで、目的音声マスクを推定するマスク推定部と、
     前記音響成分及び前記目的音声マスクから、前記目的音声を強調した音声を復元する音声復元部と、を備えること
     を特徴とする情報処理装置。
  2.  データの入力を受け付けるインタフェース部と、
     前記インタフェース部を介して、前記混合音声データを取得するノイズ混合音声取得部と、
     前記インタフェース部を介して、前記ノイズデータを取得するノイズ取得部と、をさらに備えること
     を特徴とする請求項1に記載の情報処理装置。
  3.  データの入力を受け付けるインタフェース部と、
     前記インタフェース部を介して、前記目的音声が含まれている区間及び前記目的音声が含まれていない区間を有する音響データを取得して、前記音響データから前記目的音声が含まれている区間のデータにより前記混合音声データを生成し、前記音響データから前記目的音声が含まれていない区間のデータにより前記ノイズデータを生成する音声区間検出部と、をさらに備えること
     を特徴とする請求項1に記載の情報処理装置。
  4.  前記混合音声データを複数のブロックに分割するブロック分割部をさらに備え、
     前記音響成分算出部は、前記複数のブロックの各々で、前記音響成分を算出すること
     を特徴とする請求項1から3の何れか一項に記載の情報処理装置。
  5.  前記マスク推定部は、ノイズを強調するためのノイズマスクをさらに推定し、
     前記音響成分及び前記ノイズマスクから、ノイズを強調することで、復元ノイズ成分を算出するノイズ復元部をさらに備え、
     前記ノイズ特徴量推定部は、前記復元ノイズ成分を、前記ノイズ推定モデルに入力することで、復元ノイズ特徴量を推定し、前記ノイズ特徴量に、前記復元ノイズ特徴量を時間方向に結合することで、結合ノイズ特徴量を生成し、
     前記相関推定部は、前記結合ノイズ特徴量が生成された場合には、前記音響特徴量及び前記結合ノイズ特徴量から、前記相関を推定すること
     を特徴とする請求項4に記載の情報処理装置。
  6.  前記ノイズ特徴量推定部は、前記復元ノイズ成分が算出されたブロックの次のブロックにおいて推定された前記ノイズ特徴量に、前記復元ノイズ特徴量を時間方向に結合することで、結合ノイズ特徴量を生成すること
     を特徴とする請求項5に記載の情報処理装置。
  7.  前記復元ノイズ成分の尤度であるノイズ尤度を算出し、前記ノイズ尤度が予め定められた閾値以上となっているか否かを判断するノイズ尤度判断部をさらに備え、
     前記ノイズ特徴量推定部は、前記ノイズ尤度が前記閾値以上となっている場合に、前記結合ノイズ特徴量を生成すること
     を特徴とする請求項5に記載の情報処理装置。
  8.  コンピュータを、
     強調する対象となる目的音声及び前記目的音声と混合されるノイズである混合ノイズを含む混合音声データから、予め定められた関数を用いて、前記目的音声及び前記混合ノイズの成分である音響成分を算出する音響成分算出部、
     前記音響成分を、音声及びノイズの音響的な特徴量を推定するために学習された特徴推定モデルに入力することで、音響特徴量を推定する音響特徴量推定部、
     前記目的音声を含まないで、ノイズを含むノイズデータから、前記予め定められた関数を用いて、ノイズの成分であるノイズ成分を算出するノイズ成分算出部、
     前記ノイズ成分を、ノイズの音響的な特徴量を推定するために学習されたノイズ推定モデルに入力することで、ノイズ特徴量を推定するノイズ特徴量推定部、
     前記音響特徴量及び前記ノイズ特徴量を、音声及びノイズの音響的な特徴量と、ノイズの音響的な特徴量との相関を推定するために学習された相関推定モデルに入力することで、前記音響特徴量と、前記ノイズ特徴量との相関を推定する相関推定部、
     前記音響特徴量に、前記推定された相関で重み付けを行うことで、統合特徴量を算出する特徴量統合部、
     前記統合特徴量を、音声を強調するためのマスクを推定するために学習された音声強調モデルに入力することで、目的音声マスクを推定するマスク推定部、
     前記音響成分及び前記目的音声マスクから、前記目的音声を強調した音声を復元する音声復元部、として機能させること
     を特徴とするプログラム。
  9.  強調する対象となる目的音声及び前記目的音声と混合されるノイズである混合ノイズを含む混合音声データから、予め定められた関数を用いて、前記目的音声及び前記混合ノイズの成分である音響成分を算出し、
     前記音響成分を、音声及びノイズの音響的な特徴量を推定するために学習された特徴推定モデルに入力することで、音響特徴量を推定し、
     前記目的音声を含まないで、ノイズを含むノイズデータから、前記予め定められた関数を用いて、ノイズの成分であるノイズ成分を算出し、
     前記ノイズ成分を、ノイズの音響的な特徴量を推定するために学習されたノイズ推定モデルに入力することで、ノイズ特徴量を推定し、
     前記音響特徴量及び前記ノイズ特徴量を、音声及びノイズの音響的な特徴量と、ノイズの音響的な特徴量との相関を推定するために学習された相関推定モデルに入力することで、前記音響特徴量と、前記ノイズ特徴量との相関を推定し、
     前記音響特徴量に、前記推定された相関で重み付けを行うことで、統合特徴量を算出し、
     前記統合特徴量を、音声を強調するためのマスクを推定するために学習された音声強調モデルに入力することで、目的音声マスクを推定し、
     前記音響成分及び前記目的音声マスクから、前記目的音声を強調した音声を復元すること
     を特徴とする情報処理方法。
PCT/JP2022/020921 2022-05-20 2022-05-20 情報処理装置、プログラム及び情報処理方法 WO2023223529A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/JP2022/020921 WO2023223529A1 (ja) 2022-05-20 2022-05-20 情報処理装置、プログラム及び情報処理方法
JP2024511961A JPWO2023223529A1 (ja) 2022-05-20 2022-05-20

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/020921 WO2023223529A1 (ja) 2022-05-20 2022-05-20 情報処理装置、プログラム及び情報処理方法

Publications (1)

Publication Number Publication Date
WO2023223529A1 true WO2023223529A1 (ja) 2023-11-23

Family

ID=88834942

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/020921 WO2023223529A1 (ja) 2022-05-20 2022-05-20 情報処理装置、プログラム及び情報処理方法

Country Status (2)

Country Link
JP (1) JPWO2023223529A1 (ja)
WO (1) WO2023223529A1 (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019017403A1 (ja) * 2017-07-19 2019-01-24 日本電信電話株式会社 マスク計算装置、クラスタ重み学習装置、マスク計算ニューラルネットワーク学習装置、マスク計算方法、クラスタ重み学習方法及びマスク計算ニューラルネットワーク学習方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019017403A1 (ja) * 2017-07-19 2019-01-24 日本電信電話株式会社 マスク計算装置、クラスタ重み学習装置、マスク計算ニューラルネットワーク学習装置、マスク計算方法、クラスタ重み学習方法及びマスク計算ニューラルネットワーク学習方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ABDULLAH SALINNA; ZAMANI MAJID; DEMOSTHENOUS ANDREAS: "Towards More Efficient DNN-Based Speech Enhancement Using Quantized Correlation Mask", IEEE ACCESS, IEEE, USA, vol. 9, 3 February 2021 (2021-02-03), USA , pages 24350 - 24362, XP011836476, DOI: 10.1109/ACCESS.2021.3056711 *

Also Published As

Publication number Publication date
JPWO2023223529A1 (ja) 2023-11-23

Similar Documents

Publication Publication Date Title
Luo et al. Real-time single-channel dereverberation and separation with time-domain audio separation network.
Krueger et al. Model-based feature enhancement for reverberant speech recognition
JP4316583B2 (ja) 特徴量補正装置、特徴量補正方法および特徴量補正プログラム
EP2596496B1 (en) A reverberation estimator
JP5375400B2 (ja) 音声処理装置、音声処理方法およびプログラム
Serrà et al. SESQA: semi-supervised learning for speech quality assessment
Lin et al. Speech enhancement using multi-stage self-attentive temporal convolutional networks
KR101729634B1 (ko) 키보드 타이핑 탐지 및 억제
RU2568278C2 (ru) Расширение полосы пропускания звукового сигнала нижней полосы
Pan et al. Muse: Multi-modal target speaker extraction with visual cues
CN112927707A (zh) 语音增强模型的训练方法和装置及语音增强方法和装置
Zhang et al. Multi-channel multi-frame ADL-MVDR for target speech separation
CN111785288B (zh) 语音增强方法、装置、设备及存储介质
Roy et al. A Deep Learning-Based Kalman Filter for Speech Enhancement.
Liu et al. X-SepFormer: End-to-end speaker extraction network with explicit optimization on speaker confusion
JP5994639B2 (ja) 有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム
Abdulatif et al. Investigating cross-domain losses for speech enhancement
Zhang et al. Multi-Target Ensemble Learning for Monaural Speech Separation.
WO2023223529A1 (ja) 情報処理装置、プログラム及び情報処理方法
Chen et al. On Synthesis for Supervised Monaural Speech Separation in Time Domain.
Zhou et al. Speech Enhancement via Residual Dense Generative Adversarial Network.
JP2020012980A (ja) 信号処理装置、信号処理プログラム、信号処理方法、及び収音装置
Ajay et al. Comparative study of deep learning techniques used for speech enhancement
JP7270869B2 (ja) 情報処理装置、出力方法、及び出力プログラム
Feng et al. DNN-based linear prediction residual enhancement for speech dereverberation

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22942733

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2024511961

Country of ref document: JP

Kind code of ref document: A