WO2022190245A1 - 騒音抑圧装置、騒音抑圧方法、及び騒音抑圧プログラム - Google Patents

騒音抑圧装置、騒音抑圧方法、及び騒音抑圧プログラム Download PDF

Info

Publication number
WO2022190245A1
WO2022190245A1 PCT/JP2021/009490 JP2021009490W WO2022190245A1 WO 2022190245 A1 WO2022190245 A1 WO 2022190245A1 JP 2021009490 W JP2021009490 W JP 2021009490W WO 2022190245 A1 WO2022190245 A1 WO 2022190245A1
Authority
WO
WIPO (PCT)
Prior art keywords
noise
data
noise suppression
input data
weighting factor
Prior art date
Application number
PCT/JP2021/009490
Other languages
English (en)
French (fr)
Inventor
利行 花澤
Original Assignee
三菱電機株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 三菱電機株式会社 filed Critical 三菱電機株式会社
Priority to EP21930102.5A priority Critical patent/EP4297028A4/en
Priority to CN202180094907.7A priority patent/CN116964664A/zh
Priority to PCT/JP2021/009490 priority patent/WO2022190245A1/ja
Priority to JP2023504950A priority patent/JP7345702B2/ja
Publication of WO2022190245A1 publication Critical patent/WO2022190245A1/ja
Priority to US18/233,476 priority patent/US20230386493A1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals

Definitions

  • the present disclosure relates to a noise suppression device, a noise suppression method, and a noise suppression program.
  • the Weiner method is known as a method for reducing noise components from a sound signal in which noise (hereinafter also referred to as “noise”) is mixed with voice (hereinafter also referred to as "speech").
  • noise hereinafter also referred to as "noise”
  • voice hereinafter also referred to as "speech”
  • the SN signal-noise ratio
  • the voice component is degraded. Therefore, there has been proposed a method of suppressing deterioration of voice components while improving the SN ratio by performing noise reduction processing according to the SN ratio (see, for example, Non-Patent Document 1).
  • the present disclosure has been made to solve the above-described problems, and provides a noise suppression device, a noise suppression method, and a The purpose is to provide a noise suppression program.
  • a noise suppression device includes a noise suppression unit that performs noise suppression processing on input data to generate noise-suppressed data; a weighting factor calculation unit that determines a weighting factor based on the noise-suppressed data in a section; and a weighted addition of the input data and the noise-suppressed data using a value based on the weighting factor as a weight. and a weighted sum unit that generates output data.
  • Another noise suppression device includes a noise suppression unit that performs noise suppression processing on input data to generate noise-suppressed data; Weighting factor calculation for dividing into a plurality of short intervals and determining a weighting factor for each of the plurality of short intervals based on the input data in the plurality of short intervals and the post-noise suppression data in the plurality of short intervals.
  • a weighted sum unit that generates output data by performing weighted addition of the input data and the noise-suppressed data using a value based on the weighting coefficient as a weight in each of the plurality of short intervals; characterized by comprising
  • FIG. 2 is a diagram showing an example of hardware configuration of a noise suppression device according to Embodiments 1 to 3;
  • FIG. 1 is a functional block diagram schematically showing the configuration of a noise suppression device according to Embodiment 1;
  • FIG. 4 is a flow chart showing the operation of the noise suppression device according to Embodiment 1;
  • FIG. 7 is a functional block diagram schematically showing the configuration of a noise suppression device according to Embodiment 2;
  • FIG. 1 is a functional block diagram schematically showing the configuration of a noise suppression device according to Embodiment 1;
  • FIG. 4 is a flow chart showing the operation of the noise suppression device according to Embodiment 1;
  • FIG. 7 is a functional block diagram schematically showing the configuration of a noise suppression device according to Embodi
  • FIG. 11 is a functional block diagram schematically showing the configuration of a noise suppression device according to Embodiment 3; 10 is a flow chart showing the operation of the noise suppression device according to Embodiment 3; 10 is a flow chart showing a method of calculating addition coefficients in the noise suppression device according to Embodiment 3.
  • FIG. 11 is a functional block diagram schematically showing the configuration of a noise suppression device according to Embodiment 3; 10 is a flow chart showing the operation of the noise suppression device according to Embodiment 3; 10 is a flow chart showing a method of calculating addition coefficients in the noise suppression device according to Embodiment 3.
  • noise suppression device a noise suppression method, and a noise suppression program according to embodiments will be described below with reference to the drawings.
  • the following embodiments are merely examples, and the embodiments can be combined as appropriate and each embodiment can be modified as appropriate.
  • FIG. 1 shows an example of a hardware configuration of a noise suppression device 1 according to Embodiment 1.
  • the noise suppression device 1 is a device capable of executing the noise suppression method according to the first embodiment.
  • the noise suppression device 1 is, for example, a computer that executes the noise suppression program according to the first embodiment.
  • the noise suppression device 1 includes a processor 101 as an information processing section for processing information, a memory 102 as a volatile storage device, and a non-volatile storage device 103 as a storage section for storing information. , and an input/output interface 104 used to transmit and receive data to and from an external device.
  • the nonvolatile storage device 103 may be part of another device that can communicate with the noise suppression device 1 via a network.
  • the noise suppression program can be obtained by downloading over a network or reading from a recording medium such as an optical disc storing information.
  • the hardware configuration of FIG. 1 can also be applied to noise suppression devices 2 and 3 according to Embodiments 2 and 3, which will be described later.
  • a processor 101 controls the overall operation of the noise suppression device 1 .
  • the processor 101 is, for example, a CPU (Central Processing Unit) or an FPGA (Field Programmable Gate Array).
  • the noise suppression device 1 may be realized by a processing circuit. Also, the noise suppression device 1 may be realized by software, firmware, or a combination thereof.
  • the memory 102 is the main storage device of the noise suppression device 1 .
  • the memory 102 is, for example, a RAM (Random Access Memory).
  • the nonvolatile storage device 103 is an auxiliary storage device of the noise suppression device 1 .
  • the nonvolatile storage device 103 is, for example, a HDD (Hard Disk Drive) or an SSD (Solid State Drive).
  • the input/output interface 104 inputs input data Si(t) and outputs output data So(t).
  • the input data Si(t) is, for example, data input from a microphone and converted into digital data.
  • the input/output interface 104 is used for receiving operation signals based on user operations by a user operation unit (for example, voice input start button, keyboard, mouse, touch panel, etc.), communication with other devices, and the like.
  • a user operation unit for example, voice input start button, keyboard, mouse, touch panel, etc.
  • t is an index indicating a position on the time series. A larger value of t indicates a later time on the time axis.
  • FIG. 2 is a functional block diagram schematically showing the configuration of the noise suppression device 1 according to Embodiment 1.
  • the noise suppression device 1 includes a noise suppressor 11 , a weighted coefficient calculator 12 , and a weighted summation unit 13 .
  • the input data Si(t) of the noise suppression device 1 is PCM (pulse code modulation) data obtained by A/D (analog/digital) conversion of a signal in which a noise component is superimposed on a speech component to be recognized.
  • PCM pulse code modulation
  • A/D analog/digital
  • the output data So(t) is data in which the noise component in the input data Si(t) is suppressed.
  • the output data So(t) is sent to, for example, a known speech recognition device.
  • the meanings of t and T are as already explained.
  • the noise suppression unit 11 receives the input data Si(t) and suppresses the noise components in the input data Si(t) to obtain PCM data, that is, the noise that is data after noise suppression processing has been performed. Output the suppressed data Ss(t).
  • the meanings of t and T are as already explained.
  • the amount of noise component suppression is insufficient, or a phenomenon occurs in which the speech component, which is the voice component to be recognized, is distorted or lost. Sometimes.
  • the noise suppression unit 11 can use any noise suppression method.
  • the noise suppression unit 11 performs noise suppression processing using a neural network (NN).
  • the noise suppression unit 11 learns a neural network before performing noise suppression processing. Learning can be performed, for example, using PCM data of voice with noise superimposed as input data and PCM data with no noise superimposed on voice as teacher data, using the error back propagation method.
  • the weighting factor calculator 12 determines the weighting factor ⁇ based on the input data Si(t) in a predetermined section on the time series and the post-noise suppression data Ss(t) in the predetermined section (that is, calculate.
  • the weighted sum unit 13 generates output data So(t) by performing weighted addition of the input data Si(t) and the noise-suppressed data Ss(t) using the value based on the weighting factor ⁇ as a weight.
  • FIG. 3 is a flowchart showing the operation of the noise suppression device 1.
  • FIG. 3 is a flowchart showing the operation of the noise suppression device 1.
  • step ST11 in FIG. 3 when the noise suppression device 1 starts receiving the input data Si(t) and the input data Si(t) is input to the noise suppression device 1, the noise suppression unit 11 receives the input data Si (t) is subjected to noise suppression processing to generate noise-suppressed data Ss(t).
  • the weighting coefficient calculation unit 12 receives the input data Si(t), which is data before noise suppression, and the data after noise suppression Ss(t), and the input data Si(t) and Power P1 of input data Si(t) and noise-suppressed data Ss(t) in a predetermined interval (for example, a short-time interval such as 0.5 seconds) from the beginning of noise-suppressed data Ss(t)
  • a predetermined interval for example, a short-time interval such as 0.5 seconds
  • the power P2 of is calculated. It is considered that the data in the predetermined section does not contain the speech component to be recognized, but contains only the noise component. The reason for this is that speech is rarely started immediately after the noise suppression device 1 is activated (for example, immediately after a voice input start operation is performed).
  • the speaker that is, the user who emits the speech to be recognized performs a speech input start operation in the device, and after inhaling air, speaks while exhaling from the lungs. Because it does not emit For this reason, the predetermined interval at the start of speech input is usually a noise-only interval that does not include the speaker's voice, that is, a noise interval.
  • the noise section is denoted by E. As shown in FIG.
  • the noise section E is not limited to a section of 0.5 seconds from the beginning of the input data, and may be a section of other length such as a section of 1 second or a section of 0.75 seconds.
  • the noise section E is too long, the possibility of voice components being mixed increases, but the reliability of the weighting factor ⁇ improves.
  • the noise interval E is too short, the possibility of voice components being mixed is low, but the reliability of the weighting coefficient ⁇ is lowered. Therefore, it is desirable that the noise section E is appropriately set according to the use environment, user's request, and the like.
  • the weighting factor calculator 12 uses the power P1 of the input data Si(t) in the noise section E and the power P2 of the noise-suppressed data Ss(t) in the noise section E to calculate the decibel value of the ratio of the two.
  • a noise suppression amount R is calculated. That is, the weighting coefficient calculator 12 calculates the noise suppression amount R based on the ratio of the power P1 of the input data Si(t) in the noise section E to the power of the noise-suppressed data Ss(t) in the noise section E. , the value of the weighting factor ⁇ is determined based on the amount of noise suppression R.
  • a calculation formula for the noise suppression amount R is, for example, the following formula (1).
  • the noise suppression amount R calculated by Equation (1) is the degree of noise suppression by the noise suppressor 11 between the input data Si(t) in the noise section E and the post-noise suppression data Ss(t) in the noise section E. indicates As the noise suppression amount R increases, the degree of noise suppression by the noise suppressor 11 increases.
  • the weighting factor calculation unit 12 determines the value of the weighting factor ⁇ based on the calculated noise suppression amount R. That is, the weighting factor calculator 12 compares the calculated noise suppression amount R with a predetermined threshold value TH_R, and determines the value of the weighting factor ⁇ based on the result of this comparison.
  • the weighting factor calculator 12 when the noise suppression amount R is less than the threshold TH_R (YES in step ST13), the weighting factor calculator 12 outputs a predetermined value ⁇ 1 as the weighting factor ⁇ in step ST14 . .
  • the weighting factor calculator 12 when the noise suppression amount R is equal to or greater than the threshold TH_R (NO in step ST13), the weighting factor calculator 12 outputs a predetermined value ⁇ 2 as the weighting factor ⁇ in step ST15.
  • ⁇ 1 and ⁇ 2 are constants of 0 or more and 1 or less satisfying ⁇ 1 > ⁇ 2 .
  • the weighting coefficient calculation unit 12 that calculates the weighting coefficient ⁇ in this way has a small noise suppression effect because the noise suppression amount R is small, and conversely, noise that is considered to have a large adverse effect due to voice distortion or loss.
  • the weighting factor ⁇ for the input data Si(t) is increased to reduce the adverse effects of noise suppression.
  • the weighting coefficient calculation unit 12 reduces the weighting coefficient ⁇ for the input data Si(t) because it is considered that the noise suppression effect is large.
  • the weighted sum unit 13 uses the following equation (2) based on the input data Si(t), the noise-suppressed data Ss(t), and the weighting coefficient ⁇ to obtain: Calculate and output the output data So(t).
  • the noise suppression device 1 or the noise suppression method according to Embodiment 1 in a noisy environment where the noise suppression amount R is small, the weighting coefficient ⁇ to be multiplied by the input data Si(t) is increased. and reduce the coefficient (1- ⁇ ) indicating the noise suppression effect.
  • the weighting coefficient ⁇ multiplied by the input data Si(t) is decreased, and the coefficient (1 ⁇ ) indicating the noise suppression effect is increased.
  • the output data So(t) speech data that is less adversely affected by distortion or loss of the speech to be recognized, without excessively reducing the noise suppression effect. That is, in the first embodiment, it is possible to appropriately suppress the noise component and the deterioration of the voice component in the input data Si(t).
  • the input data Si(t) in the noise section E which is a short time from the start of voice input to the noise suppression device 1
  • the value of the weighting factor ⁇ is determined. Therefore, unlike the technique of determining the weighting factor ⁇ using the SN ratio of input data, there is no need to use voice power that is difficult to measure in a noisy environment. Therefore, it is possible to improve the calculation accuracy of the weighting coefficient ⁇ , and appropriately suppress the noise component and the deterioration of the voice component in the input data Si(t). Also, the weighting factor ⁇ can be determined without delay for the input data Si(t).
  • FIG. 4 is a block diagram schematically showing the configuration of the noise suppression device 2 according to Embodiment 2.
  • the noise suppression device 2 includes a noise suppressor 11, a weighted coefficient calculator 12a, a weighted summation unit 13, a weighted coefficient table 14, and a noise type determination model 15.
  • the hardware configuration of the noise suppression device 2 is the same as that shown in FIG.
  • the weighting factor table 14 and the noise type determination model 15 are obtained in advance by learning, for example, and stored in the nonvolatile storage device 103 .
  • the weighting factor table 14 holds predetermined weighting factor candidates in association with noise identification numbers assigned to each of a plurality of types of noise.
  • the noise type determination model 15 is used to determine which of the multiple types of noise in the weighting factor table 14 the noise component included in the input data is based on the spectral feature amount of the input data.
  • the weighting factor calculation unit 12a uses the noise type determination model (15) to determine the noise most similar to the data of the predetermined section (E) in the input data among the plurality of types of noise. Then, from the weighting coefficient table 14, a weighting coefficient candidate associated with the noise identification number of the calculated noise is output as the weighting coefficient ⁇ .
  • FIG. 5 is a diagram showing an example of the weighting factor table 14.
  • FIG. 14 In the weighting factor table 14, candidates for the optimum weighting factor ⁇ (that is, weighting factor candidates) predetermined in association with the noise identification number for each noise for a plurality of types of noise to which noise identification numbers have been assigned in advance. is retained.
  • the weighting coefficient table 14 is created in advance using multiple types of noise data and voice data for evaluation.
  • noise-superimposed audio data is created by superimposing one of a plurality of types of noise data on the evaluation audio data, and the data is input to the noise suppression unit 11, and the output data is This is data after noise suppression. This processing is performed for each of a plurality of types of noise data to obtain a plurality of noise-suppressed data.
  • a speech recognition experiment is performed on the recognition rate evaluation data for each of the plurality of weighting factors, and the weighting factor with the highest recognition rate is stored in the weighting factor table 14 together with the noise identification number of the noise data.
  • the speech recognition experiment is performed by a speech recognition engine that recognizes speech.
  • a speech recognition engine recognizes human speech and converts it to text.
  • the speech recognition experiment is desirably performed using a speech recognition engine used in combination with the noise suppression device 2, but a known speech recognition engine can be used.
  • the noise type determination model 15 is a model that is used to determine which of a plurality of types of noise to which noise identification numbers have been assigned in advance is most similar to the noise component included in the input data Si(t). .
  • the noise type determination model 15 is created in advance using a plurality of types of noise data to which noise identification numbers are assigned in advance.
  • the spectral feature amount of multiple types of noise data to which noise identification numbers are assigned in advance is calculated, and the noise type determination model 15 is created using the calculated spectral feature amount.
  • the noise type determination model 15 can be constructed from a known pattern recognition model such as a neural network or GMM (Gaussian Mixture Model).
  • GMM Gaussian Mixture Model
  • a neural network is used as the noise type determination model 15 .
  • the number of output units of the neural network is the number of types of noise to which noise identification numbers are given in advance. Each output unit is associated with a noise identification number.
  • a mel filter bank feature amount is used as the spectrum feature amount.
  • the neural network which is the noise type determination model 15, before implementing noise suppression.
  • the Mel filter bank feature amount is used as input data
  • the output value of the output unit corresponding to the noise identification number of the input data is set to 1
  • the output value of the other output units is set to 0, and the error back propagation method is used as teacher data.
  • the noise type determination model 15 learns such that when the mel filter bank feature amount of noise is input, the output value of the output unit of the corresponding noise identification number becomes higher than the output values of the other output units. be. Therefore, when judging the type of noise, the noise identification number associated with the output unit that outputs the highest value for the input mel filter bank feature amount is used as the judgment result.
  • FIG. 6 is a flowchart showing the operation of the noise suppression device 2.
  • the noise suppression unit 11 When the input data Si(t) is input to the noise suppression device 2, the noise suppression unit 11 performs noise suppression processing on the input data Si(t) in step ST21 of FIG. t) is output.
  • step ST22 of FIG. 6 when the weighting factor calculator 12a receives the input data Si(t), the noise section E (for example, 0 A mel filter bank feature amount, which is a spectrum feature amount of the input data Si(t), is calculated for a short period of 0.5 seconds), and a noise identification number is obtained using the noise type determination model 15 . That is, the weighting factor calculation unit 12a inputs the mel filter bank feature amount to the noise type determination model 15, and determines the noise identification number associated with the output unit that outputs the highest value among the output units of the noise type determination model 15. obtain. Then, referring to the weighting factor table 14, the weighting factor candidate corresponding to the noise identification number is output as the weighting factor ⁇ .
  • the noise section E for example, 0 A mel filter bank feature amount, which is a spectrum feature amount of the input data Si(t), is calculated for a short period of 0.5 seconds
  • a noise identification number is obtained using the noise type determination model 15 . That is, the weighting factor calculation unit 12a inputs
  • the weighted sum unit 13 receives the input data Si(t), the noise-suppressed data Ss(t) output from the noise suppression unit 11, and the weighting factor ⁇ , and By (2), the output data So(t) is calculated and output.
  • the operation of the weighted sum unit 13 is the same as that of the first embodiment.
  • the weighting coefficient calculation unit 12a uses the noise type determination model 15 to determine the weight of the noise included in the input data Si(t). The type is determined, and an appropriate weighting factor candidate for the noise environment is determined (that is, acquired) from the weighting factor table 14 based on the result of this determination as the weighting factor ⁇ . Therefore, there is an effect that noise suppression performance can be improved.
  • the second embodiment is the same as the first embodiment.
  • FIG. 7 is a functional block diagram schematically showing the configuration of the noise suppression device 3 according to Embodiment 3.
  • the noise suppressor 3 includes a noise suppressor 11, a weighted coefficient calculator 12b, a weighted summator 13b, and a speech noise determination model 16.
  • the hardware configuration of the noise suppression device 3 is the same as that shown in FIG.
  • the audio noise determination model 16 is stored in the non-volatile storage device 103, for example.
  • the voice/noise determination model 16 is a model that determines whether voice is included in the data included in the input data Si(t).
  • the voice/noise determination model 16 is created in advance using voice data and multiple types of noise data.
  • the spectrum feature amount is calculated for multiple types of noise data, voice data, data obtained by superimposing multiple types of noise on voice data, and multiple types of noise data, and the calculated spectrum feature amount is used.
  • a voice noise determination model 16 is created.
  • the speech noise determination model 16 can be constructed with any pattern recognition model such as a neural network or GMM.
  • a neural network is used to create the speech noise determination model 16 .
  • the number of output units of the neural network is assumed to be two, which are associated with speech and noise.
  • a mel filter bank feature amount is used as the spectrum feature amount. Before implementing noise suppression, it is necessary to train the neural network, which is the speech noise determination model 16 .
  • the mel filter bank feature value is used as input data, and if the input data includes voice data, i.e., voice data or voice data on which multiple types of noise are superimposed, the output value of the output unit corresponding to voice is set to 1, and noise If the output value of the output unit corresponding to is 0, and the input data is noise data, the output value of the output unit corresponding to voice is 0, and the output value of the output unit corresponding to noise is 1 as teacher data. It can be implemented using error backpropagation.
  • the voice/noise judgment model 16 receives the mel filter bank feature amount of voice data or voice data superimposed with noise, the output value of the output unit corresponding to the voice increases, and the noise data mel filter bank feature amount increases.
  • the weighting factor calculation unit 12b selects the output unit that outputs the highest value for the input mel filter bank feature quantity as associated with speech. If it is something, it can be determined that it is data containing voice, and if it is associated with noise, it can be determined that it is noise.
  • FIG. 8 is a flowchart showing the operation of the noise suppression device 3.
  • the noise suppression unit 11 When the input data Si(t), is input to the noise suppression device 3, the noise suppression unit 11 performs noise suppression processing on the input data Si(t) in step ST31 of FIG. Output (t).
  • one short section D j contains the number of data corresponding to the time length d, and all of the J short sections D 1 to D J contain T pieces of data.
  • J is an integer obtained by the following formula (3).
  • the symbol [ ] is an operator that truncates the numerical value within the symbol to the nearest integer to integerize the numerical value within the symbol.
  • step ST33 a weighting coefficient ⁇ j is calculated for each short section D j and output together with the value of the short duration d.
  • a specific method for calculating the weighting factor ⁇ j will be described later.
  • step ST34 the weighted sum unit 13b inputs the input data Si(t), the noise-suppressed data Ss(t), the weighting coefficient ⁇ j , and the time length d of the short section, and the following equation (4)
  • the output data So(t) is obtained by and output.
  • j is calculated by the following formula (5).
  • the symbol [ ] is an operator that truncates the decimal point of the numerical value in the symbol to make the numerical value in the symbol into an integer.
  • FIG. 9 is a flow chart showing a method of calculating the weighting factor ⁇ j .
  • the weighting factor calculation unit 12b uses the audio noise determination model 16 to determine whether the mel filter bank feature amount is for audio data or for noise data on which noise is superimposed.
  • the weighting factor calculator 12b inputs the mel-filter bank feature amount to the voice noise determination model 16, and the output unit outputting the highest value among the output units of the voice noise determination model 16 is the unit associated with the voice. If so, it is determined to contain voice, otherwise it is determined to be noise.
  • the weighting factor calculation unit 12b branches the processing depending on whether or not the determination result of the short section Dj includes voice. If the determination result includes voice, in step ST44, the weighting factor calculation unit 12b determines whether or not the noise suppression amount Rj is equal to or greater than a predetermined threshold TH_Rs . ), a predetermined value A1 (also referred to as a "first value”) is set as the weighting coefficient ⁇ j in step ST45. On the other hand, when the value of the noise suppression amount Rj is less than the threshold TH_Rs , the weighting factor calculation unit 12b sets a predetermined value A2 (also referred to as a “second value”) in step ST46 to the weighting factor ⁇ j .
  • a predetermined value A1 also referred to as a “first value”
  • the weighting factor calculation unit 12b sets a predetermined value A2 (also referred to as a “second value”) in step ST46 to the weighting factor ⁇ j .
  • the value A1 and the value A2 are constants of 0 or more and 1 or less that satisfy A1>A2.
  • the weighting factor ⁇ j By calculating the weighting factor ⁇ j in this way, when the noise suppression amount R j is large for the interval in which the data in the short interval D j is determined to include voice, the noise-suppressed data Ss(t) is Since there is a possibility that the voice has been lost, the value of the weighting factor ⁇ j for the input data Si(t) can be increased to reduce the adverse effects such as voice loss due to noise suppression. On the other hand, when the amount of noise suppression Rj is small, it is considered that the loss of voice has little adverse effect. By increasing the weight of , it is possible to reduce the adverse effects of speech distortion or loss without significantly reducing the effectiveness of noise suppression.
  • the weighting factor calculation unit 12b determines whether or not the noise suppression amount Rj is less than a predetermined threshold TH_Rn (also referred to as “first threshold”) in step ST47, and determines whether the noise suppression amount If Rj is less than the predetermined threshold TH_Rn , a predetermined value A3 (also referred to as "third value”) is set as the weighting coefficient ⁇ j in step ST48.
  • a predetermined threshold TH_Rn also referred to as “first threshold”
  • the weighting factor calculator 12b sets a predetermined value A4 (also referred to as "fourth value") in step ST49 as the weighting factor ⁇ j .
  • the value A3 and the value A4 are constants of 0 or more and 1 or less that satisfy A3 ⁇ A4.
  • the noise suppression amount Rj is small for data determined to be noise, so the effect of noise suppression is small, and conversely, the adverse effect of voice distortion or loss may increase.
  • the weighting factor ⁇ for the input data Si(t) can be increased to reduce the adverse effects of noise suppression.
  • the noise suppression amount Rj is large, it is considered that the noise suppression effect is large.
  • the noise suppression amount R j is If it is large, there is a possibility that voice has disappeared from the noise-suppressed data Ss (t). can reduce the adverse effects of
  • the noise suppression amount Rj is small, so the noise suppression effect is small, and conversely, there is a possibility that the adverse effects of voice distortion or loss may increase.
  • the weighting factor ⁇ for the input data Si(t) can be increased to reduce the adverse effects of noise suppression.
  • the third embodiment is the same as the first embodiment.
  • a speech recognition device can be configured by connecting a known speech recognition engine that converts speech data to text data after any one of the noise suppression devices 1 to 3, and the speech recognition accuracy in the speech recognition device can be improved. can be improved. For example, when a user uses a voice recognition device outdoors or in a factory to input the result of equipment inspection by voice, it is necessary to perform voice recognition with high voice recognition accuracy even if there is noise such as the operating sound of the equipment. can be done.
  • noise suppression device 1 to 3 noise suppression device, 11 noise suppression unit, 12, 12a, 12b weighting coefficient calculation unit, 13, 13b weighted sum unit, 14 weighting coefficient table, 15 noise type determination model, 16 speech noise determination model, 101 processor, 102 memory 103 non-volatile storage device 104 input/output interface Si(t) input data Ss(t) noise suppression data So(t) output data D j short interval ⁇ , ⁇ j weighting coefficient R R j noise suppression amount.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Noise Elimination (AREA)

Abstract

騒音抑圧装置(1)は、入力データ(Si(t))に対して騒音抑圧処理を行って騒音抑圧後データ(Ss(t))を生成する騒音抑圧部(11)と、時系列上の予め定められた区間(E)における入力データ(Si(t))と予め定められた区間(E)における騒音抑圧後データ(Ss(t))とに基づいて加重係数(α)を決定する加重係数算出部(12)と、加重係数(α)に基づく値を重みとして用いて、入力データ(Si(t))と騒音抑圧後データ(Ss(t))とを重み付け加算することで出力データ(So(t))を生成する加重和部(13)とを備えている。

Description

騒音抑圧装置、騒音抑圧方法、及び騒音抑圧プログラム
 本開示は、騒音抑圧装置、騒音抑圧方法、及び騒音抑圧プログラムに関する。
 声(以下「音声」とも言う。)に雑音(以下「騒音」とも言う。)が混入した音の信号から、騒音成分を低減する方法としてWeiner法が知られている。この方法によれば、SN(signal-noise)比は改善されるが、音声成分が劣化する。そこで、SN比に応じた騒音低減処理を行うことにより、SN比を改善しつつ音声成分の劣化を抑制する方法が提案されている(例えば、非特許文献1参照)。
佐々木潤子、他1名著、「マスキング効果を用いた低歪み雑音低減方式における効果的な原音付加率の検討」、日本音響学会研究発表会講演論文集、pp.503-504、1998年9月
 しかしながら、騒音下では、認識対象である音声が騒音に埋もれてSN比の測定精度が低下する。このため、騒音成分の抑制と音声成分の劣化の抑制が適切に行われないという課題がある。
 本開示は、上記のような課題を解決するためになされたものであり、騒音成分の抑制と音声成分の劣化の抑制とを適切に行うことを可能にする騒音抑圧装置、騒音抑圧方法、及び騒音抑圧プログラムを提供することを目的とする。
 本開示の騒音抑圧装置は、入力データに対して騒音抑圧処理を行って騒音抑圧後データを生成する騒音抑圧部と、時系列上の予め定められた区間における前記入力データと前記予め定められた区間における前記騒音抑圧後データとに基づいて加重係数を決定する加重係数算出部と、前記加重係数に基づく値を重みとして用いて、前記入力データと前記騒音抑圧後データとを重み付け加算することで出力データを生成する加重和部と、を備えたことを特徴とする。
 本開示の他の騒音抑圧装置は、入力データに対して騒音抑圧処理を行って騒音抑圧後データを生成する騒音抑圧部と、前記入力データの全区間のデータを時系列上の予め定められた複数の短区間に区分し、前記複数の短区間おける前記入力データと前記複数の短区間における前記騒音抑圧後データとに基づいて、前記複数の短区間の各々における加重係数を決定する加重係数算出部と、前記複数の短区間の各々において、前記加重係数に基づく値を重みとして用いて、前記入力データと前記騒音抑圧後データとを重み付け加算することで出力データを生成する加重和部と、を備えたことを特徴とする。
 本開示によれば、入力データにおける騒音成分の抑制と入力データにおける音声成分の劣化の抑制とを適切に行うことができる。
実施の形態1から3に係る騒音抑圧装置のハードウェア構成の例を示す図である。 実施の形態1に係る騒音抑圧装置の構成を概略的に示す機能ブロック図である。 実施の形態1に係る騒音抑圧装置の動作を示すフローチャートである。 実施の形態2に係る騒音抑圧装置の構成を概略的に示す機能ブロック図である。 実施の形態2に係る騒音抑圧装置で使用される加重係数表の例を示す図である。 実施の形態2に係る騒音抑圧装置の動作を示すフローチャートである。 実施の形態3に係る騒音抑圧装置の構成を概略的に示す機能ブロック図である。 実施の形態3に係る騒音抑圧装置の動作を示すフローチャートである。 実施の形態3に係る騒音抑圧装置における加算係数の算出方法を示すフローチャートである。
 以下に、実施の形態に係る騒音抑圧装置、騒音抑圧方法、及び騒音抑圧プログラムを、図面を参照しながら説明する。以下の実施の形態は、例にすぎず、実施の形態を適宜組み合わせること及び各実施の形態を適宜変更することが可能である。
実施の形態1. 
 図1は、実施の形態1に係る騒音抑圧装置1のハードウェア構成の例を示す。騒音抑圧装置1は、実施の形態1に係る騒音抑圧方法を実行することができる装置である。騒音抑圧装置1は、例えば、実施の形態1に係る騒音抑圧プログラムを実行するコンピュータである。図1に示されるように、騒音抑圧装置1は、情報を処理する情報処理部としてプロセッサ101と、揮発性記憶装置としてのメモリ102と、情報を格納する記憶部としての不揮発性記憶装置103と、外部機器との間でデータの送受信を行うために使用される入出力インタフェース104とを備えている。不揮発性記憶装置103は、騒音抑圧装置1とネットワークを介して通信可能な他の装置の一部であってもよい。騒音抑圧プログラムは、ネットワークを経由して行われるダウンロード又は情報を記憶する光ディスクなどのような記録媒体からの読み込みによって取得可能である。なお、図1のハードウェア構成は、後述の実施の形態2及び3に係る騒音抑圧装置2及び3にも適用可能である。
 プロセッサ101は、騒音抑圧装置1の全体の動作を制御する。プロセッサ101は、例えば、CPU(Central Processing Unit)又はFPGA(Field Programmable Gate Array)などである。騒音抑圧装置1は、処理回路によって実現されてもよい。また、騒音抑圧装置1は、ソフトウェア、ファームウェア、又はそれらの組み合わせによって実現されてもよい。
 メモリ102は、騒音抑圧装置1の主記憶装置である。メモリ102は、例えば、RAM(Random Access Memory)である。不揮発性記憶装置103は、騒音抑圧装置1の補助記憶装置である。不揮発性記憶装置103は、例えば、HDD(Hard Disk Drive)又はSSD(Solid State Drive)である。入出力インタフェース104は、入力データSi(t)の入力及び出力データSo(t)の出力を行う。入力データSi(t)は、例えば、マイクから入力されデジタル変換されたデータである。入出力インタフェース104は、ユーザ操作部(例えば、音声入力の開始ボタン、キーボード、マウス、タッチパネル、など)によるユーザ操作に基づく操作信号の受信、他の装置との間の通信などに使用される。tは、時系列上の位置を示すインデックスである。tの値が大きいほど、時間軸上の遅い時刻を示す。
 図2は、実施の形態1に係る騒音抑圧装置1の構成を概略的に示す機能ブロック図である。図2に示されるように、騒音抑圧装置1は、騒音抑圧部11と、加重係数算出部12と、加重和部13とを備えている。
 騒音抑圧装置1の入力データSi(t)は、認識対象の音声成分に騒音成分が重畳した信号をA/D(アナログ/デジタル)変換して得られたPCM(pulse code modulation)データである。ここで、t=1,2,…,Tである。tは、時系列上の位置を示すインデックスとしての整数であり、Tは、入力データSi(t)の時間長を示す整数である。
 また、出力データSo(t)は、入力データSi(t)における騒音成分が抑圧されているデータである。出力データSo(t)は、例えば、公知の音声認識装置に送信される。ここで、t及びTの意味は、既に説明した通りである。
 騒音抑圧部11は、入力データSi(t)を受け取り、入力データSi(t)における騒音成分を抑圧することで得られたPCMデータ、すなわち、騒音抑圧処理が施された後のデータである騒音抑圧後データSs(t)を出力する。ここで、t及びTの意味は、既に説明した通りである。騒音抑圧後データSs(t)には、騒音成分の抑圧量が不十分である、又は、認識対象である声の成分である音声成分が歪む若しくは音声成分が消失する、などの現象が発生することがある。
 騒音抑圧部11は、任意の騒音抑圧方式を用いることが可能である。実施の形態1では、騒音抑圧部11は、ニューラルネットワーク(NN)を用いて騒音抑圧処理を行う。騒音抑圧部11は、騒音抑圧処理を実施する前にニューラルネットワークを学習する。学習は、例えば、声に騒音を重畳している音のPCMデータを入力データとし、声に騒音を重畳していないPCMデータを教師データとして、誤差逆伝搬法を用いて実施することができる。
 加重係数算出部12は、時系列上の予め定められた区間における入力データSi(t)と予め定められた区間における騒音抑圧後データSs(t)とに基づいて加重係数αを決定(すなわち、算出)する。
 加重和部13は、加重係数αに基づく値を重みとして用いて、入力データSi(t)と騒音抑圧後データSs(t)とを重み付け加算することで出力データSo(t)を生成する。
 図3は、騒音抑圧装置1の動作を示すフローチャートである。図3のステップST11において、騒音抑圧装置1による入力データSi(t)の受信が開始され、騒音抑圧装置1に入力データSi(t)が入力されると、騒音抑圧部11は、入力データSi(t)に対して騒音抑圧処理を行い、騒音抑圧後データSs(t)を生成する。
 次に、図3のステップST12において、加重係数算出部12は、騒音抑圧前のデータである入力データSi(t)と騒音抑圧後データSs(t)とを受け取り、入力データSi(t)及び騒音抑圧後データSs(t)の先頭から予め定められた区間(例えば、0.5秒間などの短時間の区間)における、入力データSi(t)のパワーP1及び騒音抑圧後データSs(t)のパワーP2を算出する。予め定められた区間におけるデータ中には、認識対象の音声成分が含まれておらず、騒音成分のみが含まれていると考えられる。この理由は、騒音抑圧装置1を起動した直後(例えば、音声入力開始操作を行った直後)に発話を開始することは、ほとんどないからである。言い換えれば、認識対象の音声を発する話者(すなわち、ユーザ)は、装置における音声入力開始操作を行い、空気を吸い込んだ後に肺から息を吐きながら声を出すので、少なくとも空気を吸い込む時間は声を発していないからである。このため、通常、音声入力開始時における予め定められた区間は、話者の声を含まない騒音のみの区間、つまり、騒音区間である。以下の説明では、騒音区間には、符号Eが付される。
 なお、騒音区間Eは、入力データの先頭から0.5秒の区間に限定されず、1秒の区間、0.75秒の区間などの他の長さの区間であってもよい。ただし、騒音区間Eが長すぎる場合には、音声成分が混入する可能性が高まるが、加重係数αの信頼度が向上する。また、騒音区間Eが短すぎる場合には、音声成分が混入する可能性は低いが、加重係数αの信頼度が低下する。したがって、騒音区間Eは、使用環境、ユーザの要望、などに応じて適切に設定されることが望ましい。
 次に、加重係数算出部12は、騒音区間Eにおける入力データSi(t)のパワーP1と騒音区間Eにおける騒音抑圧後データSs(t)のパワーP2とを用いて、両者の比のデシベル値である騒音抑圧量Rを算出する。つまり、加重係数算出部12は、騒音区間Eにおける入力データSi(t)のパワーP1と騒音区間Eにおける騒音抑圧後データSs(t)のパワーとの比に基づいて騒音抑圧量Rを算出し、騒音抑圧量Rに基づいて加重係数αの値を決定する。騒音抑圧量Rの算出式は、例えば、以下の式(1)である。
Figure JPOXMLDOC01-appb-M000001
 式(1)で算出される騒音抑圧量Rは、騒音区間Eにおける入力データSi(t)と騒音区間Eにおける騒音抑圧後データSs(t)との間の騒音抑圧部11による騒音抑圧の程度を示す。騒音抑圧量Rが大きいほど、騒音抑圧部11による騒音抑圧の程度が大きい。
 図3のステップST13,ST14,ST15において、加重係数算出部12は、算出された騒音抑圧量Rに基づいて、加重係数αの値を決定する。つまり、加重係数算出部12は、算出された騒音抑圧量Rを予め定められた閾値TH_Rと比較し、この比較の結果に基づいて加重係数αの値を決定する。
 具体的には、加重係数算出部12は、騒音抑圧量Rが閾値TH_R未満である場合(ステップST13においてYESの場合)、ステップST14において、予め定められた値αを加重係数αとして出力する。一方、加重係数算出部12は、騒音抑圧量Rが閾値TH_R以上である場合(ステップST13においてNOの場合)、ステップST15において、予め定められた値αを加重係数αとして出力する。α及びαは、α>αを満たす0以上1以下の定数である。なお、値α及びαは、閾値TH_Rとともに、予め設定され不揮発性記憶装置103に記憶されている。例えば、TH_R=3、α=0.5、α=0.2である。
 このように加重係数αを算出する加重係数算出部12は、騒音抑圧量Rが小さいため騒音抑圧の効果が小さく、逆に音声の歪み又は消失による悪影響が大きくなる可能性があると考えられる騒音環境においては、入力データSi(t)に対する加重係数αを大きくして、騒音抑圧による悪影響を低減させる。一方、加重係数算出部12は、騒音抑圧量Rが大きい場合は、騒音抑圧の効果が大きいと考えられるため、入力データSi(t)に対する加重係数αを小さくして、相対的に騒音抑圧後データSs(t)の加重を大きくすることにより、騒音抑圧の効果を低減し過ぎることなく、音声の歪み又は消失による悪影響を減らすことができる。
 次に、図3のステップST16において、加重和部13は、入力データSi(t)、騒音抑圧後データSs(t)、及び加重係数αに基づいて、以下の式(2)を用いて、出力データSo(t)を算出し、出力する。
Figure JPOXMLDOC01-appb-M000002
 以上に説明したように、実施の形態1に係る騒音抑圧装置1又は騒音抑圧方法によれば、騒音抑圧量Rが小さい騒音環境においては、入力データSi(t)に乗算する加重係数αを大きくし、騒音抑圧効果を示す係数(1-α)を小さくする。一方、騒音抑圧量Rが大きい騒音環境において、入力データSi(t)に乗算する加重係数αを小さくし、騒音抑圧効果を示す係数(1-α)を大きくする。このような処理により、騒音抑圧効果を低減し過ぎることなく、認識対象である音声の歪み又は消失による悪影響の少ない音声データを出力データSo(t)として出力することができる。つまり、実施の形態1においては、入力データSi(t)における騒音成分の抑制と音声成分の劣化の抑制とを適切に行うことができる。
 また、実施の形態1に係る騒音抑圧装置1又は騒音抑圧方法によれば、騒音抑圧装置1の音声入力開始時からの短時間である騒音区間Eにおける入力データSi(t)と騒音区間Eにおける騒音抑圧後データSs(t)とを用いて、加重係数αの値を決定する。このため、入力データのSN比を用いて加重係数αを決定する技術のように、騒音環境下では測定が困難な音声パワーを使用する必要がない。このため、加重係数αの算出精度を改善でき、入力データSi(t)における騒音成分の抑制と音声成分の劣化の抑制とを適切に行うことができる。また、入力データSi(t)に対する遅延なく加重係数αを決定できる。
実施の形態2.
 図4は、実施の形態2に係る騒音抑圧装置2の構成を概略的に示すブロック図である。図4において、図2に示される構成要素と同一又は対応する構成要素には、図2に示される符号と同じ符号が付されている。図4に示されるように、騒音抑圧装置2は、騒音抑圧部11と、加重係数算出部12aと、加重和部13と、加重係数表14と、騒音種類判定モデル15とを備えている。また、騒音抑圧装置2のハードウェア構成は、図1に示されるものと同様である。加重係数表14及び騒音種類判定モデル15は、例えば、予め学習により求められ、不揮発性記憶装置103に記憶される。
 加重係数表14は、複数種類の騒音にそれぞれ付与された騒音識別番号と対応付けて、予め定められた加重係数候補を保持する。騒音種類判定モデル15は、入力データに含まれる騒音成分が加重係数表14における複数種類の騒音のいずれであるかを、入力データのスペクトル特徴量に基づいて判定するために使用される。加重係数算出部12aは、 前記騒音種類判定モデル(15)を用いて、前記複数種類の騒音のうちで、入力データにおける前記予め定められた区間(E)のデータに最も類似している騒音を算出し、加重係数表14から、算出された騒音の騒音識別番号に対応付けられた加重係数候補を加重係数αとして出力する。
 図5は、加重係数表14の例を示す図である。加重係数表14には、予め騒音識別番号を付与した複数種類の騒音に対して、騒音ごとに騒音識別番号と対応付けて予め定められた最適な加重係数αの候補(すなわち、加重係数候補)が保持されている。加重係数表14は、複数種類の騒音データと、評価用の音声データとを用いて、事前に作成される。
 具体的には、評価用音声データに対して、複数種類の騒音データの内の1つの騒音を重畳した騒音重畳音声データを作成し、それを騒音抑圧部11に入力し、出力されたデータが騒音抑圧後データである。この処理を複数種類の騒音データの各々について行い、複数の騒音抑圧後データを得る。
 次に、加重係数を複数種類設定して、各加重係数で騒音重畳音声データと騒音抑圧後データとを加重平均して認識率評価用データを作成する。
 次に、複数の加重係数ごとに、認識率評価用データに対して音声認識実験を実施し、認識率が最も高くなった加重係数を、騒音データの騒音識別番号とともに加重係数表14に保持する。なお、音声認識実験は、音声を認識する音声認識エンジンにより実施される。音声認識エンジンは、人の音声を認識し、テキストに変換する。音声認識実験は、騒音抑圧装置2と組み合わせて使用する音声認識エンジンを用いて行われることが望ましいが、公知の音声認識エンジンを用いることが可能である。
 騒音種類判定モデル15は、入力データSi(t)に含まれる騒音成分が、予め騒音識別番号を付与した複数種類の騒音のいずれに最も類似しているかを判定するために使用されるモデルである。騒音種類判定モデル15は、予め騒音識別番号を付与した複数種類の騒音データを用いて事前に作成される。
 具体的には、予め騒音識別番号を付与した複数種類の騒音データのスペクトル特徴量を算出し、算出したスペクトル特徴量を用いて騒音種類判定モデル15を作成する。騒音種類判定モデル15は、ニューラルネットワーク又はGMM(Gaussian Mixture Model)等、公知のパターン認識モデルで構築可能である。実施の形態2では、騒音種類判定モデル15として、ニューラルネットワークが用いられる。ニューラルネットワークの出力ユニットの数は、予め騒音識別番号を付与した複数種類の騒音の種類の数である。各出力ユニットは、騒音識別番号に対応づけられている。また、実施の形態2では、スペクトル特徴量として、メルフィルタバンク特徴量が用いられる。
 騒音抑圧を実施する前に、騒音種類判定モデル15であるニューラルネットワークを学習する必要がある。学習は、メルフィルタバンク特徴量を入力データとして、入力データの騒音識別番号に対応する出力ユニットの出力値を1、他の出力ユニットの出力値を0としたものを教師データとして誤差逆伝搬法を用いて実施することができる。この学習によって、騒音種類判定モデル15は、騒音のメルフィルタバンク特徴量を入力すると、対応する騒音識別番号の出力ユニットの出力値が、他の出力ユニットの出力値よりも高くなるように学習される。よって、騒音の種類を判定する場合は、入力されたメルフィルタバンク特徴量に対して、最も高い値を出力した出力ユニットに対応付けた騒音識別番号を前記判定の結果とする。
 図6は、騒音抑圧装置2の動作を示すフローチャートである。入力データSi(t)が騒音抑圧装置2に入力されると、図6のステップST21において騒音抑圧部11は、入力データSi(t)に対して騒音抑圧処理を行い、騒音抑圧後データSs(t)を出力する。実施の形態2において、t=1,2,…,Tである。t及びTは、実施の形態1のものと同じである。
 次に、図6のステップST22において、加重係数算出部12aは、入力データSi(t)を受信すると、入力データSi(t)の先頭から予め定められた区間である騒音区間E(例えば、0.5秒間の短時間の区間)に対して、入力データSi(t)のスペクトル特徴量であるメルフィルタバンク特徴量を算出し、騒音種類判定モデル15を用いて騒音識別番号を得る。すなわち、加重係数算出部12aは、メルフィルタバンク特徴量を騒音種類判定モデル15に入力し、騒音種類判定モデル15の出力ユニット中で最高の値を出力した出力ユニットに対応付けた騒音識別番号を得る。そして、加重係数表14を参照して騒音識別番号に対応した加重係数候補を加重係数αとして出力する。
 次に、図6のステップST23において、加重和部13は、入力データSi(t)、騒音抑圧部11の出力である騒音抑圧後データSs(t)、及び加重係数αを受け取り、上記した式(2)により、出力データSo(t)を計算して、出力する。加重和部13の動作は、実施の形態1のものと同じである。
 以上に説明したように、実施の形態2に係る騒音抑圧装置2又は騒音抑圧方法によれば、加重係数算出部12aが騒音種類判定モデル15を用いて入力データSi(t)に含まれる騒音の種類を判定し、この判定の結果に基づいて加重係数表14から当該騒音環境での適切な加重係数候補を加重係数αとして決定(すなわち、取得)する。このため、騒音抑圧性能を向上させることができるという効果がある。
 なお、上記以外に関し、実施の形態2は、実施の形態1と同じである。
実施の形態3.
 図7は、実施の形態3に係る騒音抑圧装置3の構成を概略的に示す機能ブロック図である。図7において、図2に示される構成要素と同一又は対応する構成要素には、図2に示される符号と同じ符号が付されている。図7に示されるように、騒音抑圧装置3は、騒音抑圧部11と、加重係数算出部12bと、加重和部13bと、音声騒音判定モデル16とを備えている。また、騒音抑圧装置3のハードウェア構成は、図1に示されるものと同様である。音声騒音判定モデル16は、例えば、不揮発性記憶装置103に記憶される。
 音声騒音判定モデル16は、入力データSi(t)に含まれるデータ中に音声が含まれるか否かを判定するモデルである。音声騒音判定モデル16は、音声データと複数種類の騒音データとを用いて事前に作成される。
 具体的には、複数種類の騒音データ、音声データ、音声データに複数種類の騒音を重畳したデータ、及び複数種類の騒音データに対してスペクトル特徴量を算出し、算出したスペクトル特徴量を用いて音声騒音判定モデル16を作成する。音声騒音判定モデル16は、ニューラルネットワーク又はGMM等の、任意のパターン認識モデルで構築可能である。実施の形態3では、音声騒音判定モデル16の作成に、ニューラルネットワークを用いる。例えば、ニューラルネットワークの出力ユニット数は、2個とし、音声と騒音に対応づけられる。また、スペクトル特徴量としては、例えば、メルフィルタバンク特徴量が用いられる。騒音抑圧を実施する前に、音声騒音判定モデル16であるニューラルネットワークを学習する必要がある。学習は、メルフィルタバンク特徴量を入力データとして、入力データが音声を含むデータ、すなわち、音声データもしくは複数種類騒音を重畳した音声データであれば音声に対応する出力ユニットの出力値を1、騒音に対応する出力ユニットの出力値を0、入力データが騒音データであれば、音声に対応する出力ユニットの出力値を0、騒音に対応する出力ユニットの出力値を1としたものを教師データとして誤差逆伝搬法を用いて実施することができる。この学習によって、音声騒音判定モデル16は、音声データあるいは騒音が重畳した音声データのメルフィルタバンク特徴量を入力すると、音声に対応する出力ユニットの出力値が高くなり、騒音データのルフィルタバンク特徴量を入力すると、騒音に対応する出力ユニットの出力値が高くなるように学習される。よって、加重係数算出部12bは、入力データが音声を含むか否かを判定する場合は、入力されたメルフィルタバンク特徴量に対して最も高い値を出力した出力ユニットが、音声に対応付けたものであれば音声を含むデータであると判定することができ、騒音に対応付けたものであれば騒音であると判定することができる。
 図8は、騒音抑圧装置3の動作を示すフローチャートである。入力データSi(t),が騒音抑圧装置3に入力されると、図8のステップST31において騒音抑圧部11は、入力データSi(t)に対して騒音抑圧処理を行い、騒音抑圧後データSs(t)を出力する。実施の形態3において、t=1,2,…,Tである。t及びTは、実施の形態1のものと同じである。
 次に、図8のステップST32において、加重係数算出部12bは、入力データSi(t)及び騒音抑圧後データSs(t)を受け取り、入力データSi(t)の区間t=1,2,…,Tのそれぞれを予め定められた短時間の時間長dごとの短区間D(j=1,2,…,J)に区切る。すなわち、入力データSi(t)の区間t=1,2,…,Tを、短区間D,D,D,…,Dに区切る。つまり、1つの短区間Dは、時間長dに対応する個数のデータを含み、J個の短区間D~Dの全体は、T個のデータを含む。1つの短区間Dが、dに対応する個数のデータを含むことを、
={t=(j-1)*d+1,(j-1)*d+2,…,j*d}
と表記すると、D~Dは、以下のように表記される。
={t=1,2,…,d}
={t=d+1,d+2,…,2d}
={t=2d+1,2d+2,…,3d}

={t=(j-1)*d+1,(j-1)*d+2,…,j*d}

={t=(J-1)*d+1,(J-1)*d+2,…,T}
 ここで、Jは、以下の式(3)で得られる整数である。式(3)において、記号[ ]は、記号内の数値の小数点以下を切り捨てて、記号内の数値を整数化する演算子である。
Figure JPOXMLDOC01-appb-M000003
 そして、ステップST33において、短区間Dごとに、加重係数αを算出し、短時間の時間長dの値とともに出力する。なお、加重係数αの具体的な算出方法は後述する。
 次に、ステップST34において、加重和部13bは、入力データSi(t)、騒音抑圧後データSs(t)、加重係数α及び短区間の時間長dを入力として、以下の式(4)により出力データSo(t)を求めて、出力する。
Figure JPOXMLDOC01-appb-M000004
 なお、式(4)において、jは、以下の式(5)で算出される。式(5)において、記号[ ]は、記号内の数値の小数点以下を切り捨てて、記号内の数値を整数化する演算子である。
Figure JPOXMLDOC01-appb-M000005
 図9は、加重係数αの算出方法を示すフローチャートである。まず、ステップST40において、加重係数算出部12bは、短区間Dの番号jをj=1にセットする。
 次に、ステップST41において、加重係数算出部12bは、
短区間D={t=(j-1)*d+1,(j-1)*d+2,…,j*d}
における入力データ
Si(t)、(t=(j-1)*d+1,(j-1)*d+2,…,j*d)
、及び騒音抑圧後データ
Ss(t)、(t=(j-1)*d+1,(j-1)*d+2,…,j*d)
を受け取り、短区間Dにおける入力データSi(t)のパワーPiと、短区間Dにおける騒音抑圧後データSs(t)のパワーPsを算出し、両者の比のデシベル値である騒音抑圧量Rを、以下の式(6)により算出する。
Figure JPOXMLDOC01-appb-M000006
 次に、ステップST42において、加重係数算出部12bは、
短区間D={t=(j-1)*d+1,(j-1)*d+2,…,j*d}
における入力データ
Si(t)、(t=(j-1)*d+1,(j-1)*d+2,…,j*d)
に対してスペクトル特徴量であるメルフィルタバンク特徴量を算出する。加重係数算出部12bは、音声騒音判定モデル16を用いて、メルフィルタバンク特徴量が音声データのものであるか又は騒音が重畳した騒音データのものであるかを判定する。すなわち、加重係数算出部12bは、メルフィルタバンク特徴量を音声騒音判定モデル16に入力し、音声騒音判定モデル16の出力ユニット中で最も高い値を出力した出力ユニットが音声に対応付けられたユニットであれば音声を含むと判定し、そうでなければ騒音と判定する。
 次に、ステップST43において、加重係数算出部12bは、短区間Dの判定結果が音声を含むか否かによって処理を分岐する。判定結果が音声を含むであれば、ステップST44において、加重係数算出部12bは、騒音抑圧量Rが予め定められた閾値TH_Rs以上か否かを判定し、閾値TH_Rs(「第1の閾値」とも言う。)以上である場合に、ステップST45において予め定められた値A1(「第1の値」とも言う。)を加重係数αとする。一方、加重係数算出部12bは、騒音抑圧量Rの値が閾値TH_Rs未満である場合に、ステップST46において予め定められた値A2(「第2の値」とも言う。)を加重係数αとして出力する。ここで、値A1及び値A2は、A1>A2を満たす0以上1以下の定数である。なお、値A1及び値A2は、閾値TH_Rsとともに事前に設定される。例えば、TH_Rs=10、A1=0.5,A2=0.2である。
 このように加重係数αを算出することにより、短区間Dにおけるデータが音声を含むと判定した区間に対して、騒音抑圧量Rが大きい場合は、騒音抑圧後データSs(t)は、音声が消失している可能性があるため、入力データSi(t)に対する加重係数αの値を大きくして騒音抑圧による音声の消失等の悪影響を低減させることができる。一方、騒音抑圧量Rが小さい場合は、音声の消失による悪影響は小さいと考えられるため、入力データSi(t)に対する加重係数αを小さくして、相対的に騒音抑圧後データSs(t)の加重を大きくすることにより、騒音抑圧の効果を大きく低減することなく音声の歪み又は消失による悪影響を抑えることができる。
 次に、ステップST43における短区間Dの判定結果が騒音であった場合の動作を説明する。この場合は、加重係数算出部12bは、ステップST47において騒音抑圧量Rが予め定められた閾値TH_Rn(「第1の閾値」とも言う。)未満であるか否かを判定し、騒音抑圧量Rが予め定められた閾値TH_Rn未満である場合は、ステップST48において予め定められた値A3(「第3の値」とも言う。)を加重係数αとする。一方、加重係数算出部12bは、閾値TH_Rn以上の場合は、ステップST49において予め定められた値A4(「第4の値」とも言う。)を加重係数αとする。ここで、値A3及び値A4は、A3≧A4を満たす0以上1以下の定数である。なお、前述のとおり値A3及び値A4は、閾値TH_Rnとともに事前に設定される。例えば、TH_Rn=3、A3=0.5,A4=0.2である。
 このように、加重係数αを算出することにより、騒音であると判定したデータに対し、騒音抑圧量Rが小さいため騒音抑圧の効果が小さく逆に音声の歪み又は消失による悪影響が大きくなる可能性があると考えられる騒音環境においては、入力データSi(t)に対する加重係数αを大きくして騒音抑圧による悪影響を低減させることができる。一方、騒音抑圧量Rが大きい場合は、騒音抑圧の効果が大きいと考えられるため、入力データSi(t)に対する加重係数αを小さくして、相対的に騒音抑圧後データSs(t)の加重を大きくすることにより、騒音抑圧の効果を大きく低減することなく音声の歪み又は消失による悪影響を抑えることができる。
 次に、加重係数算出部12bは、ステップST50によって全ての短区間D、(j=1,2,…,J)に対して加重係数αを算出したか否か調べ、全ての短区間に対して算出済であれば、処理を終了する。一方、未算出の短区間Dが存在する場合は、ステップST51においてjの値に1を加え、ステップST41に戻る。以上が、加重係数α、(j=1,2,…,J)の算出方法の例である。
 以上に説明したように、実施の形態3に係る騒音抑圧装置3又は騒音抑圧方法によれば、音声騒音判定モデル16によって音声を含むと判定されたデータに対しては、騒音抑圧量Rが大きい場合は、騒音抑圧後データSs(t)は、音声が消失している可能性があるため、入力データSi(t)に対する加重係数αの値を大きくして騒音抑圧による音声の消失等の悪影響を低減させることができる。
 一方、騒音抑圧量Rが小さい場合は、音声の消失による悪影響は小さいと考えられるため、入力データSi(t)に対する加重係数αを小さくして、相対的に騒音抑圧後データSs(t)の加重を大きくすることにより、騒音抑圧の効果を大きく低減することなく音声の歪み又は消失による悪影響を抑えることができる。
 一方、音声騒音判定モデル16によって騒音と判定されたデータに対しては、騒音抑圧量Rが小さいため騒音抑圧の効果が小さく逆に音声の歪み又は消失による悪影響が大きくなる可能性があると考えられる騒音環境においては、入力データSi(t)に対する加重係数αを大きくして騒音抑圧による悪影響を低減させることができる。
 一方、騒音抑圧量Rが大きい場合は、騒音抑圧の効果が大きいと考えられるため、入力データSi(t)に対する加重係数αを小さくして、相対的に騒音抑圧後データSs(t)の加重を大きくすることにより、騒音抑圧の効果を大きく低減することなく音声の歪み又は消失による悪影響を抑えることができる。
 なお、上記以外に関し、実施の形態3は、実施の形態1と同じである。
変形例.
 上記騒音抑圧装置1~3のいずれかの後段に、音声データをテキストデータに変換する公知の音声認識エンジンを接続することにより音声認識装置を構成することができ、音声認識装置における音声認識精度を向上させることができる。例えば、ユーザが屋外又は工場で音声認識装置を使用して機器の点検の結果の入力を音声で行う場合、機器の動作音などの騒音があっても、高い音声認識精度で音声認識を行うことができる。
 1~3 騒音抑圧装置、 11 騒音抑圧部、 12、12a、12b 加重係数算出部、 13、13b 加重和部、 14 加重係数表、 15 騒音種類判定モデル、 16 音声騒音判定モデル、 101 プロセッサ、 102 メモリ、 103 不揮発性記憶装置、 104 入出力インタフェース、 Si(t) 入力データ、 Ss(t) 騒音抑圧後データ、 So(t) 出力データ、 D 短区間、 α、α 加重係数、 R、R 騒音抑圧量。

Claims (10)

  1.  入力データに対して騒音抑圧処理を行って騒音抑圧後データを生成する騒音抑圧部と、
     時系列上の予め定められた区間における前記入力データと前記予め定められた区間における前記騒音抑圧後データとに基づいて加重係数を決定する加重係数算出部と、
     前記加重係数に基づく値を重みとして用いて、前記入力データと前記騒音抑圧後データとを重み付け加算することで出力データを生成する加重和部と、
     を備えたことを特徴とする騒音抑圧装置。
  2.  前記加重係数算出部は、前記入力データの入力が開始された時点から予め定められた時間が経過するまでの間を、前記予め定められた区間として用いる
     ことを特徴とする請求項1に記載の騒音抑圧装置。
  3.  前記加重係数算出部は、前記予め定められた区間における前記入力データのパワーと前記予め定められた区間における前記騒音抑圧後データのパワーとの比に基づいて加重係数を算出する
     ことを特徴とする請求項1又は2に記載の騒音抑圧装置。
  4.  複数種類の騒音にそれぞれ付与された騒音識別番号と対応付けて、予め定められた前記加重係数の候補を保持する加重係数表と、
     前記入力データに含まれる騒音成分が前記加重係数表における前記複数種類の騒音のいずれであるかを、前記入力データのスペクトル特徴量に基づいて判定するために使用される騒音種類判定モデルと、
     を更に備え、
     前記加重係数算出部は、
     前記騒音種類判定モデルを用いて、前記複数種類の騒音のうちで、前記入力データにおける前記予め定められた区間のデータに最も類似している騒音を算出し、
     前記加重係数表から前記算出された騒音の騒音識別番号に対応付けられた前記加重係数の候補を前記加重係数として出力する
     ことを特徴とする請求項1から3のいずれか1項に記載の騒音抑圧装置。
  5.  入力データに対して騒音抑圧処理を行って騒音抑圧後データを生成する騒音抑圧部と、
     前記入力データの全区間のデータを時系列上の予め定められた複数の短区間に区分し、前記複数の短区間おける前記入力データと前記複数の短区間における前記騒音抑圧後データとに基づいて、前記複数の短区間の各々における加重係数を決定する加重係数算出部と、
     前記複数の短区間の各々において、前記加重係数に基づく値を重みとして用いて、前記入力データと前記騒音抑圧後データとを重み付け加算することで出力データを生成する加重和部と、
     を備えたことを特徴とする騒音抑圧装置。
  6.  入力データのスペクトル特徴量に基づいて当該入力データが音声か騒音かを判定するための音声騒音判定モデルを更に備え、
     前記加重係数算出部は、
     前記入力データの全区間のデータを予め定められた時間ごとの短区間に区切り、
     前記短区間ごとに、前記入力データと前記騒音抑圧後データとのパワー比である騒音抑圧量を算出するとともに前記音声騒音判定モデルを用いて前記入力データが音声又は騒音のいずれであるかを判定し、
     前記入力データが音声であると判定した場合に、前記騒音抑圧量が予め定められた第1の閾値以上であれば前記加重係数を予め定められた第1の値とし、前記騒音抑圧量が前記第1の閾値未満であれば前記加重係数を前記第1の値よりも小さい予め定められた第2の値とし、
     前記入力データが騒音であると判定した場合に、前記騒音抑圧量が予め定められた第2の閾値未満であれば前記加重係数を予め定められた第3の値とし、前記騒音抑圧量が前記第2の閾値以上であれば前記加重係数を前記第3の値以上である予め定められた第4の値として、
     前記短区間ごとに前記加重係数を前記加重和部に出力する
     ことを特徴とする請求項5に記載の騒音抑圧装置。
  7.  コンピュータによって実行される騒音抑圧方法であって、
     入力データに対して騒音抑圧処理を行って騒音抑圧後データを生成するステップと、
     時系列上の予め定められた区間における前記入力データと前記予め定められた区間における前記騒音抑圧後データとに基づいて加重係数を決定するステップと、
     前記加重係数に基づく値を重みとして用いて、前記入力データと前記騒音抑圧後データとを重み付け加算することで出力データを生成するステップと、
     を有することを特徴とする騒音抑圧方法。
  8.  コンピュータに、請求項7に記載の騒音抑圧方法を実行させることを特徴とする騒音抑圧プログラム。
  9.  コンピュータによって実行される騒音抑圧方法であって、
     入力データに対して騒音抑圧処理を行って騒音抑圧後データを生成するステップと、
     前記入力データの全区間のデータを時系列上の予め定められた複数の短区間に区分し、前記複数の短区間おける前記入力データと前記複数の短区間における前記騒音抑圧後データとに基づいて、前記複数の短区間の各々における加重係数を決定するステップと、
     前記複数の短区間の各々において、前記加重係数に基づく値を重みとして用いて、前記入力データと前記騒音抑圧後データとを重み付け加算することで出力データを生成するステップと、
     を有することを特徴とする騒音抑圧方法。
  10.  コンピュータに、請求項9に記載の騒音抑圧方法を実行させることを特徴とする騒音抑圧プログラム。
     
PCT/JP2021/009490 2021-03-10 2021-03-10 騒音抑圧装置、騒音抑圧方法、及び騒音抑圧プログラム WO2022190245A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
EP21930102.5A EP4297028A4 (en) 2021-03-10 2021-03-10 NOISE CANCELLATION DEVICE, NOISE CANCELLATION METHOD, AND NOISE CANCELLATION PROGRAM
CN202180094907.7A CN116964664A (zh) 2021-03-10 2021-03-10 噪声抑制装置、噪声抑制方法以及噪声抑制程序
PCT/JP2021/009490 WO2022190245A1 (ja) 2021-03-10 2021-03-10 騒音抑圧装置、騒音抑圧方法、及び騒音抑圧プログラム
JP2023504950A JP7345702B2 (ja) 2021-03-10 2021-03-10 騒音抑圧装置、騒音抑圧方法、及び騒音抑圧プログラム
US18/233,476 US20230386493A1 (en) 2021-03-10 2023-08-14 Noise suppression device, noise suppression method, and storage medium storing noise suppression program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/009490 WO2022190245A1 (ja) 2021-03-10 2021-03-10 騒音抑圧装置、騒音抑圧方法、及び騒音抑圧プログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US18/233,476 Continuation US20230386493A1 (en) 2021-03-10 2023-08-14 Noise suppression device, noise suppression method, and storage medium storing noise suppression program

Publications (1)

Publication Number Publication Date
WO2022190245A1 true WO2022190245A1 (ja) 2022-09-15

Family

ID=83226425

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/009490 WO2022190245A1 (ja) 2021-03-10 2021-03-10 騒音抑圧装置、騒音抑圧方法、及び騒音抑圧プログラム

Country Status (5)

Country Link
US (1) US20230386493A1 (ja)
EP (1) EP4297028A4 (ja)
JP (1) JP7345702B2 (ja)
CN (1) CN116964664A (ja)
WO (1) WO2022190245A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001024167A1 (fr) * 1999-09-30 2001-04-05 Fujitsu Limited Dispositif antiparasite
JP2010160246A (ja) * 2009-01-07 2010-07-22 Nara Institute Of Science & Technology 雑音抑圧装置およびプログラム
WO2017065092A1 (ja) * 2015-10-13 2017-04-20 ソニー株式会社 情報処理装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07193548A (ja) * 1993-12-25 1995-07-28 Sony Corp 雑音低減処理方法
EP1041539A4 (en) * 1997-12-08 2001-09-19 Mitsubishi Electric Corp METHOD AND DEVICE FOR PROCESSING THE SOUND SIGNAL

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001024167A1 (fr) * 1999-09-30 2001-04-05 Fujitsu Limited Dispositif antiparasite
JP2010160246A (ja) * 2009-01-07 2010-07-22 Nara Institute Of Science & Technology 雑音抑圧装置およびプログラム
WO2017065092A1 (ja) * 2015-10-13 2017-04-20 ソニー株式会社 情報処理装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JUNKO SASAKI: "Study on the Effective Ratio of Adding Original Source Signal in Low-distortion Noise Reduction Method Using Masking Effect", PROCEEDINGS OF THE AUTUMN MEETING OF THE ACOUSTICAL SOCIETY OF JAPAN, September 1998 (1998-09-01), pages 503 - 504
See also references of EP4297028A4

Also Published As

Publication number Publication date
JPWO2022190245A1 (ja) 2022-09-15
EP4297028A4 (en) 2024-03-20
JP7345702B2 (ja) 2023-09-15
EP4297028A1 (en) 2023-12-27
US20230386493A1 (en) 2023-11-30
CN116964664A (zh) 2023-10-27

Similar Documents

Publication Publication Date Title
US9269368B2 (en) Speaker-identification-assisted uplink speech processing systems and methods
Hasan et al. CRSS systems for 2012 NIST speaker recognition evaluation
Ghosh et al. Robust voice activity detection using long-term signal variability
US7590526B2 (en) Method for processing speech signal data and finding a filter coefficient
JP4943335B2 (ja) 話者に依存しない堅牢な音声認識システム
US7856353B2 (en) Method for processing speech signal data with reverberation filtering
Novoa et al. Uncertainty weighting and propagation in DNN–HMM-based speech recognition
Tsilfidis et al. Automatic speech recognition performance in different room acoustic environments with and without dereverberation preprocessing
US20140278418A1 (en) Speaker-identification-assisted downlink speech processing systems and methods
Kumar Comparative performance evaluation of MMSE-based speech enhancement techniques through simulation and real-time implementation
Kumar Real-time performance evaluation of modified cascaded median-based noise estimation for speech enhancement system
Hansen et al. Speech enhancement based on generalized minimum mean square error estimators and masking properties of the auditory system
Sadjadi et al. Blind spectral weighting for robust speaker identification under reverberation mismatch
Karbasi et al. Twin-HMM-based non-intrusive speech intelligibility prediction
Li et al. iMetricGAN: Intelligibility enhancement for speech-in-noise using generative adversarial network-based metric learning
JP4728791B2 (ja) 音声認識装置、音声認識方法、そのプログラムおよびその記録媒体
Schwartz et al. USSS-MITLL 2010 human assisted speaker recognition
WO2022190245A1 (ja) 騒音抑圧装置、騒音抑圧方法、及び騒音抑圧プログラム
JP2013114151A (ja) 雑音抑圧装置、方法及びプログラム
Ichikawa et al. Dynamic features in the linear-logarithmic hybrid domain for automatic speech recognition in a reverberant environment
JP6325138B2 (ja) 音声処理システムおよび音声処理方法
JP5200080B2 (ja) 音声認識装置、音声認識方法、およびそのプログラム
De Wet et al. Additive background noise as a source of non-linear mismatch in the cepstral and log-energy domain
JP2005321539A (ja) 音声認識方法、その装置およびプログラム、その記録媒体
Stern et al. Acoustical pre-processing for robust speech recognition

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21930102

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2023504950

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 202180094907.7

Country of ref document: CN

WWE Wipo information: entry into national phase

Ref document number: 2021930102

Country of ref document: EP

ENP Entry into the national phase

Ref document number: 2021930102

Country of ref document: EP

Effective date: 20230919

NENP Non-entry into the national phase

Ref country code: DE