WO2015125191A1 - 音声信号処理装置および音声信号処理方法 - Google Patents

音声信号処理装置および音声信号処理方法 Download PDF

Info

Publication number
WO2015125191A1
WO2015125191A1 PCT/JP2014/005434 JP2014005434W WO2015125191A1 WO 2015125191 A1 WO2015125191 A1 WO 2015125191A1 JP 2014005434 W JP2014005434 W JP 2014005434W WO 2015125191 A1 WO2015125191 A1 WO 2015125191A1
Authority
WO
WIPO (PCT)
Prior art keywords
audio signal
gain
vowel
unit
gain value
Prior art date
Application number
PCT/JP2014/005434
Other languages
English (en)
French (fr)
Inventor
良二 鈴木
徹 臼倉
Original Assignee
パナソニックIpマネジメント株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニックIpマネジメント株式会社 filed Critical パナソニックIpマネジメント株式会社
Priority to US14/907,243 priority Critical patent/US9478235B2/en
Priority to JP2016503791A priority patent/JP6533959B2/ja
Publication of WO2015125191A1 publication Critical patent/WO2015125191A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • G10L19/265Pre-filtering, e.g. high frequency emphasis prior to encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • G10L21/034Automatic adjustment
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • G10L21/0388Details of processing therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Definitions

  • the present disclosure relates to an audio signal processing device and an audio signal processing method.
  • Patent Document 1 discloses a method for processing an audio signal.
  • a harmonic signal is generated based on at least a part of the original signal.
  • at least a part of the harmonic signal is combined with the original signal.
  • This disclosure provides an audio signal processing device and an audio signal processing method for improving the sound quality of reproduced audio of an audio signal to make it more natural and easy for a user to hear.
  • An audio signal processing device includes an upsampling unit, an odd-order harmonic generation unit, an even-order harmonic generation unit, a vowel detection unit, a first gain control unit, and a second gain control unit.
  • the upsampling unit is configured to generate an upsampled audio signal by upsampling the sampling frequency of the audio signal.
  • the odd-order harmonic generation unit is configured to generate odd-order harmonics from the upsampled audio signal.
  • the even-order harmonic generation unit is configured to generate even-order harmonics from the upsampled audio signal.
  • the vowel detection unit is configured to identify whether or not the voice signal is a vowel, and to generate a first gain value and a second gain value based on the identification result.
  • the first gain control unit is configured to amplify or attenuate the odd harmonics based on the first gain value to adjust the gain, and output the odd harmonics after gain adjustment.
  • the second gain control unit is configured to amplify or attenuate the even-order harmonics based on the second gain value, adjust the gain, and output the even-order harmonics after gain adjustment.
  • the audio signal processing apparatus is configured to add the odd-order harmonic after gain adjustment and the even-order harmonic after gain adjustment to the upsampled audio signal and output the result.
  • An audio signal processing method includes a step of up-sampling a sampling frequency of an audio signal to generate an up-sampled audio signal, a step of generating odd-order harmonics and even-order harmonics from the up-sampled audio signal, Identifying whether the signal is a vowel, generating a first gain value and a second gain value based on the identification result, and amplifying or attenuating odd harmonics based on the first gain value to adjust the gain Step, amplifying or attenuating the even harmonics based on the second gain value to adjust the gain, and adding the odd harmonics after gain adjustment and the even harmonics after gain adjustment to the upsampled audio signal And outputting.
  • FIG. 1 is a block diagram schematically showing a configuration example of an audio signal processing device according to the first embodiment.
  • FIG. 2 is a block diagram schematically showing a configuration example of the odd-order harmonic generation unit in the first embodiment.
  • FIG. 3A is a diagram schematically showing an example of an input signal waveform of the odd-order harmonic generation unit in the first exemplary embodiment.
  • FIG. 3B is a diagram schematically illustrating an example of a signal waveform of the odd-order harmonic generation unit according to Embodiment 1.
  • FIG. 3C is a diagram schematically showing an example of an output signal waveform of the odd-order harmonic generation unit in the first embodiment.
  • FIG. 4 is a block diagram schematically showing a configuration example of the even-order harmonic generation unit in the first embodiment.
  • FIG. 5A is a diagram schematically showing an example of an input signal waveform of the even-order harmonic generation unit in the first exemplary embodiment.
  • FIG. 5B is a diagram schematically showing an example of an output signal waveform of the even-order harmonic generation unit in the first exemplary embodiment.
  • FIG. 6 is a block diagram schematically showing a configuration example of the vowel detection unit in the first embodiment.
  • FIG. 7 is a block diagram schematically showing a configuration example of the determination unit in the first embodiment.
  • FIG. 8 is a block diagram schematically showing a configuration example of a vowel detection unit in another embodiment.
  • FIG. 9 is a block diagram schematically illustrating a configuration example of a vowel detection unit according to another embodiment.
  • FIG. 1 is a block diagram schematically showing a configuration example of an audio signal processing apparatus 100 according to the first embodiment.
  • the audio signal processing apparatus 100 includes an input terminal 101, an upsampling unit 102, an HPF (High-Pass Filter) 103 that is a high-pass filter, an odd-order harmonic generation unit 104, an even-order harmonic generation unit 105, a first gain Control unit 106, second gain control unit 107, vowel detection unit 108, first addition unit 109, BPF (Band-Pass Filter) 110 that is a bandpass filter, delay unit 111, second addition unit 112, and output terminal 113 .
  • HPF High-Pass Filter
  • An audio signal is input to the input terminal 101.
  • the audio signal input to the input terminal 101 is input to the upsampling unit 102.
  • This input audio signal is a digital audio signal generated by sampling an analog audio signal at a predetermined sampling frequency.
  • This sampling frequency is, for example, 8 kHz for a telephone line and 44.1 kHz for a music CD (Compact Disc).
  • a voice signal from a telephone line is signal-processed by the voice signal processing apparatus 100 and the frequency band is expanded.
  • the band of this audio signal is, for example, 300 to 3400 Hz.
  • the audio signal processed by the audio signal processing apparatus 100 is not limited to the audio signal of the telephone line.
  • the up-sampling unit 102 is configured to increase the sampling frequency of the audio signal input from the input terminal 101 to generate an up-sampling audio signal, and output it to the HPF 103 and the delay unit 111, respectively.
  • the upsampling unit 102 converts an audio signal sampled at 8 kHz into an audio signal sampled at 16 kHz, and outputs the audio signal to each of the HPF 103 and the delay unit 111.
  • the audio signal processing apparatus 100 can increase the frequency band of the audio signal to about twice the input audio signal (for example, 300 to 6800 Hz).
  • a method (upsampling) of increasing the sampling frequency of the audio signal by the upsampling unit 102 is a generally known method, and thus the description thereof is omitted.
  • the upsampling unit 102 increases the sampling frequency by a factor of two is shown, but the upsampling is not limited to a frequency that is doubled at all.
  • the HPF 103 is configured to attenuate a low-frequency component unnecessary for the odd-order harmonic generation unit 104 and the even-order harmonic generation unit 105 from the upsampled audio signal to generate a high-frequency audio signal.
  • the HPF 103 is set so that, for example, an audio signal of 1700 Hz or higher passes through. Then, the generated high frequency sound signal is output to each of the odd-order harmonic generation unit 104, the even-order harmonic generation unit 105, and the vowel detection unit 108.
  • the HPF 103 extracts a signal having a predetermined frequency (for example, 1700 Hz) or more from the upsampled audio signal to generate a high frequency audio signal, and the odd-order harmonic generation unit 104 and the even-order harmonic generation unit 105 It outputs to each of the vowel detectors 108.
  • the predetermined frequency is not limited to 1700 Hz.
  • the odd-order harmonic generation unit 104 generates odd-order harmonics (3 times, 5 times, 7 times,%) From the high frequency audio signal output from the HPF 103 and outputs the harmonics to the first gain control unit 106. Is configured to do. Details of the odd-order harmonic generation unit 104 will be described later.
  • the even-order harmonic generation unit 105 generates even-order (2 ⁇ , 4 ⁇ , 6 ⁇ ,%) Harmonics from the high frequency audio signal output from the HPF 103, and outputs the harmonic to the second gain control unit 107. Is configured to do. Details of the even harmonic generation unit 105 will be described later.
  • the first gain control unit 106 amplifies or attenuates the odd-order harmonics output from the odd-order harmonic generation unit 104 based on the gain value (first gain value) output from the vowel detection unit 108 and outputs the result. It is configured as follows. Hereinafter, this output signal is also referred to as “odd harmonic after gain adjustment”.
  • the second gain control unit 107 amplifies or attenuates the even-order harmonic output from the even-order harmonic generation unit 105 based on the gain value (second gain value) output from the vowel detection unit 108 and outputs the amplified signal. It is configured as follows. Hereinafter, this output signal is also referred to as “even harmonics after gain adjustment”.
  • the vowel detection unit 108 determines whether the audio signal is a vowel or a sound other than a vowel based on the high frequency audio signal output from the HPF 103 and the first delayed audio signal output from the delay unit 111, and the determination result A gain value based on the first gain value (first gain value, second gain value) is generated. If the determination result is a sound other than a vowel, the vowel detection unit 108 generates a smaller gain value (for example, about half) than when the determination result is a vowel. This is because consonants are more likely to generate higher harmonics than vowels.
  • the vowel detection unit 108 outputs the generated first gain value to the first gain control unit 106 and outputs the generated second gain value to the second gain control unit 107.
  • the first gain value and the second gain value may be the same numerical value, or may be different numerical values. Details of the vowel detector 108 will be described later.
  • the first addition unit 109 adds the odd-order harmonic after gain adjustment output from the first gain control unit 106 and the even-order harmonic after gain adjustment output from the second gain control unit 107.
  • a first addition signal is generated and output to the BPF 110.
  • the BPF 110 is configured to extract a predetermined frequency band from the first addition signal output from the first addition unit 109 to generate a band-pass audio signal and output the band-pass audio signal to the second addition unit 112. For example, the BPF 110 attenuates a frequency band overlapping with the audio signal input to the input terminal 101 from the first addition signal to generate a band-pass audio signal. If the frequency band of the input audio signal is up to 3400 Hz, for example, the BPF 110 generates a band-pass audio signal of 3400 to 6800 Hz.
  • the delay unit 111 delays the upsampled audio signal by the same time as the time delay in the HPF 103 so that the timings of the high frequency audio signal and the first delayed audio signal are aligned in the vowel detection unit 108, and the first delayed audio signal It is configured to generate a signal.
  • the delay unit 111 delays the upsampled audio signal by the same time as the time delay generated in the HPF 103, the BPF 110, etc. so that the timings of the band-pass audio signal and the second delayed audio signal are aligned in the second adder 112.
  • the second delayed audio signal is generated.
  • the first delayed audio signal is output to the vowel detector 108, and the second delayed audio signal is output to the second adder 112.
  • the second addition unit 112 is configured to add the band-pass audio signal output from the BPF 110 to the second delayed audio signal output from the delay unit 111 to generate a second addition signal. As a result, an audio signal (second addition signal) whose frequency band is expanded as compared with the audio signal input to the input terminal 101 is generated. The generated second addition signal is output from the output terminal 113.
  • FIG. 2 is a block diagram schematically showing a configuration example of the odd-order harmonic generation unit 104 in the first embodiment.
  • FIG. 3A is a diagram schematically showing an example of an input signal waveform of the odd-order harmonic generation unit 104 in the first embodiment.
  • FIG. 3B is a diagram schematically showing an example of a signal waveform of the odd-order harmonic generation unit 104 in the first exemplary embodiment.
  • FIG. 3C is a diagram schematically illustrating an example of an output signal waveform of the odd-order harmonic generation unit 104 in the first embodiment.
  • the waveforms shown in FIGS. 3A to 3C are signal waveforms at points A to C in FIG.
  • the odd-order harmonic generation unit 104 includes an input terminal 201, a square calculation unit 202, a sign assignment unit 203, and an output terminal 204.
  • the high frequency audio signal output from the HPF 103 is input to the input terminal 201.
  • a sine wave 301 is input to the input terminal 201 as a high-frequency audio signal.
  • the square calculation unit 202 is configured to square and output a high frequency audio signal input to the input terminal 201.
  • the negative signal becomes a positive signal.
  • the sine wave 301 illustrated in FIG. 3A is squared by the square calculation unit 202
  • the sine wave 302 illustrated in FIG. 3B is output from the square calculation unit 202.
  • the code assigning unit 203 assigns the code of the high frequency audio signal input to the input terminal 201 to the high frequency audio signal squared by the square calculation unit 202 and outputs the signal to which the code is added to the output terminal 204. To output as odd-order harmonics. As a result, the signal that has changed from the negative polarity to the positive polarity in the square calculation unit 202 returns to the original negative polarity signal. For example, when the sign of the sine wave 301 input to the input terminal 201 is added to the sine wave 302 illustrated in FIG. 3B, the sine wave 303 illustrated in FIG. 3C is obtained.
  • the waveform of the sine wave 303 output from the odd-order harmonic generation unit 104 is distorted compared to the sine wave 301 input to the odd-order harmonic generation unit 104. It is out.
  • the distortion of the sine wave 303 is due to odd-order (first, third, fifth,%) Harmonics.
  • FIG. 4 is a block diagram schematically showing a configuration example of the even-order harmonic generation unit 105 in the first embodiment.
  • FIG. 5A is a diagram schematically showing an example of an input signal waveform of the even-order harmonic generation unit 105 in the first embodiment.
  • FIG. 5B is a diagram schematically showing an example of an output signal waveform of the even-order harmonic generation unit 105 in the first exemplary embodiment.
  • Each waveform shown in FIGS. 5A and 5B is a signal waveform at each point A and B in FIG.
  • the even-order harmonic generation unit 105 includes an input terminal 401, an absolute value calculation unit 402, and an output terminal 403.
  • the high frequency audio signal output from the HPF 103 is input to the input terminal 401.
  • a sine wave 501 is input to the input terminal 401 as a high-frequency audio signal.
  • the absolute value calculation unit 402 is configured to calculate the absolute value of the high frequency audio signal input to the input terminal 401 and output the signal converted to the absolute value from the output terminal 403 as even harmonics. Yes. Thus, the negative signal becomes a positive signal. For example, when the sine wave 501 shown in FIG. 5A is converted into an absolute value, a sine wave 502 shown in FIG. 5B is obtained.
  • the sine wave 502 output from the even-order harmonic generation unit 105 has a larger waveform than the sine wave 501 input to the even-order harmonic generation unit 105. It is distorted.
  • the distortion of the sine wave 502 is due to even-order (0th, 2nd, 4th%) Harmonics.
  • FIG. 6 is a block diagram schematically showing a configuration example of the vowel detection unit 108 in the first embodiment.
  • the vowel detection unit 108 includes an input terminal 601, an input terminal 602, a first smoothing unit 603, a second smoothing unit 604, a subtraction unit 605, a determination unit 606, an output terminal 607, and an output terminal 608.
  • the high frequency audio signal output from the HPF 103 is input to the input terminal 601.
  • the first delayed audio signal output from the delay unit 111 is input to the input terminal 602.
  • the first smoothing unit 603 is configured to perform an integration smoothing process on the high frequency audio signal input from the first input terminal 601 and output the result to the subtraction unit 605 and the determination unit 606.
  • the second smoothing unit 604 is configured to perform integral smoothing processing on the first delayed audio signal input from the second input terminal 602 and output the result to the subtracting unit 605 and the determining unit 606.
  • the subtracting unit 605 outputs a signal output from the first smoothing unit 603 (hereinafter also referred to as “high frequency signal”) from a signal output from the second smoothing unit 604 (hereinafter also referred to as “global signal”). Is generated (hereinafter, also referred to as “low frequency signal”), and the low frequency signal is output to the determination unit 606.
  • the determination unit 606 is an audio signal based on the high frequency signal input from the first smoothing unit 603, the global signal input from the second smoothing unit 604, and the low frequency signal input from the subtraction unit 605. Is determined to be a vowel or a sound other than a vowel, and a gain value (first gain value, second gain value) is generated based on the determination result.
  • a gain value first gain value, second gain value
  • the determination unit 606 determines that the sound signal is a sound other than a vowel
  • the determination unit 606 generates a gain value that is smaller (for example, about half) than when the sound signal is determined to be a vowel.
  • the determination unit 606 outputs the first gain value to the first gain control unit 106 and outputs the second gain value to the second gain control unit 107.
  • the first output terminal 607 is a terminal for outputting the odd-order harmonic gain value (first gain value) to the first gain control unit 106.
  • the second output terminal 608 is a terminal for outputting a gain value (second gain value) of even harmonics to the second gain control unit 107.
  • FIG. 7 is a block diagram schematically showing a configuration example of the determination unit 606 in the first embodiment.
  • the determination unit 606 includes an input terminal 701, an input terminal 702, an input terminal 703, a first division unit 704, a logarithmic operation unit 705, a first multiplication unit 706, a first comparison unit 707, and a gain coefficient generation unit 708.
  • the whole area signal output from the second smoothing unit 604 is input to the input terminal 701.
  • the low frequency signal output from the subtraction unit 605 is input to the input terminal 702.
  • the high frequency signal output from the first smoothing unit 603 is input to the input terminal 703.
  • the first division unit 704 divides the low-frequency signal input from the input terminal 702 by the high-frequency signal input from the input terminal 703, and calculates the calculation result (low-frequency signal amplitude / high-frequency signal amplitude). It is configured to output to the logarithmic operation unit 705. If the speech signal is a vowel, this calculation result is a larger value than when the speech signal is a sound other than a vowel.
  • the logarithmic operation unit 705 is configured to perform a logarithmic operation on the output of the first division unit 704 and output the result to the first multiplication unit 706. By this logarithmic calculation, the range of change in the output of the first division unit 704 is suppressed.
  • the first multiplication unit 706 is configured to multiply the output of the logarithmic operation unit 705 by the whole area signal input from the input terminal 701 and output the result to the first comparison unit 707. By this multiplication, a relatively large value is output from the first multiplication unit 706 for a vowel, and a relatively small value for a sound other than a vowel (eg, consonant, silence, weak sound close to silence, etc.). Output from the first multiplier 706.
  • the first comparison unit 707 compares the output value of the first multiplication unit 706 with the first threshold value. When the output value of the first multiplication unit 706 is larger than the first threshold value, the high frequency audio signal is regarded as a vowel. When the output value of the first multiplier 706 is less than or equal to the first threshold, the high frequency audio signal is regarded as a sound other than a vowel and is output as “0”.
  • the first comparison unit 707 may be configured to output with 1 and 0 reversed.
  • the first threshold is set to an appropriate value so that vowels and sounds other than vowels can be identified.
  • the gain coefficient generation unit 708 is configured to generate and output a first gain value and a second gain value based on the determination result output from the first comparison unit 707.
  • the gain coefficient generation unit 708 uses the first gain value and the second gain value as gain values for vowels, respectively.
  • the gain coefficient generation unit 708 sets the first gain value and the second gain value to gain values smaller than the vowel gain values (consonant gains). Value).
  • the gain value for consonant is set to, for example, about half of the gain value for vowel, but the present disclosure is not limited to this setting.
  • the gain value applied to each of the first gain value and the second gain value may be a gain value that is adjusted in advance so as to improve sound quality and stored in advance in the gain coefficient generation unit 708. Further, the first gain value and the second gain value may be the same value or different values.
  • a series of processing performed by the audio signal processing apparatus 100 from the upsampling of the input audio signal to the output of the second addition signal may be executed every unit time (for example, a sampling period).
  • Audio signal processing apparatus 100 includes upsampling unit 102, odd-order harmonic generation unit 104, even-order harmonic generation unit 105, vowel detection unit 108, first gain control unit 106, A second gain control unit 107.
  • the upsampling unit 102 is configured to generate an upsampled audio signal by upsampling the sampling frequency of the audio signal.
  • the odd-order harmonic generation unit 104 is configured to generate odd-order harmonics from the upsampled audio signal.
  • the even-order harmonic generation unit 105 is configured to generate even-order harmonics from the upsampled audio signal.
  • the vowel detector 108 is configured to identify whether or not the audio signal is a vowel, and to generate a first gain value and a second gain value based on the identification result.
  • the first gain control unit 106 is configured to amplify or attenuate the odd harmonics based on the first gain value to adjust the gain, and output the odd harmonics after gain adjustment.
  • the second gain control unit 107 is configured to amplify or attenuate the even-order harmonics based on the second gain value, adjust the gain, and output the even-order harmonics after gain adjustment.
  • the audio signal processing apparatus 100 is configured to add the odd-order harmonics after gain adjustment and the even-order harmonics after gain adjustment to the upsampled audio signal and output it.
  • a high-frequency audio signal generated by passing an upsampled audio signal through a high-pass filter HPF 103 is input to the odd-order harmonic generation unit 104 and the even-order harmonic generation unit 105. It is configured as follows.
  • the audio signal processing apparatus 100 passes the odd-order harmonics after gain adjustment and the even-order harmonics after gain adjustment through a band-pass filter (BPF 110) to generate a band-pass audio signal and up-samples the band-pass audio signal.
  • BPF 110 band-pass filter
  • the vowel detector 108 is configured to make the first gain value and the second gain value smaller when the sound signal is determined to be a sound other than the vowel than when the sound signal is determined to be a vowel. .
  • the vowel detection unit 108 generates a global signal generated by smoothing the upsampling audio signal, a high frequency signal generated by smoothing the high frequency audio signal, and a high frequency signal subtracted from the global signal.
  • a determination unit 606 configured to identify whether or not the audio signal is a vowel based on the low-frequency signal.
  • the determination unit 606 divides the low frequency signal by the high frequency signal, performs a logarithmic operation on the result of the division, multiplies the logarithmic operation result by the global signal, and compares the result of the multiplication with the first threshold value. It is configured to identify whether the audio signal is a vowel.
  • the vowel detection unit 108 is configured to set the first gain value and the second gain value to 0 when the audio signal is a weak sound that can be regarded as silent or substantially silent.
  • Digital audio signals are limited to frequency bands based on sampling frequency. Therefore, in a telephone line or the like having a relatively low sampling frequency, a high frequency band is lost, and the reproduced voice may be recognized by the user as an unnatural voice. It has been confirmed that the high frequency audio signal includes harmonics of the low frequency audio signal. Then, it is confirmed that the user tends to recognize the reproduced sound as a more natural sound by generating a harmonic from the original signal in which the high frequency is lost and adding the harmonic to the original signal. ing.
  • Audio signal processing apparatus 100 upsamples an input audio signal, generates harmonics from the input audio signal, and adds the harmonics to the upsampled audio signal to expand the frequency band of the audio signal. can do. Therefore, an audio signal such as an audio signal on a telephone line that has lost high frequencies can be reproduced as a more natural sound by expanding the frequency band.
  • Audio signal processing apparatus 100 identifies vowels and sounds other than vowels such as consonants, generates mutually different gain values based on the identification results, and amplifies harmonics based on the gain values or The gain can be attenuated and adjusted, and the harmonics after gain adjustment can be added to the upsampled audio signal. That is, a harmonic can be generated by changing the gain value between a vowel and a sound other than the vowel. As a result, the frequency band of the reproduced sound can be expanded in a balanced manner for both vowels and consonants, so that it is possible to realize a natural reproduced sound that is easier to hear. Furthermore, since the audio signal processing apparatus 100 can amplify or attenuate the odd-order harmonics and the even-order harmonics with mutually different gain values, it is possible to realize natural reproduced sound that is easier to hear.
  • the audio signal processing apparatus 100 can improve the sound quality of the reproduced audio of the audio signal to make it more natural and easy for the user to hear.
  • the first embodiment has been described as an example of the technique disclosed in the present application.
  • the technology in the present disclosure is not limited to this, and can also be applied to embodiments in which changes, replacements, additions, omissions, and the like are performed.
  • the vowel detection unit 108 described in Embodiment 1 can also be configured as follows.
  • FIG. 8 is a block diagram schematically showing a configuration example of the vowel detection unit 1081 in another embodiment.
  • the vowel detection unit 1081 shown in FIG. 8 is different from the vowel detection unit 108 shown in Embodiment 1 as follows.
  • the vowel detection unit 1081 includes a correlation calculation unit 801, a second comparison unit 802, and a gain coefficient generation unit 708.
  • the correlation calculation unit 801 is configured to perform autocorrelation calculation of the high frequency audio signal input from the input terminal 601 and output the calculation result (autocorrelation calculation result) to the second comparison unit 802. Note that the autocorrelation calculation in the correlation calculation unit 801 need not be performed by setting various shift times. For example, by performing autocorrelation calculation with a time length of about 1 msec with a shift time of about 0.2 msec, it is possible to distinguish between vowels and others.
  • the second comparison unit 802 compares the autocorrelation calculation result output from the correlation calculation unit 801 with the second threshold value. When the autocorrelation calculation result is larger than the second threshold value, the second comparison unit 802 regards the voice signal as a vowel. When “1” is output and the autocorrelation calculation result is equal to or smaller than the second threshold value, the speech signal is regarded as a sound other than a vowel, and “0” is output. Note that the second comparison unit 802 may be configured to output with 1 and 0 reversed. The second threshold is set to an appropriate value so that vowels and sounds other than vowels can be identified.
  • the vowel detection unit 1081 can detect vowels with a simple configuration as compared to the vowel detection unit 108 shown in the first embodiment. Can reduce the number of elements.
  • the vowel detector 108 shown in the first embodiment can also be configured as follows.
  • FIG. 9 is a block diagram schematically showing a configuration example of the vowel detection unit 1082 in another embodiment.
  • the vowel detection unit 1082 shown in FIG. 9 has the following differences from the vowel detection unit 108 shown in the first embodiment.
  • the vowel detection unit 1082 has a configuration in which a second division unit 901 and a second multiplication unit 902 are further added to the vowel detection unit 108 shown in the first embodiment. Hereinafter, this difference will be described.
  • the second division unit 901 is configured to perform division using the high frequency signal output from the first smoothing unit 603 as a divisor and a predetermined constant as a dividend.
  • the predetermined constant is a value corresponding to the amplitude of the high frequency signal output from the first smoothing unit 603 when a high frequency audio signal having the maximum amplitude is input (that is, the maximum value of the high frequency signal).
  • the second division unit 901 outputs a value inversely proportional to the amplitude of the high frequency audio signal.
  • the second multiplication unit 902 is configured to multiply the output of the second division unit 901 by the first gain value and output the multiplication result as a corrected first gain value.
  • the amplitude of the odd harmonic is a value proportional to the square of the amplitude of the high frequency audio signal.
  • the second multiplier 902 can correct the first gain value to a value inversely proportional to the amplitude of the high frequency audio signal.
  • the amplitude of the odd-order harmonics after gain adjustment is proportional to the amplitude of the high frequency audio signal. Therefore, an increase in the amplitude of the odd-order harmonic after gain adjustment is suppressed as compared with the even-order harmonic after gain adjustment. That is, in the audio signal processing apparatus using the vowel detection unit 1082, it is possible to balance the amplitude between the odd-order harmonics after gain adjustment and the even-order harmonics after gain adjustment. Can be further improved.
  • each gain value may be set so that the ratios of the first gain value and the second gain value for sounds other than vowels are different from each other.
  • the sound quality of the harmonics can be changed between a vowel and a sound other than the vowel.
  • the sound quality of the reproduced sound can be adjusted to the sound quality preferred by the user.
  • a reproduced sound using an amplifier using a vacuum tube element has a distortion characteristic that the amplitude of the second harmonic is relatively large, but the amplitude of the third or higher harmonic is rapidly reduced. Tend to be evaluated subjectively as soft sounds.
  • the reproduced sound using an amplifier using a transistor element has a distortion characteristic that the amplitude of the odd-order harmonic is larger than the even-order harmonic, and the reproduced sound is subjectively sharp. It tends to be evaluated.
  • the second gain value is relatively increased for users who prefer soft sounds
  • the first gain value is relatively increased for users who prefer sharp sounds. Sound quality control according to the user's preference is possible with the above-described configuration.
  • the second gain value is relatively increased for a speech signal determined as a vowel
  • the first gain value is relatively increased for a speech determined as a sound other than a vowel such as a consonant.
  • Embodiment 1 the configuration example in which the vowel detection unit 108 identifies vowels and sounds other than vowels has been described, but the present disclosure is not limited to this configuration.
  • the vowel detection unit determines that the sound signal is a sound other than a vowel
  • the vowel detection unit further identifies whether the sound signal is silence or a weak sound that can be regarded as substantially silent.
  • the first gain The value and the second gain value may be set to “0”. In this configuration, it is possible to prevent harmonics from being added to a sound signal of a weak sound that can be regarded as silent or substantially silent, and to prevent deterioration of the SN (Signal to Noise) signal-to-noise ratio.
  • the vowel detection unit is configured to identify an unvoiced consonant that is not accompanied by vocal cord vibration and a voiced consonant that is accompanied by vocal cord vibration, and to set an optimum first gain value and second gain value for each,
  • the quality of the consonant after expansion can be improved.
  • the sound quality of the consonant after the frequency band expansion can be further improved by configuring the vowel detection unit so that the consonant is identified more finely and the optimum first gain value and second gain value are set for each. it can.
  • Embodiment 1 the example in which the logarithmic calculation unit 705 performs logarithmic calculation on the calculation result of the first division unit 704 in the determination unit 606 has been described, but the present disclosure is not limited to this configuration.
  • the determination unit may be configured by omitting the logarithmic operation unit 705.
  • the first comparison unit 707 can output a result that is substantially the same as the configuration having the logarithmic operation unit 705. Thereby, it is possible to reduce the amount of calculation in the determination unit (in the case of a circuit, the number of elements is reduced).
  • the correlation calculation unit 801 of the vowel detection unit 1081 performs autocorrelation calculation based on the high frequency audio signal output from the HPF 103, but the present disclosure is not limited to this configuration.
  • a correlation calculation unit 801 receives a voice signal that does not pass through the HPF 103, that is, an upsampling voice signal output from the upsampling unit 102, and performs a correlation calculation unit 801 so as to perform autocorrelation calculation based on the upsampling voice signal. May be configured. Thereby, the correlation calculation part 801 can detect a vowel with many low frequency components more correctly.
  • Embodiment 1 the example in which the input audio signal is upsampled to the double sampling frequency by the upsampling unit 102 has been described, but the present disclosure is not limited to this configuration.
  • the upsampling unit 102 may be configured to upsample the input audio signal to a sampling frequency that is twice or more (for example, four times the sampling frequency). As a result, higher harmonics can be added to the original signal, and a more natural audio signal can be generated.
  • the unit time is set as the sampling period
  • the vowel detection unit 108 has described the configuration example for identifying whether the voice signal is a vowel or a sound other than the vowel for each unit time (sampling period).
  • the present disclosure is not limited to this configuration.
  • the unit time may be set to a time longer than the sampling period.
  • the vowel detection unit may be configured to identify whether the audio signal is a vowel or a sound other than a vowel for every multiple of the sampling period.
  • the amount of calculation in the vowel detection unit is reduced while appropriately expanding the frequency band of the audio signal in the audio signal processing device (when the circuit is configured, the number of elements is reduced). be able to.
  • Embodiment 1 an example in which odd-order harmonics and even-order harmonics are added to an audio signal has been described, but the present disclosure is not limited to this configuration.
  • the audio signal processing apparatus may be configured such that a white noise generator is provided in the audio signal processing apparatus, and not only harmonics but also noise (white noise) generated by the white noise generator is added to the original signal. .
  • a white noise generator is provided in the audio signal processing apparatus, and not only harmonics but also noise (white noise) generated by the white noise generator is added to the original signal.
  • the vowel detection unit 108 determines that the sound signal is a sound other than the vowel
  • the effect of the frequency band expansion can be further enhanced by adding noise corresponding to the amplitude of the sound signal to the sound signal. it can.
  • Embodiment 1 the configuration in which the odd-order harmonic output from the odd-order harmonic generation unit 104 is directly input to the first gain control unit 106 has been described, but the present disclosure is not limited to this configuration.
  • the amplitude of the odd harmonics is compared with the even harmonics. It has been confirmed that the attenuation tends to increase as the order increases.
  • the first gain value and the second gain value are adjusted so that the second harmonic, which is one of the even harmonics, and the third harmonic, which is one of the odd harmonics, have substantially the same amplitude.
  • the amplitude of the seventh harmonic may be smaller than the amplitude of the sixth harmonic.
  • the high frequency range of the odd harmonics is set to be emphasized between the odd harmonic generation unit 104 and the first gain control unit 106 so that the attenuation characteristic is substantially the same as the even harmonics.
  • a high frequency emphasis part may be added. In this configuration, it is possible to align the amplitudes of the odd-order harmonics and the even-order harmonics up to the higher order, so that the effect of frequency band expansion can be further enhanced.
  • Each component (odd-order harmonic generation unit, even-order harmonic generation unit, vowel detection unit, etc.) constituting the audio signal processing device shown in the embodiment is configured by an independent dedicated circuit.
  • a configuration in which a program created so as to realize the operation of each component is executed by a processor may be employed.
  • the program at this time may be acquired by downloading from a server or the like, or may be acquired via a predetermined recording medium (for example, an optical disk such as a CD-ROM, a magnetic disk, a semiconductor memory, or the like).
  • This disclosure can be applied to an audio signal processing device for the purpose of improving sound quality.
  • the present disclosure can be applied to a hands-free communication device, a mobile phone, a smartphone, a digital audio communication device, a digital audio signal reproduction device, and the like.

Abstract

 音声信号の周波数帯域を拡張し、再生音声の音質を向上する。アップサンプリング部(102)は、音声信号からアップサンプリング音声信号を生成する。アップサンプリング音声信号から、奇数次高調波生成部(104)は奇数次高調波を生成し、偶数次高調波生成部(105)は偶数次高調波を生成する。母音検出部(108)は、音声信号が母音か否かを識別して第1利得値と第2利得値を生成する。第1利得制御部(106)は、第1利得値に基づき奇数次高調波を増幅または減衰して出力する。第2利得制御部(107)は、第2利得値に基づき偶数次高調波を増幅または減衰して出力する。音声信号処理装置(100)は、利得調整後の奇数次高調波と利得調整後の偶数次高調波をアップサンプリング音声信号に加算して出力する。

Description

音声信号処理装置および音声信号処理方法
 本開示は、音声信号処理装置および音声信号処理方法に関する。
 特許文献1は、音声信号を処理する方法を開示する。この方法では、原信号の少なくとも一部に基づいて高調波信号を発生する。そして、その高調波信号の少なくとも一部を原信号と結合する。
特表2005-501278号公報
 本開示は、音声信号の再生音声の音質を改善してより自然な音声にし、ユーザに聞き取りやすくするための音声信号処理装置および音声信号処理方法を提供する。
 本開示における音声信号処理装置は、アップサンプリング部と、奇数次高調波生成部と、偶数次高調波生成部と、母音検出部と、第1利得制御部と、第2利得制御部と、を備えている。この音声信号処理装置において、アップサンプリング部は、音声信号のサンプリング周波数をアップサンプリングしてアップサンプリング音声信号を生成するように構成されている。奇数次高調波生成部は、アップサンプリング音声信号から奇数次高調波を生成するように構成されている。偶数次高調波生成部は、アップサンプリング音声信号から偶数次高調波を生成するように構成されている。母音検出部は、音声信号が母音か否かを識別し、その識別の結果に基づき第1利得値および第2利得値を生成するように構成されている。第1利得制御部は、第1利得値に基づき奇数次高調波を増幅または減衰して利得調整し、利得調整後の奇数次高調波を出力するように構成されている。第2利得制御部は、第2利得値に基づき偶数次高調波を増幅または減衰して利得調整し、利得調整後の偶数次高調波を出力するように構成されている。そして、音声信号処理装置は、利得調整後の奇数次高調波と利得調整後の偶数次高調波とをアップサンプリング音声信号に加算して出力するように構成されている。
 本開示における音声信号処理方法は、音声信号のサンプリング周波数をアップサンプリングしてアップサンプリング音声信号を生成するステップと、アップサンプリング音声信号から奇数次高調波と偶数次高調波を生成するステップと、音声信号が母音か否かを識別し、その識別の結果に基づき第1利得値および第2利得値を生成するステップと、第1利得値に基づき奇数次高調波を増幅または減衰して利得調整するステップと、第2利得値に基づき偶数次高調波を増幅または減衰して利得調整するステップと、利得調整後の奇数次高調波と利得調整後の偶数次高調波とをアップサンプリング音声信号に加算して出力するステップと、を備えている。
図1は、実施の形態1における音声信号処理装置の一構成例を概略的に示すブロック図である。 図2は、実施の形態1における奇数次高調波生成部の一構成例を概略的に示すブロック図である。 図3Aは、実施の形態1における奇数次高調波生成部の入力信号波形の一例を概略的に示す図である。 図3Bは、実施の形態1における奇数次高調波生成部の信号波形の一例を概略的に示す図である。 図3Cは、実施の形態1における奇数次高調波生成部の出力信号波形の一例を概略的に示す図である。 図4は、実施の形態1における偶数次高調波生成部の一構成例を概略的に示すブロック図である。 図5Aは、実施の形態1における偶数次高調波生成部の入力信号波形の一例を概略的に示す図である。 図5Bは、実施の形態1における偶数次高調波生成部の出力信号波形の一例を概略的に示す図である。 図6は、実施の形態1における母音検出部の一構成例を概略的に示すブロック図である。 図7は、実施の形態1における判定部の一構成例を概略的に示すブロック図である。 図8は、他の実施の形態における母音検出部の一構成例を概略的に示すブロック図である。 図9は、他の実施の形態における母音検出部の一構成例を概略的に示すブロック図である。
 以下、適宜図面を参照しながら、実施の形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。
 なお、添付図面および以下の説明は、当業者が本開示を十分に理解するために提供されるのであって、これらにより特許請求の範囲に記載の主題を限定することは意図されていない。
 (実施の形態1)
 以下、図1~図7を用いて、実施の形態1について説明する。
 [1-1.音声信号処理装置の構成]
 図1は、実施の形態1における音声信号処理装置100の一構成例を概略的に示すブロック図である。
 音声信号処理装置100は、入力端子101、アップサンプリング部102、高域通過フィルタであるHPF(High-Pass Filter)103、奇数次高調波生成部104、偶数次高調波生成部105、第1利得制御部106、第2利得制御部107、母音検出部108、第1加算部109、帯域通過フィルタであるBPF(Band-Pass Filter)110、遅延部111、第2加算部112、および出力端子113、を備える。
 入力端子101には、音声信号が入力される。入力端子101に入力された音声信号は、アップサンプリング部102に入力される。この入力音声信号は、アナログの音声信号を所定のサンプリング周波数でサンプリングすることによって生成されたデジタルの音声信号である。このサンプリング周波数は、例えば、電話回線であれば8kHzであり、音楽CD(Compact Disc)であれば44.1kHzである。本実施の形態では、電話回線による音声信号を音声信号処理装置100で信号処理し、周波数帯域を拡張する例を説明する。この音声信号の帯域は、例えば、300~3400Hzである。しかし、音声信号処理装置100で信号処理する音声信号は、何ら電話回線の音声信号に限定されない。
 アップサンプリング部102は、入力端子101から入力された音声信号のサンプリング周波数を上げてアップサンプリング音声信号を生成し、HPF103と遅延部111のそれぞれに出力するように構成されている。アップサンプリング部102は、例えば電話回線であれば、8kHzでサンプリングされた音声信号を2倍の16kHzでサンプリングされた音声信号に変換して、HPF103と遅延部111のそれぞれに出力する。これにより、音声信号処理装置100では、音声信号の周波数帯域を、入力音声信号の約2倍(例えば、300~6800Hz)に上げることが可能となる。なお、アップサンプリング部102で音声信号のサンプリング周波数を上げる手法(アップサンプリング)は一般に知られた手法であるので、説明を省略する。また、本実施の形態では、アップサンプリング部102でサンプリング周波数を2倍に上げる例を示すが、アップサンプリングは何ら2倍の周波数に限定されるものではない。
 HPF103は、奇数次高調波生成部104と偶数次高調波生成部105にとって不要な低域成分をアップサンプリング音声信号から減衰させて高域音声信号を生成するように構成されている。HPF103は、例えば、1700Hz以上の音声信号が通過するように設定されている。そして、生成した高域音声信号を奇数次高調波生成部104と偶数次高調波生成部105と母音検出部108とのそれぞれに出力する。言い換えると、HPF103は、アップサンプリング音声信号から所定の周波数(例えば、1700Hz)以上の信号を抽出して高域音声信号を生成し、奇数次高調波生成部104と偶数次高調波生成部105と母音検出部108とのそれぞれに出力する。なお、所定の周波数は何ら1700Hzに限定されるものではない。
 奇数次高調波生成部104は、HPF103から出力される高域音声信号から奇数次(3倍、5倍、7倍、・・・)の高調波を生成し、第1利得制御部106に出力するように構成されている。奇数次高調波生成部104の詳細は後述する。
 偶数次高調波生成部105は、HPF103から出力される高域音声信号から偶数次(2倍、4倍、6倍、・・・)の高調波を生成し、第2利得制御部107に出力するように構成されている。偶数次高調波生成部105の詳細は後述する。
 第1利得制御部106は、奇数次高調波生成部104から出力される奇数次高調波を、母音検出部108から出力される利得値(第1利得値)にもとづき増幅または減衰して出力するように構成されている。以下、この出力信号を、「利得調整後の奇数次高調波」とも記す。
 第2利得制御部107は、偶数次高調波生成部105から出力される偶数次高調波を、母音検出部108から出力される利得値(第2利得値)にもとづき増幅または減衰して出力するように構成されている。以下、この出力信号を、「利得調整後の偶数次高調波」とも記す。
 母音検出部108は、HPF103から出力される高域音声信号と、遅延部111から出力される第1遅延音声信号とにもとづき、音声信号が母音か母音以外の音かを判定し、その判定結果にもとづく利得値(第1利得値、第2利得値)を生成するように構成されている。母音検出部108は、判定結果が母音以外の音であれば、判定結果が母音のときに比べて、小さい利得値(例えば、半分程度)を生成する。これは、母音よりも子音の方が、相対的に振幅が大きい高調波が発生しやすいためである。母音検出部108は、生成した第1利得値を第1利得制御部106に出力し、生成した第2利得値を第2利得制御部107に出力する。第1利得値と第2利得値とは、互いに同じ数値であってもよく、互いに異なる数値であってもよい。母音検出部108の詳細は後述する。
 第1加算部109は、第1利得制御部106から出力される利得調整後の奇数次高調波と、第2利得制御部107から出力される利得調整後の偶数次高調波とを加算して第1加算信号を生成し、BPF110に出力するように構成されている。
 BPF110は、第1加算部109から出力される第1加算信号から、所定の周波数帯域を抽出して帯域通過音声信号を生成し、第2加算部112に出力するように構成されている。BPF110は、例えば、第1加算信号から、入力端子101に入力された音声信号と重複する周波数帯域を減衰させて、帯域通過音声信号を生成する。入力音声信号の周波数帯域が、例えば3400Hzまでであれば、BPF110は、3400~6800Hzの帯域通過音声信号を生成する。
 遅延部111は、高域音声信号と第1遅延音声信号とのタイミングが母音検出部108で揃うように、HPF103での時間遅延と同じ時間だけアップサンプリング音声信号を遅延させて、第1遅延音声信号を生成するように構成されている。また、遅延部111は、帯域通過音声信号と第2遅延音声信号とのタイミングが第2加算部112で揃うように、HPF103やBPF110等で生じる時間遅延と同じ時間だけアップサンプリング音声信号を遅延させて、第2遅延音声信号を生成するように構成されている。第1遅延音声信号は母音検出部108に出力され、第2遅延音声信号は第2加算部112に出力される。
 第2加算部112は、BPF110から出力される帯域通過音声信号を、遅延部111から出力される第2遅延音声信号に加算して、第2加算信号を生成するように構成されている。これにより、入力端子101に入力された音声信号と比較して周波数帯域が拡張された音声信号(第2加算信号)が生成される。生成された第2加算信号は、出力端子113から出力される。
 [1-2.奇数次高調波生成部の構成]
 次に、奇数次高調波生成部104について説明する。
 図2は、実施の形態1における奇数次高調波生成部104の一構成例を概略的に示すブロック図である。
 図3Aは、実施の形態1における奇数次高調波生成部104の入力信号波形の一例を概略的に示す図である。図3Bは、実施の形態1における奇数次高調波生成部104の信号波形の一例を概略的に示す図である。図3Cは、実施の形態1における奇数次高調波生成部104の出力信号波形の一例を概略的に示す図である。図3A~3Cに示す各波形は、図2のA~Cの各点における信号波形である。
 奇数次高調波生成部104は、入力端子201、二乗演算部202、符号付与部203、および出力端子204、を備える。
 入力端子201には、HPF103から出力される高域音声信号が入力される。ここでは、一例として、図3Aに示すように、入力端子201に高域音声信号として正弦波301が入力される例を示す。
 二乗演算部202は、入力端子201に入力される高域音声信号を二乗して出力するように構成されている。これにより、負極性の信号は正極性の信号となる。例えば、図3Aに示した正弦波301が、二乗演算部202で二乗されると、図3Bに示す正弦波302となって、二乗演算部202から出力される。
 符号付与部203は、二乗演算部202で二乗された高域音声信号に対して、入力端子201に入力された高域音声信号の符号を付与し、符号が付与された信号を、出力端子204から、奇数次高調波として出力するように構成されている。これにより、二乗演算部202で負極性から正極性になった信号は、元の負極性の信号に戻る。例えば、図3Bに示した正弦波302に、入力端子201に入力された正弦波301の符号が付与されると、図3Cに示す正弦波303となる。
 図3Aと図3Cとの比較からわかるように、奇数次高調波生成部104に入力される正弦波301に比べて、奇数次高調波生成部104から出力される正弦波303は、波形が歪んでいる。この正弦波303の歪は、奇数次(1次、3次、5次・・・)の高調波によるものである。
 [1-3.偶数次高調波生成部の構成]
 次に、偶数次高調波生成部105について説明する。
 図4は、実施の形態1における偶数次高調波生成部105の一構成例を概略的に示すブロック図である。
 図5Aは、実施の形態1における偶数次高調波生成部105の入力信号波形の一例を概略的に示す図である。図5Bは、実施の形態1における偶数次高調波生成部105の出力信号波形の一例を概略的に示す図である。図5A、Bに示す各波形は、図4のA、B各点における信号波形である。
 偶数次高調波生成部105は、入力端子401、絶対値演算部402、および出力端子403、を備える。
 入力端子401には、HPF103から出力される高域音声信号が入力される。ここでは、一例として、図5Aに示すように、入力端子401に高域音声信号として正弦波501が入力される例を示す。
 絶対値演算部402は、入力端子401に入力される高域音声信号の絶対値を算出し、絶対値化された信号を、出力端子403から、偶数次高調波として出力するように構成されている。これにより、負極性の信号は正極性の信号となる。例えば、図5Aに示した正弦波501が絶対値化されると、図5Bに示す正弦波502となる。
 図5Aと図5Bとの比較からわかるように、偶数次高調波生成部105に入力される正弦波501に比べて、偶数次高調波生成部105から出力される正弦波502は、波形が大きく歪んでいる。この正弦波502の歪は、偶数次(0次、2次、4次・・・)の高調波によるものである。
 [1-4.母音検出部の構成]
 次に、母音検出部108について説明する。
 図6は、実施の形態1における母音検出部108の一構成例を概略的に示すブロック図である。
 母音検出部108は、入力端子601、入力端子602、第1平滑化部603、第2平滑化部604、減算部605、判定部606、出力端子607、および出力端子608、を備える。
 入力端子601には、HPF103から出力される高域音声信号が入力される。
 入力端子602には、遅延部111から出力される第1遅延音声信号が入力される。
 第1平滑化部603は、第1入力端子601から入力される高域音声信号に積分平滑処理を施して、減算部605と判定部606に出力するように構成されている。
 第2平滑化部604は、第2入力端子602から入力される第1遅延音声信号に積分平滑処理を施して、減算部605と判定部606に出力するように構成されている。
 減算部605は、第2平滑化部604から出力される信号(以下、「全域信号」とも記す)から、第1平滑化部603から出力される信号(以下、「高域信号」とも記す)を差し引いた信号(以下、「低域信号」とも記す)を生成し、その低域信号を判定部606に出力するように構成されている。
 判定部606は、第1平滑化部603から入力される高域信号と、第2平滑化部604から入力される全域信号と、減算部605から入力される低域信号とにもとづき、音声信号が母音か母音以外の音かを判定し、その判定結果にもとづき利得値(第1利得値、第2利得値)を生成するように構成されている。判定部606は、音声信号を母音以外の音と判定したときには、音声信号を母音と判定したときと比較して小さい(例えば、半分程度の)利得値を生成する。すなわち、第1利得値、第2利得値ともに、音声信号は母音以外の音と判定されたときには、音声信号は母音と判定されたときよりも、小さい数値となる。これは、上述したように、母音よりも子音の方が、相対的に振幅が大きい高調波が発生しやすいためである。そして、判定部606は、第1利得値を第1利得制御部106に出力し、第2利得値を第2利得制御部107に出力する。
 第1出力端子607は、第1利得制御部106に、奇数次高調波の利得値(第1利得値)を出力するための端子である。
 第2出力端子608は、第2利得制御部107に、偶数次高調波の利得値(第2利得値)を出力するための端子である。
 [1-5.判定部の構成]
 次に、判定部606について説明する。
 図7は、実施の形態1における判定部606の一構成例を概略的に示すブロック図である。
 判定部606は、入力端子701、入力端子702、入力端子703、第1除算部704、対数演算部705、第1乗算部706、第1比較部707、および利得係数生成部708、を備える。
 入力端子701には、第2平滑化部604から出力される全域信号が入力される。
 入力端子702には、減算部605から出力される低域信号が入力される。
 入力端子703には、第1平滑化部603から出力される高域信号が入力される。
 第1除算部704は、入力端子702から入力される低域信号を、入力端子703から入力される高域信号で除算し、その演算結果(低域信号の振幅/高域信号の振幅)を対数演算部705に出力するように構成されている。音声信号が母音であれば、この演算結果は、音声信号が母音以外の音のときと比較して、大きい値となる。
 対数演算部705は、第1除算部704の出力に対数演算を施して第1乗算部706に出力するように構成されている。この対数演算により、第1除算部704の出力の変化の幅が抑えられる。
 第1乗算部706は、対数演算部705の出力に、入力端子701から入力される全域信号を乗算して第1比較部707に出力するように構成されている。この乗算により、母音のときには相対的に大きい値が第1乗算部706から出力され、母音以外の音(例えば、子音、無音、無音に近い微弱な音、等)のときには相対的に小さい値が第1乗算部706から出力される。
 第1比較部707は、第1乗算部706の出力値と第1閾値との比較を行い、第1乗算部706の出力値が第1閾値よりも大きいときには、高域音声信号を母音とみなして“1”を出力し、第1乗算部706の出力値が第1閾値以下のときには、高域音声信号を母音以外の音とみなして“0”を出力するように構成されている。なお、第1比較部707は、1と0を逆にして出力するように構成されていてもよい。また、第1閾値は、母音と母音以外の音とを識別できるように適切な値に設定されているものとする。
 利得係数生成部708は、第1比較部707から出力される判定結果にもとづき、第1利得値と第2利得値を生成して出力するように構成されている。第1比較部707における判定結果が母音のとき、利得係数生成部708は、第1利得値と第2利得値を、それぞれ母音用の利得値とする。第1比較部707における判定結果が母音以外の音のとき、利得係数生成部708は、第1利得値と第2利得値を、それぞれ母音用の利得値よりも小さい利得値(子音用の利得値)とする。この子音用の利得値は、例えば、母音用の利得値の約半分に設定されているが、本開示は何らこの設定に限定されない。第1利得値、第2利得値のそれぞれに適用する利得値は、音質が良好になるようにあらかじめ調整された利得値が利得係数生成部708にあらかじめ記憶されたものであってもよい。また、第1利得値と第2利得値とは、互いに同じ値であってもよく、互いに異なる値であってもよい。
 なお、音声信号処理装置100が行う、入力音声信号をアップサンプリングしてから第2加算信号を出力するまでの一連の処理は、単位時間(例えば、サンプリング周期)毎に実行されてもよい。
 [1-5.効果等]
 実施の形態1における音声信号処理装置100は、アップサンプリング部102と、奇数次高調波生成部104と、偶数次高調波生成部105と、母音検出部108と、第1利得制御部106と、第2利得制御部107と、を備えている。この音声信号処理装置100において、アップサンプリング部102は、音声信号のサンプリング周波数をアップサンプリングしてアップサンプリング音声信号を生成するように構成されている。奇数次高調波生成部104は、アップサンプリング音声信号から奇数次高調波を生成するように構成されている。偶数次高調波生成部105は、アップサンプリング音声信号から偶数次高調波を生成するように構成されている。母音検出部108は、音声信号が母音か否かを識別し、その識別の結果に基づき第1利得値および第2利得値を生成するように構成されている。第1利得制御部106は、第1利得値に基づき奇数次高調波を増幅または減衰して利得調整し、利得調整後の奇数次高調波を出力するように構成されている。第2利得制御部107は、第2利得値に基づき偶数次高調波を増幅または減衰して利得調整し、利得調整後の偶数次高調波を出力するように構成されている。そして、音声信号処理装置100は、利得調整後の奇数次高調波と利得調整後の偶数次高調波とをアップサンプリング音声信号に加算して出力するように構成されている。
 音声信号処理装置100は、アップサンプリング音声信号を高域通過フィルタ(HPF103)に通して生成される高域音声信号が、奇数次高調波生成部104および偶数次高調波生成部105に入力される、ように構成されている。
 音声信号処理装置100は、利得調整後の奇数次高調波および利得調整後の偶数次高調波を帯域通過フィルタ(BPF110)に通して帯域通過音声信号を生成し、帯域通過音声信号をアップサンプリング音声信号に加算して出力する、ように構成されている。
 母音検出部108は、音声信号は母音以外の音と判断したときには、音声信号は母音と判断したときよりも、第1利得値および第2利得値の値を小さくする、ように構成されている。
 また、母音検出部108は、アップサンプリング音声信号を平滑化して生成される全域信号と、高域音声信号を平滑化して生成される高域信号と、全域信号から高域信号を減算して生成される低域信号と、にもとづき音声信号が母音か否かを識別するように構成された判定部606を有する。
 判定部606は、低域信号を高域信号で除算し、その除算の結果を対数演算し、その対数演算の結果に全域信号を乗算し、その乗算の結果と第1閾値とを比較して音声信号が母音か否かを識別する、ように構成されている。
 また、母音検出部108は、音声信号が無音または実質的に無音と見なせる微弱音のときには、第1利得値および第2利得値を0とする、ように構成されている。
 デジタル音声信号は、サンプリング周波数にもとづく周波数帯域に制限される。したがって、サンプリング周波数が比較的低い電話回線等では、高域の周波数帯域が失われ、その再生音声は不自然な音声としてユーザに認識されることがある。この高域の音声信号には低域の音声信号の高調波が含まれていることが確認されている。そして、高域が失われた原信号から高調波を生成し、原信号にその高調波を足し合わせることで、ユーザは、その再生音声をより自然な音声と認識する傾向にあることが確認されている。
 本実施の形態における音声信号処理装置100は、入力音声信号をアップサンプリングするとともに入力音声信号から高調波を生成し、その高調波をアップサンプリングした音声信号に足し合わせて音声信号の周波数帯域を拡大することができる。したがって、電話回線の音声信号等、高域が失われた音声信号を、周波数帯域を拡大し、より自然な音声として再生することができる。
 しかし、音声の母音と子音とでは周波数が互いに異なるため、生成される高調波に差が生じることがある。具体的には、子音の方が母音よりも強い高調波が生成されやすい。そのため、単に高調波を生成して原信号に足すだけでは、再生音声の母音と子音とはアンバランスになる可能性が高い。
 本実施の形態における音声信号処理装置100は、母音と、子音等の母音以外の音とを識別し、その識別結果にもとづき互いに異なる利得値を生成し、その利得値にもとづき高調波を増幅または減衰して利得調整し、利得調整後の高調波をアップサンプリングした音声信号に足し合わせることができる。すなわち、母音と母音以外の音とで利得値を変えて高調波を生成することができる。これにより、再生音声の周波数帯域を、母音、子音ともにバランスよく拡大することができるので、より聞き取りやすい自然な再生音声を実現することが可能となる。さらに、音声信号処理装置100は、奇数次高調波と偶数次高調波とを、互いに異なる利得値で増幅または減衰することができるので、より聞き取りやすい自然な再生音声を実現することができる。
 すなわち、本実施の形態における音声信号処理装置100は、音声信号の再生音声の音質を改善してより自然な音声にし、ユーザに聞き取りやすくすることが可能である。
 (他の実施の形態)
 以上のように、本出願において開示する技術の例示として、実施の形態1を説明した。しかしながら、本開示における技術は、これに限定されず、変更、置き換え、付加、省略等を行った実施の形態にも適用できる。また、上記実施の形態1で説明した各構成要素を組み合わせて、新たな実施の形態とすることも可能である。
 そこで、以下、他の実施の形態を例示する。
 実施の形態1で説明した母音検出部108は、以下のように構成することも可能である。
 図8は、他の実施の形態における母音検出部1081の一構成例を概略的に示すブロック図である。
 図8に示す母音検出部1081は、実施の形態1に示した母音検出部108と、以下の相違点がある。母音検出部1081は、相関演算部801、第2比較部802、および利得係数生成部708、を有する。
 相関演算部801は、入力端子601から入力される高域音声信号の自己相関演算を行い、その演算の結果(自己相関演算結果)を第2比較部802に出力するように構成されている。なお、相関演算部801での自己相関演算は、様々なシフト時間を設定して行う必要はない。例えば、0.2msec程度のシフト時間で、1msec程度の時間長の自己相関演算を行うことで、母音とそれ以外との識別が可能である。
 第2比較部802は、相関演算部801から出力される自己相関演算結果と第2閾値との比較を行い、自己相関演算結果が第2閾値よりも大きいときには、音声信号を母音とみなして“1”を出力し、自己相関演算結果が第2閾値以下のときは、音声信号を母音以外の音とみなして“0”を出力するように構成されている。なお、第2比較部802は、1と0を逆にして出力するように構成されていてもよい。また、第2閾値は、母音と母音以外の音とを識別できるように適切な値に設定されているものとする。
 これにより、母音検出部1081は、実施の形態1に示した母音検出部108と比較して、簡単な構成で母音検出が行えるため、母音検出のための演算量を削減(回路で構成する場合は、素子数を削減)することができる。
 実施の形態1に示した母音検出部108は、以下のように構成することも可能である。
 図9は、他の実施の形態における母音検出部1082の一構成例を概略的に示すブロック図である。
 図9に示す母音検出部1082は、実施の形態1に示した母音検出部108と、以下の相違点がある。母音検出部1082は、実施の形態1に示した母音検出部108に、さらに、第2除算部901、および第2乗算部902、を追加した構成である。以下、この相違点について説明する。
 第2除算部901は、第1平滑化部603が出力する高域信号を除数とし、所定の定数を被除数として、除算を行うように構成されている。この所定の定数は、最大振幅の高域音声信号が入力されたときに第1平滑化部603が出力する高域信号の振幅に相当する値(すなわち、高域信号の最大値)である。これにより、第2除算部901は、高域音声信号の振幅に反比例した値を出力する。
 第2乗算部902は、第2除算部901の出力を第1利得値に乗算し、その乗算結果を補正後第1利得値として出力するように構成されている。
 二乗演算部202では高域音声信号を二乗しているので、奇数次高調波の振幅は高域音声信号の振幅の二乗に比例した数値となる。しかし、第2乗算部902により、第1利得値を高域音声信号の振幅に反比例した数値に補正することができる。これにより、利得調整後の奇数次高調波の振幅は、高域音声信号の振幅に比例するようになる。したがって、利得調整後の偶数次高調波と比較して、利得調整後の奇数次高調波の振幅が大きくなる、といったことが抑制される。すなわち、母音検出部1082を用いた音声信号処理装置では、利得調整後の奇数次高調波と利得調整後の偶数次高調波とで振幅のバランスをとることが可能になるので、再生音声の品質をより向上することができる。
 実施の形態1では、母音検出部108から出力される第1利得値と第2利得値の比率について特に言及しなかったが、母音のときの第1利得値と第2利得値の比率と、母音以外の音のときの第1利得値と第2利得値の比率とが互いに異なる比率になるように、各利得値が設定されていてもよい。この構成では、母音のときと母音以外の音のときとで、高調波の音質を変えることもできる。これにより、再生音声の音質を、ユーザが好む音質に調整することも可能となる。
 例えば、真空管素子を用いたアンプを使用した再生音声は、2次高調波の振幅は相対的に大きいが、3次以上の高調波の振幅は急激に小さくなるという歪特性があり、その再生音声は主観的に柔らかい音と評価される傾向にある。また、トランジスタ素子を用いたアンプを使用した再生音声は、偶数次の高調波に比べて奇数次の高調波の方が振幅が大きいという歪特性があり、その再生音声は主観的に鋭い音と評価される傾向にある。これらのことから、柔らかい音が好みのユーザに対しては、第2利得値を相対的に大きくし、鋭い音が好みのユーザに対しては、第1利得値を相対的に大きくする、といったユーザの好みに応じた音質制御が、上述の構成では可能になる。さらに、母音と判定された音声信号に対しては第2利得値を相対的に大きくし、子音等の母音以外の音と判定された音声に対しては第1利得値を相対的に大きくすることで、母音は柔らかい音質にし子音は鋭い音質にして自然さと明瞭さを両立させる、といった音質制御も、上述の構成では可能になる。
 実施の形態1では、母音検出部108で母音と母音以外の音とを識別する構成例を説明したが、本開示は何らこの構成に限定されない。
 母音検出部は、音声信号を母音以外の音と判断したとき、その音声信号は無音または実質的に無音と見なせる微弱音かどうかをさらに識別し、無音または微弱音と判断したときには、第1利得値と第2利得値を“0”とするように構成されてもよい。この構成では、無音または実質的に無音と見なせる微弱音の音声信号に高調波が付加されることを防止し、SN(Signal to Noise、信号対ノイズ)比の悪化を防ぐことができる。また、声帯振動を伴わない無声子音と声帯振動を伴う有声子音とを識別し、それぞれに最適な第1利得値、第2利得値を設定するように母音検出部を構成することで、周波数帯域拡張後の子音の音質をより良くすることができる。さらに、子音をより細かく識別し、それぞれに最適な第1利得値、第2利得値を設定するように母音検出部を構成することで、周波数帯域拡張後の子音の音質をさらに良くすることができる。
 実施の形態1では、判定部606において、第1除算部704の演算結果に対数演算部705で対数演算を施す例を説明したが、本開示は何らこの構成に限定されない。
 判定部は対数演算部705を省略して構成されてもよい。この構成では、第1閾値の値を適切に変更することで、第1比較部707は、対数演算部705を有する構成と実質的に同様の結果を出力することができる。これにより、判定部における演算量を削減(回路で構成する場合は、素子数を削減)することが可能となる。
 上述の図8に示す例では、母音検出部1081の相関演算部801は、HPF103から出力される高域音声信号に基づいて自己相関演算を行ったが、本開示は何らこの構成に限定されない。
 相関演算部801に、HPF103を通さない音声信号、すなわちアップサンプリング部102から出力されるアップサンプリング音声信号、を入力し、このアップサンプリング音声信号に基づいて自己相関演算を行うように相関演算部801を構成してもよい。これにより、相関演算部801は、低域成分の多い母音をより正確に検出することができる。
 実施の形態1では、入力音声信号がアップサンプリング部102で2倍のサンプリング周波数にアップサンプリングされる例を説明したが、本開示は何らこの構成に限定されない。
 アップサンプリング部102は、入力音声信号を2倍以上のサンプリング周波数(例えば、4倍のサンプリング周波数)にアップサンプリングするように構成されてもよい。これにより、より高い周波数の高調波を原信号に加算することができるようになり、より自然な音声信号を生成することができる。
 実施の形態1では、単位時間をサンプリング周期とし、母音検出部108は、この単位時間(サンプリング周期)毎に、音声信号が母音か母音以外の音かを識別する構成例を説明した。しかし、本開示は何らこの構成に限定されない。
 単位時間はサンプリング周期よりも長い時間に設定されてもよい。例えばサンプリング周期の複数倍の周期毎に、音声信号が母音か母音以外の音かを識別するように、母音検出部を構成してもよい。単位時間を適切に設定することで、音声信号処理装置での音声信号の周波数帯域拡大を適切に行いながら、母音検出部における演算量を削減(回路で構成する場合は、素子数を削減)することができる。
 実施の形態1では、奇数次高調波および偶数次高調波を音声信号に加算する例を示したが、本開示は何らこの構成に限定されない。
 例えば、ホワイトノイズ発生器を音声信号処理装置に設け、高調波だけでなく、ホワイトノイズ発生器が発生する雑音(ホワイトノイズ)も原信号に加算するように音声信号処理装置を構成してもよい。この構成では、周波数帯域拡張による再生音声の音質改善効果をさらに向上することができる。特に、母音検出部108で音声信号は母音以外の音であると判定されたときに、音声信号の振幅に応じた雑音を音声信号に付加することで、周波数帯域拡張の効果をより高めることができる。
 実施の形態1では、奇数次高調波生成部104から出力される奇数次高調波が第1利得制御部106に直接入力される構成を説明したが、本開示は何らこの構成に限定されない。
 図2を用いて説明した方法で奇数次高調波を発生させ、図4を用いて説明した方法で偶数次高調波を発生させると、偶数次高調波と比較して、奇数次高調波の振幅は、次数が高くなるにつれて減衰が大きくなりやすいことが確認されている。例えば、偶数次高調波の1つである2次高調波と奇数次高調波の1つである3次高調波が互いにほぼ同じ振幅になるように第1利得値、第2利得値を調整しても、6次高調波の振幅よりも7次高調波の振幅の方が小さくなることがある。そこで、奇数次高調波生成部104と第1利得制御部106の間に、減衰特性が偶数次高調波と実質的に同じになるように奇数次高調波の高域を強調するように設定された高域強調部を追加してもよい。この構成では、奇数次高調波の振幅と偶数次高調波の振幅を高次までそろえることが可能となるので、周波数帯域拡張の効果をより高めることができる。
 実施の形態に示した音声信号処理装置を構成する各構成要素(奇数次高調波生成部、偶数次高調波生成部、母音検出部、等)は、それぞれを独立した専用の回路で構成してもよく、あるいは、各構成要素における動作を実現するように作成されたプログラムをプロセッサーで実行する構成であってもよい。また、このときのプログラムは、サーバ等からのダウンロードにより取得されてもよく、所定の記録媒体(例えば、CD-ROM等の光ディスクや磁気ディスク、半導体メモリ等)を介して取得されてもよい。
 なお、実施の形態に示した具体的な数値は、単に一例を示したものに過ぎず、本開示は何らこれらの数値に限定されるものではない。各数値は、装置やシステムの仕様等にあわせて最適な値に設定することが望ましい。
 本開示は、音質改善を目的とした音声信号処理装置に適用可能である。具体的には、ハンズフリーの通話装置、携帯電話、スマートフォン、デジタル音声通信装置、デジタル音声信号再生装置、等に本開示は適用可能である。
100  音声信号処理装置
101,201,401,601,602,701,702,703  入力端子
102  アップサンプリング部
103  HPF
104  奇数次高調波生成部
105  偶数次高調波生成部
106  第1利得制御部
107  第2利得制御部
108,1081,1082  母音検出部
109  第1加算部
110  BPF
111  遅延部
112  第2加算部
113,204,403,607,608  出力端子
202  二乗演算部
203  符号付与部
301,302,303,501,502  正弦波
402  絶対値演算部
603  第1平滑化部
604  第2平滑化部
605  減算部
606  判定部
704  第1除算部
705  対数演算部
706  第1乗算部
707  第1比較部
708  利得係数生成部
801  相関演算部
802  第2比較部
901  第2除算部
902  第2乗算部

Claims (10)

  1. 音声信号のサンプリング周波数をアップサンプリングしてアップサンプリング音声信号を生成するように構成されたアップサンプリング部と、
    前記アップサンプリング音声信号から奇数次高調波を生成するように構成された奇数次高調波生成部と、
    前記アップサンプリング音声信号から偶数次高調波を生成するように構成された偶数次高調波生成部と、
    前記音声信号が母音か否かを識別し、前記識別の結果に基づき第1利得値および第2利得値を生成するように構成された母音検出部と、
    前記第1利得値に基づき前記奇数次高調波を増幅または減衰して利得調整し、利得調整後の奇数次高調波を出力するように構成された第1利得制御部と、
    前記第2利得値に基づき前記偶数次高調波を増幅または減衰して利得調整し、利得調整後の偶数次高調波を出力するように構成された第2利得制御部と、を備え、
    前記利得調整後の奇数次高調波と前記利得調整後の偶数次高調波とを前記アップサンプリング音声信号に加算して出力する、ように構成された、
    音声信号処理装置。
  2. 前記アップサンプリング音声信号を高域通過フィルタに通して生成される高域音声信号が、前記奇数次高調波生成部および前記偶数次高調波生成部に入力される、ように構成された、
    請求項1に記載の音声信号処理装置。
  3. 前記利得調整後の奇数次高調波および前記利得調整後の偶数次高調波を帯域通過フィルタに通して帯域通過音声信号を生成し、前記帯域通過音声信号を前記アップサンプリング音声信号に加算して出力する、ように構成された、
    請求項1に記載の音声信号処理装置。
  4. 前記母音検出部は、
    前記音声信号は母音以外の音と判断したときには、前記音声信号は母音と判断したときよりも、前記第1利得値および前記第2利得値の値を小さくする、ように構成された、
    請求項1に記載の音声信号処理装置。
  5. 前記母音検出部は、
    前記アップサンプリング音声信号を平滑化して生成される全域信号と、前記高域音声信号を平滑化して生成される高域信号と、前記全域信号から前記高域信号を減算して生成される低域信号と、にもとづき前記音声信号が母音か否かを識別するように構成された判定部を有する、
    請求項1に記載の音声信号処理装置。
  6. 前記判定部は、
    前記低域信号を前記高域信号で除算し、前記除算の結果または前記除算の結果を対数演算した結果に前記全域信号を乗算し、前記乗算の結果と第1閾値とを比較して前記音声信号が母音か否かを識別する、ように構成された、
    請求項5に記載の音声信号処理装置。
  7. 前記母音検出部は、所定の定数を前記高域信号で除算し、前記除算の結果を前記第1利得値に乗算して第1利得値を補正する、ように構成された、
    請求項5に記載の音声信号処理装置。
  8. 前記母音検出部は、
    前記高域音声信号または前記アップサンプリング音声信号の自己相関演算を行い、前記自己相関演算の結果と第2閾値とを比較して前記音声信号が母音か否かを識別する、ように構成された、
    請求項2に記載の音声信号処理装置。
  9. 前記母音検出部は、
    前記音声信号が無音または実質的に無音と見なせる微弱音のときには、前記第1利得値および前記第2利得値を0とする、ように構成された
    請求項1に記載の音声信号処理装置。
  10. 音声信号のサンプリング周波数をアップサンプリングしてアップサンプリング音声信号を生成するステップと、
    前記アップサンプリング音声信号から奇数次高調波と偶数次高調波を生成するステップと、
    前記音声信号が母音か否かを識別し、前記識別の結果に基づき第1利得値および第2利得値を生成するステップと、
    前記第1利得値に基づき前記奇数次高調波を増幅または減衰して利得調整するステップと、
    前記第2利得値に基づき前記偶数次高調波を増幅または減衰して利得調整するステップと、
    前記利得調整後の奇数次高調波と前記利得調整後の偶数次高調波とを前記アップサンプリング音声信号に加算して出力するステップと、を備えた、
    音声信号処理方法。
PCT/JP2014/005434 2014-02-21 2014-10-28 音声信号処理装置および音声信号処理方法 WO2015125191A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US14/907,243 US9478235B2 (en) 2014-02-21 2014-10-28 Voice signal processing device and voice signal processing method
JP2016503791A JP6533959B2 (ja) 2014-02-21 2014-10-28 音声信号処理装置および音声信号処理方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2014-031340 2014-02-21
JP2014031340 2014-02-21

Publications (1)

Publication Number Publication Date
WO2015125191A1 true WO2015125191A1 (ja) 2015-08-27

Family

ID=53877732

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2014/005434 WO2015125191A1 (ja) 2014-02-21 2014-10-28 音声信号処理装置および音声信号処理方法

Country Status (3)

Country Link
US (1) US9478235B2 (ja)
JP (1) JP6533959B2 (ja)
WO (1) WO2015125191A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015125191A1 (ja) * 2014-02-21 2015-08-27 パナソニックIpマネジメント株式会社 音声信号処理装置および音声信号処理方法
US11120816B2 (en) * 2015-02-01 2021-09-14 Board Of Regents, The University Of Texas System Natural ear
US11120821B2 (en) * 2016-08-08 2021-09-14 Plantronics, Inc. Vowel sensing voice activity detector
US10542345B2 (en) 2018-01-31 2020-01-21 Elite Semiconductor Memory Technology Inc. Virtual bass generating circuit and method
TWI675595B (zh) * 2018-02-08 2019-10-21 晶豪科技股份有限公司 虛擬低音產生電路、揚聲器與方法
US11363147B2 (en) 2018-09-25 2022-06-14 Sorenson Ip Holdings, Llc Receive-path signal gain operations

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3462590B2 (ja) * 1994-09-21 2003-11-05 株式会社デノン 倍音付加装置
JP2008197247A (ja) * 2007-02-09 2008-08-28 Yamaha Corp 音声処理装置
JP2009048209A (ja) * 2008-11-04 2009-03-05 Oki Electric Ind Co Ltd 帯域復元装置及び電話機
JP2010019901A (ja) * 2008-07-08 2010-01-28 Victor Co Of Japan Ltd ディジタル音響信号処理方法及び処理装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6606388B1 (en) * 2000-02-17 2003-08-12 Arboretum Systems, Inc. Method and system for enhancing audio signals
KR20040035749A (ko) 2001-08-31 2004-04-29 코닌클리케 필립스 일렉트로닉스 엔.브이. 사운드 신호의 대역폭 확장 방법
US7676043B1 (en) * 2005-02-28 2010-03-09 Texas Instruments Incorporated Audio bandwidth expansion
JP5092580B2 (ja) * 2007-06-26 2012-12-05 ソニー株式会社 デジタル信号処理装置、デジタル信号処理方法及びデジタル信号処理プログラム
WO2015125191A1 (ja) * 2014-02-21 2015-08-27 パナソニックIpマネジメント株式会社 音声信号処理装置および音声信号処理方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3462590B2 (ja) * 1994-09-21 2003-11-05 株式会社デノン 倍音付加装置
JP2008197247A (ja) * 2007-02-09 2008-08-28 Yamaha Corp 音声処理装置
JP2010019901A (ja) * 2008-07-08 2010-01-28 Victor Co Of Japan Ltd ディジタル音響信号処理方法及び処理装置
JP2009048209A (ja) * 2008-11-04 2009-03-05 Oki Electric Ind Co Ltd 帯域復元装置及び電話機

Also Published As

Publication number Publication date
JP6533959B2 (ja) 2019-06-26
JPWO2015125191A1 (ja) 2017-03-30
US9478235B2 (en) 2016-10-25
US20160163334A1 (en) 2016-06-09

Similar Documents

Publication Publication Date Title
WO2015125191A1 (ja) 音声信号処理装置および音声信号処理方法
JP5898534B2 (ja) 音響信号処理装置および音響信号処理方法
TWI459828B (zh) 在多頻道音訊中決定語音相關頻道的音量降低比例的方法及系統
JP5453740B2 (ja) 音声強調装置
WO2013005550A1 (ja) 直接音抽出装置および残響音抽出装置
KR102446946B1 (ko) 다중대역 더커
JP5058844B2 (ja) 音声信号変換装置、音声信号変換方法、制御プログラム、および、コンピュータ読み取り可能な記録媒体
JP2008197247A (ja) 音声処理装置
JP4175376B2 (ja) オーディオ信号処理装置、オーディオ信号処理方法、及びオーディオ信号処理プログラム
JP2006333396A (ja) 音声信号拡声装置
JP6730580B2 (ja) 帯域拡張装置および帯域拡張方法
JP5202021B2 (ja) 音声信号変換装置、音声信号変換方法、制御プログラム、および、コンピュータ読み取り可能な記録媒体
JP5958378B2 (ja) 音声信号処理装置、音声信号処理装置の制御方法およびプログラム
JP4803193B2 (ja) オーディオ信号の利得制御装置および利得制御方法
JP5715910B2 (ja) ダイナミックレンジ拡張装置
JP2011141540A (ja) 音声信号処理装置、テレビジョン受像機、音声信号処理方法、プログラム、および、記録媒体
JP6159570B2 (ja) 音声強調装置、及びプログラム
JP2019106657A (ja) 補聴器
JP2012100117A (ja) 音響処理装置及び方法
JP2012027101A (ja) 音声再生装置、音声再生方法、プログラム、及び、記録媒体
JP2010028663A (ja) 音声レベル調整装置、音声レベル調整方法およびプログラム
JP2006074409A (ja) 音声出力装置
JP2008216469A (ja) 音声信号処理装置および音声信号処理方法ならびにプログラム
JP6531418B2 (ja) 信号処理装置
JP5652515B2 (ja) 信号処理装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14882919

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 14907243

Country of ref document: US

ENP Entry into the national phase

Ref document number: 2016503791

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 14882919

Country of ref document: EP

Kind code of ref document: A1