WO2014192675A1 - 信号処理装置及び信号処理方法 - Google Patents
信号処理装置及び信号処理方法 Download PDFInfo
- Publication number
- WO2014192675A1 WO2014192675A1 PCT/JP2014/063789 JP2014063789W WO2014192675A1 WO 2014192675 A1 WO2014192675 A1 WO 2014192675A1 JP 2014063789 W JP2014063789 W JP 2014063789W WO 2014192675 A1 WO2014192675 A1 WO 2014192675A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- frequency
- signal
- reference signal
- band
- interpolation
- Prior art date
Links
- 238000003672 processing method Methods 0.000 title claims description 15
- 230000005236 sound signal Effects 0.000 claims abstract description 90
- 238000001514 detection method Methods 0.000 claims abstract description 41
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 claims abstract description 31
- 238000000611 regression analysis Methods 0.000 claims description 35
- 230000008859 change Effects 0.000 claims description 12
- 230000002194 synthesizing effect Effects 0.000 claims description 8
- 230000015572 biosynthetic process Effects 0.000 claims description 2
- 238000003786 synthesis reaction Methods 0.000 claims description 2
- 238000001228 spectrum Methods 0.000 description 59
- 238000000034 method Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 10
- 230000006835 compression Effects 0.000 description 9
- 238000007906 compression Methods 0.000 description 9
- 238000000605 extraction Methods 0.000 description 9
- IVIIAEVMQHEPAY-UHFFFAOYSA-N tridodecyl phosphite Chemical compound CCCCCCCCCCCCOP(OCCCCCCCCCCCC)OCCCCCCCCCCCC IVIIAEVMQHEPAY-UHFFFAOYSA-N 0.000 description 9
- 230000002238 attenuated effect Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 230000006872 improvement Effects 0.000 description 7
- 230000006866 deterioration Effects 0.000 description 4
- 230000015556 catabolic process Effects 0.000 description 3
- 238000006731 degradation reaction Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000012417 linear regression Methods 0.000 description 2
- 230000003321 amplification Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000002427 irreversible effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
- G10L21/0388—Details of processing therefor
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
Definitions
- the present invention relates to a signal processing apparatus and a signal processing method for interpolating a high frequency component of an audio signal by generating an interpolation signal and synthesizing it with the audio signal.
- Known formats for compressing audio signals include lossy compression formats such as MP3 (MPEG Audio Layer-3), WMA (Windows Media Audio (registered trademark)), and AAC (Advanced Audio Coding).
- MP3 MPEG Audio Layer-3
- WMA Windows Media Audio (registered trademark)
- AAC Advanced Audio Coding
- Patent Document 1 Japanese Patent Application Laid-Open No. 2007-25480 (hereinafter referred to as Patent Document 1) and Japanese Patent Laid-Open No. 2007-534478 (hereinafter referred to as Patent Document 2). ing.
- the high-frequency interpolation apparatus described in Patent Document 1 calculates a real part and an imaginary part of a signal obtained by analyzing an audio signal (original signal), and an envelope component of the original signal from the calculated real part and imaginary part And a harmonic component of the formed envelope component is extracted.
- the high-frequency interpolation apparatus described in Patent Document 1 performs high-frequency interpolation of the original signal by synthesizing the extracted harmonic components with the original signal.
- the high-frequency interpolating device described in Patent Document 2 spectrally inverts an audio signal, up-samples the spectrum-inverted signal, and uses the up-sampled signal to generate a frequency that is substantially the same as the high frequency of the baseband signal.
- the extended band component is extracted.
- the high-frequency interpolation apparatus described in Patent Literature 2 performs high-frequency interpolation of a baseband signal by synthesizing the extracted extension band component with the baseband signal.
- the frequency band of an irreversibly compressed audio signal varies depending on the compression encoding format, sampling rate, and bit rate after compression encoding. Therefore, as described in Patent Document 1, when high-frequency interpolation is performed by synthesizing a fixed frequency band interpolation signal with respect to an audio signal, depending on the frequency band of the audio signal before high-frequency interpolation, The frequency spectrum of the audio signal after high-frequency interpolation becomes discontinuous. As described above, in the high frequency interpolating device described in Patent Document 1, the audio quality may be deteriorated by applying high frequency interpolation to the audio signal.
- the audio signal is subjected to high frequency interpolation to cause a deterioration in sound quality on hearing. There is.
- the present invention has been made in view of the above circumstances, and an object of the present invention is to provide a signal that can achieve an improvement in sound quality by high-frequency interpolation regardless of the frequency characteristics of an irreversibly compressed audio signal.
- a processing apparatus and a signal processing method are provided.
- a signal processing device includes a band detection unit that detects a frequency band that satisfies a predetermined condition from an audio signal, and a reference signal generation that generates a reference signal corresponding to the detection band by the band detection unit Means, reference signal correcting means for correcting the reference signal based on the frequency characteristics of the generated reference signal itself, frequency band extending means for extending the corrected reference signal to a frequency band higher than the detection band, and extended Interpolation signal generating means for generating an interpolation signal by weighting each frequency component in the frequency band according to the frequency characteristics of the audio signal, and signal combining means for combining the generated interpolation signal with the audio signal.
- the reference signal is corrected with a value corresponding to the frequency characteristic of the audio signal, and the interpolation signal is generated based on the corrected reference signal and synthesized with the audio signal. Regardless, improvement in sound quality by high-frequency interpolation is achieved.
- the reference signal correcting means corrects the reference signal generated by the reference signal generating means to a flat frequency characteristic, for example.
- the reference signal correction means performs a first regression analysis on the reference signal generated by the reference signal generation means, and a reference signal for each frequency with respect to the reference signal based on the information on the frequency characteristics obtained by the first regression analysis.
- the reference signal may be corrected by calculating the reference weight amount and multiplying the calculated reference signal weight amount for each frequency by the reference signal.
- the reference signal generating means extracts, for example, n% range on the high frequency side of the entire detection band, and uses the extracted component as the reference signal.
- the band detecting means calculates the first frequency region in the audio signal and the level of the second frequency region higher than the first frequency region, and based on the calculated first and second frequency region levels.
- the threshold may be set, and the frequency band may be detected from the audio signal based on the set threshold.
- the band detecting means detects, for example, a frequency band with an upper limit of the frequency of the highest frequency point among at least one frequency point below the threshold from the audio signal.
- the interpolation signal generating means performs the second regression analysis on at least a part of the audio signal, and based on the frequency characteristic information obtained by the second regression analysis, each frequency within the frequency band expanded by the frequency band extending means. An interpolation signal weight amount for each frequency for the component is calculated, and an interpolation signal is generated by multiplying the calculated interpolation signal weight amount for each frequency by each frequency component in the expanded frequency band. It is good.
- the information on the frequency characteristics obtained by the second regression analysis includes, for example, the rate of change of the frequency component in the frequency band expanded by the frequency band extending means.
- the interpolation signal generation means increases the interpolation signal weight amount as the change rate increases to the minus side.
- the interpolation signal generation means increases the weight amount for the interpolation signal as the frequency on the upper limit side of the range in which the second regression analysis is performed is higher, for example.
- the signal processing apparatus has the following conditions (1) to (3): (1) The detection band is equal to or smaller than a predetermined frequency band. (2) The level of the second frequency domain is equal to or smaller than a predetermined value. (3) The difference between the level of the first frequency domain and the level of the second frequency domain is equal to or smaller than the predetermined value. When at least one of the above is satisfied, the interpolation signal generation unit may not generate the interpolation signal.
- a signal processing method provided by another aspect of the present invention includes a band detection step for detecting a frequency band satisfying a predetermined condition from an audio signal, and a reference signal corresponding to the detection band detected in the band detection step.
- An interpolation signal generating step for generating an interpolation signal by weighting each frequency component in the expanded frequency band according to the frequency characteristic of the audio signal, and a signal for synthesizing the generated interpolation signal with the audio signal Synthesis step.
- the reference signal is corrected with a value corresponding to the frequency characteristic of the audio signal, and the interpolation signal is generated based on the corrected reference signal and synthesized with the audio signal. Regardless, improvement in sound quality by high-frequency interpolation is achieved.
- the reference signal generated in the reference signal generation step may be corrected to a flat frequency characteristic.
- the first regression analysis is performed on the reference signal generated in the reference signal generation step, and the reference signal for each frequency with respect to the reference signal is based on the frequency characteristic information obtained by the first regression analysis.
- the reference signal may be corrected by calculating the weight amount and multiplying the calculated reference signal weight amount for each frequency by the reference signal.
- an n% range on the high frequency side of the entire detection band may be extracted, and the extracted component may be used as the reference signal.
- a first frequency domain in the audio signal and a second frequency domain level higher than the first frequency domain are calculated, and based on the calculated first and second frequency domain levels.
- the threshold may be set, and the frequency band may be detected from the audio signal based on the set threshold.
- a frequency band having the upper limit of the frequency of the highest frequency point among at least one frequency point below the threshold may be detected from the audio signal.
- the second regression analysis is performed on at least a part of the audio signal, and based on the information on the frequency characteristics obtained by the second regression analysis, the frequency-specific frequency component for each frequency component in the expanded frequency band is obtained.
- the interpolation signal weight amount may be calculated, and the interpolation signal may be generated by multiplying the calculated interpolation signal weight amount for each frequency by each frequency component in the expanded frequency band.
- the frequency characteristic information obtained by the second regression analysis includes the rate of change of the frequency component in the expanded frequency band, and in the interpolation signal generation step, the interpolation signal weight amount increases as the rate of change increases toward the minus side. You may do it.
- the interpolation signal weight amount may be increased as the frequency on the upper limit side of the range in which the second regression analysis is performed is higher.
- the detection band is equal to or smaller than a predetermined frequency band.
- the level of the second frequency domain is equal to or smaller than a predetermined value.
- the difference between the level of the first frequency domain and the level of the second frequency domain is equal to or smaller than the predetermined value.
- FIG. 1 is a block diagram showing the configuration of the sound processing apparatus 1 of the present embodiment.
- the acoustic processing apparatus 1 includes an FFT (Fast Fourier Transform) unit 10, a high-frequency interpolation processing unit 20, and an IFFT (Inverse FFT) unit 30.
- FFT Fast Fourier Transform
- IFFT Inverse FFT
- An audio signal obtained by decoding an irreversible compression format encoded signal is input to the FFT unit 10 from the sound source unit.
- the lossy compression format is, for example, MP3, WMA, AAC or the like.
- the FFT unit 10 weights the input audio signal using overlap processing and a window function, and then performs conversion from the time domain to the frequency domain using STFT (Short-Term Fourier ⁇ Transform), and the real and imaginary frequency spectra. Get.
- the FFT unit 10 converts the frequency spectrum obtained by frequency conversion into an amplitude spectrum and a phase spectrum.
- the FFT unit 10 outputs the amplitude spectrum to the high frequency interpolation processing unit 20 and outputs the phase spectrum to the IFFT unit 30.
- the high frequency interpolation processing unit 20 interpolates the high frequency of the amplitude spectrum input from the FFT unit 10 and outputs the result to the IFFT unit 30.
- the band that is interpolated by the high-frequency interpolation processing unit 20 is, for example, a frequency band that is close to or exceeds the upper limit of the audible range that has been significantly cut during lossy compression.
- the IFFT unit 30 obtains real and imaginary frequency spectra based on the amplitude spectrum interpolated by the high frequency interpolation unit 20 and the phase spectrum in which the output of the FFT unit 10 is held as it is, and performs weighting by the window function. .
- the IFFT unit 30 performs STFT and overlap addition on the weighted signal to convert the signal from the frequency domain to the time domain, and generates and outputs a high-frequency interpolated audio signal.
- FIG. 2 is a block diagram showing the configuration of the high-frequency interpolation processing unit 20.
- the high-frequency interpolation processing unit 20 includes a band detection unit 210, a reference signal extraction unit 220, a reference signal correction unit 230, an interpolation signal generation unit 240, an interpolation signal correction unit 250, and an addition unit 260.
- a band detection unit 210 a reference signal extraction unit 220
- a reference signal correction unit 230 a reference signal correction unit 230
- an interpolation signal generation unit 240 an interpolation signal correction unit 250
- an addition unit 260 an addition unit 260.
- reference numerals are given to input signals and output signals for the respective units in the high-frequency interpolation processing unit 20.
- FIG. 3 is a diagram for assisting the explanation of the operation of the band detection unit 210, and shows an example of the amplitude spectrum S input from the FFT unit 10 to the band detection unit 210.
- the vertical axis (y-axis) indicates the signal level (unit: dB), and the horizontal axis (x-axis) indicates the frequency (unit: Hz).
- the band detection unit 210 converts the amplitude spectrum S (linear scale) of the audio signal input from the FFT unit 10 into a decibel scale.
- the band detection unit 210 calculates a signal level of a predetermined low and middle range and a predetermined high range for the amplitude spectrum S converted to the decibel scale, and calculates the signal level of the calculated low and middle range and the high range.
- Set threshold based on. For example, as shown in FIG. 3, the threshold is an intermediate level between the signal level (average value) in the low and mid range and the signal level (average value) in the high range.
- the band detection unit 210 detects an audio signal (amplitude spectrum Sa) in a frequency band whose upper limit is a frequency at a frequency point below the threshold from the amplitude spectrum S (linear scale) input from the FFT unit 10. As shown in FIG. 3, when there are a plurality of frequency points below the threshold, an amplitude spectrum Sa in a range with an upper limit on the higher frequency (frequency ft in the example of FIG. 3) is detected.
- the band detection unit 210 smoothes the amplitude spectrum Sa by smoothing in order to suppress local variations included in the detected amplitude spectrum Sa. Note that the band detection unit 210 performs the following conditions (1) to (3) in order to suppress generation of unnecessary interpolation signals.
- the detected amplitude spectrum Sa is equal to or lower than a predetermined frequency range.
- the signal level of the high frequency range is equal to or higher than a predetermined value. When one is satisfied, it is determined that the generation of the interpolation signal is unnecessary. High-frequency interpolation is not performed on an amplitude spectrum that is determined to require no interpolation signal generation.
- FIGS. 4A to 4H are operation waveform diagrams for explaining a series of processing until high-frequency interpolation is performed using the amplitude spectrum Sa detected by the band detection unit 210.
- the amplitude spectrum Sa detected by the band detection unit 210 is input to the reference signal extraction unit 220.
- the reference signal extraction unit 220 extracts the reference signal Sb from the amplitude spectrum Sa according to the frequency band of the amplitude spectrum Sa (see FIG. 4A). For example, the amplitude spectrum in the range of n (0 ⁇ n)% on the high frequency side in the entire amplitude spectrum Sa is extracted as the reference signal Sb.
- the narrower the frequency band of the amplitude spectrum Sa is, the narrower the frequency band of the reference signal Sb is, so that the extraction of the voice band that causes the sound quality degradation is suppressed.
- the reference signal extraction unit 220 shifts the frequency of the reference signal Sb extracted from the amplitude spectrum Sa to the low frequency side (DC side) (see FIG. 4B), and the frequency-shifted reference signal Sb is a reference signal correction unit 230. Output to.
- the reference signal correction unit 230 converts the reference signal Sb (linear scale) input from the reference signal extraction unit 220 to a decibel scale, and detects a frequency slope by linear regression analysis for the converted decibel scale reference signal Sb. .
- the reference signal correction unit 230 calculates the inverse characteristic of the frequency slope (weight amount for each frequency with respect to the reference signal Sb) detected by the primary regression analysis. Specifically, the reference signal correction unit 230 defines the weight amount for each frequency with respect to the reference signal Sb as P 1 (x), and defines the FFT sample position in the frequency domain on the horizontal axis (x axis) as x.
- the weight amount P 1 (x) for each frequency with respect to the reference signal Sb is obtained on a decibel scale.
- the reference signal correction unit 230 converts the decibel scale weight P 1 (x) into a linear scale.
- the reference signal correction unit 230 corrects the reference signal Sb by multiplying the weight amount P 1 (x) converted to the linear scale by the reference signal Sb (linear scale) input from the reference signal extraction unit 220. To do. Specifically, the reference signal Sb is corrected to a signal having a flat frequency characteristic (reference signal Sb ′) (see FIG. 4D).
- the reference signal Sb ′ corrected by the reference signal correction unit 230 is input to the interpolation signal generation unit 240.
- the interpolation signal generation unit 240 extends the reference signal Sb ′ to a frequency band higher than the frequency band of the amplitude spectrum Sa (in other words, a plurality of copies of the reference signal Sb ′ until reaching a frequency band higher than the frequency band of the amplitude spectrum Sa).
- the interpolation signal Sc including the high frequency is generated (see FIG. 4E).
- the interpolation signal Sc has a flat frequency characteristic.
- the extended range of the reference signal Sb ′ is, for example, the entire frequency band of the amplitude spectrum Sa and a predetermined frequency band higher than the frequency band of the amplitude spectrum Sa (a band close to the upper limit of the audible range or an upper limit of the audible range). Band etc.).
- the interpolation signal Sc generated by the interpolation signal generation unit 240 is input to the interpolation signal correction unit 250.
- the interpolation signal correction unit 250 converts the amplitude spectrum S (linear scale) input from the FFT unit 10 into a decibel scale, and detects a frequency slope by linear regression analysis for the converted amplitude spectrum S of the decibel scale. Instead of the amplitude spectrum S, the frequency slope of the amplitude spectrum Sa input from the band detector 210 may be detected.
- the regression analysis range can be arbitrarily set, typically, it is a range corresponding to a predetermined frequency band excluding a low frequency component in order to smoothly connect the high frequency side of the audio signal and the interpolation signal.
- the interpolation signal correction unit 250 calculates the weight amount corresponding to the detected frequency slope and the frequency band corresponding to the regression analysis range for each frequency. Specifically, the interpolation signal correction unit 250 defines the weight amount for each frequency with respect to the interpolation signal Sc as P 2 (x), and defines the FFT sample position in the frequency domain on the horizontal axis (x axis) as x. and, the frequency of the upper limit of regression analysis range defined is b, defined sample length of the FFT of the s, the value of the slope of the corresponding frequency band in the regression analysis range is defined as alpha 2, a predetermined correction coefficient k In this case, the weight amount P 2 (x) for each frequency for the interpolation signal Sc is calculated by the following equation (2).
- the weight amount P 2 (x) for each frequency with respect to the interpolation signal Sc is obtained on a decibel scale.
- the interpolation signal correction unit 250 converts the decibel scale weight amount P 2 (x) into a linear scale.
- the interpolation signal correction unit 250 multiplies the weighting amount P 2 (x) converted into the linear scale by the interpolation signal Sc (linear scale) generated by the interpolation signal generation unit 240, thereby obtaining the interpolation signal Sc. to correct.
- the corrected interpolation signal Sc ′ is a signal in a higher frequency range than the frequency b, and has a characteristic of being attenuated as the frequency is higher.
- the addition unit 260 receives the amplitude spectrum S from the FFT unit 10 and the interpolation signal Sc ′ from the interpolation signal correction unit 250.
- the amplitude spectrum S is an amplitude spectrum of an audio signal from which a high frequency component is significantly cut
- the interpolation signal Sc ′ is an amplitude spectrum in a frequency region higher than the frequency band of the audio signal.
- the adder 260 combines the amplitude spectrum S and the interpolation signal Sc ′ to generate the amplitude spectrum S ′ of the audio signal in which the high frequency band is interpolated (see FIG. 4H), and the generated audio signal Is output to the IFFT unit 30.
- the reference signal Sb is extracted in accordance with the frequency band of the amplitude spectrum Sa, and the interpolation signal Sc ′ is generated based on the reference signal Sb ′ obtained by correcting the extracted reference signal Sb to generate an amplitude. It is synthesized with the spectrum S (audio signal).
- the frequency characteristics of the audio signal input to the FFT unit 10 for example, even when the frequency band of the audio signal changes according to the compression encoding format, the level is higher
- the high band is interpolated with a spectrum having a natural characteristic that attenuates with a continuous change with respect to the audio signal. Therefore, the sound quality improvement in the auditory sense by high frequency interpolation is achieved.
- FIG. 5 and FIG. 6 illustrate an interpolation signal generated when the reference signal is not corrected.
- the vertical axis (y-axis) indicates the signal level (unit: dB), and the horizontal axis (x-axis) indicates the frequency (unit: Hz).
- FIG. 5 shows an example of an audio signal having a characteristic of being attenuated as the frequency is higher
- FIG. 6 is an example of an audio signal having a characteristic of being amplified at a higher level.
- Each of FIGS. 5A and 6A shows a reference signal extracted from an audio signal.
- FIGS. 5B and 6B shows an interpolation signal generated by extending the extracted reference signal to a frequency band higher than the frequency band of the audio signal.
- FIGS. 5B and 6B it can be seen that the spectrum of the interpolation signal becomes discontinuous when the reference signal is not corrected. Therefore, in the examples of FIGS. 5 and 6B sound quality degradation in terms of audibility occurs by performing high-frequency interpolation.
- FIG. 7 (a) is in the operating parameters Example, the weight of each of when the frequency b is fixed to 8 kHz, and the frequency slope value alpha 2 was changed in increments of -0.002 from 0 to -0.010
- the quantity P 2 (x) is indicated.
- FIG. 7B shows the respective weights when the frequency slope value ⁇ 2 is fixed to 0 (flat frequency characteristic) and the frequency b is changed in 2 kHz increments in the range of 8 kHz to 20 kHz in the above operating parameter example.
- the quantity P 2 (x) is indicated.
- the vertical axis (y axis) indicates the signal level (unit: dB)
- the horizontal axis (x axis) indicates the frequency (unit: Hz).
- the FFT sample position is converted into a frequency.
- the weight amount P 2 (x) changes according to the frequency slope value ⁇ 2 and the frequency b. Specifically, as shown in FIG. 7A, the weight P 2 (x) increases as the frequency slope value ⁇ 2 increases toward the minus side (that is, the audio signal has a higher attenuation in the high frequency range). As a result, the high-frequency attenuation of the interpolation signal Sc ′ increases. Further, as shown in FIG. 7B, the higher the frequency b, the smaller the weight amount P 2 (x), and the lower the attenuation amount of the interpolation signal Sc ′.
- the audio signal has a natural spectrum that attenuates with a continuous change, and reaches the upper limit of the audible range. High frequencies that are close or above the upper limit are interpolated. Therefore, the sound quality improvement in the auditory sense by high frequency interpolation is achieved.
- the narrower the frequency band of the audio signal is, the narrower the frequency band of the reference signal is, so that the extraction of the voice band that causes the sound quality deterioration can be suppressed.
- the level of the interpolation signal becomes smaller as the frequency band of the audio signal is narrower, for example, an excessive interpolation signal is not synthesized with an audio signal having a narrow frequency band.
- FIG. 8 (a) shows an audio signal (frequency band: 10 kHz) having a characteristic of being attenuated as the frequency increases.
- FIGS. 8B to 8E show signals obtained by interpolating the high frequency range of the audio signal shown in FIG. 8A in the example of the operation parameter. However, the operation conditions are different in each of FIGS. 8B to 8E. 8A to 8E, the vertical axis (y axis) indicates the signal level (unit: dB), and the horizontal axis (x axis) indicates the frequency (unit: Hz). Indicates.
- FIG. 8B shows an example in which the reference signal correction process and the interpolation signal correction process are omitted from the high-frequency interpolation process.
- FIG. 8C shows an example in which the interpolation signal correction process is omitted from the high-frequency interpolation process.
- a frequency flat interpolation signal is synthesized with the audio signal of FIG. 8A.
- the frequency balance is lost by interpolating an excessive high frequency component, resulting in a deterioration in sound quality.
- FIG. 8D shows an example in which the reference signal correction process is omitted from the high-frequency interpolation process.
- FIG. 8E shows an example in which no processing is omitted from the high-frequency interpolation processing.
- the audio signal after high-frequency interpolation has a characteristic of attenuation as the frequency increases, but it cannot be said that the spectrum is attenuated due to continuous change. In the example of FIG. 8D, the discontinuous region remaining in the spectrum may give the user a sense of discomfort in hearing.
- the audio signal after high-frequency interpolation has a natural characteristic that the spectrum is attenuated as the frequency increases continuously. Comparing FIG. 8D and FIG. 8E, it can be seen that not only the correction of the interpolation signal but also the correction of the reference signal makes it possible to achieve an improvement in sound quality by the high-frequency interpolation.
- FIG. 9A shows an audio signal (frequency band: 10 kHz) having a characteristic to be amplified on the high frequency side.
- FIGS. 9B to 9E show signals obtained by interpolating the high frequency range of the audio signal of FIG. 9A in the above operation parameter example.
- the operating conditions of the examples of FIGS. 9B to 9E are the same as the operating conditions of the examples of FIGS. 8B to 8E, respectively.
- an interpolated signal having a discontinuous spectrum is synthesized with the audio signal of FIG. 9A.
- a frequency flat interpolation signal is synthesized with the audio signal of FIG.
- the spectrum having discontinuous characteristics is synthesized, or the frequency balance is lost by interpolating an excessive high frequency component. Deterioration occurs.
- the audio signal after high-frequency interpolation has a characteristic that the higher the frequency is attenuated, the spectrum change is discontinuous. In the example of FIG. 9D, this discontinuous region may give the user a sense of incongruity on hearing.
- the audio signal after high-frequency interpolation has a natural characteristic that the spectrum is attenuated as the frequency increases continuously. Comparing FIG. 9D and FIG. 9E, it can be seen that not only the correction of the interpolation signal but also the correction of the reference signal achieves an improvement in sound quality on the perception by high-frequency interpolation.
- the reference signal correction unit 230 uses primary regression analysis in order to correct the reference signal Sb having a characteristic that is monotonically amplified or attenuated within the frequency band.
- the characteristic of the reference signal Sb is not limited to linear, and may be nonlinear depending on the case.
- the reference signal correction unit 230 performs regression analysis by increasing the order and calculates the inverse characteristic, and corrects the reference signal Sb with the calculated inverse characteristic.
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Quality & Reliability (AREA)
- Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
オーディオ信号から所定の条件を満たす周波数帯域を検出する帯域検出手段と、帯域検出手段による検出帯域に応じた参照信号を生成する参照信号生成手段と、生成された参照信号自体の周波数特性に基づいて参照信号を補正する参照信号補正手段と、補正された参照信号を検出帯域より高い周波数帯域まで拡張する周波数帯域拡張手段と、拡張された周波数帯域内の各周波数成分に対してオーディオ信号の周波数特性に応じた重み付けを行うことにより補間信号を生成する補間信号生成手段と、生成された補間信号をオーディオ信号と合成する信号合成手段と、から信号処理装置を構成する。
Description
本発明は、補間信号を生成してオーディオ信号と合成することにより、オーディオ信号の高域成分を補間する信号処理装置及び信号処理方法に関する。
オーディオ信号を圧縮するフォーマットとして、MP3(MPEG Audio Layer-3)、WMA(Windows Media Audio、登録商標)、AAC(Advanced Audio Coding)等の非可逆圧縮フォーマットが知られている。非可逆圧縮フォーマットでは、可聴域の上限に近い又は上限を超える高域の周波数成分を大幅にカットすることにより、高圧縮率を達成する。この種の技術が開発された当初は、高域の周波数成分を大幅にカットした場合であっても聴感上の音質劣化が生じないと考えられていたが、近年では、高域の周波数成分を大幅にカットすることによって音質に微妙な変化が生じ、オリジナルの音源に比べて聴感上の音質が劣化するという考えが主流となっている。そこで、非可逆圧縮されたオーディオ信号に対して高域補間を行うことにより音質改善を行う高域補間装置が提案されている。この種の高域補間装置の具体的構成は、例えば特開2007-25480号公報(以下、特許文献1と記す)や再表2007-534478号公報(以下、特許文献2と記す)に記載されている。
特許文献1に記載の高域補間装置は、オーディオ信号(原信号)を解析することによって得た信号の実部及び虚部を算出し、算出された実部及び虚部から原信号の包絡成分を形成し、形成された包絡成分の高調波成分を抽出する。特許文献1に記載の高域補間装置は、抽出された高調波成分を原信号に合成することによって原信号の高域補間を行う。
特許文献2に記載の高域補間装置は、オーディオ信号をスペクトル反転し、スペクトル反転された信号をアップサンプリングし、アップサンプリングされた信号からベースバンド信号の高域とほぼ同一の周波数を低域端とする拡張帯域成分を抽出する。特許文献2に記載の高域補間装置は、抽出された拡張帯域成分をベースバンド信号に合成することによってベースバンド信号の高域補間を行う。
非可逆圧縮されたオーディオ信号の周波数帯域は、圧縮符号化フォーマットやサンプリングレート、圧縮符号化後のビットレートに応じて変わる。そのため、特許文献1に記載されているように、オーディオ信号に対して固定の周波数帯域の補間信号を合成することによって高域補間を行うと、高域補間前のオーディオ信号の周波数帯域によっては、高域補間後のオーディオ信号の周波数スペクトルが不連続となる。このように、特許文献1に記載の高域補間装置では、オーディオ信号に高域補間を施すことによって却って聴感上の音質劣化を生じさせることがある。
また、オーディオ信号は一般的特性として高域ほど減衰するが、瞬間的には高域側でレベルが増幅することがある。しかし、特許文献2では、装置に入力されるオーディオ信号の特性として前者の一般的特性しか考慮されていない。そのため、レベルが高域側で増幅する特性のオーディオ信号が入力した直後は、オーディオ信号の周波数スペクトルが不連続になり、高域を過度に強調するものとなる。このように、特許文献2に記載の高域補間装置においても特許文献1に記載の高域補間装置と同様に、オーディオ信号に高域補間を施すことによって却って聴感上の音質劣化を生じさせることがある。
本発明は上記の事情に鑑みてなされたものであり、その目的とするところは、非可逆圧縮されたオーディオ信号の周波数特性に拘わらず高域補間による音質の向上を達成することが可能な信号処理装置及び信号処理方法を提供することである。
本発明の一つの側面により提供される信号処理装置は、オーディオ信号から所定の条件を満たす周波数帯域を検出する帯域検出手段と、帯域検出手段による検出帯域に応じた参照信号を生成する参照信号生成手段と、生成された参照信号自体の周波数特性に基づいて参照信号を補正する参照信号補正手段と、補正された参照信号を検出帯域より高い周波数帯域まで拡張する周波数帯域拡張手段と、拡張された周波数帯域内の各周波数成分に対してオーディオ信号の周波数特性に応じた重み付けを行うことにより補間信号を生成する補間信号生成手段と、生成された補間信号をオーディオ信号と合成する信号合成手段とを備える。
上記構成によれば、オーディオ信号の周波数特性に応じた値で参照信号が補正され、補正された参照信号を基に補間信号が生成されてオーディオ信号に合成されるため、オーディオ信号の周波数特性に拘わらず高域補間による音質の向上が達成される。
参照信号補正手段は、例えば、参照信号生成手段により生成された参照信号をフラットな周波数特性に補正する。
また、参照信号補正手段は、参照信号生成手段により生成された参照信号について第1の回帰分析を行い、第1の回帰分析によって得た周波数特性の情報に基づいて参照信号に対する周波数毎の参照信号用重み量を計算し、計算された周波数毎の参照信号用重み量と参照信号とを乗算することにより、参照信号を補正する構成としてもよい。
参照信号生成手段は、例えば、検出帯域全体のうち高域側のn%の範囲を抽出し、抽出された成分を参照信号とする。
帯域検出手段は、オーディオ信号内の第1の周波数領域及び第1の周波数領域よりも高い第2の周波数領域のレベルを計算し、計算された第1及び第2の周波数領域のレベルに基づいてスレッシュホールドを設定し、設定されたスレッシュホールドに基づいてオーディオ信号から周波数帯域を検出する構成としてもよい。
また、帯域検出手段は、例えば、スレッシュホールドを下回る少なくとも1つの周波数ポイントのうち最も高域側の周波数ポイントの周波数を上限とした周波数帯域をオーディオ信号から検出する。
補間信号生成手段は、オーディオ信号の少なくとも一部について第2の回帰分析を行い、第2の回帰分析によって得た周波数特性の情報に基づき、周波数帯域拡張手段により拡張された周波数帯域内の各周波数成分に対する周波数毎の補間信号用重み量を計算し、計算された周波数毎の補間信号用重み量と上記拡張された周波数帯域内の各周波数成分とを乗算することにより、補間信号を生成する構成としてもよい。
第2の回帰分析によって得た周波数特性の情報は、例えば、周波数帯域拡張手段により拡張された周波数帯域内の周波数成分の変化率を含む。この場合、補間信号生成手段は、変化率がマイナス側に大きくなるほど補間信号用重み量を大きくする。
また、補間信号生成手段は、例えば、第2の回帰分析を行う範囲の上限側の周波数が高いほど補間信号用重み量を大きくする。
また、信号処理装置は、次の条件(1)~(3)
(1)検出帯域が所定の周波数帯域以下
(2)第2の周波数領域のレベルが所定値以下
(3)第1の周波数領域のレベルと第2の周波数領域のレベルとの差が所定値以下
の少なくとも1つが満たされるとき、補間信号生成手段による補間信号の生成を行わない構成としてもよい。
(1)検出帯域が所定の周波数帯域以下
(2)第2の周波数領域のレベルが所定値以下
(3)第1の周波数領域のレベルと第2の周波数領域のレベルとの差が所定値以下
の少なくとも1つが満たされるとき、補間信号生成手段による補間信号の生成を行わない構成としてもよい。
本発明の別の側面により提供される信号処理方法は、オーディオ信号から所定の条件を満たす周波数帯域を検出する帯域検出ステップと、帯域検出ステップにて検出された検出帯域に応じた参照信号を生成する参照信号生成ステップと、生成された参照信号自体の周波数特性に基づいて参照信号を補正する参照信号補正ステップと、補正された参照信号を検出帯域より高い周波数帯域まで拡張する周波数帯域拡張ステップと、拡張された周波数帯域内の各周波数成分に対してオーディオ信号の周波数特性に応じた重み付けを行うことにより補間信号を生成する補間信号生成ステップと、生成された補間信号をオーディオ信号と合成する信号合成ステップとを含む。
上記構成によれば、オーディオ信号の周波数特性に応じた値で参照信号が補正され、補正された参照信号を基に補間信号が生成されてオーディオ信号に合成されるため、オーディオ信号の周波数特性に拘わらず高域補間による音質の向上が達成される。
参照信号補正ステップでは、例えば、参照信号生成ステップにて生成された参照信号をフラットな周波数特性に補正しても良い。
参照信号補正ステップでは、参照信号生成ステップにて生成された参照信号について第1の回帰分析を行い、第1の回帰分析によって得た周波数特性の情報に基づいて参照信号に対する周波数毎の参照信号用重み量を計算し、計算された周波数毎の参照信号用重み量と参照信号とを乗算することにより、該参照信号を補正しても良い。
参照信号生成ステップでは、検出帯域全体のうち高域側のn%の範囲を抽出し、抽出された成分を参照信号としても良い。
帯域検出ステップでは、オーディオ信号内の第1の周波数領域及び該第1の周波数領域よりも高い第2の周波数領域のレベルを計算し、計算された第1及び第2の周波数領域のレベルに基づいてスレッシュホールドを設定し、設定されたスレッシュホールドに基づいて、オーディオ信号から周波数帯域を検出しても良い。
帯域検出ステップでは、スレッシュホールドを下回る少なくとも1つの周波数ポイントのうち最も高域側の周波数ポイントの周波数を上限とした周波数帯域をオーディオ信号から検出しても良い。
補間信号生成ステップでは、オーディオ信号の少なくとも一部について第2の回帰分析を行い、第2の回帰分析によって得た周波数特性の情報に基づき、拡張された周波数帯域内の各周波数成分に対する周波数毎の補間信号用重み量を計算し、計算された周波数毎の補間信号用重み量と拡張された周波数帯域内の各周波数成分とを乗算することにより、補間信号を生成しても良い。
第2の回帰分析によって得た周波数特性の情報は、拡張された周波数帯域内の周波数成分の変化率を含み、補間信号生成ステップでは、変化率がマイナス側に大きくなるほど補間信号用重み量を大きくしても良い。
補間信号生成ステップでは、第2の回帰分析を行う範囲の上限側の周波数が高いほど補間信号用重み量を大きくしても良い。
当該信号処理方法では、次の条件(1)~(3)
(1)検出帯域が所定の周波数帯域以下
(2)第2の周波数領域のレベルが所定値以下
(3)第1の周波数領域のレベルと第2の周波数領域のレベルとの差が所定値以下
の少なくとも1つが満たされるとき、補間信号生成ステップでの補間信号の生成を行わないように構成されていても良い。
(1)検出帯域が所定の周波数帯域以下
(2)第2の周波数領域のレベルが所定値以下
(3)第1の周波数領域のレベルと第2の周波数領域のレベルとの差が所定値以下
の少なくとも1つが満たされるとき、補間信号生成ステップでの補間信号の生成を行わないように構成されていても良い。
以下、図面を参照して、本発明の実施形態の音響処理装置について説明する。
[音響処理装置1全体の構成]
図1は、本実施形態の音響処理装置1の構成を示すブロック図である。図1に示されるように、音響処理装置1は、FFT(Fast Fourier Transform)部10、高域補間処理部20及びIFFT(Inverse FFT)部30を備えている。
図1は、本実施形態の音響処理装置1の構成を示すブロック図である。図1に示されるように、音響処理装置1は、FFT(Fast Fourier Transform)部10、高域補間処理部20及びIFFT(Inverse FFT)部30を備えている。
FFT部10には、音源部より非可逆圧縮フォーマットの符号化信号を復号化したオーディオ信号が入力される。ここで、非可逆圧縮フォーマットとは、例えばMP3、WMA、AAC等である。FFT部10は、入力されたオーディオ信号についてオーバラップ処理及び窓関数による重み付けを行った後、STFT(Short-Term Fourier Transform)により時間領域から周波数領域への変換を行い、実数及び虚数の周波数スペクトルを得る。FFT部10は、周波数変換によって得た周波数スペクトルを振幅スペクトル及び位相スペクトルに変換する。FFT部10は、振幅スペクトルを高域補間処理部20に出力し、位相スペクトルをIFFT部30に出力する。高域補間処理部20は、FFT部10より入力された振幅スペクトルの高域を補間してIFFT部30に出力する。高域補間処理部20によって補間される帯域は、例えば、非可逆圧縮時に大幅にカットされた可聴域の上限に近い又は上限を超える周波数帯域である。IFFT部30は、高域補間処理部20により高域補間された振幅スペクトル及びFFT部10の出力がそのまま保持された位相スペクトルに基づいて実数及び虚数の周波数スペクトルを求め、窓関数による重み付けを行う。IFFT部30は、重み付けされた信号に対してSTFTとオーバラップ加算とを行うことにより、周波数領域から時間領域に信号を変換し、高域補間されたオーディオ信号を生成して出力する。
[高域補間処理部20の構成]
図2は、高域補間処理部20の構成を示すブロック図である。図2に示されるように、高域補間処理部20は、帯域検出部210、参照信号抽出部220、参照信号補正部230、補間信号生成部240、補間信号補正部250及び加算部260を備えている。なお、以下、説明の便宜上、高域補間処理部20内の各部に対する入力信号・出力信号に符号を付す。
図2は、高域補間処理部20の構成を示すブロック図である。図2に示されるように、高域補間処理部20は、帯域検出部210、参照信号抽出部220、参照信号補正部230、補間信号生成部240、補間信号補正部250及び加算部260を備えている。なお、以下、説明の便宜上、高域補間処理部20内の各部に対する入力信号・出力信号に符号を付す。
図3は、帯域検出部210の動作説明を補助する図であり、FFT部10から帯域検出部210に入力される振幅スペクトルSの例を示す。図3中、縦軸(y軸)は、信号レベル(単位:dB)を示し、横軸(x軸)は、周波数(単位:Hz)を示す。
帯域検出部210は、FFT部10より入力されたオーディオ信号の振幅スペクトルS(リニアスケール)をデシベルスケールに変換する。帯域検出部210は、デシベルスケールに変換された振幅スペクトルSについて所定の低中域範囲及び所定の高域範囲の信号レベルを計算し、計算された低中域範囲及び高域範囲の信号レベルに基づいてスレッシュホールドを設定する。スレッシュホールドは、例えば、図3に示されるように、低中域範囲の信号レベル(平均値)と高域範囲の信号レベル(平均値)との中間レベルである。
帯域検出部210は、FFT部10より入力した振幅スペクトルS(リニアスケール)から、スレッシュホールドを下回る周波数ポイントの周波数を上限とした周波数帯域のオーディオ信号(振幅スペクトルSa)を検出する。図3に示されるように、スレッシュホールドを下回る周波数ポイントが複数存在する場合は、より高域側の周波数(図3の例では周波数ft)を上限とした範囲の振幅スペクトルSaが検出される。帯域検出部210は、検出された振幅スペクトルSaに含まれる局所的なバラツキを抑えるため、振幅スペクトルSaをスムージングにより平滑化する。なお、帯域検出部210は、不要な補間信号の生成を抑えるため、次の条件(1)~(3)
(1)検出された振幅スペクトルSaが所定の周波数領域以下
(2)高域範囲の信号レベルが所定値以上
(3)低中域範囲と高域範囲との信号レベル差が所定値以下
の少なくとも1つが満たされるとき、補間信号の生成が不要と判定する。補間信号の生成が不要と判定された振幅スペクトルに対しては、高域補間が行われない。
(1)検出された振幅スペクトルSaが所定の周波数領域以下
(2)高域範囲の信号レベルが所定値以上
(3)低中域範囲と高域範囲との信号レベル差が所定値以下
の少なくとも1つが満たされるとき、補間信号の生成が不要と判定する。補間信号の生成が不要と判定された振幅スペクトルに対しては、高域補間が行われない。
図4(a)~図4(h)は、帯域検出部210にて検出された振幅スペクトルSaを用いて高域補間するまでの一連の処理を説明するための動作波形図である。図4(a)~図4(h)の各図中、縦軸(y軸)は、信号レベル(単位:dB)を示し、横軸(x軸)は、周波数(単位:Hz)を示す。
参照信号抽出部220には、帯域検出部210にて検出された振幅スペクトルSaが入力される。参照信号抽出部220は、振幅スペクトルSaの周波数帯域に応じて振幅スペクトルSaから参照信号Sbを抽出する(図4(a)参照)。例えば、振幅スペクトルSa全体のうち高域側のn(0<n)%の範囲の振幅スペクトルが参照信号Sbとして抽出される。ここで、音声帯域(例えば肉声)の信号を基に生成された補間信号によって高域補間を行うと、聴感上違和感を与えやすい音質に劣化するという問題がある。これに対し、上記の例では、振幅スペクトルSaの周波数帯域が狭いほど参照信号Sbの周波数帯域も狭くなるため、音質劣化の原因となる音声帯域の抽出が抑えられる。
参照信号抽出部220は、振幅スペクトルSaから抽出した参照信号Sbを低域側(DC側)へ周波数シフトし(図4(b)参照)、周波数シフトされた参照信号Sbを参照信号補正部230に出力する。
参照信号補正部230は、参照信号抽出部220より入力された参照信号Sb(リニアスケール)をデジベルスケールに変換し、変換されたデシベルスケールの参照信号Sbについて一次の回帰分析により周波数スロープを検出する。参照信号補正部230は、一次の回帰分析により検出された周波数スロープの逆特性(参照信号Sbに対する周波数毎の重み量)を計算する。具体的には、参照信号補正部230は、参照信号Sbに対する周波数毎の重み量をP1(x)と定義し、横軸(x軸)上の周波数領域のFFTのサンプル位置をxと定義し、一次の回帰分析にて検出された参照信号Sbの周波数スロープの値をα1と定義し、参照信号Sbの周波数帯域に相当するFFTのサンプル数の1/2をβ1と定義した場合に、次式(1)により、周波数スロープの逆特性(参照信号Sbに対する周波数毎の重み量P1(x))を計算する。
[式(1)]
P1(x)=-α1x+β1
[式(1)]
P1(x)=-α1x+β1
図4(c)に示されるように、参照信号Sbに対する周波数毎の重み量P1(x)はデシベルスケールで求められる。参照信号補正部230は、デシベルスケールの重み量P1(x)をリニアスケールに変換する。参照信号補正部230は、リニアスケールに変換された重み量P1(x)と、参照信号抽出部220より入力された参照信号Sb(リニアスケール)とを乗算することにより、参照信号Sbを補正する。具体的には、参照信号Sbは、フラットな周波数特性を持つ信号(参照信号Sb’)に補正される(図4(d)参照)。
補間信号生成部240には、参照信号補正部230にて補正された参照信号Sb’が入力される。補間信号生成部240は、参照信号Sb’を振幅スペクトルSaの周波数帯域より高い周波数帯域まで拡張(言い換えると、参照信号Sb’を振幅スペクトルSaの周波数帯域より高い周波数帯域に達するまで複数複製)することにより、高域を含む補間信号Scを生成する(図4(e)参照)。補間信号Scはフラットな周波数特性を持つ。また、参照信号Sb’の拡張範囲は、例えば、振幅スペクトルSaの周波数帯域全域と、振幅スペクトルSaの周波数帯域より高い所定範囲の周波数帯域(可聴域の上限に近い帯域や可聴域の上限を超える帯域等)を含む。
補間信号補正部250には、補間信号生成部240にて生成された補間信号Scが入力される。補間信号補正部250は、FFT部10より入力された振幅スペクトルS(リニアスケール)をデジベルスケールに変換し、変換されたデシベルスケールの振幅スペクトルSについて一次の回帰分析により周波数スロープを検出する。なお、振幅スペクトルSに代えて、帯域検出部210より入力される振幅スペクトルSaの周波数スロープを検出してもよい。回帰分析範囲は任意に設定することができるが、典型的には、オーディオ信号の高域側と補間信号とを滑らかにつなぐため、低域成分を除く所定の周波数帯域に対応する範囲である。補間信号補正部250は、検出された周波数スロープ及び回帰分析範囲に対応する周波数帯域に応じた重み量を周波数毎に計算する。具体的には、補間信号補正部250は、補間信号Scに対する周波数毎の重み量をP2(x)と定義し、横軸(x軸)上の周波数領域のFFTのサンプル位置をxと定義し、回帰分析範囲の上限の周波数をbと定義し、FFTのサンプル長をsと定義し、回帰分析範囲に対応する周波数帯域のスロープの値をα2と定義し、所定の補正係数をkと定義した場合に、次式(2)により、補間信号Scに対する周波数毎の重み量P2(x)を計算する。
[式(2)]
P2(x)=-α’x+β2
但し、
α’=α2-[1-(b/s)]/k
β2=-α’b
x<bのとき、P2(x)=-∞
[式(2)]
P2(x)=-α’x+β2
但し、
α’=α2-[1-(b/s)]/k
β2=-α’b
x<bのとき、P2(x)=-∞
図4(f)に示されるように、補間信号Scに対する周波数毎の重み量P2(x)はデシベルスケールで求められる。補間信号補正部250は、デシベルスケールの重み量P2(x)をリニアスケールに変換する。補間信号補正部250は、リニアスケールに変換された重み量P2(x)と、補間信号生成部240にて生成された補間信号Sc(リニアスケール)とを乗算することにより、補間信号Scを補正する。補正後の補間信号Sc’は、例えば図4(g)に示されるように、周波数bより高域の信号であり、周波数が高いほど減衰する特性を持つ。
加算部260には、FFT部10より振幅スペクトルSが入力されると共に、補間信号補正部250より補間信号Sc’が入力される。振幅スペクトルSは、高域成分が大幅にカットされたオーディオ信号の振幅スペクトルであり、補間信号Sc’は、オーディオ信号の周波数帯域より高い周波数領域の振幅スペクトルである。加算部260は、振幅スペクトルSと補間信号Sc’とを合成することにより、高域が補間されたオーディオ信号の振幅スペクトルS’を生成し(図4(h)参照)、生成されたオーディオ信号の振幅スペクトルS’をIFFT部30に出力する。
本実施形態では、振幅スペクトルSaの周波数帯域に応じて参照信号Sbを抽出し、抽出された参照信号Sbを補正することによって得た参照信号Sb’を基に補間信号Sc’を生成して振幅スペクトルS(オーディオ信号)に合成する。これにより、FFT部10に入力されるオーディオ信号の周波数特性に拘わらず(例えば、オーディオ信号の周波数帯域が圧縮符号化フォーマット等に応じて変わった場合であっても、また、レベルが高域側で増幅する特性のオーディオ信号が入力された場合であっても)、オーディオ信号に対して連続的変化で減衰する自然な特性のスペクトルで高域が補間される。そのため、高域補間による聴感上の音質向上が達成される。
図5及び図6に、参照信号の補正を行わない場合に生成される補間信号を例示する。図5、図6の各図中、縦軸(y軸)は、信号レベル(単位:dB)を示し、横軸(x軸)は、周波数(単位:Hz)を示す。図5は、高域ほど減衰する特性のオーディオ信号を例に取り、図6は、高域ほど増幅する特性のオーディオ信号を例に取る。図5(a)、図6(a)の各図は、オーディオ信号より抽出される参照信号を示す。図5(b)、図6(b)の各図は、抽出された参照信号をオーディオ信号の周波数帯域より高い周波数帯域まで拡張することによって生成される補間信号を示す。図5(b)、図6(b)の各図に示されるように、参照信号を補正しない場合は、補間信号のスペクトルが不連続になることが判る。そのため、図5及び図6の例では、高域補間を行うことにより却って聴感上の音質劣化が生じる。
次に、本実施形態の音響処理装置1の動作パラメータ例を示す。
(FFT部10/IFFT部30)
サンプル長 :8,192サンプル
窓関数 :ハニング
オーバラップ長 :50%
(帯域検出部210)
最小制御周波数 :7kHz
低中域範囲 :2kHz~6kHz
高域範囲 :20kHz~22kHz
高域レベル判定 :-20dB
信号レベル差 :20dB
スレッシュホールド :0.5
(参照信号抽出部220)
参照帯域幅 :2.756kHz
(補間信号補正部250)
下限周波数 :500Hz
補正係数k :0.01
(FFT部10/IFFT部30)
サンプル長 :8,192サンプル
窓関数 :ハニング
オーバラップ長 :50%
(帯域検出部210)
最小制御周波数 :7kHz
低中域範囲 :2kHz~6kHz
高域範囲 :20kHz~22kHz
高域レベル判定 :-20dB
信号レベル差 :20dB
スレッシュホールド :0.5
(参照信号抽出部220)
参照帯域幅 :2.756kHz
(補間信号補正部250)
下限周波数 :500Hz
補正係数k :0.01
「最小制御周波数(=7kHz)」は、帯域検出部210にて検出される振幅スペクトルSaが7kHz未満の場合、高域補間を行わないことを示す。「高域レベル判定(=-20dB)」は、高域範囲の信号レベルが-20dB以上の場合、高域補間を行わないことを示す。「信号レベル差(=20dB)」は、低中域範囲と高域範囲との信号レベル差が20dB以下の場合、高域補間を行わないことを示す。「スレッシュホールド(=0.5)」は、振幅スペクトルSaを検出するためのスレッシュホールドが低中域範囲の信号レベル(平均値)と高域範囲の信号レベル(平均値)との中間値であることを示す。「参照帯域幅(=2.756kHz)」は、「最小制御周波数(=7kHz)」に対応する参照信号Sbの帯域幅である。「下限周波数(=500Hz)」は、補間信号補正部250による回帰分析の範囲下限を示す(すなわち、500Hz未満は回帰分析の範囲に含まれない。)。
図7(a)は、上記動作パラメータ例において、周波数bを8kHzに固定し、周波数スロープ値α2を0~-0.010の範囲で-0.002刻みで変化させたときの夫々の重み量P2(x)を示す。図7(b)は、上記動作パラメータ例において、周波数スロープ値α2を0(フラットな周波数特性)に固定し、周波数bを8kHz~20kHzの範囲で2kHz刻みで変化させたときの夫々の重み量P2(x)を示す。図7(a)、図7(b)の各図中、縦軸(y軸)は、信号レベル(単位:dB)を示し、横軸(x軸)は、周波数(単位:Hz)を示す。なお、図7(a)及び図7(b)の例では、FFTのサンプル位置を周波数に変換して示している。
図7(a)及び図7(b)を参照すると、周波数スロープ値α2や周波数bに応じて重み量P2(x)が変化していることが判る。具体的には、図7(a)に示されるように、周波数スロープ値α2がマイナス側に大きくなるほど(すなわち高域での減衰が大きいオーディオ信号ほど)重み量P2(x)が大きくなり、補間信号Sc’の高域の減衰量が大きくなる。また、図7(b)に示されるように、周波数bが高いほど重み量P2(x)が小さくなり、補間信号Sc’の高域の減衰量が小さくなる。このように、オーディオ信号の周波数スロープや回帰分析範囲に応じて補間信号Sc’のスロープを変化させることにより、オーディオ信号に対して連続的変化で減衰する自然な特性のスペクトルで可聴域の上限に近い又は上限を超える高域が補間される。そのため、高域補間による聴感上の音質向上が達成される。また、オーディオ信号の周波数帯域が狭いほど参照信号の周波数帯域が狭くなるため、音質劣化の原因となる音声帯域の抽出が抑えられる。また、オーディオ信号の周波数帯域が狭いほど補間信号のレベルが小さくなるため、例えば周波数帯域の狭いオーディオ信号に対して過剰な補間信号が合成されることがない。
図8(a)は、高域ほど減衰する特性のオーディオ信号(周波数帯域:10kHz)を示す。図8(b)~図8(e)の各図は、上記動作パラメータ例において、図8(a)のオーディオ信号の高域を補間することによって得られる信号を示す。但し、図8(b)~図8(e)の各図では動作条件が夫々異なる。なお、図8(a)~図8(e)の各図中、縦軸(y軸)は、信号レベル(単位:dB)を示し、横軸(x軸)は、周波数(単位:Hz)を示す。
図8(b)は、高域補間処理から参照信号の補正処理及び補間信号の補正処理を省いた例を示す。また、図8(c)は、高域補間処理から補間信号の補正処理を省いた例を示す。図8(b)及び図8(c)の例では、図8(a)のオーディオ信号に対して周波数フラットな補間信号が合成される。図8(b)及び図8(c)の例では、過剰な高域成分が補間されることによって周波数バランスが崩れるため、聴感上の音質劣化が生じる。
図8(d)は、高域補間処理から参照信号の補正処理を省いた例を示す。また、図8(e)は、高域補間処理から何れの処理も省かない例を示す。図8(d)の例では、高域補間後のオーディオ信号は、高域ほど減衰する特性となっているが、スペクトルが連続的変化で減衰しているとまではいえない。図8(d)の例では、スペクトル内に残存する不連続領域が聴感上の違和感をユーザに与える虞がある。これに対し、図8(e)の例では、高域補間後のオーディオ信号は、スペクトルが連続的変化で高域ほど減衰する自然な特性となっている。図8(d)と図8(e)とを比較すると、補間信号の補正だけでなく参照信号の補正も行うことにより、高域補間による聴感上の音質向上が達成されることが判る。
図9(a)は、高域側で増幅する特性のオーディオ信号(周波数帯域:10kHz)を示す。図9(b)~図9(e)の各図は、上記動作パラメータ例において、図9(a)のオーディオ信号の高域を補間することによって得られる信号を示す。図9(b)~図9(e)の各図の例の動作条件は夫々、図8(b)~図8(e)の各図の例の動作条件と同じである。
図9(b)の例では、図9(a)のオーディオ信号に対して不連続なスペクトルを持つ補間信号が合成される。図9(c)の例では、図9(a)のオーディオ信号に対して周波数フラットな補間信号が合成される。図9(b)及び図9(c)の例では、不連続な特性を持つスペクトルが合成されたり、過剰な高域成分が補間されることによって周波数バランスが崩れたりするため、聴感上の音質劣化が生じる。
図9(d)の例では、高域補間後のオーディオ信号は、高域ほど減衰する特性となっているが、スペクトルの変化が不連続である。図9(d)の例では、この不連続な領域が聴感上の違和感をユーザに与える虞がある。これに対し、図9(e)の例では、高域補間後のオーディオ信号は、スペクトルが連続的変化で高域ほど減衰する自然な特性となっている。図9(d)と図9(e)とを比較すると、補間信号の補正だけでなく参照信号の補正も行うことにより、高域補間による聴感上の音質向上が達成されることが判る。
以上が本発明の例示的な実施形態の説明である。本発明の実施形態は、上記に説明したものに限定されず、本発明の技術的思想の範囲において様々な変形が可能である。例えば明細書中に例示的に明示される実施例等又は自明な実施例等を適宜組み合わせた内容も本願の実施形態に含まれる。例えば、本実施形態では、参照信号補正部230は、周波数帯域内で単調に増幅又は減衰する特性の参照信号Sbを補正するため、一次の回帰分析を用いている。しかし、参照信号Sbの特性は線形に限らず、場合によっては非線形となる。周波数帯域内で増幅と減衰とを繰り返す特性の参照信号Sbを補正する場合を考える。この場合、参照信号補正部230は、次数を増加して回帰分析を行って逆特性を算出し、算出された逆特性により参照信号Sbを補正する。
Claims (20)
- オーディオ信号から所定の条件を満たす周波数帯域を検出する帯域検出手段と、
前記帯域検出手段による検出帯域に応じた参照信号を生成する参照信号生成手段と、
生成された参照信号自体の周波数特性に基づいて該参照信号を補正する参照信号補正手段と、
補正された参照信号を前記検出帯域より高い周波数帯域まで拡張する周波数帯域拡張手段と、
拡張された周波数帯域内の各周波数成分に対して前記オーディオ信号の周波数特性に応じた重み付けを行うことにより補間信号を生成する補間信号生成手段と、
生成された補間信号を前記オーディオ信号と合成する信号合成手段と、
を備える、
信号処理装置。 - 前記参照信号補正手段は、
前記参照信号生成手段により生成された参照信号をフラットな周波数特性に補正する、
請求項1に記載の信号処理装置。 - 前記参照信号補正手段は、
前記参照信号生成手段により生成された参照信号について第1の回帰分析を行い、
前記第1の回帰分析によって得た周波数特性の情報に基づいて前記参照信号に対する周波数毎の参照信号用重み量を計算し、
計算された周波数毎の参照信号用重み量と前記参照信号とを乗算することにより、該参照信号を補正する、
請求項1又は請求項2に記載の信号処理装置。 - 前記参照信号生成手段は、
前記検出帯域全体のうち高域側のn%の範囲を抽出し、抽出された成分を前記参照信号とする、
請求項1から請求項3の何れか一項に記載の信号処理装置。 - 前記帯域検出手段は、
前記オーディオ信号内の第1の周波数領域及び該第1の周波数領域よりも高い第2の周波数領域のレベルを計算し、
計算された第1及び第2の周波数領域のレベルに基づいてスレッシュホールドを設定し、
設定されたスレッシュホールドに基づいて前記オーディオ信号から周波数帯域を検出する、
請求項1から請求項4の何れか一項に記載の信号処理装置。 - 前記帯域検出手段は、
前記スレッシュホールドを下回る少なくとも1つの周波数ポイントのうち最も高域側の周波数ポイントの周波数を上限とした周波数帯域を前記オーディオ信号から検出する、
請求項5に記載の信号処理装置。 - 前記補間信号生成手段は、
前記オーディオ信号の少なくとも一部について第2の回帰分析を行い、
前記第2の回帰分析によって得た周波数特性の情報に基づき、前記拡張された周波数帯域内の各周波数成分に対する周波数毎の補間信号用重み量を計算し、
計算された周波数毎の補間信号用重み量と前記拡張された周波数帯域内の各周波数成分とを乗算することにより、前記補間信号を生成する、
請求項1から請求項6の何れか一項に記載の信号処理装置。 - 前記第2の回帰分析によって得た周波数特性の情報は、
前記拡張された周波数帯域内の周波数成分の変化率を含み、
前記補間信号生成手段は、
前記変化率がマイナス側に大きくなるほど前記補間信号用重み量を大きくする、
請求項7に記載の信号処理装置。 - 前記補間信号生成手段は、
前記第2の回帰分析を行う範囲の上限側の周波数が高いほど前記補間信号用重み量を大きくする、
請求項7又は請求項8に記載の信号処理装置。 - 次の条件(1)~(3)
(1)前記検出帯域が所定の周波数帯域以下
(2)前記第2の周波数領域のレベルが所定値以下
(3)前記第1の周波数領域のレベルと前記第2の周波数領域のレベルとの差が所定値以下
の少なくとも1つが満たされるとき、前記補間信号生成手段による前記補間信号の生成を行わない、
請求項1から請求項9の何れか一項に記載の信号処理装置。 - オーディオ信号から所定の条件を満たす周波数帯域を検出する帯域検出ステップと、
前記帯域検出ステップにて検出された検出帯域に応じた参照信号を生成する参照信号生成ステップと、
生成された参照信号自体の周波数特性に基づいて該参照信号を補正する参照信号補正ステップと、
補正された参照信号を前記検出帯域より高い周波数帯域まで拡張する周波数帯域拡張ステップと、
拡張された周波数帯域内の各周波数成分に対して前記オーディオ信号の周波数特性に応じた重み付けを行うことにより補間信号を生成する補間信号生成ステップと、
生成された補間信号を前記オーディオ信号と合成する信号合成ステップと、
を含む、
信号処理方法。 - 前記参照信号補正ステップでは、
前記参照信号生成ステップにて生成された参照信号をフラットな周波数特性に補正する、
請求項11に記載の信号処理方法。 - 前記参照信号補正ステップでは、
前記参照信号生成ステップにて生成された参照信号について第1の回帰分析を行い、
前記第1の回帰分析によって得た周波数特性の情報に基づいて前記参照信号に対する周波数毎の参照信号用重み量を計算し、
計算された周波数毎の参照信号用重み量と前記参照信号とを乗算することにより、該参照信号を補正する、
請求項11又は請求項12に記載の信号処理方法。 - 前記参照信号生成ステップでは、
前記検出帯域全体のうち高域側のn%の範囲を抽出し、抽出された成分を前記参照信号とする、
請求項11から請求項13の何れか一項に記載の信号処理方法。 - 前記帯域検出ステップでは、
前記オーディオ信号内の第1の周波数領域及び該第1の周波数領域よりも高い第2の周波数領域のレベルを計算し、
計算された第1及び第2の周波数領域のレベルに基づいてスレッシュホールドを設定し、
設定されたスレッシュホールドに基づいて前記オーディオ信号から周波数帯域を検出する、
請求項11から請求項14の何れか一項に記載の信号処理方法。 - 前記帯域検出ステップでは、
前記スレッシュホールドを下回る少なくとも1つの周波数ポイントのうち最も高域側の周波数ポイントの周波数を上限とした周波数帯域を前記オーディオ信号から検出する、
請求項15に記載の信号処理方法。 - 前記補間信号生成ステップでは、
前記オーディオ信号の少なくとも一部について第2の回帰分析を行い、
前記第2の回帰分析によって得た周波数特性の情報に基づき、前記拡張された周波数帯域内の各周波数成分に対する周波数毎の補間信号用重み量を計算し、
計算された周波数毎の補間信号用重み量と前記拡張された周波数帯域内の各周波数成分とを乗算することにより、前記補間信号を生成する、
請求項11から請求項16の何れか一項に記載の信号処理方法。 - 前記第2の回帰分析によって得た周波数特性の情報は、
前記拡張された周波数帯域内の周波数成分の変化率を含み、
前記補間信号生成ステップでは、
前記変化率がマイナス側に大きくなるほど前記補間信号用重み量を大きくする、
請求項17に記載の信号処理方法。 - 前記補間信号生成ステップでは、
前記第2の回帰分析を行う範囲の上限側の周波数が高いほど前記補間信号用重み量を大きくする、
請求項17又は請求項18に記載の信号処理方法。 - 次の条件(1)~(3)
(1)前記検出帯域が所定の周波数帯域以下
(2)前記第2の周波数領域のレベルが所定値以下
(3)前記第1の周波数領域のレベルと前記第2の周波数領域のレベルとの差が所定値以下
の少なくとも1つが満たされるとき、前記補間信号生成ステップでの前記補間信号の生成を行わない、
請求項11から請求項19の何れか一項に記載の信号処理方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201480031036.4A CN105324815B (zh) | 2013-05-31 | 2014-05-26 | 信号处理装置和信号处理方法 |
US14/894,579 US10147434B2 (en) | 2013-05-31 | 2014-05-26 | Signal processing device and signal processing method |
EP14804912.5A EP3007171B1 (en) | 2013-05-31 | 2014-05-26 | Signal processing device and signal processing method |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013116004A JP6305694B2 (ja) | 2013-05-31 | 2013-05-31 | 信号処理装置及び信号処理方法 |
JP2013-116004 | 2013-05-31 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2014192675A1 true WO2014192675A1 (ja) | 2014-12-04 |
Family
ID=51988707
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2014/063789 WO2014192675A1 (ja) | 2013-05-31 | 2014-05-26 | 信号処理装置及び信号処理方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US10147434B2 (ja) |
EP (1) | EP3007171B1 (ja) |
JP (1) | JP6305694B2 (ja) |
CN (1) | CN105324815B (ja) |
WO (1) | WO2014192675A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016002551A1 (ja) * | 2014-07-04 | 2016-01-07 | クラリオン株式会社 | 信号処理装置及び信号処理方法 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9495974B1 (en) * | 2015-08-07 | 2016-11-15 | Tain-Tzu Chang | Method of processing sound track |
CN109557509B (zh) * | 2018-11-23 | 2020-08-11 | 安徽四创电子股份有限公司 | 一种用于改善脉间干扰的双脉冲信号合成器 |
WO2020207593A1 (en) * | 2019-04-11 | 2020-10-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder, apparatus for determining a set of values defining characteristics of a filter, methods for providing a decoded audio representation, methods for determining a set of values defining characteristics of a filter and computer program |
US11240673B2 (en) * | 2019-11-20 | 2022-02-01 | Andro Computational Solutions | Real time spectrum access policy based governance |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004514180A (ja) * | 2000-11-15 | 2004-05-13 | コーディング テクノロジーズ アクチボラゲット | 高周波数の再構成方法を使用するコーディング・システムの性能拡大方法 |
JP2007025480A (ja) | 2005-07-20 | 2007-02-01 | Kyushu Institute Of Technology | 高域信号補間方法及び高域信号補間装置 |
JP2007534478A (ja) | 2004-07-09 | 2007-11-29 | シーメンス アクチェンゲゼルシャフト | 平らな郵送物の選別装置 |
JP2008058470A (ja) * | 2006-08-30 | 2008-03-13 | Hitachi Maxell Ltd | 音声信号処理装置、音声信号再生システム |
WO2009054393A1 (ja) * | 2007-10-23 | 2009-04-30 | Clarion Co., Ltd. | 高域補間装置および高域補間方法 |
WO2011048820A1 (ja) * | 2009-10-23 | 2011-04-28 | パナソニック株式会社 | 符号化装置、復号装置およびこれらの方法 |
US20120016667A1 (en) * | 2010-07-19 | 2012-01-19 | Futurewei Technologies, Inc. | Spectrum Flatness Control for Bandwidth Extension |
JP2012504781A (ja) * | 2009-04-09 | 2012-02-23 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | 合成オーディオ信号を生成する装置及び方法並びにオーディオ信号を符号化する装置及び方法 |
Family Cites Families (42)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5596658A (en) * | 1993-06-01 | 1997-01-21 | Lucent Technologies Inc. | Method for data compression |
US7072832B1 (en) * | 1998-08-24 | 2006-07-04 | Mindspeed Technologies, Inc. | System for speech encoding having an adaptive encoding arrangement |
DE60110796T2 (de) * | 2000-06-14 | 2006-02-23 | Kabushiki Kaisha Kenwood | Frequenzinterpolationseinrichtung und frequenzinterpolationsverfahren |
US7400651B2 (en) * | 2001-06-29 | 2008-07-15 | Kabushiki Kaisha Kenwood | Device and method for interpolating frequency components of signal |
US6895375B2 (en) * | 2001-10-04 | 2005-05-17 | At&T Corp. | System for bandwidth extension of Narrow-band speech |
US6988066B2 (en) * | 2001-10-04 | 2006-01-17 | At&T Corp. | Method of bandwidth extension for narrow-band speech |
CA2359771A1 (en) * | 2001-10-22 | 2003-04-22 | Dspfactory Ltd. | Low-resource real-time audio synthesis system and method |
US20040002856A1 (en) * | 2002-03-08 | 2004-01-01 | Udaya Bhaskar | Multi-rate frequency domain interpolative speech CODEC system |
KR100554680B1 (ko) * | 2003-08-20 | 2006-02-24 | 한국전자통신연구원 | 크기 변화에 강인한 양자화 기반 오디오 워터마킹 장치 및방법 |
CA3035175C (en) * | 2004-03-01 | 2020-02-25 | Mark Franklin Davis | Reconstructing audio signals with multiple decorrelation techniques |
EP1926083A4 (en) * | 2005-09-30 | 2011-01-26 | Panasonic Corp | AUDIOCODING DEVICE AND AUDIOCODING METHOD |
US8255207B2 (en) * | 2005-12-28 | 2012-08-28 | Voiceage Corporation | Method and device for efficient frame erasure concealment in speech codecs |
US7930173B2 (en) * | 2006-06-19 | 2011-04-19 | Sharp Kabushiki Kaisha | Signal processing method, signal processing apparatus and recording medium |
DE102006047197B3 (de) * | 2006-07-31 | 2008-01-31 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Verarbeiten eines reellen Subband-Signals zur Reduktion von Aliasing-Effekten |
US20080046236A1 (en) * | 2006-08-15 | 2008-02-21 | Broadcom Corporation | Constrained and Controlled Decoding After Packet Loss |
US8295507B2 (en) * | 2006-11-09 | 2012-10-23 | Sony Corporation | Frequency band extending apparatus, frequency band extending method, player apparatus, playing method, program and recording medium |
BRPI0818927A2 (pt) * | 2007-11-02 | 2015-06-16 | Huawei Tech Co Ltd | Método e aparelho para a decodificação de áudio |
EP2299368B1 (en) * | 2008-05-01 | 2017-09-06 | Japan Science and Technology Agency | Audio processing device and audio processing method |
EP2306453B1 (en) * | 2008-06-26 | 2015-10-07 | Japan Science and Technology Agency | Audio signal compression device, audio signal compression method, audio signal decoding device, and audio signal decoding method |
JP5295238B2 (ja) * | 2008-07-11 | 2013-09-18 | クラリオン株式会社 | 音響処理装置 |
JP2010079275A (ja) * | 2008-08-29 | 2010-04-08 | Sony Corp | 周波数帯域拡大装置及び方法、符号化装置及び方法、復号化装置及び方法、並びにプログラム |
JP4516157B2 (ja) * | 2008-09-16 | 2010-08-04 | パナソニック株式会社 | 音声分析装置、音声分析合成装置、補正規則情報生成装置、音声分析システム、音声分析方法、補正規則情報生成方法、およびプログラム |
EP2214165A3 (en) * | 2009-01-30 | 2010-09-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method and computer program for manipulating an audio signal comprising a transient event |
TWI618352B (zh) * | 2009-02-18 | 2018-03-11 | 杜比國際公司 | 用於高頻重建或參數立體聲之複指數調變濾波器組 |
JP4932917B2 (ja) * | 2009-04-03 | 2012-05-16 | 株式会社エヌ・ティ・ティ・ドコモ | 音声復号装置、音声復号方法、及び音声復号プログラム |
CO6440537A2 (es) * | 2009-04-09 | 2012-05-15 | Fraunhofer Ges Forschung | Aparato y metodo para generar una señal de audio de sintesis y para codificar una señal de audio |
TWI556227B (zh) * | 2009-05-27 | 2016-11-01 | 杜比國際公司 | 從訊號的低頻成份產生該訊號之高頻成份的系統與方法,及其機上盒、電腦程式產品、軟體程式及儲存媒體 |
JP5754899B2 (ja) * | 2009-10-07 | 2015-07-29 | ソニー株式会社 | 復号装置および方法、並びにプログラム |
US8484020B2 (en) * | 2009-10-23 | 2013-07-09 | Qualcomm Incorporated | Determining an upperband signal from a narrowband signal |
WO2011110499A1 (en) * | 2010-03-09 | 2011-09-15 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for processing an audio signal using patch border alignment |
JP5850216B2 (ja) * | 2010-04-13 | 2016-02-03 | ソニー株式会社 | 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム |
JP5609737B2 (ja) * | 2010-04-13 | 2014-10-22 | ソニー株式会社 | 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム |
JP5652658B2 (ja) * | 2010-04-13 | 2015-01-14 | ソニー株式会社 | 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム |
ES2719102T3 (es) * | 2010-04-16 | 2019-07-08 | Fraunhofer Ges Forschung | Aparato, procedimiento y programa informático para generar una señal de banda ancha que utiliza extensión de ancho de banda guiada y extensión de ancho de banda ciega |
PL4016527T3 (pl) * | 2010-07-19 | 2023-05-22 | Dolby International Ab | Przetwarzanie sygnałów audio podczas rekonstrukcji wysokich częstotliwości |
RU2562434C2 (ru) * | 2010-08-12 | 2015-09-10 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Передискретизация выходных сигналов аудиокодеков на основе квадратурных зеркальных фильтров (qmf) |
US9532059B2 (en) * | 2010-10-05 | 2016-12-27 | Google Technology Holdings LLC | Method and apparatus for spatial scalability for video coding |
JP5707842B2 (ja) * | 2010-10-15 | 2015-04-30 | ソニー株式会社 | 符号化装置および方法、復号装置および方法、並びにプログラム |
CN104040888B (zh) * | 2012-01-10 | 2018-07-10 | 思睿逻辑国际半导体有限公司 | 多速率滤波器系统 |
US9154353B2 (en) * | 2012-03-07 | 2015-10-06 | Hobbit Wave, Inc. | Devices and methods using the hermetic transform for transmitting and receiving signals using OFDM |
US9728200B2 (en) * | 2013-01-29 | 2017-08-08 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for adaptive formant sharpening in linear prediction coding |
JP2016035501A (ja) * | 2014-08-01 | 2016-03-17 | 富士通株式会社 | 音声符号化装置、音声符号化方法、音声符号化用コンピュータプログラム、音声復号装置、音声復号方法及び音声復号用コンピュータプログラム |
-
2013
- 2013-05-31 JP JP2013116004A patent/JP6305694B2/ja active Active
-
2014
- 2014-05-26 EP EP14804912.5A patent/EP3007171B1/en active Active
- 2014-05-26 CN CN201480031036.4A patent/CN105324815B/zh active Active
- 2014-05-26 WO PCT/JP2014/063789 patent/WO2014192675A1/ja active Application Filing
- 2014-05-26 US US14/894,579 patent/US10147434B2/en active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004514180A (ja) * | 2000-11-15 | 2004-05-13 | コーディング テクノロジーズ アクチボラゲット | 高周波数の再構成方法を使用するコーディング・システムの性能拡大方法 |
JP2007534478A (ja) | 2004-07-09 | 2007-11-29 | シーメンス アクチェンゲゼルシャフト | 平らな郵送物の選別装置 |
JP2007025480A (ja) | 2005-07-20 | 2007-02-01 | Kyushu Institute Of Technology | 高域信号補間方法及び高域信号補間装置 |
JP2008058470A (ja) * | 2006-08-30 | 2008-03-13 | Hitachi Maxell Ltd | 音声信号処理装置、音声信号再生システム |
WO2009054393A1 (ja) * | 2007-10-23 | 2009-04-30 | Clarion Co., Ltd. | 高域補間装置および高域補間方法 |
JP2012504781A (ja) * | 2009-04-09 | 2012-02-23 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | 合成オーディオ信号を生成する装置及び方法並びにオーディオ信号を符号化する装置及び方法 |
WO2011048820A1 (ja) * | 2009-10-23 | 2011-04-28 | パナソニック株式会社 | 符号化装置、復号装置およびこれらの方法 |
US20120016667A1 (en) * | 2010-07-19 | 2012-01-19 | Futurewei Technologies, Inc. | Spectrum Flatness Control for Bandwidth Extension |
Non-Patent Citations (1)
Title |
---|
See also references of EP3007171A4 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016002551A1 (ja) * | 2014-07-04 | 2016-01-07 | クラリオン株式会社 | 信号処理装置及び信号処理方法 |
US10354675B2 (en) | 2014-07-04 | 2019-07-16 | Clarion Co., Ltd. | Signal processing device and signal processing method for interpolating a high band component of an audio signal |
Also Published As
Publication number | Publication date |
---|---|
EP3007171A1 (en) | 2016-04-13 |
US20160104499A1 (en) | 2016-04-14 |
EP3007171B1 (en) | 2019-09-25 |
US10147434B2 (en) | 2018-12-04 |
JP2014235274A (ja) | 2014-12-15 |
EP3007171A4 (en) | 2017-03-08 |
CN105324815A (zh) | 2016-02-10 |
CN105324815B (zh) | 2019-03-19 |
JP6305694B2 (ja) | 2018-04-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6401521B2 (ja) | 信号処理装置及び信号処理方法 | |
JP5224017B2 (ja) | オーディオ符号化装置、オーディオ符号化方法およびオーディオ符号化プログラム | |
US8560308B2 (en) | Speech sound enhancement device utilizing ratio of the ambient to background noise | |
US8271292B2 (en) | Signal bandwidth expanding apparatus | |
JP6769299B2 (ja) | オーディオ符号化装置およびオーディオ符号化方法 | |
WO2014192675A1 (ja) | 信号処理装置及び信号処理方法 | |
JP2008513848A (ja) | 音声信号の帯域幅を疑似的に拡張するための方法および装置 | |
JP2013190470A (ja) | 音響信号処理装置および音響信号処理方法 | |
WO2014129233A1 (ja) | 音声強調装置 | |
US10199048B2 (en) | Bass enhancement and separation of an audio signal into a harmonic and transient signal component | |
JP6162254B2 (ja) | 背景ノイズにおけるスピーチ了解度を増幅及び圧縮により向上させる装置と方法 | |
JP5589631B2 (ja) | 音声処理装置、音声処理方法および電話装置 | |
JP2009296298A (ja) | 音声信号処理装置および方法 | |
KR20160120713A (ko) | 복호 장치, 부호화 장치, 복호 방법, 부호화 방법, 단말 장치, 및 기지국 장치 | |
KR101850693B1 (ko) | 인-이어 마이크로폰을 갖는 이어셋의 대역폭 확장 장치 및 방법 | |
JP7316093B2 (ja) | 音声雑音除去装置及びプログラム | |
JP5777041B2 (ja) | 帯域拡張装置及びプログラム、並びに、音声通信装置 | |
JP4922427B2 (ja) | 信号補正装置 | |
JP2014059525A (ja) | 帯域拡張装置及び方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
WWE | Wipo information: entry into national phase |
Ref document number: 201480031036.4 Country of ref document: CN |
|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 14804912 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
WWE | Wipo information: entry into national phase |
Ref document number: 14894579 Country of ref document: US |
|
WWE | Wipo information: entry into national phase |
Ref document number: 2014804912 Country of ref document: EP |