WO2016002551A1 - 信号処理装置及び信号処理方法 - Google Patents

信号処理装置及び信号処理方法 Download PDF

Info

Publication number
WO2016002551A1
WO2016002551A1 PCT/JP2015/067824 JP2015067824W WO2016002551A1 WO 2016002551 A1 WO2016002551 A1 WO 2016002551A1 JP 2015067824 W JP2015067824 W JP 2015067824W WO 2016002551 A1 WO2016002551 A1 WO 2016002551A1
Authority
WO
WIPO (PCT)
Prior art keywords
frequency
signal
interpolation
audio signal
reference signal
Prior art date
Application number
PCT/JP2015/067824
Other languages
English (en)
French (fr)
Inventor
橋本 武志
哲生 渡邉
藤田 康弘
一智 福江
隆富 熊谷
Original Assignee
クラリオン株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by クラリオン株式会社 filed Critical クラリオン株式会社
Priority to US15/322,194 priority Critical patent/US10354675B2/en
Priority to EP15814179.6A priority patent/EP3166107B1/en
Priority to CN201580036691.3A priority patent/CN106663448B/zh
Publication of WO2016002551A1 publication Critical patent/WO2016002551A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • G10L21/0332Details of processing therefor involving modification of waveforms
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • G10L21/0388Details of processing therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain

Definitions

  • the present invention relates to a signal processing apparatus and a signal processing method for interpolating a high frequency component of an audio signal by generating an interpolation signal and synthesizing it with the audio signal.
  • Known formats for compressing audio signals include lossy compression formats such as MP3 (MPEG Audio Layer-3), WMA (Windows Media Audio, registered trademark), AAC (Advanced Audio Audio Coding), and the like.
  • MP3 MPEG Audio Layer-3
  • WMA Windows Media Audio, registered trademark
  • AAC Advanced Audio Audio Coding
  • Patent Document 1 Japanese Patent Application Laid-Open No. 2007-25480
  • Patent Document 2 Japanese Laid-Open Patent Publication No. 2007-29796
  • the high-frequency interpolation apparatus described in Patent Document 1 calculates a real part and an imaginary part of a signal obtained by analyzing an audio signal (original signal), and an envelope component of the original signal from the calculated real part and imaginary part And a harmonic component of the formed envelope component is extracted.
  • the high-frequency interpolation apparatus described in Patent Document 1 performs high-frequency interpolation of the original signal by synthesizing the extracted harmonic components with the original signal.
  • the high-frequency interpolating device described in Patent Document 2 spectrally inverts an audio signal, up-samples the spectrum-inverted signal, and uses the up-sampled signal to generate a frequency that is substantially the same as the high frequency of the baseband signal.
  • the extended band component is extracted.
  • the high-frequency interpolation apparatus described in Patent Literature 2 performs high-frequency interpolation of a baseband signal by synthesizing the extracted extension band component with the baseband signal.
  • the frequency band of an irreversibly compressed audio signal varies depending on the compression encoding format, sampling rate, and bit rate after compression encoding. Therefore, as described in Patent Document 1, when high-frequency interpolation is performed by synthesizing a fixed frequency band interpolation signal with respect to an audio signal, depending on the frequency band of the audio signal before high-frequency interpolation, The frequency spectrum of the audio signal after high-frequency interpolation becomes discontinuous. As described above, in the high frequency interpolating device described in Patent Document 1, the audio quality may be deteriorated by applying high frequency interpolation to the audio signal.
  • the audio signal is subjected to high frequency interpolation to cause a deterioration in sound quality on hearing. There is.
  • the audio signal includes not only an irreversible compression format audio signal but also, for example, a lossless compression format audio signal, a CD (Compact Disc) sound source, a DVD (Digital Versatile Disc) audio, an SACD (Super Audio CD), etc.
  • a lossless compression format audio signal a CD (Compact Disc) sound source
  • DVD Digital Versatile Disc
  • SACD Super Audio CD
  • the present invention has been made in view of the above circumstances, and an object thereof is to provide a signal processing device and a signal processing method suitable for achieving improvement in sound quality by high-frequency interpolation for an audio signal. It is.
  • a signal processing apparatus includes a frequency detection unit that detects a frequency satisfying a predetermined condition from an audio signal, and offsets the detection frequency according to a frequency characteristic detected by the frequency detection unit or a frequency characteristic in the vicinity thereof.
  • Offset means reference signal generation means for generating a reference signal by extracting a signal from the audio signal based on the detected frequency after offset by the offset means, and an interpolation signal for generating an interpolation signal based on the generated reference signal A generating unit; and a signal synthesizing unit that performs high-frequency interpolation of the audio signal by synthesizing the generated interpolation signal with the audio signal.
  • the offset means may be configured to detect the slope characteristic of the audio signal at or near the detection frequency and change the offset amount with respect to the detection frequency in accordance with the detected slope characteristic.
  • the offset means may be configured such that the offset amount with respect to the detection frequency is set to a larger value as the attenuation of the audio signal is gentle at or near the detection frequency.
  • the reference signal generating means may be configured to extract a signal in a range of n% from the detected frequency after the offset to the low frequency side from the audio signal, and generate the reference signal using the extracted signal.
  • the frequency detection means calculates a first frequency region in the audio signal and a second frequency region level higher than the first frequency region, and based on the calculated first and second frequency region levels.
  • the threshold may be set, and a frequency lower than the set threshold level may be detected as a frequency satisfying a predetermined condition.
  • the frequency detection means may be configured to detect the frequency of the highest frequency point among at least one frequency point below the threshold level as a frequency satisfying a predetermined condition.
  • the interpolation signal generation means performs weighting and overlap processing by a predetermined window function on the reference signal generated by the reference signal generation means, and then duplicates the reference signal, and is increased to a plurality by duplication.
  • the reference signal may be arranged side by side up to a frequency band higher than the detection frequency, and the interpolation signal may be generated by weighting each frequency component of the reference signal group arranged side by side according to the frequency characteristics of the audio signal. Good.
  • the signal processing apparatus may include a noise reduction unit that reduces noise included in the reference signal prior to duplication of the reference signal by the interpolation signal generation unit.
  • the signal processing apparatus of the present embodiment may be configured to include a filter unit that filters an audio signal.
  • the signal synthesis unit performs high-frequency interpolation of the audio signal by synthesizing the interpolation signal with the audio signal filtered by the filter unit.
  • the filter means may be configured such that the cut-off frequency for the audio signal is variable according to the detection frequency.
  • the signal processing method includes a frequency detection step for detecting a frequency satisfying a predetermined condition from an audio signal, and the detection in accordance with a detection frequency in the frequency detection step or a frequency characteristic in the vicinity thereof.
  • An offset step for offsetting the frequency
  • a reference signal generating step for generating a reference signal by extracting a signal from the audio signal based on the detected frequency after the offset in the offset step, and an interpolation signal based on the generated reference signal
  • An interpolation signal generation step for generating, and a signal synthesis step for performing high-frequency interpolation of the audio signal by synthesizing the generated interpolation signal with the audio signal.
  • a signal processing apparatus and a signal processing method suitable for achieving improvement in sound quality by high-frequency interpolation for an audio signal are provided.
  • FIG. 1 It is a block diagram which shows the structure of the sound processing apparatus of embodiment of this invention. It is a block diagram which shows the structure of the high frequency interpolation process part with which the acoustic processing apparatus of embodiment of this invention is equipped. It is an explanatory assistance figure which assists operation
  • the figure (upper column figure) which shows the relationship between the complex spectrum and threshold frequency of the high compression audio signal input into the zone
  • FIG. 6A is an operation waveform diagram for explaining a series of processing until high-frequency interpolation is performed on the complex spectrum input to the reference signal extraction unit provided in the high-frequency interpolation processing unit according to the embodiment of the present invention.
  • FIG. 6 (h) It is a figure which shows the relationship between the change rate of the signal level in a threshold frequency or its vicinity, and the amount of offsets of a threshold frequency.
  • FIG. 9 is an operation waveform diagram (FIG.
  • FIG. 8A and FIG. 8B for explaining the operation of the interpolation signal generation unit provided in the high-frequency interpolation processing unit of the embodiment of the present invention.
  • FIG. 10 is a diagram (FIGS. 10A to 10D) for explaining noise removal processing by a second noise reduction circuit provided in the high-frequency interpolation processing unit of the embodiment of the present invention.
  • FIG. 12 is an explanatory diagram (FIG. 11 (a) to FIG.
  • FIG. 12 is an explanatory diagram (FIG. 12 (a) to FIG. 12 (c)) illustrating an effect of introducing a weighting and overlap processing by a window function to a reference signal.
  • FIG. 14 is an explanatory diagram (FIGS. 14A to 14C) of Case 4 for explaining the effect of introducing the noise removal processing by the second noise reduction circuit in the embodiment of the present invention.
  • FIG. 1 is a block diagram showing the configuration of the sound processing apparatus 1 of the present embodiment.
  • the acoustic processing apparatus 1 includes an FFT (Fast Fourier Transform) unit 10, a high-frequency interpolation processing unit 20, and an IFFT (Inverse FFT) unit 30.
  • FFT Fast Fourier Transform
  • IFFT Inverse FFT
  • the FFT unit 10 includes, for example, an audio signal obtained by decoding an irreversible compression format encoded signal from the sound source unit, an audio signal obtained by decoding a lossless compression format encoded signal, a CD sound source, DVD Audio, SACD, etc.
  • the audio signal of the solution sound source is input.
  • lossy compression formats include MP3, WMA, and AAC.
  • the lossless compression format includes, for example, WMAL (WMA Lossless), ALAC (Apple Lossless Audio Codec, “Apple” is a registered trademark), and AAL (ATRAC Advanced Lossless: registered trademark).
  • an irreversible compression format audio signal is referred to as a “high compression audio signal”, and a CD-DA that does not satisfy the specifications of the lossless compression format audio signal, the high resolution sound source audio signal, and the high resolution sound source.
  • An audio signal such as (44.1 kHz / 16 bits) that holds information in a higher frequency range than a high-compression audio signal is referred to as a “high-quality audio signal”.
  • the FFT unit 10 weights the input audio signal using overlap processing and a window function, and then performs conversion from the time domain to the frequency domain by STFT (Short-Term Fourier Transform), and real and imaginary complex spectra. Is output to the high-frequency interpolation processing unit 20.
  • the high frequency interpolation processing unit 20 interpolates the high frequency of the complex spectrum input from the FFT unit 10 and outputs it to the IFFT unit 30.
  • the band that is interpolated by the high-frequency interpolation processing unit 20 is a frequency band that is close to or exceeds the upper limit of the audible range that has been significantly cut during lossy compression.
  • the frequency band is close to or exceeds the upper limit of the audible range, including a band where the level gradually attenuates.
  • the IFFT unit 30 obtains real and imaginary complex spectra based on the complex spectrum subjected to high-frequency interpolation by the high-frequency interpolation processing unit 20, and performs weighting by a window function.
  • the IFFT unit 30 performs STFT and overlap addition on the weighted signal to convert the signal from the frequency domain to the time domain, and generates and outputs a high-frequency interpolated audio signal.
  • FIG. 2 is a block diagram showing the configuration of the high-frequency interpolation processing unit 20.
  • the high-frequency interpolation processing unit 20 includes a band detection unit 210, a reference signal extraction unit 220, a reference signal correction unit 230, an interpolation signal generation unit 240, an interpolation signal correction unit 250, an addition unit 260, One noise reduction circuit 270 and a second noise reduction circuit 280 are provided.
  • reference numerals are given to input signals and output signals for the respective units in the high-frequency interpolation processing unit 20.
  • FIG. 3 is a diagram for assisting the explanation of the operation of the band detection unit 210, and shows an example of the complex spectrum S input from the FFT unit 10 to the band detection unit 210.
  • the vertical axis (y-axis) indicates the signal level (unit: dB), and the horizontal axis (x-axis) indicates the frequency (unit: Hz).
  • the band detection unit 210 converts the complex spectrum S (linear scale) of the audio signal input from the FFT unit 10 into a decibel scale.
  • the band detection unit 210 smoothes the complex spectrum S converted to the decibel scale by smoothing in order to suppress local variation included in the complex spectrum S.
  • the band detection unit 210 calculates a signal level of a predetermined low mid-range and a predetermined high-frequency range for the smoothed complex spectrum S, and based on the calculated signal levels of the low-mid range and the high range.
  • Set the threshold For example, as shown in FIG. 3, the threshold is an intermediate level between the signal level (average value) in the low and mid range and the signal level (average value) in the high range.
  • the band detection unit 210 detects a frequency point that falls below the threshold from the complex spectrum S (linear scale) input from the FFT unit 10. As shown in FIG. 3, when there are a plurality of frequency points below the threshold, the band detection unit 210 detects a higher frequency point (frequency ft in the example of FIG. 3).
  • the frequency detected by the threshold here, the frequency ft
  • the band detection unit 210 performs the following conditions (1) to (3) in order to suppress generation of unnecessary interpolation signals.
  • the detected threshold frequency Fth is equal to or lower than a predetermined frequency.
  • the signal level of the high frequency range is equal to or higher than a predetermined value. When one is satisfied, it is determined that the generation of the interpolation signal is unnecessary. High-frequency interpolation is not performed on the complex spectrum S that is determined to require no interpolation signal generation.
  • the upper column of FIG. 4 shows the relationship between the complex spectrum S of the high compression audio signal input from the FFT unit 10 to the band detection unit 210 and the threshold frequency Fth
  • the lower column of FIG. The relationship between the frequency of the compressed audio signal and the signal level change rate ⁇ is shown.
  • 5 shows the relationship between the complex spectrum S of the high quality audio signal input from the FFT unit 10 to the band detecting unit 210 and the threshold frequency Fth
  • the relationship between the signal frequency and the signal level change rate ⁇ is shown.
  • the rate of change ⁇ is obtained by performing differentiation on the complex spectrum S using a high-pass filter.
  • the vertical axis (y-axis) indicates the signal level (unit: dB), and the horizontal axis (x-axis) indicates the frequency (unit: Hz).
  • the vertical axis (y-axis) indicates the rate of change in signal level (unit: dB), and the horizontal axis (x-axis) indicates the frequency (unit: Hz).
  • the high-compressed audio signal has a sharp cut at the high frequency band around the threshold frequency Fth in order to reduce the amount of information (see the upper column of FIG. 4), and the rate of change in the signal level near the threshold frequency Fth ⁇ is large (see the lower column of FIG. 4).
  • the high quality audio signal has a relatively gentle frequency slope in the vicinity of the threshold frequency Fth (see the upper column of FIG. 5), and the signal level change rate ⁇ in the vicinity of the threshold frequency Fth is small (see FIG. 5). See below).
  • the complex spectrum S from which noise has been removed via the first noise reduction circuit 270 and the second noise reduction circuit 280 is input to the reference signal extraction unit 220.
  • a symbol “S ′” is attached to the complex spectrum S after noise removal by the first noise reduction circuit 270, and a symbol “S” is added to the complex spectrum S ′ after noise removal by the second noise reduction circuit 280. ". Details of the noise removal processing by the first noise reduction circuit 270 and the second noise reduction circuit 280 will be described later.
  • information of the offset frequency Fth ′ is input to the reference signal extraction unit 220 from the band detection unit 210. Details of the offset frequency Fth ′ will also be described later.
  • FIGS. 6A to 6H are operation waveform diagrams for explaining a series of processes until high-frequency interpolation is performed on the complex spectrum S ′′ input to the reference signal extraction unit 220.
  • the vertical axis (y axis) indicates the signal level (unit: dB)
  • the horizontal axis (x axis) indicates the frequency (unit: Hz).
  • the reference signal extraction unit 220 extracts the reference signal Sb from the complex spectrum S ′′ based on the information of the threshold frequency Fth.
  • the threshold frequency Fth of the entire complex spectrum S ′′ A complex spectrum in the range of n (0 ⁇ n)% from the low frequency side is extracted as the reference signal Sb. Therefore, the reference signal Sb may not have an appropriate signal level due to the influence of the frequency slope of the complex spectrum S ′′ in the vicinity of the threshold frequency Fth when detecting the threshold frequency Fth.
  • quality deterioration due to a frequency slope near the threshold frequency Fth is large, and an appropriate signal level may not be obtained.
  • the band detection unit 210 multiplies the detected threshold frequency Fth by the offset amount ⁇ corresponding to the frequency slope near the threshold frequency Fth, and obtains the threshold frequency Fth after offset (frequency Fth ′ after offset).
  • the data is output to the reference signal extraction unit 220.
  • the reference signal extraction unit 220 extracts, as a reference signal Sb, a complex spectrum in the range of n% from the offset frequency Fth ′ to the low frequency side in the entire complex spectrum S ′′ (see FIG. 6A).
  • the quality deterioration of the reference signal Sb caused by the frequency slope near the threshold frequency Fth can be suppressed.
  • FIG. 7 shows the relationship between the signal level change rate ⁇ and the offset amount ⁇ in the vicinity of the threshold frequency Fth (or the threshold frequency Fth).
  • the rate of change ⁇ near the threshold frequency Fth is, for example, an average value of the rate of change ⁇ within a predetermined range including the threshold frequency Fth.
  • the vertical axis (y-axis) indicates the offset amount ⁇ (unit: Hz)
  • the horizontal axis (x-axis) indicates the signal level change rate ⁇ (unit: dB).
  • the offset amount ⁇ changes in the signal level change rate ⁇ between 0 Hz and ⁇ 3 kHz in the range of ⁇ 50 dB to 0 dB, and the larger the change rate ⁇ (the frequency slope becomes steeper).
  • the signal level change rate ⁇ is large (the frequency slope is steep), and the quality degradation of the reference signal Sb due to the frequency slope near the threshold frequency Fth is substantial. Not really. Therefore, the offset amount ⁇ is zero. Therefore, the reference signal extraction unit 220 extracts a complex spectrum in the range of n% from the offset frequency Fth ′ that is the same as the threshold frequency Fth to the low frequency side as the reference signal Sb.
  • the signal level change rate ⁇ is small (the frequency slope is gentle), and the quality degradation of the reference signal Sb due to the frequency slope near the threshold frequency Fth is large. Therefore, the offset amount ⁇ is ⁇ 3 kHz. Therefore, the reference signal extraction unit 220 extracts a complex spectrum in the range of n% from the offset frequency Fth ′ that is 3 kHz lower than the threshold frequency Fth to the low frequency side as the reference signal Sb. As a result, as illustrated in FIG. 6A, the reference signal Sb has a sufficient (proper) signal level by eliminating the influence of the frequency slope near the threshold frequency Fth.
  • the frequency band of the reference signal Sb becomes narrower as the frequency band of the complex spectrum S ′′ becomes narrower, so that the extraction of the voice band that causes the sound quality deterioration can be suppressed.
  • the reference signal extraction unit 220 shifts the frequency of the reference signal Sb extracted from the complex spectrum S ′′ to the low frequency side (DC side) (see FIG. 6B), and the reference signal Sb frequency-shifted is a reference signal correction unit. 230.
  • the reference signal correction unit 230 converts the reference signal Sb (linear scale) input from the reference signal extraction unit 220 into a decibel scale, and detects a frequency slope by first-order regression analysis for the converted decibel scale reference signal Sb. .
  • the reference signal correction unit 230 calculates the inverse characteristic of the frequency slope (weight amount for each frequency with respect to the reference signal Sb) detected by the primary regression analysis. Specifically, the reference signal correction unit 230 defines the weight amount for each frequency with respect to the reference signal Sb as p 1 (x), and defines the FFT sample position in the frequency domain on the horizontal axis (x axis) as x.
  • the weight amount p 1 (x) for each frequency with respect to the reference signal Sb is obtained on a decibel scale.
  • the reference signal correction unit 230 converts the decibel scale weight p 1 (x) into a linear scale.
  • the reference signal correction unit 230 corrects the reference signal Sb by multiplying the weight amount p 1 (x) converted to the linear scale by the reference signal Sb (linear scale) input from the reference signal extraction unit 220. To do. Specifically, the reference signal Sb is corrected to a signal having a flat frequency characteristic (reference signal Sb ′) (see FIG. 6D).
  • the reference signal Sb ′ corrected by the reference signal correction unit 230 is input to the interpolation signal generation unit 240.
  • the interpolation signal generation unit 240 expands the reference signal Sb ′ to a frequency band higher than the threshold frequency Fth (in other words, duplicates the reference signal Sb ′ and increases the reference signal Sb ′ increased by duplication to the threshold frequency Fth).
  • an interpolation signal Sc including a high frequency is generated (see FIG. 6E).
  • the range in which the reference signal Sb 'is expanded includes, for example, a band close to the upper limit of the audible range and a band exceeding the upper limit of the audible range.
  • FIG. 8 (a) and 8 (b) are operation waveform diagrams for explaining the operation of the interpolation signal generation unit 240.
  • FIG. Strictly speaking the reference signal Sb ′ corrected by the reference signal correction unit 230 does not have a flat frequency characteristic. For this reason, when the reference signal Sb 'is duplicated in a plurality of bands in the interpolation signal generation unit 240, interband interference occurs due to a sudden change in amplitude and phase between the duplicated reference signals Sb'. As a result, a pre-echo is generated in which the signal is output on the time axis before the original interpolation signal Sc. Therefore, as shown in the upper column of FIG. 8A, the interpolation signal generation unit 240 multiplies the reference signal Sb ′ by a predetermined window function and performs weighting on the frequency characteristics to perform overlap processing. The inter-band interference is reduced by reducing the signal level difference and the phase difference at.
  • the interpolation signal generation unit 240 divides the reference signal Sb ′ into two at the peak, and replaces the divided high frequency side signal and low frequency side signal (see the lower column of FIG. 8A). ). Next, the interpolation signal generation unit 240 combines the weighted reference signal Sb ′ by the window function (see the upper column in FIG. 8A) and the reference signal after the replacement process (see the lower column in the same figure), Overlap between bands. As a result, a reference signal Sb ′ having a flatter frequency characteristic is obtained (see FIG. 8B). Even if the reference signal Sb 'is duplicated in a plurality of bands, inter-band interference does not occur, and an interpolation signal Sc having a flat frequency characteristic with no pre-echo is obtained.
  • the interpolation signal Sc generated by the interpolation signal generation unit 240 is input to the interpolation signal correction unit 250. Further, the complex spectrum S ′ is input from the first noise reduction circuit 270 to the interpolation signal correction unit 250, and the information of the offset frequency Fth ′ is input from the band detection unit 210.
  • the interpolation signal correction unit 250 converts the complex spectrum S ′ (linear scale) input from the first noise reduction circuit 270 into a decibel scale, and the frequency spectrum slope of the converted decibel scale complex spectrum S ′ by linear regression analysis. Is detected. Note that the interpolation signal correction unit 250 does not use information on the higher frequency side than the post-offset frequency Fth ′ when detecting the frequency slope.
  • the regression analysis range can be arbitrarily set, typically, it is a range corresponding to a predetermined frequency band excluding a low frequency component in order to smoothly connect the high frequency side of the audio signal and the interpolation signal.
  • the interpolation signal correction unit 250 calculates the weight amount corresponding to the detected frequency slope and the frequency band corresponding to the regression analysis range for each frequency.
  • the interpolation signal correction unit 250 defines the weight amount for each frequency with respect to the interpolation signal Sc as p 2 (x), and defines the FFT sample position in the frequency domain on the horizontal axis (x axis) as x. and, the frequency of the upper limit of regression analysis range defined is b, defined sample length of the FFT of the s, the value of the slope of the corresponding frequency band in the regression analysis range is defined as alpha 2, a predetermined correction coefficient k
  • the weight amount p 2 (x) for each frequency for the interpolation signal Sc is calculated by the following equation (2).
  • the weight amount p 2 (x) for each frequency with respect to the interpolation signal Sc is obtained on a decibel scale.
  • the interpolation signal correction unit 250 converts the decibel scale weight amount p 2 (x) into a linear scale.
  • the interpolation signal correction unit 250 multiplies the weighting amount p 2 (x) converted to the linear scale by the interpolation signal Sc (linear scale) generated by the interpolation signal generation unit 240, thereby obtaining the interpolation signal Sc. to correct.
  • the corrected interpolation signal Sc ′ is a signal in a higher frequency range than the offset frequency Fth ′, and has a characteristic of being attenuated as the frequency is higher.
  • the addition unit 260 receives the complex spectrum S ′ from the FFT unit 10 via the first noise reduction circuit 270 and the interpolation signal Sc ′ from the interpolation signal correction unit 250.
  • the complex spectrum S ′ is a complex spectrum of an audio signal in which the high-frequency component is significantly cut or information on the high-frequency component is small
  • the interpolation signal Sc ′ is a complex spectrum in a frequency region higher than the frequency band of the audio signal.
  • the adder 260 synthesizes the complex spectrum S ′ and the interpolation signal Sc ′ to generate a complex spectrum SS of the audio signal in which the high frequency is interpolated (see FIG. 6H), and the generated audio signal Are output to the IFFT unit 30.
  • the reference signal Sb is extracted from the complex spectrum S ′′ based on the offset frequency Fth ′ that is offset according to the frequency slope near the threshold frequency Fth. Since the quality degradation of the resulting reference signal Sb is suppressed, it is possible to generate a high-quality interpolation signal Sc ′, so that it is continuous with the audio signal regardless of the frequency characteristics of the audio signal input to the FFT unit 10. High-frequency interpolation is possible in a spectrum with a natural characteristic that attenuates due to a local change, and an improvement in sound quality is achieved.
  • the reference signal Sb ′ is weighted and overlapped by a window function, so that the occurrence of pre-echo due to interband interference is suppressed. That is, since the pre-echo that appears as a side effect of the high-frequency interpolation process is suppressed, an improvement in sound quality is achieved.
  • the audio signal input from the sound source section is not necessary sine wave noise in the band exceeding the threshold frequency Fth or aliasing noise (aliasing noise) due to the sampling frequency conversion due to the recording environment of the sound source and the influence of acoustic equipment.
  • FIG. 9A illustrates a complex spectrum S of an audio signal mixed with this kind of noise. Since the sine wave noise and aliasing noise illustrated in FIG. 9A are causes of sound quality deterioration, it is desirable to remove them.
  • the first noise reduction circuit 270 includes a low-pass filter whose cut-off frequency varies according to the threshold frequency Fth. Specifically, the first noise reduction circuit 270 filters the complex spectrum S input from the FFT component 10 based on the information of the threshold frequency Fth input from the band detection unit 210, and performs the filtered complex spectrum. S ′ is output to the subsequent circuit.
  • FIG. 9B shows a complex spectrum S ′ obtained as a result of filtering the complex spectrum S exemplified in FIG. 9A with the threshold frequency Fth.
  • sinusoidal noise and aliasing noise are removed from the complex spectrum S ′ by the first noise reduction circuit 270. Thereby, deterioration of sound quality due to sine wave noise and aliasing noise can be suppressed.
  • FIG. 10A illustrates a complex spectrum S of an audio signal mixed with this kind of noise.
  • noise is mixed in the band extracted as the reference signal Sb.
  • the high-frequency interpolated audio signal includes the reference signal Sb ′ as shown in FIG. 10B. Noise increased according to the number of duplications is superimposed.
  • the second noise reduction circuit 280 converts the complex spectrum S ′ that is input a plurality of times from low to high for each STFT into an amplitude spectrum and a phase spectrum.
  • the second noise reduction circuit 280 suppresses a steady component (that is, DC and a fluctuation component near DC) due to the filtering process in each converted amplitude spectrum.
  • the second noise reduction circuit 280 performs reconversion from the suppressed amplitude spectrum and phase spectrum to the complex spectrum. As shown in FIG.
  • the complex spectrum S ′′ obtained as a result is such that only a stationary component such as a sine wave is suppressed.
  • the reference signal Sb in which the sine wave or the like is suppressed.
  • the “normalized cutoff frequency of the primary high-pass filter” of the band detecting unit 210 is a value set when detecting the change rate ⁇ .
  • FIGS. 11A to 11C are diagrams for explaining the case 1.
  • the vertical axis (y axis) indicates the signal level (unit: dB)
  • the horizontal axis (x axis) indicates the frequency (unit: kHz).
  • Case 1 the effect of introducing the offset processing of the threshold frequency Fth according to the frequency slope will be described.
  • FIG. 11A shows the complex spectrum S of the audio signal input to the high-frequency interpolation processing unit 20 in the case 1. Since the complex spectrum S shown in FIG. 11A is a spectrum of a high-quality audio signal, the frequency slope on the high frequency side (around 22 kHz to 25 kHz) is not steep and relatively gentle.
  • FIG. 11 (b) and 11 (c) show the output (complex spectrum SS) with respect to the input (complex spectrum S) shown in FIG. 11 (a).
  • FIG. 11B shows an output when the offset processing of the threshold frequency Fth corresponding to the frequency slope is not performed in the case 1.
  • FIG. 11C shows an output when the offset processing of the threshold frequency Fth corresponding to the frequency slope is performed in the case 1.
  • the complex spectrum S ′ and the interpolation signal Sc ′ are not smoothly connected in the frequency domain as shown in FIG.
  • a gap is generated around 25 kHz, attenuation to the interpolation region (high region) becomes unnatural.
  • the reference signal Sb does not have a sufficient (proper) signal level, attenuation in the interpolation region lacks continuity and becomes unnatural.
  • FIGS. 12A to 12C are diagrams (spectrograms) for explaining the case 2.
  • Case 2 describes the effect of introducing weighting and overlap processing by the window function for the reference signal Sb ′.
  • FIG. 12A shows a spectrogram of an audio signal input to the sound processing device 1 in the case 2.
  • FIG. 12 (b) and 12 (c) show the output of the sound processing apparatus 1 with respect to the input shown in FIG. 12 (a).
  • FIG. 12B shows an output in case 2 where weighting and overlap processing by the window function is not performed on the reference signal Sb ′.
  • FIG. 12C shows an output in the case 2 where weighting and overlap processing by the window function is performed on the reference signal Sb ′.
  • FIG. 13A and FIG. 13B are diagrams for explaining the third example.
  • the vertical axis (y axis) indicates the signal level (unit: dB)
  • the horizontal axis (x axis) indicates the frequency (unit: kHz).
  • Case 3 the effect of introducing the noise removal processing by the first noise reduction circuit 270 will be described.
  • FIG. 13A shows the complex spectrum S of the audio signal input to the first noise reduction circuit 270 in the case 3. As shown in FIG. 13A, in the case 3, sine wave noise and aliasing noise are included in the complex spectrum S.
  • FIG. 13B shows the complex spectrum S ′ of the audio signal output from the first noise reduction circuit 270 in case 3. As shown in FIG. 13B, sine wave noise and aliasing noise are removed from the complex spectrum S ′ by the first noise reduction circuit 270.
  • FIG. 14A to FIG. 14C are diagrams for explaining the case 4.
  • the vertical axis (y axis) indicates the signal level (unit: dB)
  • the horizontal axis (x axis) indicates the frequency (unit: kHz).
  • Case 4 the effect of introducing noise removal processing by the second noise reduction circuit 280 will be described.
  • FIG. 14A shows the complex spectrum S of the audio signal input to the high-frequency interpolation processing unit 20 in the case 4.
  • sinusoidal noise is mixed in the band extracted as the reference signal Sb.
  • FIG. 14 (b) and 14 (c) show an output (complex spectrum SS) with respect to the input (complex spectrum S) shown in FIG. 14 (a).
  • FIG. 14B shows an output in the case 4 where the noise removal processing by the second noise reduction circuit 280 is not performed.
  • FIG. 14C shows an output in the case 4 where the noise removal processing by the second noise reduction circuit 280 is performed.
  • the noise removal processing by the second noise reduction circuit 280 is not performed, as shown in FIG. 14B, the noise increased according to the number of times of duplication of the reference signal Sb 'is superimposed on the complex spectrum SS.
  • the reference signal correction unit 230 uses primary regression analysis in order to correct the reference signal Sb having a characteristic that is monotonically amplified or attenuated within the frequency band.
  • the characteristic of the reference signal Sb is not limited to linear, and may be nonlinear depending on the case.
  • the reference signal correction unit 230 performs regression analysis by increasing the order and calculates the inverse characteristic, and corrects the reference signal Sb with the calculated inverse characteristic.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

 オーディオ信号から所定の条件を満たす周波数を検出する周波数検出手段と、周波数検出手段による検出周波数又はその付近の周波数特性に応じて該検出周波数をオフセットするオフセット手段と、オフセット手段によるオフセット後の検出周波数に基づいてオーディオ信号から信号を抽出して参照信号を生成する参照信号生成手段と、生成された参照信号に基づいて補間信号を生成する補間信号生成手段と、生成された補間信号をオーディオ信号と合成することで該オーディオ信号の高域補間を行う信号合成手段とを備える信号処理装置を提供する。

Description

信号処理装置及び信号処理方法
 本発明は、補間信号を生成してオーディオ信号と合成することにより、オーディオ信号の高域成分を補間する信号処理装置及び信号処理方法に関する。
 オーディオ信号を圧縮するフォーマットとして、例えば、MP3(MPEG Audio Layer-3)、WMA(Windows Media Audio、登録商標)、AAC(Advanced Audio Coding)等の非可逆圧縮フォーマットが知られている。非可逆圧縮フォーマットでは、可聴域の上限に近い又は上限を超える高域の周波数成分を大幅にカットすることにより、高圧縮率を達成する。この種の技術が開発された当初は、高域の周波数成分を大幅にカットした場合であっても聴感上の音質劣化が生じないと考えられていたが、近年では、高域の周波数成分を大幅にカットすることによって音質に微妙な変化が生じ、オリジナルの音源に比べて聴感上の音質が劣化するという考えが主流となっている。そこで、非可逆圧縮されたオーディオ信号に対して高域補間を行うことにより音質改善を行う高域補間装置が提案されている。この種の高域補間装置の具体的構成は、例えば特開2007-25480号公報(以下、「特許文献1」と記す。)や再表2007-29796号公報(以下、「特許文献2」と記す。)に記載されている。
 特許文献1に記載の高域補間装置は、オーディオ信号(原信号)を解析することによって得た信号の実部及び虚部を算出し、算出された実部及び虚部から原信号の包絡成分を形成し、形成された包絡成分の高調波成分を抽出する。特許文献1に記載の高域補間装置は、抽出された高調波成分を原信号に合成することによって原信号の高域補間を行う。
 特許文献2に記載の高域補間装置は、オーディオ信号をスペクトル反転し、スペクトル反転された信号をアップサンプリングし、アップサンプリングされた信号からベースバンド信号の高域とほぼ同一の周波数を低域端とする拡張帯域成分を抽出する。特許文献2に記載の高域補間装置は、抽出された拡張帯域成分をベースバンド信号に合成することによってベースバンド信号の高域補間を行う。
 非可逆圧縮されたオーディオ信号の周波数帯域は、圧縮符号化フォーマットやサンプリングレート、圧縮符号化後のビットレートに応じて変わる。そのため、特許文献1に記載されているように、オーディオ信号に対して固定の周波数帯域の補間信号を合成することによって高域補間を行うと、高域補間前のオーディオ信号の周波数帯域によっては、高域補間後のオーディオ信号の周波数スペクトルが不連続となる。このように、特許文献1に記載の高域補間装置では、オーディオ信号に高域補間を施すことによって却って聴感上の音質劣化を生じさせることがある。
 また、オーディオ信号は一般的特性として高域ほど減衰するが、瞬間的には高域側でレベルが増幅することがある。しかし、特許文献2では、装置に入力されるオーディオ信号の特性として前者の一般的特性しか考慮されていない。そのため、レベルが高域側で増幅する特性のオーディオ信号が入力した直後は、オーディオ信号の周波数スペクトルが不連続になり、高域を過度に強調するものとなる。このように、特許文献2に記載の高域補間装置においても特許文献1に記載の高域補間装置と同様に、オーディオ信号に高域補間を施すことによって却って聴感上の音質劣化を生じさせることがある。
 また、オーディオ信号には、非可逆圧縮フォーマットのオーディオ信号だけでなく、例えば、可逆圧縮フォーマットのオーディオ信号やCD(Compact Disc)音源、DVD(Digital Versatile Disc) Audio、SACD(Super Audio CD)等のハイレゾリューション音源のオーディオ信号がある。これらのオーディオ信号に対して特許文献1や特許文献2に記載の技術を適用した場合も、高域補間を施すことによって却って聴感上の音質劣化が生じる恐れがある。
 本発明は上記の事情に鑑みてなされたものであり、その目的とするところは、オーディオ信号に対する高域補間による音質の向上を達成するのに好適な信号処理装置及び信号処理方法を提供することである。
 本発明の一実施形態に係る信号処理装置は、オーディオ信号から所定の条件を満たす周波数を検出する周波数検出手段と、周波数検出手段による検出周波数又はその付近の周波数特性に応じて該検出周波数をオフセットするオフセット手段と、オフセット手段によるオフセット後の検出周波数に基づいてオーディオ信号から信号を抽出して参照信号を生成する参照信号生成手段と、生成された参照信号に基づいて補間信号を生成する補間信号生成手段と、生成された補間信号をオーディオ信号と合成することで該オーディオ信号の高域補間を行う信号合成手段とを備える。
 オフセット手段は、検出周波数又はその付近におけるオーディオ信号のスロープ特性を検出し、検出されたスロープ特性に応じて検出周波数に対するオフセット量を変える構成としてもよい。
 また、オフセット手段は、検出周波数又はその付近においてオーディオ信号の減衰が緩やかであるほど検出周波数に対するオフセット量を大きな値に設定する構成としてもよい。
 参照信号生成手段は、オーディオ信号のうち、オフセット後の検出周波数から低周波数側へn%の範囲の信号を抽出し、抽出された信号を用いて参照信号を生成する構成としてもよい。
 周波数検出手段は、オーディオ信号内の第1の周波数領域及び該第1の周波数領域よりも高い第2の周波数領域のレベルを計算し、計算された第1及び第2の周波数領域のレベルに基づいてスレッシュホールドを設定し、設定されたスレッシュホールドのレベルを下回る周波数を所定の条件を満たす周波数として検出する構成としてもよい。
 また、周波数検出手段は、スレッシュホールドのレベルを下回る少なくとも1つの周波数ポイントのうち最も高域側の周波数ポイントの周波数を所定の条件を満たす周波数として検出する構成としてもよい。
 補間信号生成手段は、参照信号生成手段により生成された参照信号に対して所定の窓関数による重み付け及びオーバラップ処理を行ったうえで、該参照信号の複製を行い、複製によって複数に増加された参照信号を検出周波数より高い周波数帯域まで並べて配置し、並べて配置された参照信号群の各周波数成分に対してオーディオ信号の周波数特性に応じた重み付けを行うことにより、補間信号を生成する構成としてもよい。
 また、本実施形態の信号処理装置は、補間信号生成手段による参照信号の複製に先立ち、該参照信号に含まれるノイズを低減するノイズ低減手段を備える構成としてもよい。
 また、本実施形態の信号処理装置は、オーディオ信号をフィルタリングするフィルタ手段を備える構成としてもよい。この場合、信号合成手段は、フィルタ手段によりフィルタリングされたオーディオ信号に補間信号を合成することで該オーディオ信号の高域補間を行う。また、フィルタ手段は、検出周波数に応じてオーディオ信号に対するカットオフ周波数が可変する構成としてもよい。
 また、本発明の一実施形態に係る信号処理方法は、オーディオ信号から所定の条件を満たす周波数を検出する周波数検出ステップと、周波数検出ステップでの検出周波数又はその付近の周波数特性に応じて該検出周波数をオフセットするオフセットステップと、オフセットステップでのオフセット後の検出周波数に基づいてオーディオ信号から信号を抽出して参照信号を生成する参照信号生成ステップと、生成された参照信号に基づいて補間信号を生成する補間信号生成ステップと、生成された補間信号をオーディオ信号と合成することで該オーディオ信号の高域補間を行う信号合成ステップとを含む。
 本発明の実施形態によれば、オーディオ信号に対する高域補間による音質の向上を達成するのに好適な信号処理装置及び信号処理方法が提供される。
本発明の実施形態の音響処理装置の構成を示すブロック図である。 本発明の実施形態の音響処理装置に備えられる高域補間処理部の構成を示すブロック図である。 本発明の実施形態の高域補間処理部に備えられる帯域検出部の動作説明を補助する説明補助図である。 本発明の実施形態の帯域検出部に入力される高圧縮オーディオ信号の複素スペクトルとスレッシュホールド周波数との関係を示す図(上欄図)及び当該高圧縮オーディオ信号の周波数と信号レベルの変化率との関係を示す図(下欄図)である。 本発明の実施形態の帯域検出部に入力される高圧縮オーディオ信号の複素スペクトルとスレッシュホールド周波数との関係を示す図(上欄図)及び当該高圧縮オーディオ信号の周波数と信号レベルの変化率との関係を示す図(下欄図)である。 本発明の実施形態の高域補間処理部に備えられる参照信号抽出部に入力される複素スペクトルに対して高域補間するまでの一連の処理を説明するための動作波形図(図6(a)~図6(h))である。 スレッシュホールド周波数又はその付近における信号レベルの変化率とスレッシュホールド周波数のオフセット量との関係を示す図である。 本発明の実施形態の高域補間処理部に備えられる補間信号生成部の動作を説明するための動作波形図(図8(a)及び図8(b))である。 本発明の実施形態の高域補間処理部に備えられる第一ノイズ低減回路によるノイズ除去処理を説明するための図(図9(a)及び図9(b))である。 本発明の実施形態の高域補間処理部に備えられる第二ノイズ低減回路によるノイズ除去処理を説明するための図(図10(a)~図10(d))である。 本発明の実施形態において、周波数スロープに応じたスレッシュホールド周波数のオフセット処理を導入することによる効果を説明する、事例1の説明図(図11(a)~図11(c))である。 本発明の実施形態において、参照信号に対する窓関数による重み付け及びオーバラップ処理を導入することによる効果を説明する、事例2の説明図(図12(a)~図12(c))である。 本発明の実施形態において、第一ノイズ低減回路によるノイズ除去処理を導入することによる効果を説明する、事例3の説明図(図13(a)及び図13(b))である。 本発明の実施形態において、第二ノイズ低減回路によるノイズ除去処理を導入することによる効果を説明する、事例4の説明図(図14(a)~図14(c))である。
 以下、図面を参照して、本発明の実施形態の音響処理装置について説明する。
[音響処理装置1全体の構成]
 図1は、本実施形態の音響処理装置1の構成を示すブロック図である。図1に示されるように、音響処理装置1は、FFT(Fast Fourier Transform)部10、高域補間処理部20及びIFFT(Inverse FFT)部30を備えている。
 FFT部10には、例えば、音源部より非可逆圧縮フォーマットの符号化信号を復号化したオーディオ信号や可逆圧縮フォーマットの符号化信号を復号化したオーディオ信号、CD音源、DVD Audio、SACD等のハイレゾリューション音源のオーディオ信号が入力される。非可逆圧縮フォーマットには、例えばMP3、WMA、AACがある。また、可逆圧縮フォーマットには、例えばWMAL(WMA Lossless)、ALAC(Apple Lossless Audio Codec、" Apple"は登録商標)、AAL(ATRAC Advanced Lossless:登録商標)がある。なお、説明の便宜上、非可逆圧縮フォーマットのオーディオ信号を「高圧縮オーディオ信号」と記し、可逆圧縮フォーマットのオーディオ信号並びにハイレゾリューション音源のオーディオ信号及びハイレゾリューション音源のスペックを満たさないCD-DA(44.1kHz/16bit)等のオーディオ信号であって、高圧縮オーディオ信号よりも高域の情報を保持するものを「高品質オーディオ信号」と記す。
 FFT部10は、入力されたオーディオ信号についてオーバラップ処理及び窓関数による重み付けを行った後、STFT(Short-Term Fourier Transform)により時間領域から周波数領域への変換を行い、実数及び虚数の複素スペクトルを得て、高域補間処理部20に出力する。高域補間処理部20は、FFT部10より入力された複素スペクトルの高域を補間してIFFT部30に出力する。高域補間処理部20によって補間される帯域は、例えば、高圧縮オーディオ信号の場合、非可逆圧縮時に大幅にカットされた可聴域の上限に近い又は上限を超える周波数帯域であり、高品質オーディオ信号の場合、レベルが緩やかに減衰する帯域を含む、可聴域の上限に近い又は上限を超える周波数帯域である。IFFT部30は、高域補間処理部20により高域補間された複素スペクトルに基づいて実数及び虚数の複素スペクトルを求め、窓関数による重み付けを行う。IFFT部30は、重み付けされた信号に対してSTFTとオーバラップ加算とを行うことにより、周波数領域から時間領域に信号を変換し、高域補間されたオーディオ信号を生成して出力する。
[高域補間処理部20の構成]
 図2は、高域補間処理部20の構成を示すブロック図である。図2に示されるように、高域補間処理部20は、帯域検出部210、参照信号抽出部220、参照信号補正部230、補間信号生成部240、補間信号補正部250、加算部260、第一ノイズ低減回路270及び第二ノイズ低減回路280を備えている。なお、以下、説明の便宜上、高域補間処理部20内の各部に対する入力信号・出力信号に符号を付す。
 図3は、帯域検出部210の動作説明を補助する図であり、FFT部10から帯域検出部210に入力される複素スペクトルSの例を示す。図3中、縦軸(y軸)は、信号レベル(単位:dB)を示し、横軸(x軸)は、周波数(単位:Hz)を示す。
 帯域検出部210は、FFT部10より入力されたオーディオ信号の複素スペクトルS(リニアスケール)をデシベルスケールに変換する。帯域検出部210は、複素スペクトルSに含まれる局所的なバラツキを抑えるため、デシベルスケールに変換された複素スペクトルSをスムージングにより平滑化する。帯域検出部210は、平滑化された複素スペクトルSについて所定の低中域範囲及び所定の高域範囲の信号レベルを計算し、計算された低中域範囲及び高域範囲の信号レベルに基づいてスレッシュホールドを設定する。スレッシュホールドは、例えば、図3に示されるように、低中域範囲の信号レベル(平均値)と高域範囲の信号レベル(平均値)との中間レベルである。
 帯域検出部210は、FFT部10より入力された複素スペクトルS(リニアスケール)から、スレッシュホールドを下回る周波数ポイントを検出する。図3に示されるように、スレッシュホールドを下回る周波数ポイントが複数存在する場合、帯域検出部210は、より高域側の周波数ポイント(図3の例では周波数ft)を検出する。以下、説明の便宜上、スレッシュホールドにより検出される周波数(ここでは周波数ft)を「スレッシュホールド周波数Fth」と記す。なお、帯域検出部210は、不要な補間信号の生成を抑えるため、次の条件(1)~(3)
(1)検出されたスレッシュホールド周波数Fthが所定の周波数以下
(2)高域範囲の信号レベルが所定値以上
(3)低中域範囲と高域範囲との信号レベル差が所定値以下
の少なくとも1つが満たされるとき、補間信号の生成が不要と判定する。補間信号の生成が不要と判定された複素スペクトルSに対しては、高域補間が行われない。
 ここで、図4の上欄に、FFT部10から帯域検出部210に入力される高圧縮オーディオ信号の複素スペクトルSとスレッシュホールド周波数Fthとの関係を示し、図4の下欄に、当該高圧縮オーディオ信号の周波数と信号レベルの変化率βとの関係を示す。また、図5の上欄に、FFT部10から帯域検出部210に入力される高品質オーディオ信号の複素スペクトルSとスレッシュホールド周波数Fthとの関係を示し、図5下欄に、当該高品質オーディオ信号の周波数と信号レベルの変化率βとの関係を示す。変化率βは、複素スペクトルSに対してハイパスフィルタを用いた微分を行うことで求まる。図4、図5の各図の上欄のグラフにおいて、縦軸(y軸)は、信号レベル(単位:dB)を示し、横軸(x軸)は、周波数(単位:Hz)を示す。また、図4、図5の各図の下欄のグラフにおいて、縦軸(y軸)は、信号レベルの変化率(単位:dB)を示し、横軸(x軸)は、周波数(単位:Hz)を示す。
 高圧縮オーディオ信号は、情報量の削減のため、スレッシュホールド周波数Fth付近を境に高域が急峻にカットされており(図4の上欄参照)、スレッシュホールド周波数Fth付近における信号レベルの変化率βが大きい(図4の下欄参照)。一方、高品質オーディオ信号は、スレッシュホールド周波数Fth付近が比較的緩やかな周波数スロープとなっており(図5の上欄参照)、スレッシュホールド周波数Fth付近における信号レベルの変化率βが小さい(図5の下欄参照)。
 参照信号抽出部220には、第一ノイズ低減回路270及び第二ノイズ低減回路280を介してノイズ除去された複素スペクトルSが入力される。以下、説明の便宜上、第一ノイズ低減回路270によるノイズ除去後の複素スペクトルSに符号「S’」を付し、第二ノイズ低減回路280によるノイズ除去後の複素スペクトルS’に符号「S”」を付す。第一ノイズ低減回路270及び第二ノイズ低減回路280によるノイズ除去処理の詳細は後述する。また、参照信号抽出部220には、オフセット後周波数Fth’の情報が帯域検出部210より入力される。オフセット後周波数Fth’の詳細についても後述する。
 図6(a)~図6(h)は、参照信号抽出部220に入力された複素スペクトルS”に対して高域補間するまでの一連の処理を説明するための動作波形図を示す。図6(a)~図6(h)の各図中、縦軸(y軸)は、信号レベル(単位:dB)を示し、横軸(x軸)は、周波数(単位:Hz)を示す。
 ここで、参照信号抽出部220がスレッシュホールド周波数Fthの情報に基づいて複素スペクトルS”から参照信号Sbを抽出する場合を考える。この場合、例えば、複素スペクトルS”全体のうち、スレッシュホールド周波数Fthから低周波数側へn(0<n)%の範囲の複素スペクトルが参照信号Sbとして抽出される。そのため、参照信号Sbは、スレッシュホールド周波数Fthを検出する際の、スレッシュホールド周波数Fth付近の複素スペクトルS”の周波数スロープの影響を受けて適正な信号レベルにならない虞がある。参照信号Sbは、特に、高品質オーディオ信号の場合には、スレッシュホールド周波数Fth付近の周波数スロープによる品質の劣化が大きく、適正な信号レベルとならないことがある。
 そこで、帯域検出部210は、検出されたスレッシュホールド周波数Fthに対し、スレッシュホールド周波数Fth付近の周波数スロープに応じたオフセット量αを掛け、オフセット後のスレッシュホールド周波数Fth(オフセット後周波数Fth’)を参照信号抽出部220に出力する。参照信号抽出部220は、複素スペクトルS”全体のうち、オフセット後周波数Fth’から低周波数側へn%の範囲の複素スペクトルを参照信号Sbとして抽出する(図6(a)参照)。これにより、スレッシュホールド周波数Fth付近の周波数スロープに起因する参照信号Sbの品質劣化が抑えられる。
 図7は、スレッシュホールド周波数Fth付近(又はスレッシュホールド周波数Fth)における信号レベルの変化率βとオフセット量αとの関係を示す。なお、スレッシュホールド周波数Fth付近における変化率βは、例えば、スレッシュホールド周波数Fthを含む所定範囲内における変化率βの平均値である。図7中、縦軸(y軸)は、オフセット量α(単位:Hz)を示し、横軸(x軸)は、信号レベルの変化率β(単位:dB)を示す。図7に示されるように、オフセット量αは、信号レベルの変化率βが-50dB~0dBの範囲において0Hz~-3kHzの間で変化し、変化率βが大きいほど(周波数スロープが急峻であるほど)絶対値が小さく、変化率βが小さいほど(周波数スロープが緩やかであるほど)絶対値が大きい。
 具体的には、図4の高圧縮オーディオ信号の例では、信号レベルの変化率βが大きく(周波数スロープが急峻であり)、スレッシュホールド周波数Fth付近の周波数スロープによる参照信号Sbの品質劣化が実質的に無い。そのため、オフセット量αはゼロである。従って、参照信号抽出部220は、スレッシュホールド周波数Fthと同一のオフセット後周波数Fth’から低周波数側へn%の範囲の複素スペクトルを参照信号Sbとして抽出する。
 一方、図5の高品質オーディオ信号の例では、信号レベルの変化率βが小さく(周波数スロープが緩やかであり)、スレッシュホールド周波数Fth付近の周波数スロープによる参照信号Sbの品質劣化が大きい。そのため、オフセット量αは-3kHzである。従って、参照信号抽出部220は、スレッシュホールド周波数Fthよりも3kHz低いオフセット後周波数Fth’から低周波数側へn%の範囲の複素スペクトルを参照信号Sbとして抽出する。これにより、参照信号Sbは、図6(a)に例示されるように、スレッシュホールド周波数Fth付近の周波数スロープの影響が排除されて、十分な(適正な)信号レベルとなる。
 ここで、音声帯域(例えば肉声)の信号を基に生成された補間信号によって高域補間を行うと、聴感上違和感を与えやすい音質に劣化するという問題がある。これに対し、本実施形態では、複素スペクトルS”の周波数帯域が狭いほど参照信号Sbの周波数帯域も狭くなるため、音質劣化の原因となる音声帯域の抽出が抑えられる。
 参照信号抽出部220は、複素スペクトルS”から抽出した参照信号Sbを低域側(DC側)へ周波数シフトし(図6(b)参照)、周波数シフトされた参照信号Sbを参照信号補正部230に出力する。
 参照信号補正部230は、参照信号抽出部220より入力された参照信号Sb(リニアスケール)をデシベルスケールに変換し、変換されたデシベルスケールの参照信号Sbについて一次の回帰分析により周波数スロープを検出する。参照信号補正部230は、一次の回帰分析により検出された周波数スロープの逆特性(参照信号Sbに対する周波数毎の重み量)を計算する。具体的には、参照信号補正部230は、参照信号Sbに対する周波数毎の重み量をp(x)と定義し、横軸(x軸)上の周波数領域のFFTのサンプル位置をxと定義し、一次の回帰分析にて検出された参照信号Sbの周波数スロープの値をαと定義し、参照信号Sbの周波数帯域に相当するFFTのサンプル数の1/2をβと定義した場合に、次式(1)により、周波数スロープの逆特性(参照信号Sbに対する周波数毎の重み量p(x))を計算する。
[式(1)]
(x)=-αx+β
 図6(c)に示されるように、参照信号Sbに対する周波数毎の重み量p(x)はデシベルスケールで求められる。参照信号補正部230は、デシベルスケールの重み量p(x)をリニアスケールに変換する。参照信号補正部230は、リニアスケールに変換された重み量p(x)と、参照信号抽出部220より入力された参照信号Sb(リニアスケール)とを乗算することにより、参照信号Sbを補正する。具体的には、参照信号Sbは、フラットな周波数特性を持つ信号(参照信号Sb’)に補正される(図6(d)参照)。
 補間信号生成部240には、参照信号補正部230にて補正された参照信号Sb’が入力される。補間信号生成部240は、参照信号Sb’をスレッシュホールド周波数Fthより高い周波数帯域まで拡張(言い換えると、参照信号Sb’を複製し、複製によって複数に増加された参照信号Sb’をスレッシュホールド周波数Fthより高い周波数帯域まで並べて配置)することにより、高域を含む補間信号Scを生成する(図6(e)参照)。参照信号Sb’が拡張される範囲は、例えば、可聴域の上限に近い帯域や可聴域の上限を超える帯域まで含む。
 図8(a)及び図8(b)は、補間信号生成部240の動作を説明するための動作波形図を示す。参照信号補正部230にて補正された参照信号Sb’は、厳密にはフラットな周波数特性を持つわけではない。そのため、補間信号生成部240において、参照信号Sb’が複数帯域に複製されると、複製された参照信号Sb’間で振幅と位相が急激に変化することによる帯域間干渉が発生する。これにより、本来の補間信号Scよりも時間軸上で前に信号が出力するプリエコーが発生する。そのため、補間信号生成部240は、図8(a)の上欄に示されるように、参照信号Sb’に所定の窓関数を掛けて周波数特性の重み付けを行ってオーバラップ処理を行ない、帯域間での信号レベル差及び位相差を小さくすることで帯域間干渉を低減させる。
 なお、図8(a)の上欄に例示される参照信号Sb’がそのまま複数帯域へ複製されると、補間信号Scがリップルを持つことになる。そのため、補間信号生成部240は、参照信号Sb’をそのピークを境に二分割し、分割された高周波数側の信号と低周波数側の信号とを入れ替える(図8(a)の下欄参照)。補間信号生成部240は、次いで、窓関数による重み付け後の参照信号Sb’(図8(a)の上欄参照)と入れ替え処理後の参照信号(同図下欄参照)とを合成して、帯域間でオーバラップ処理する。これにより、よりフラットな周波数特性を持つ参照信号Sb’が得られる(図8(b)参照)。かかる参照信号Sb’を複数帯域へ複製しても帯域間干渉は生じず、プリエコーが発生しない、フラットな周波数特性を持つ補間信号Scが得られる。
 補間信号補正部250には、補間信号生成部240にて生成された補間信号Scが入力される。また、補間信号補正部250には、第一ノイズ低減回路270より複素スペクトルS’が入力されると共に、帯域検出部210よりオフセット後周波数Fth’の情報が入力される。
 補間信号補正部250は、第一ノイズ低減回路270より入力された複素スペクトルS’(リニアスケール)をデシベルスケールに変換し、変換されたデシベルスケールの複素スペクトルS’について一次の回帰分析により周波数スロープを検出する。なお、補間信号補正部250は、周波数スロープを検出する際、オフセット後周波数Fth’より高域側の情報は用いない。回帰分析範囲は任意に設定することができるが、典型的には、オーディオ信号の高域側と補間信号とを滑らかにつなぐため、低域成分を除く所定の周波数帯域に対応する範囲である。補間信号補正部250は、検出された周波数スロープ及び回帰分析範囲に対応する周波数帯域に応じた重み量を周波数毎に計算する。具体的には、補間信号補正部250は、補間信号Scに対する周波数毎の重み量をp(x)と定義し、横軸(x軸)上の周波数領域のFFTのサンプル位置をxと定義し、回帰分析範囲の上限の周波数をbと定義し、FFTのサンプル長をsと定義し、回帰分析範囲に対応する周波数帯域のスロープの値をαと定義し、所定の補正係数をkと定義した場合に、次式(2)により、補間信号Scに対する周波数毎の重み量p(x)を計算する。
[式(2)]
(x)=-α’x+β
但し、
α’=α-[1-(b/s)]/k
β=-α’b
x<bのとき、p(x)=-∞
 図6(f)に示されるように、補間信号Scに対する周波数毎の重み量p(x)はデシベルスケールで求められる。補間信号補正部250は、デシベルスケールの重み量p(x)をリニアスケールに変換する。補間信号補正部250は、リニアスケールに変換された重み量p(x)と、補間信号生成部240にて生成された補間信号Sc(リニアスケール)とを乗算することにより、補間信号Scを補正する。補正後の補間信号Sc’は、例えば図6(g)に示されるように、オフセット後周波数Fth’より高域の信号であり、周波数が高いほど減衰する特性を持つ。
 加算部260には、FFT部10より第一ノイズ低減回路270を介して複素スペクトルS’が入力されると共に、補間信号補正部250より補間信号Sc’が入力される。複素スペクトルS’は、高域成分が大幅にカット又は高域成分の情報が少ないオーディオ信号の複素スペクトルであり、補間信号Sc’は、当該オーディオ信号の周波数帯域より高い周波数領域の複素スペクトルである。加算部260は、複素スペクトルS’と補間信号Sc’とを合成することにより、高域が補間されたオーディオ信号の複素スペクトルSSを生成し(図6(h)参照)、生成されたオーディオ信号の複素スペクトルSSをIFFT部30に出力する。
 このように、本実施形態では、スレッシュホールド周波数Fth付近の周波数スロープに応じてオフセットされたオフセット後周波数Fth’に基づいて複素スペクトルS”から参照信号Sbが抽出される。これにより、周波数スロープに起因する参照信号Sbの品質劣化が抑えられるため、品質の高い補間信号Sc’が生成可能となる。そのため、FFT部10に入力されるオーディオ信号の周波数特性に拘わらず、オーディオ信号に対して連続的変化で減衰する自然な特性のスペクトルでの高域補間が可能となり、聴感上の音質向上が達成される。
 また、本実施形態では、参照信号Sb’に窓関数による重み付け及びオーバラップ処理が行われることにより、帯域間干渉によるプリエコーの発生が抑えられる。すなわち、高域補間処理の副作用として現れるプリエコーが抑えられるため、聴感上の音質向上が達成される。
 ところで、音源部より入力されるオーディオ信号には、音源の収録環境や音響機材の影響により、スレッシュホールド周波数Fthを超える帯域で不要な正弦波ノイズやサンプリング周波数の変換に伴うエイリアシングノイズ(折り返しノイズ)が混入しているものがある。図9(a)に、この種のノイズが混入されたオーディオ信号の複素スペクトルSを例示する。図9(a)に例示される正弦波ノイズやエイリアシングノイズは、音質劣化の原因であるため、除去することが望まれる。
 そこで、第一ノイズ低減回路270は、スレッシュホールド周波数Fthに応じてカットオフ周波数が可変するローパスフィルタを備える。具体的には、第一ノイズ低減回路270は、FFT分10より入力される複素スペクトルSを、帯域検出部210より入力されるスレッシュホールド周波数Fthの情報に基づいてフィルタリングし、フィルタリングされた複素スペクトルS’を後段の回路に出力する。
 図9(b)に、図9(a)に例示される複素スペクトルSをスレッシュホールド周波数Fthでフィルタリングした結果得られる複素スペクトルS’を示す。図9(b)に示されるように、複素スペクトルS’は、第一ノイズ低減回路270によって正弦波ノイズやエイリアシングノイズが除去されている。これにより、正弦波ノイズやエイリアシングノイズによる音質の劣化が抑えられる。
 また、音源部より入力されるオーディオ信号には、音源の収録環境や音響機材の影響により、スレッシュホールド周波数Fthより低い帯域で不要な正弦波ノイズが混入しているものがある。図10(a)に、この種のノイズが混入されたオーディオ信号の複素スペクトルSを例示する。
 図10(a)の例では、参照信号Sbとして抽出される帯域にノイズが混入している。ノイズが混入された参照信号Sbを基に補間信号を生成して高域補間を行うと、高域補間されたオーディオ信号には、図10(b)に示されるように、参照信号Sb’の複製回数に応じて増加したノイズが重畳される。
 そこで、本実施形態では、参照信号Sbに混入され得るノイズは、参照信号Sb’を複数帯域に複製する前段側で予め低減される。具体的には、第二ノイズ低減回路280は、STFT毎に低域から高域に亘って複数回入力される複素スペクトルS’を振幅スペクトルと位相スペクトルに変換する。第二ノイズ低減回路280は、変換された各振幅スペクトルにおいて、フィルタリング処理による定常的な成分(すなわちDC及びDC付近の変動成分)を抑圧する。第二ノイズ低減回路280は、抑圧後の振幅スペクトルと位相スペクトルから複素スペクトルへの再変換を行う。これにより得られる複素スペクトルS”は、図10(c)に示されるように、正弦波等の定常的な成分のみが抑圧されたものとなる。正弦波等が抑圧された参照信号Sbを基に補間信号を生成して高域補間を行うと、図10(d)に示されるように、参照信号Sb’を複製する過程でのノイズの増加が抑えられる。その結果、正弦波ノイズによる音質の劣化が抑えられる。
[具体的動作パラメータ例]
 次に、本実施形態の音響処理装置1の動作パラメータ例を示す。ここに例示される動作パラメータは、下記の各事例1~4に適用される。なお、各事例1~4で処理されるオーディオ信号は、高品質オーディオ信号である。
(FFT部10/IFFT部30)
サンプリング周波数:96kHz
サンプル長    :8,192サンプル
窓関数      :ハニング
オーバラップ長  :75%
(帯域検出部210)
最小制御周波数  :7kHz
低中域範囲    :2kHz~6kHz
高域範囲     :46kHz~48kHz
高域レベル判定  :-40dB
信号レベル差   :30dB
スレッシュホールド:0.5
一次ハイパスフィルタの正規化カットオフ周波数:0.005
(参照信号抽出部220)
参照帯域幅    :6kHz
(補間信号生成部240)
窓関数      :ハニング
(補間信号補正部250)
下限周波数    :500Hz
補正係数k    :0.01
(第一ノイズ低減回路270)
スレッシュホールド周波数Fthに応じた可変ローパスフィルタ
(第二ノイズ低減回路280)
一次ハイパスフィルタの正規化カットオフ周波数:0.01
 「サンプリング周波数(=96kHz)」は、STFTによる周波数領域のFFTのサンプル位置を周波数に変換して示したものである。「最小制御周波数(=7kHz)」は、帯域検出部210にて検出されるスレッシュホールド周波数Fthが7kHz未満の場合、高域補間を行わないことを示す。「高域レベル判定(=-40dB)」は、高域範囲の信号レベルが-40dB以上の場合、高域補間を行わないことを示す。「信号レベル差(=30dB)」は、低中域範囲と高域範囲との信号レベル差が30dB以下の場合、高域補間を行わないことを示す。「スレッシュホールド(=0.5)」は、スレッシュホールド周波数Fthを検出するためのスレッシュホールドが低中域範囲の信号レベル(平均値)と高域範囲の信号レベル(平均値)との中間値であることを示す。帯域検出部210の「一次ハイパスフィルタの正規化カットオフ周波数」は、変化率βを検出する際に設定される値である。「参照帯域幅(=6kHz)」は、「最小制御周波数(=7kHz)」に対応する参照信号Sbの帯域幅である。「下限周波数(=500Hz)」は、補間信号補正部250による回帰分析の範囲下限を示す(すなわち、500Hz未満は回帰分析の範囲に含まれない。)。
[事例1]
 図11(a)~図11(c)は、事例1を説明するための図である。図11(a)~図11(c)の各図中、縦軸(y軸)は、信号レベル(単位:dB)を示し、横軸(x軸)は、周波数(単位:kHz)を示す。事例1では、周波数スロープに応じたスレッシュホールド周波数Fthのオフセット処理を導入することによる効果を説明する。
 図11(a)は、事例1において、高域補間処理部20に入力されるオーディオ信号の複素スペクトルSを示す。図11(a)に示される複素スペクトルSは、高品質オーディオ信号のスペクトルであることから、高域側の周波数スロープ(22kHz~25kHz辺り)が急峻で無く比較的緩やかである。
 図11(b)及び図11(c)は、図11(a)に示される入力(複素スペクトルS)に対する出力(複素スペクトルSS)を示す。図11(b)は、事例1において、周波数スロープに応じたスレッシュホールド周波数Fthのオフセット処理を行わなかった場合の出力を示す。図11(c)は、事例1において、周波数スロープに応じたスレッシュホールド周波数Fthのオフセット処理を行った場合の出力を示す。
 周波数スロープに応じたスレッシュホールド周波数Fthのオフセット処理が行われないと、図11(b)に示されるように、周波数領域において複素スペクトルS’と補間信号Sc’とが滑らかにつながらず(22kHz~25kHz辺りにギャップが生じて)、補間領域(高域)への減衰が不自然となる。加えて、参照信号Sbが充分な(適正な)信号レベルを持たないことから、補間領域での減衰が連続性を欠き、不自然となる。
 これに対し、周波数スロープに応じたスレッシュホールド周波数Fthのオフセット処理が行われると、図11(c)に示されるように、周波数領域において複素スペクトルS’と補間信号Sc’とが滑らかにつながり、補間領域(高域)への減衰が自然となる。加えて、参照信号Sbが充分な(適正な)信号レベルを持つことから、補間領域での減衰が連続的で自然なものになる。
[事例2]
 図12(a)~図12(c)は、事例2を説明するための図(スペクトログラム)である。図12(a)~図12(c)の各図中、縦軸(y軸)は、周波数(単位:kHz)を示し、横軸(x軸)は時間(又はサンプル数)(単位:msec)を示し、色の濃淡はパワー(単位:dB)を示す。事例2では、参照信号Sb’に対する窓関数による重み付け及びオーバラップ処理を導入することによる効果を説明する。
 図12(a)は、事例2において、音響処理装置1に入力されるオーディオ信号のスペクトログラムを示す。
 図12(b)及び図12(c)は、図12(a)に示される入力に対する音響処理装置1の出力を示す。図12(b)は、事例2において、参照信号Sb’に対する窓関数による重み付け及びオーバラップ処理を行わなかった場合の出力を示す。図12(c)は、事例2において、参照信号Sb’に対する窓関数による重み付け及びオーバラップ処理を行った場合の出力を示す。
 参照信号Sb’に対する窓関数による重み付け及びオーバラップ処理が行われないと、図12(b)に示されるように、帯域間干渉によりプリエコー(同図中、高周波側において時間軸方向に細く線状に伸びる成分)が発生する。
 これに対し、参照信号Sb’に対する窓関数による重み付け及びオーバラップ処理が行われると、図12(c)に示されるように、帯域間干渉によるプリエコーの発生が抑えられる。
[事例3]
 図13(a)及び図13(b)は、事例3を説明するための図である。図13(a)、図13(b)の各図中、縦軸(y軸)は、信号レベル(単位:dB)を示し、横軸(x軸)は、周波数(単位:kHz)を示す。事例3では、第一ノイズ低減回路270によるノイズ除去処理を導入することによる効果を説明する。
 図13(a)は、事例3において、第一ノイズ低減回路270に入力されるオーディオ信号の複素スペクトルSを示す。図13(a)に示されるように、事例3では、正弦波ノイズやエイリアシングノイズが複素スペクトルSに含まれている。
 図13(b)は、事例3において、第一ノイズ低減回路270より出力されるオーディオ信号の複素スペクトルS’を示す。図13(b)に示されるように、複素スペクトルS’は、第一ノイズ低減回路270より正弦波ノイズやエイリアシングノイズが除去される。
[事例4]
 図14(a)~図14(c)は、事例4を説明するための図である。図14(a)~図14(c)の各図中、縦軸(y軸)は、信号レベル(単位:dB)を示し、横軸(x軸)は、周波数(単位:kHz)を示す。事例4では、第二ノイズ低減回路280によるノイズ除去処理を導入することによる効果を説明する。
 図14(a)は、事例4において、高域補間処理部20に入力されるオーディオ信号の複素スペクトルSを示す。図14(a)に示される複素スペクトルSは、参照信号Sbとして抽出される帯域に正弦波ノイズが混入している。
 図14(b)及び図14(c)は、図14(a)に示される入力(複素スペクトルS)に対する出力(複素スペクトルSS)を示す。図14(b)は、事例4において、第二ノイズ低減回路280によるノイズ除去処理を行わなかった場合の出力を示す。図14(c)は、事例4において、第二ノイズ低減回路280によるノイズ除去処理を行った場合の出力を示す。
 第二ノイズ低減回路280によるノイズ除去処理が行われないと、図14(b)に示されるように、参照信号Sb’の複製回数に応じて増加したノイズが複素スペクトルSSに重畳される。
 これに対し、第二ノイズ低減回路280によるノイズ除去処理が行われると、図14(c)に示されるように、参照信号Sb’を複製する過程でのノイズの増加が抑えられる。
 以上が本発明の例示的な実施形態の説明である。本発明の実施形態は、上記に説明したものに限定されず、本発明の技術的思想の範囲において様々な変形が可能である。例えば明細書中に例示的に明示される実施例等又は自明な実施例等を適宜組み合わせた内容も本願の実施形態に含まれる。例えば、本実施形態では、参照信号補正部230は、周波数帯域内で単調に増幅又は減衰する特性の参照信号Sbを補正するため、一次の回帰分析を用いている。しかし、参照信号Sbの特性は線形に限らず、場合によっては非線形となる。周波数帯域内で増幅と減衰とを繰り返す特性の参照信号Sbを補正する場合を考える。この場合、参照信号補正部230は、次数を増加して回帰分析を行って逆特性を算出し、算出された逆特性により参照信号Sbを補正する。

Claims (18)

  1.  オーディオ信号から所定の条件を満たす周波数を検出する周波数検出手段と、
     前記周波数検出手段による検出周波数又はその付近の周波数特性に応じて該検出周波数をオフセットするオフセット手段と、
     前記オフセット手段によるオフセット後の検出周波数に基づいて前記オーディオ信号から信号を抽出して参照信号を生成する参照信号生成手段と、
     生成された参照信号に基づいて補間信号を生成する補間信号生成手段と、
     生成された補間信号を前記オーディオ信号と合成することで該オーディオ信号の高域補間を行う信号合成手段と、
    を備える、
    信号処理装置。
  2.  前記オフセット手段は、
      前記検出周波数又はその付近における前記オーディオ信号のスロープ特性を検出し、
      検出されたスロープ特性に応じて前記検出周波数に対するオフセット量を変える、
    請求項1に記載の信号処理装置。
  3.  前記オフセット手段は、
      前記検出周波数又はその付近において前記オーディオ信号の減衰が緩やかであるほど前記検出周波数に対するオフセット量を大きな値に設定する、
    請求項2に記載の信号処理装置。
  4.  前記参照信号生成手段は、
      前記オーディオ信号のうち、前記オフセット後の検出周波数から低周波数側へn%の範囲の信号を抽出し、
      抽出された信号を用いて前記参照信号を生成する、
    請求項1から請求項3の何れか一項に記載の信号処理装置。
  5.  前記周波数検出手段は、
      前記オーディオ信号内の第1の周波数領域及び該第1の周波数領域よりも高い第2の周波数領域のレベルを計算し、
      計算された第1及び第2の周波数領域のレベルに基づいてスレッシュホールドを設定し、
      設定されたスレッシュホールドのレベルを下回る周波数を前記所定の条件を満たす周波数として検出する、
    請求項1から請求項4の何れか一項に記載の信号処理装置。
  6.  前記周波数検出手段は、
      前記スレッシュホールドのレベルを下回る少なくとも1つの周波数ポイントのうち最も高域側の周波数ポイントの周波数を前記所定の条件を満たす周波数として検出する、
    請求項5に記載の信号処理装置。
  7.  前記補間信号生成手段は、
      前記参照信号生成手段により生成された参照信号に対して所定の窓関数による重み付け及びオーバラップ処理を行ったうえで、該参照信号の複製を行い、
      複製によって複数に増加された参照信号を前記検出周波数より高い周波数帯域まで並べて配置し、
      並べて配置された参照信号群の各周波数成分に対して前記オーディオ信号の周波数特性に応じた重み付けを行うことにより、前記補間信号を生成する、
    請求項1から請求項6の何れか一項に記載の信号処理装置。
  8.  前記補間信号生成手段による前記参照信号の複製に先立ち、該参照信号に含まれるノイズを低減するノイズ低減手段
    を備える、
    請求項7に記載の信号処理装置。
  9.  前記オーディオ信号をフィルタリングするフィルタ手段
    を備え、
     前記信号合成手段は、
      前記フィルタ手段によりフィルタリングされたオーディオ信号に前記補間信号を合成することで該オーディオ信号の高域補間を行い、
     前記フィルタ手段は、
      前記検出周波数に応じて前記オーディオ信号に対するカットオフ周波数が可変する、
    請求項1から請求項8の何れか一項に記載の信号処理装置。
  10.  オーディオ信号から所定の条件を満たす周波数を検出する周波数検出ステップと、
     前記周波数検出ステップでの検出周波数又はその付近の周波数特性に応じて該検出周波数をオフセットするオフセットステップと、
     前記オフセットステップでのオフセット後の検出周波数に基づいて前記オーディオ信号から信号を抽出して参照信号を生成する参照信号生成ステップと、
     生成された参照信号に基づいて補間信号を生成する補間信号生成ステップと、
     生成された補間信号を前記オーディオ信号と合成することで該オーディオ信号の高域補間を行う信号合成ステップと、
    を含む、
    信号処理方法。
  11.  前記オフセットステップにて、
      前記検出周波数又はその付近における前記オーディオ信号のスロープ特性を検出し、
      検出されたスロープ特性に応じて前記検出周波数に対するオフセット量を変える、
    請求項10に記載の信号処理方法。
  12.  前記オフセットステップにて、
      前記検出周波数又はその付近において前記オーディオ信号の減衰が緩やかであるほど前記検出周波数に対するオフセット量を大きな値に設定する、
    請求項11に記載の信号処理方法。
  13.  前記参照信号生成ステップにて、
      前記オーディオ信号のうち、前記オフセット後の検出周波数から低周波数側へn%の範囲の信号を抽出し、
      抽出された信号を用いて前記参照信号を生成する、
    請求項10から請求項12の何れか一項に記載の信号処理方法。
  14.  前記周波数検出ステップにて、
      前記オーディオ信号内の第1の周波数領域及び該第1の周波数領域よりも高い第2の周波数領域のレベルを計算し、
      計算された第1及び第2の周波数領域のレベルに基づいてスレッシュホールドを設定し、
      設定されたスレッシュホールドのレベルを下回る周波数を前記所定の条件を満たす周波数として検出する、
    請求項10から請求項13の何れか一項に記載の信号処理方法。
  15.  前記周波数検出ステップにて、
      前記スレッシュホールドのレベルを下回る少なくとも1つの周波数ポイントのうち最も高域側の周波数ポイントの周波数を前記所定の条件を満たす周波数として検出する、
    請求項14に記載の信号処理方法。
  16.  前記補間信号生成ステップにて、
      前記参照信号生成ステップにて生成された参照信号に対して所定の窓関数による重み付け及びオーバラップ処理を行ったうえで、該参照信号の複製を行い、
      複製によって複数に増加された参照信号を前記検出周波数より高い周波数帯域まで並べて配置し、
      並べて配置された参照信号群の各周波数成分に対して前記オーディオ信号の周波数特性に応じた重み付けを行うことにより、前記補間信号を生成する、
    請求項10から請求項15の何れか一項に記載の信号処理方法。
  17.  前記補間信号生成ステップでの前記参照信号の複製に先立ち、該参照信号に含まれるノイズを低減するノイズ低減ステップ
    を含む、
    請求項16に記載の信号処理方法。
  18.  前記オーディオ信号をフィルタリングするフィルタステップ
    を含み、
     前記信号合成ステップにて、
      前記フィルタステップでフィルタリングされたオーディオ信号に前記補間信号を合成することで該オーディオ信号の高域補間を行い、
     前記フィルタステップにて、
      前記検出周波数に応じて前記オーディオ信号に対するカットオフ周波数が可変する、
    請求項10から請求項17の何れか一項に記載の信号処理方法。
PCT/JP2015/067824 2014-07-04 2015-06-22 信号処理装置及び信号処理方法 WO2016002551A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US15/322,194 US10354675B2 (en) 2014-07-04 2015-06-22 Signal processing device and signal processing method for interpolating a high band component of an audio signal
EP15814179.6A EP3166107B1 (en) 2014-07-04 2015-06-22 Audio signal processing device and method
CN201580036691.3A CN106663448B (zh) 2014-07-04 2015-06-22 信号处理装置和信号处理方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2014-138351 2014-07-04
JP2014138351A JP6401521B2 (ja) 2014-07-04 2014-07-04 信号処理装置及び信号処理方法

Publications (1)

Publication Number Publication Date
WO2016002551A1 true WO2016002551A1 (ja) 2016-01-07

Family

ID=55019095

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2015/067824 WO2016002551A1 (ja) 2014-07-04 2015-06-22 信号処理装置及び信号処理方法

Country Status (5)

Country Link
US (1) US10354675B2 (ja)
EP (1) EP3166107B1 (ja)
JP (1) JP6401521B2 (ja)
CN (1) CN106663448B (ja)
WO (1) WO2016002551A1 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6401521B2 (ja) * 2014-07-04 2018-10-10 クラリオン株式会社 信号処理装置及び信号処理方法
JP6611042B2 (ja) * 2015-12-02 2019-11-27 パナソニックIpマネジメント株式会社 音声信号復号装置及び音声信号復号方法
CN107154993A (zh) * 2017-05-16 2017-09-12 深圳市乃斯网络科技有限公司 终端的语音处理方法及系统
US10366710B2 (en) * 2017-06-09 2019-07-30 Nxp B.V. Acoustic meaningful signal detection in wind noise
DE102017006980A1 (de) * 2017-07-22 2019-01-24 Leopold Kostal Gmbh & Co. Kg Verfahren zum Erkennen einer Annäherung an ein Sensorelement
DE102017009705A1 (de) * 2017-10-18 2019-04-18 Leopold Kostal Gmbh & Co. Kg Verfahren zum Erkennen einer Annäherung an ein Sensorelement
KR102475989B1 (ko) 2018-02-12 2022-12-12 삼성전자주식회사 오디오 신호의 주파수의 변화에 따른 위상 변화율에 기반하여 노이즈가 감쇠된 오디오 신호를 생성하는 장치 및 방법
CN109557509B (zh) * 2018-11-23 2020-08-11 安徽四创电子股份有限公司 一种用于改善脉间干扰的双脉冲信号合成器
CN115331683A (zh) * 2022-08-08 2022-11-11 北京达佳互联信息技术有限公司 音频处理方法、装置、电子设备及存储介质
CN116821594B (zh) * 2023-05-24 2023-12-05 浙江大学 基于频谱选择机制的图神经网络工业控制系统异常检测方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005010621A (ja) * 2003-06-20 2005-01-13 Matsushita Electric Ind Co Ltd 音声帯域拡張装置及び帯域拡張方法
WO2009054393A1 (ja) * 2007-10-23 2009-04-30 Clarion Co., Ltd. 高域補間装置および高域補間方法
WO2014192675A1 (ja) * 2013-05-31 2014-12-04 クラリオン株式会社 信号処理装置及び信号処理方法

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7457757B1 (en) * 2002-05-30 2008-11-25 Plantronics, Inc. Intelligibility control for speech communications systems
GB2392358A (en) * 2002-08-02 2004-02-25 Rhetorical Systems Ltd Method and apparatus for smoothing fundamental frequency discontinuities across synthesized speech segments
EP1742202B1 (en) * 2004-05-19 2008-05-07 Matsushita Electric Industrial Co., Ltd. Encoding device, decoding device, and method thereof
US7715573B1 (en) * 2005-02-28 2010-05-11 Texas Instruments Incorporated Audio bandwidth expansion
CN100440317C (zh) * 2005-05-24 2008-12-03 北京大学科技开发部 数字助听器语音频率压缩方法
JP4701392B2 (ja) 2005-07-20 2011-06-15 国立大学法人九州工業大学 高域信号補間方法及び高域信号補間装置
WO2007029796A1 (ja) 2005-09-08 2007-03-15 Pioneer Corporation 帯域拡張装置、帯域拡張方法および帯域拡張プログラム
JP2007093677A (ja) * 2005-09-27 2007-04-12 D & M Holdings Inc オーディオ信号出力装置
JP4882383B2 (ja) * 2006-01-18 2012-02-22 ヤマハ株式会社 オーディオ信号の帯域拡張装置
JP5141180B2 (ja) * 2006-11-09 2013-02-13 ソニー株式会社 周波数帯域拡大装置及び周波数帯域拡大方法、再生装置及び再生方法、並びに、プログラム及び記録媒体
US8831936B2 (en) * 2008-05-29 2014-09-09 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for speech signal processing using spectral contrast enhancement
US8315405B2 (en) * 2009-04-28 2012-11-20 Bose Corporation Coordinated ANR reference sound compression
CN103069484B (zh) * 2010-04-14 2014-10-08 华为技术有限公司 时/频二维后处理
US9047875B2 (en) * 2010-07-19 2015-06-02 Futurewei Technologies, Inc. Spectrum flatness control for bandwidth extension
EP2739207B1 (en) * 2011-08-02 2017-07-19 Valencell, Inc. Systems and methods for variable filter adjustment by heart rate metric feedback
JP2013073230A (ja) * 2011-09-29 2013-04-22 Renesas Electronics Corp オーディオ符号化装置
LT2774145T (lt) * 2011-11-03 2020-09-25 Voiceage Evs Llc Nekalbinio turinio gerinimas mažos spartos celp dekoderiui
EP2803137B1 (en) * 2012-01-10 2016-11-23 Cirrus Logic International Semiconductor Limited Multi-rate filter system
JP6401521B2 (ja) * 2014-07-04 2018-10-10 クラリオン株式会社 信号処理装置及び信号処理方法
US9780801B2 (en) * 2015-09-16 2017-10-03 Semiconductor Components Industries, Llc Low-power conversion between analog and digital signals using adjustable feedback filter

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005010621A (ja) * 2003-06-20 2005-01-13 Matsushita Electric Ind Co Ltd 音声帯域拡張装置及び帯域拡張方法
WO2009054393A1 (ja) * 2007-10-23 2009-04-30 Clarion Co., Ltd. 高域補間装置および高域補間方法
WO2014192675A1 (ja) * 2013-05-31 2014-12-04 クラリオン株式会社 信号処理装置及び信号処理方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3166107A4 *

Also Published As

Publication number Publication date
CN106663448B (zh) 2020-09-29
EP3166107A1 (en) 2017-05-10
EP3166107A4 (en) 2018-01-03
US10354675B2 (en) 2019-07-16
JP6401521B2 (ja) 2018-10-10
EP3166107B1 (en) 2018-12-12
CN106663448A (zh) 2017-05-10
US20170140774A1 (en) 2017-05-18
JP2016017982A (ja) 2016-02-01

Similar Documents

Publication Publication Date Title
JP6401521B2 (ja) 信号処理装置及び信号処理方法
JP5192053B2 (ja) オーディオ信号の帯域拡張のための装置及び方法
JP6076407B2 (ja) オーディオエンコーダおよび帯域幅拡張デコーダ
JP6229957B2 (ja) 音声信号を再生するための装置および方法、符号化音声信号を生成するための装置および方法、コンピュータプログラム、および符号化音声信号
EP2296145B1 (en) Device and method for manipulating an audio signal having a transient event
JP6769299B2 (ja) オーディオ符号化装置およびオーディオ符号化方法
JP2008513848A (ja) 音声信号の帯域幅を疑似的に拡張するための方法および装置
JP2012521574A (ja) オーディオ信号を操作するための装置および方法
WO2014192675A1 (ja) 信号処理装置及び信号処理方法
KR102251833B1 (ko) 오디오 신호의 부호화, 복호화 방법 및 장치
JP2004053940A (ja) オーディオ復号化装置およびオーディオ復号化方法
JPWO2008015732A1 (ja) 帯域拡張装置及び方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15814179

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 15322194

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

REEP Request for entry into the european phase

Ref document number: 2015814179

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 2015814179

Country of ref document: EP