WO2019009204A1 - 信号処理装置、制御方法、プログラム及び記憶媒体 - Google Patents

信号処理装置、制御方法、プログラム及び記憶媒体 Download PDF

Info

Publication number
WO2019009204A1
WO2019009204A1 PCT/JP2018/024840 JP2018024840W WO2019009204A1 WO 2019009204 A1 WO2019009204 A1 WO 2019009204A1 JP 2018024840 W JP2018024840 W JP 2018024840W WO 2019009204 A1 WO2019009204 A1 WO 2019009204A1
Authority
WO
WIPO (PCT)
Prior art keywords
quantization noise
sound data
block
attenuation
frequency
Prior art date
Application number
PCT/JP2018/024840
Other languages
English (en)
French (fr)
Inventor
長谷川 真
弥生 佐藤
Original Assignee
パイオニア株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パイオニア株式会社 filed Critical パイオニア株式会社
Priority to US16/627,023 priority Critical patent/US11031023B2/en
Priority to JP2019527673A priority patent/JP6816277B2/ja
Priority to EP18827498.9A priority patent/EP3651365A4/en
Publication of WO2019009204A1 publication Critical patent/WO2019009204A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M1/00Analogue/digital conversion; Digital/analogue conversion
    • H03M1/06Continuously compensating for, or preventing, undesired influence of physical parameters
    • H03M1/0617Continuously compensating for, or preventing, undesired influence of physical parameters characterised by the use of methods or means not specific to a particular type of detrimental influence
    • H03M1/0626Continuously compensating for, or preventing, undesired influence of physical parameters characterised by the use of methods or means not specific to a particular type of detrimental influence by filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • G10L19/265Pre-filtering, e.g. high frequency emphasis prior to encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • G10L21/034Automatic adjustment
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G9/00Combinations of two or more types of control, e.g. gain control and tone control
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M1/00Analogue/digital conversion; Digital/analogue conversion
    • H03M1/06Continuously compensating for, or preventing, undesired influence of physical parameters
    • H03M1/08Continuously compensating for, or preventing, undesired influence of physical parameters of noise
    • H03M1/0854Continuously compensating for, or preventing, undesired influence of physical parameters of noise of quantisation noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones

Definitions

  • the present invention relates to a technique for controlling quantization noise.
  • Patent Document 1 discloses a technique of spectrally converting digital data quantized by a low number of bits, removing a spectrum below a predetermined level, and outputting inverse Fourier-transformed data.
  • Patent Document 1 there is a problem in that, as well as quantization noise, originally existing sound components are also removed by uniformly removing quantization noise which is not bothersome to hearing.
  • the main object of the present invention is to provide a signal processing apparatus capable of preferably attenuating quantization noise.
  • the invention described in the claims is a signal processing apparatus, which is an acquisition unit for acquiring quantized sound data, and a quantum of the sound data generated by the quantization based on the volume of the sound data. And quantization noise control means for determining a control amount for the quantization noise.
  • the invention set forth in the claims is a control method executed by the signal processing device, wherein the quantization step is performed based on an acquisition step of acquiring sound data subjected to quantization and a volume of the sound data. And a quantization noise control step of determining a control amount for the quantization noise of the generated sound data.
  • the invention described in the claims is a program executed by a computer, and is a program generated by the quantization based on acquisition means for acquiring sound data subjected to quantization, and a volume of the sound data.
  • the computer functions as quantization noise control means for determining a control amount for quantization noise of sound data.
  • Fig. 2 shows a functional block diagram of a conversion device.
  • regulates the maximum attenuation amount, and the specific example of the attenuation process in a frequency domain are shown.
  • the signal waveform in the time domain at the time of performing quantization of a sine wave signal by each of a high res specification and CD specification, and a frequency domain is shown.
  • produces in CD specification is shown.
  • (A) shows a waveform obtained by performing quantization noise attenuation processing on the waveform of FIG. 6 (B), and (B) shows frequency characteristics of an output signal.
  • (A) shows the frequency characteristic of an input signal having a relatively small input level
  • (B) shows a waveform showing a calculation result obtained by applying a window function to the input signal having the frequency characteristic. It is.
  • (A) shows a waveform obtained by performing quantization noise attenuation processing on the waveform of FIG. 8 (B), and (B) shows frequency characteristics of an output signal.
  • the block block diagram of the converter which concerns on a modification is shown. It is a figure showing an example of division of a frequency band in the case of determining the amount of maximum attenuation to a plurality of frequency bands, respectively.
  • the signal processing device quantizes the sound data generated by the quantization on the basis of an acquiring unit for acquiring the sound data subjected to the quantization and the volume of the sound data.
  • quantization noise control means for determining a control amount for noise.
  • the signal processing apparatus determines that the control amount for controlling the quantization noise is based on the volume of the sound data, focusing on the fact that the auditory sense to the quantization noise is different according to the volume of the acquired sound data. Thereby, the signal processing apparatus can control suitably the quantization noise heard to a user, and can reduce the influence.
  • the control amount is an attenuation amount for attenuating a signal level of the sound data in a predetermined frequency band
  • the quantization noise control unit is configured to reduce the attenuation amount based on the volume. Change.
  • the quantization noise control means can preferably suppress unnecessary removal of the originally existing sound component while attenuating the quantization noise.
  • the quantization noise control unit increases the attenuation amount as the volume is smaller.
  • the signal processing apparatus can preferably attenuate the quantization noise while avoiding the influence on the originally existing sound component.
  • the quantization noise control means determines the attenuation amount based on the volume and the frequency of the sound data.
  • quantization noise tends to be easily audible when the frequency of the input signal is relatively low, as described later in the examples. Therefore, according to this aspect, the signal processing apparatus can more effectively attenuate the quantization noise while avoiding the influence on the originally existing sound component.
  • the quantization noise control means increases the attenuation amount as the frequency is lower.
  • the signal processing device further includes conversion means for converting a time waveform of the sound data into a frequency domain, and the quantization noise control means has a predetermined amplitude of the frequency domain. Attenuation is performed based on the control amount for frequencies less than that. According to this aspect, the signal processing apparatus can attenuate the amplitude of the frequency affected by the quantization noise to preferably reduce the quantization noise.
  • the conversion means converts a time waveform of the sound data cut out at predetermined time intervals into a frequency domain.
  • the base of the waveform in the frequency domain is broadened by the influence of cutting out, and depending on the volume of the sound data, quantization noise and the original sound component are mixed in a specific frequency band.
  • the signal processing apparatus preferably attenuates the quantization noise in the range that the user can hear, while preferably affecting the originally existing sound component. It can be reduced.
  • the signal processing device further includes dividing means for dividing the sound data into a plurality of frequency bands, and the quantization noise control means is configured to transmit the plurality of frequency bands to each of the plurality of frequency bands.
  • the control amount for the quantization noise is determined.
  • the signal processing apparatus can appropriately determine the control amount for each frequency band.
  • the signal processing device further includes: a harmonic generation unit configured to generate harmonics of the sound data for which the quantization noise is controlled; and an output unit configured to output the sound data having the harmonics generated. Prepare.
  • the signal processing apparatus can preferably perform upconversion to a standard with higher quality.
  • Another embodiment of the present invention is a control method executed by a signal processing device, which is generated by the quantization based on an acquiring step of acquiring quantized sound data, and a volume of the sound data. And a quantization noise control step of determining a control amount for the quantization noise of the sound data.
  • the signal processing apparatus can appropriately control quantization noise heard by the user to reduce the influence thereof.
  • a program that is executed by a computer, which is generated by the quantization based on an acquiring unit that acquires the quantized sound data, and the volume of the sound data.
  • the computer functions as quantization noise control means for determining a control amount for quantization noise of sound data.
  • the program is stored in a storage medium.
  • high res refers to a sound source having an information amount exceeding a sampling frequency of 96 kHz and a bit length of 24 bits.
  • FIG. 1 shows the configuration of a sound output system 100 according to the present embodiment.
  • the sound output system 100 is a system for up-converting sound data of the CD standard to the high resolution standard and reproducing the sound data, and includes an input device 1, a conversion device 2, and an output device 3 as shown in FIG. 1.
  • the input device 1 inputs an input signal S1, which is digital data of a CD sound source, to the conversion device 2.
  • the input device 1 may be, for example, an interface device that reads sound data from a recording medium such as a CD, or may be a communication device that receives sound data transmitted from another device by wire or wirelessly. It may be a storage device that stores the signal S1.
  • the conversion device 2 up-converts the input signal S1 input from the input device 1 to output an output signal S2 which is digital data of the high resolution standard to the output device 3.
  • the conversion device 2 first up-converts the sampling frequency and the bit length to a predetermined high resolution format. Although the format is up-converted, it is a signal of CD spec quality since it is a signal that contains quantization noise and is not high-frequency interpolated at this point.
  • processing quantization noise attenuation processing
  • the conversion device 2 is an example of the “signal processing device” in the present invention.
  • the output device 3 is, for example, a speaker, and outputs a sound based on the output signal S2 output from the conversion device 2. Note that at least one of the input device 1 and the output device 3 may be integrated with the conversion device 2. Further, the input device 1 and the output device 3 may be integrated.
  • FIG. 2 shows a functional block diagram of the conversion device 2.
  • the conversion device 2 has a hardware configuration such as a CPU, a ROM, a RAM, etc., and functionally, a time window extraction block 21, an FFT (Fast Fourier Transform) block 22, an attenuation amount limiting block 23, and quantization
  • FFT Fast Fourier Transform
  • a noise attenuation block 24, an overtone generation block 25, an IFFT (Inverse Fast Fourier Transform) block 26, and a time window resynthesis block 27 are included.
  • the time window extraction block 21 extracts the time waveform of the sound data indicated by the input signal S1 while overlapping for each predetermined window length (for each frame) based on various window functions such as a Hanning window. Then, the time window extraction block 21 supplies the sound data for each frame to the FFT block 22 and the attenuation amount limitation block 23, respectively.
  • the FFT block 22 performs fast Fourier transform on sound data of a predetermined time length output from the time window extraction block 21 and outputs an amplitude and a phase for each frequency.
  • the information on the amplitude is supplied to the quantization noise attenuation block 24 and the information on the phase is supplied to the overtone generation block 25.
  • the attenuation limiting block 23 determines the maximum attenuation for the amplitude in the frequency domain to be attenuated in the quantization noise attenuation block 24 based on the magnitude of the signal level of the sound data supplied from the time window extraction block 21.
  • the attenuation amount limiting block 23 includes an RMS value calculation block 31 and a maximum attenuation amount calculation block 32.
  • the RMS value calculation block 31 calculates a root mean square (RMS) value of each frame of sound data supplied from the time window extraction block 21. In this case, the RMS value calculated by the RMS value calculation block 31 corresponds to the magnitude of the average signal level of the sound data for each frame.
  • RMS root mean square
  • the maximum attenuation calculation block 32 calculates, based on the RMS value calculated by the RMS value calculation block 31, the maximum attenuation corresponding to the upper limit of the attenuation with respect to the amplitude in the frequency domain in the quantization noise attenuation block 24. The details of the method of calculating the maximum attenuation will be described later with reference to FIG.
  • the RMS value calculation block 31 may be a calculated value other than the RMS value as long as the value indicates the signal level of sound data.
  • the quantization noise attenuation block 24 attenuates the quantization noise by adjusting the amplitude in the frequency domain of the target frame based on the maximum attenuation amount determined by the attenuation amount limiting block 23.
  • the quantization noise attenuation block 24 estimates that the minimum volume that can be reproduced in the CD standard, which is less than -90.3 dB, is generated due to quantization noise, and is less than -90.3 dB Attenuate the signal level of the frequency that becomes the volume of At this time, the quantization noise attenuation block 24 adjusts the signal level of the frequency at which the volume is less than ⁇ 90.3 dB so as not to exceed the maximum attenuation amount determined by the attenuation amount limiting block 23.
  • the overtone generation block 25 performs overtone generation processing for generating overtone and performing high-frequency interpolation based on the information on the amplitude for each frequency output from the quantization noise attenuation block 24 and the information on the phase output from the FFT block 22.
  • the overtone generation block 25 performs pseudo upsampling of the CD sound source.
  • any known overtone generation method may be applied.
  • the IFFT block 26 converts the sound data of each frame from the frequency domain to the time domain by performing inverse Fourier high-speed conversion on the sound data of the frequency domain in which the harmonic sound generation processing has been performed.
  • the time window re-synthesis block 27 generates the output signal S2 smoothly connected by performing overlap addition on the sound data of each frame output from the IFFT block 26. Then, the time window re-synthesis block 27 supplies the generated output signal S2 to the output device 3.
  • the time window extraction block 21 is an example of the "acquisition means” in the present invention
  • the FFT block 22 is an example of the “conversion means” in the present invention
  • the attenuation amount limiting block 23 and the quantization noise attenuation block 24 are an example of the "quantization noise control means” in the present invention
  • the overtone generation block 25 is an example of the "overtone generation means” in the present invention
  • the time window re-synthesis block 27 is an example of the "output means” in the present invention.
  • CPU etc. of the converter 2 which comprises each block are examples of the "computer” which runs the program in this invention.
  • FIG. 3A is a graph schematically showing a relationship between a value obtained by converting the RMS value calculated by the RMS value calculation block 31 into a dB value and the maximum attenuation amount determined by the maximum attenuation amount calculation block 32.
  • the maximum amount of attenuation is determined in the volume range from 0 dB to about -90 dB. Note that about -90 dB corresponds to the minimum value of the volume that can be reproduced in the CD standard.
  • the maximum attenuation calculation block 32 increases the maximum attenuation as it approaches ⁇ 90 dB, that is, as the volume decreases.
  • the maximum attenuation calculation block 32 refers to an equation or a table or the like corresponding to FIG. 3A stored in advance, and the RMS value calculated by the RMS value calculation block 31 or the RMS value in dB Determine the maximum attenuation from the value converted to.
  • the amount of attenuation can be increased as the input level of the input signal S1 decreases, and the quantization noise can be effectively attenuated while suitably reducing the attenuation of the originally necessary input signal. This effect is discussed in more detail in the Effects section.
  • the relationship between the maximum attenuation and the volume is not limited to the relationship shown in the graph shown in FIG. 3A, as long as the volume is smaller, the maximum attenuation may be larger. Relationship may be established.
  • FIG. 3B shows a waveform in the frequency domain of the sound data cut out by the time window cut-out block 21.
  • the solid line shows the waveform before the quantization noise attenuation processing by the quantization noise attenuation block 24, and the broken line shows the waveform after the quantization noise attenuation processing.
  • the quantization noise attenuation block 24 determines the signal level of the frequency at which the volume is less than -90.3 dB, which is the minimum volume that can be reproduced in the CD standard, the attenuation amount limiting block 23 It is attenuated so as not to exceed the maximum attenuation.
  • the quantization noise attenuation block 24 calculates the difference between ⁇ 90.3 dB and the waveform signal level in the target frequency band as the attenuation amount, and the calculated attenuation amount is the maximum attenuation amount. If it exceeds, the maximum attenuation is taken as the attenuation to be applied. Thereby, the quantization noise attenuation block 24 can preferably attenuate the quantization noise while preventing the waveform from becoming discontinuous.
  • FIG. 4A shows a signal waveform obtained by quantizing sine wave sound data according to the high res standard (24 bits of quantization bits), and FIG. 4B shows a CD standard (16 bits of quantization bits)
  • the signal waveform which quantized the sound data of a sine wave is shown.
  • 4 (C) shows the frequency characteristic of the sound data of FIG. 4 (A)
  • FIG. 4 (D) shows the frequency characteristic of the sound data of FIG. 4 (B).
  • FIG. 4B in the case of the CD standard, a small sound or the like is a stepped signal.
  • FIG. 4D in the case of the CD standard, there are many quantization noises which hardly appear in the quantization with the high res standard (here, 24 bits) even in the audio frequency band of 20 kHz or less. It has occurred.
  • the high resolution standard in the case of the high resolution standard, a smooth signal waveform is obtained due to the high number of quantization bits (see FIG. 4A), and almost no quantization noise is generated (see FIG. 4C).
  • FIG. 5 is a graph quantitatively showing the audibility of quantization noise generated in the CD standard when the combination of the frequency and volume of the original sound data which is a sine wave is changed.
  • the quantization noise generated for each arbitrary combination of the frequency and the volume of the original sound data which is a sine wave is calculated, and the quantization noise is multiplied by an auditory characteristic derived from a loudness curve or the like. Then, the auditory sense of the quantization noise is quantitatively determined and visualized.
  • FIG. 5 shows that the darker area is the area in which the quantization noise is more easily heard (that is, the difference between the high res standard and the CD standard can be easily understood). Incidentally, when the applicant conducted a hearing test, the applicant has obtained the same hearing result as the tendency of the graph of FIG.
  • the smaller the volume and frequency of the input signal the easier it is for the quantization noise to be heard, especially in the low frequency band of about 1 kHz or less in the volume range of about -70 dB or less.
  • the sound quality is deteriorated due to the quantization noise in the low sound volume region and the low frequency band. From this, it is considered that the lower the input level of the input signal S1 or the lower the frequency of the input signal S1, the higher the need to attenuate the quantization noise. Furthermore, it is considered that the lower the input level of the input signal S1 and the frequency of the input signal S1, the higher the need for attenuation.
  • FIG. 6 (A) shows the frequency characteristic of the input signal S1 having a relatively large input level
  • FIG. 6 (B) applies a window function to the input signal S1 having the frequency characteristic shown in FIG. 6 (A).
  • the waveform after Fourier transform ie before quantization noise attenuation processing
  • 7A shows a waveform after performing quantization noise attenuation processing for uniformly attenuating a frequency which is less than ⁇ 90.3 dB with respect to the waveform of FIG. 6B.
  • B) shows the waveform of the frequency characteristic of the output signal S2 generated from the waveform shown in FIG. 7 (A).
  • the base of the waveform portion to be a peak is broadened.
  • FIG. 7A in the case where quantization noise attenuation processing is performed to uniformly attenuate frequencies that are less than -90.3 dB regardless of the input level of the input signal S1, The foot portion is also attenuated along with the quantization noise.
  • the base portion since it is information originally necessary to correctly restore the main signal other than the quantization noise included in the input signal in the IFFT block 26 and the time window re-synthesis block 27 as the output signal S2, As shown in FIG. 7B, in the output signal S2, noise is generated due to the attenuation of the above-described foot portion.
  • the quantization noise attenuation processing is performed without providing the maximum attenuation when the input level of the input signal S1 is relatively large, the signal originally necessary is also attenuated by the quantization noise attenuation processing. As a result, the sound quality may be degraded.
  • FIG. 8 (A) shows the frequency characteristic of the input signal S1 having a relatively small input level
  • FIG. 8 (B) applies a window function to the input signal S1 having the frequency characteristic shown in FIG. 8 (A).
  • the waveform after Fourier transform ie before quantization noise attenuation processing
  • FIG. 9A shows a waveform after performing quantization noise attenuation processing for uniformly attenuating a frequency which is less than ⁇ 90.3 dB with respect to the waveform of FIG. B) shows the frequency characteristics of the output signal S2 generated from the waveform shown in FIG. 9 (A).
  • the conversion apparatus 2 sets the maximum attenuation amount larger as the input level of the input signal S1 is smaller. Thereby, the conversion device 2 can effectively attenuate the quantization noise while suitably reducing the attenuation of the originally necessary input signal.
  • the time window cut-out block 21 of the conversion device 2 acquires the input signal S1 which is the sound data subjected to the quantization, and cuts out the sound data at predetermined time intervals. Then, the attenuation limiting block 23 determines the maximum attenuation based on the volume of the sound data for each frame that has been cut out, and the quantization noise attenuation block 24 determines the maximum attenuation based on the attenuation limiting block 23. The amount of attenuation for the amplitude of the input signal S1 in the frequency domain (that is, the amount of control for quantization noise) is determined. Thereby, the conversion device 2 can effectively attenuate the quantization noise in the audible range while suitably reducing the attenuation of the originally necessary input signal.
  • the maximum attenuation calculation block 32 determines the maximum attenuation for each frame based on the RMS value corresponding to the average input level for each frame. As another example, in addition to the above-mentioned RMS value, the maximum attenuation calculation block 32 may further consider the frequency for each frame to determine the maximum attenuation of each frame.
  • FIG. 10 shows a block configuration of the conversion device 2 according to the present modification.
  • the attenuation amount limiting block 23 of the conversion device 2 has a frequency centroid calculation block 33 in addition to the RMS value calculation block 31 and the maximum attenuation amount calculation block 32.
  • the frequency centroid calculation block 33 calculates the centroid of the frequency (ie, spectrum) based on the frequency spectrum obtained by the FFT block 22 performing Fourier transform on the input signal S1 extracted frame by frame by the time window extraction block 21. Calculate the center of gravity). Then, the frequency centroid calculation block 33 supplies the calculated information on the spectrum centroid to the maximum attenuation calculation block 32.
  • the maximum attenuation calculation block 32 determines the maximum attenuation based on the RMS value obtained from the RMS value calculation block 31 and the spectral centroid obtained from the frequency centroid calculation block 33.
  • the maximum attenuation calculation block 32 refers to a table or equation stored in advance in the memory of the conversion device 2, sets the maximum attenuation higher as the RMS value is lower, and the frequency at which the spectral centroid is low. Set the maximum attenuation amount higher as
  • the quantization noise tends to be more audible as the frequency of the input signal is lower. Therefore, according to the present modification, the conversion device 2 effectively attenuates audible quantization noise by setting the maximum attenuation amount higher as the frequency of the spectrum centroid is lower, thereby suitably improving the sound quality. be able to.
  • the center of the spectrum is calculated for each frame, but it may be a predetermined time length, and for example, the center of gravity of one music piece may be calculated.
  • Modification 2 Although the embodiment shows an example in which the input signal S1 of the CD standard is upconverted to the output signal S2 of the high resolution standard, an example to which the present invention can be applied is not limited to this.
  • the conversion device 2 may convert an input signal S1 of a sound source such as MP3 into an output signal S2 having a specification conforming to the CD standard or the high resolution standard.
  • the conversion device 2 after decoding the input signal S1, the conversion device 2 performs the processing of each processing block shown in FIG. 2 and the like to perform, for example, attenuation of quantization noise and generation of overtones.
  • the quantization noise attenuation block 24 of the conversion device 2 is generated due to the quantization noise for the volume less than the minimum volume (-90.3 dB in the embodiment) reproducible in the standard adopted by the input signal S1. It is estimated that the signal level of the frequency which becomes the volume below the minimum volume is attenuated.
  • the present invention is suitably applied to various processes for up-converting to a standard with a high number of quantization bits.
  • Modification 3 In the embodiment, an example is shown in which the volume for discriminating the quantization noise is set to -90.3 dB, but the example to which the present invention can be applied is not limited to this, and quantization is performed according to the time window and the condition of frequency conversion. You may adjust the volume which discriminate
  • Attenuation is performed in the quantization noise attenuation block 24 based on the magnitude of the signal level of the entire frequency band of the sound data supplied from the time window extraction block 21.
  • the determination method of the largest attenuation is not limited to this.
  • the maximum attenuation calculation block 32 performs quantization noise attenuation processing
  • the sound data supplied from the time window extraction block 21 is divided into a band higher than a certain frequency and a band lower than the frequency and It is also possible to determine the maximum amount of attenuation to be applied in each of the divided bands from the RMS value in the band or a value obtained by converting the RMS value into a dB value.
  • the signal is divided into a frequency band surrounded by a broken line 41 and a frequency band not.
  • the frequency is divided into a band higher than 2000 Hz and a band lower than 2000 Hz.
  • the RMS value in the band higher than 2000 Hz is smaller than the RMS value in the band below 2000 Hz. Therefore, the maximum attenuation in the band above 2000 Hz is larger than the maximum attenuation in the band below 2000 Hz.
  • the frequency band is divided into two based on 2000 Hz, but the present invention is not limited to this.
  • the frequency band is divided into three (a frequency band enclosed by a broken line 42, a frequency band enclosed by an alternate long and short dash line 43, and other frequency bands) based on 1000 Hz and 10000 Hz. It may be divided into three or more bands.
  • the value of the frequency serving as a reference for dividing the frequency band and the number of bands after division can be appropriately changed.
  • the maximum attenuation calculation block 32 calculates the maximum attenuation to be applied in each divided band from the RMS value in each divided band or the value obtained by converting the RMS value into a dB value. decide.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Analogue/Digital Conversion (AREA)

Abstract

変換装置2は、時間窓切出しブロック21と、FFTブロック22と、減衰量制限ブロック23と、量子化ノイズ減衰ブロック24と、倍音生成ブロック25と、IFFTブロック26と、時間窓再合成ブロック27とを有する。減衰量制限ブロック23は、時間窓切出しブロック21から供給される音データの信号レベルの大きさに基づいて、量子化ノイズ減衰ブロック24において減衰させる量子化ノイズの最大減衰量を決定する。量子化ノイズ減衰ブロック24は、減衰量制限ブロック23が決定した最大減衰量に基づき、周波数領域での振幅を調整することで、量子化ノイズを減衰させる。

Description

信号処理装置、制御方法、プログラム及び記憶媒体
 本発明は、量子化ノイズを制御する技術に関する。
 従来から、ビット数の少ない量子化ビットによりデジタル化されたデータの量子化ノイズを除去する技術が知られている。例えば、特許文献1には、低ビット数により量子化されたデジタルデータをスペクトル変換し、所定レベル以下のスペクトルを除去した後、逆フーリエ変換したデータを出力する技術が開示されている。
特開平7-193502号公報
 特許文献1では、聴感上気にならない量子化ノイズについても一様に除去することにより、量子化ノイズと共に、元々存在する音成分も除去してしまうという問題があった。
 本発明が解決しようとする課題は上記のようなものが例として挙げられる。本発明は、量子化ノイズを好適に減衰させることが可能な信号処理装置を提供することを主な目的とする。
 請求項に記載の発明は、信号処理装置であって、量子化が行われた音データを取得する取得手段と、前記音データの音量に基づいて、前記量子化により発生した前記音データの量子化ノイズに対する制御量を決定する量子化ノイズ制御手段と、を備える。
 また、請求項に記載の発明は、信号処理装置が実行する制御方法であって、量子化が行われた音データを取得する取得工程と、前記音データの音量に基づいて、前記量子化により発生した前記音データの量子化ノイズに対する制御量を決定する量子化ノイズ制御工程と、を有する。
 また、請求項に記載の発明は、コンピュータが実行するプログラムであって、量子化が行われた音データを取得する取得手段と、前記音データの音量に基づいて、前記量子化により発生した前記音データの量子化ノイズに対する制御量を決定する量子化ノイズ制御手段として前記コンピュータを機能させる。
実施例に係る音出力システムの構成を示す。 変換装置の機能的なブロック構成図を示す。 最大減衰量を規定するグラフ、及び、周波数領域での減衰処理の具体例を示す。 ハイレゾ規格及びCD規格のそれぞれにより正弦波信号の量子化を行った場合の時間領域及び周波数領域での信号波形を示す。 CD規格において発生する量子化ノイズの聴感を定量的に表したグラフを示す。 (A)は、入力レベルが比較的大きい入力信号の周波数特性を示し、(B)は、当該周波数特性を有する入力信号に対して窓関数を適用してフーリエ変換を行った算出結果を示す波形である。 (A)は、図6(B)の波形に対して量子化ノイズ減衰処理を行うことで得られた波形を示し、(B)は、出力信号の周波数特性を示す。 (A)は、入力レベルが比較的小さい入力信号の周波数特性を示し、(B)は、当該周波数特性を有する入力信号に対して窓関数を適用してフーリエ変換を行った算出結果を示す波形である。 (A)は、図8(B)の波形に対して量子化ノイズ減衰処理を行うことで得られた波形を示し、(B)は、出力信号の周波数特性を示す。 変形例に係る変換装置のブロック構成図を示す。 複数の周波数帯域に対してそれぞれ最大減衰量を決定する場合の周波数帯域の分割例を示した図である。
 本発明の好適な実施形態では、信号処理装置は、量子化が行われた音データを取得する取得手段と、前記音データの音量に基づいて、前記量子化により発生した前記音データの量子化ノイズに対する制御量を決定する量子化ノイズ制御手段と、を備える。この態様では、信号処理装置は、取得した音データの音量に応じて量子化ノイズに対する聴感が異なることに着目し、音データの音量に基づいて量子化ノイズを制御する制御量を決定する。これにより、信号処理装置は、ユーザに聴こえる量子化ノイズを好適に制御してその影響を低減させることができる。
 上記信号処理装置の一態様では、前記制御量は、所定の周波数帯域において前記音データの信号レベルを減衰させる減衰量であり、前記量子化ノイズ制御手段は、前記音量に基づいて、前記減衰量を変化させる。この態様により、量子化ノイズ制御手段は、量子化ノイズを減衰させつつ、元々存在する音成分を不要に除去するのを好適に抑制することができる。
 上記信号処理装置の他の一態様では、前記量子化ノイズ制御手段は、前記音量が小さいほど、前記減衰量を大きくする。出願人は、実施例において後述するように、音データの音量が小さい場合ほど、量子化ノイズが聴こえ易くなり、かつ、量子化ノイズの減衰処理によるノイズでない音成分への影響が小さくなるという知見を得た。従って、この態様により、信号処理装置は、元々存在する音成分への影響を回避しつつ量子化ノイズを好適に減衰させることができる。
 上記信号処理装置の他の一態様では、前記量子化ノイズ制御手段は、前記音量と、前記音データの周波数とに基づいて、前記減衰量を決定する。出願人は、実施例において後述するように、入力信号の周波数が比較的低い場合には、量子化ノイズが聴こえ易い傾向があるという知見を得た。よって、この態様により、信号処理装置は、元々存在する音成分への影響を回避しつつ、量子化ノイズをより効果的に減衰させることができる。好適には、前記量子化ノイズ制御手段は、前記周波数が低いほど、前記減衰量を大きくするとよい。
 上記信号処理装置の他の一態様では、信号処理装置は、前記音データの時間波形を周波数領域へ変換する変換手段をさらに備え、前記量子化ノイズ制御手段は、前記周波数領域の振幅が所定レベル未満の周波数について、前記制御量に基づいて減衰を行う。この態様により、信号処理装置は、量子化ノイズの影響がある周波数の振幅を減衰させて量子化ノイズを好適に低減させることができる。
 上記信号処理装置の他の一態様では、前記変換手段は、所定時間間隔により切り出した前記音データの時間波形を周波数領域へ変換する。このように音データを切り出した場合には、切出しの影響により周波数領域での波形の裾野が広がり、音データの音量によっては量子化ノイズと元々の音成分とが特定の周波数帯域において混じり合う。この場合であっても、信号処理装置は、音量に基づいて制御量を決定することで、ユーザが聴こえる範囲の量子化ノイズを好適に減衰させつつ、元々存在する音成分への影響を好適に低減させることができる。
 上記信号処理装置の他の一態様では、信号処理装置は、前記音データを複数の周波数帯域に分割する分割手段をさらに備え、前記量子化ノイズ制御手段は、前記複数の周波数帯域各々に対して前記量子化ノイズに対する前記制御量を決定する。これにより、信号処理装置は、周波数帯ごとに制御量を適切に定めることができる。好適な例では、信号処理装置は、前記量子化ノイズの制御が行われた音データの倍音生成を行う倍音生成手段と、前記倍音生成が行われた音データを出力する出力手段と、をさらに備える。この態様により、信号処理装置は、より高品質となる規格へのアップコンバートを好適に実行することができる。
 本発明の他の実施形態では、信号処理装置が実行する制御方法であって、量子化が行われた音データを取得する取得工程と、前記音データの音量に基づいて、前記量子化により発生した前記音データの量子化ノイズに対する制御量を決定する量子化ノイズ制御工程と、を有する。信号処理装置は、この制御方法を実行することで、ユーザに聴こえる量子化ノイズを好適に制御してその影響を低減させることができる。
 本発明のさらに別の実施形態では、コンピュータが実行するプログラムであって、量子化が行われた音データを取得する取得手段と、前記音データの音量に基づいて、前記量子化により発生した前記音データの量子化ノイズに対する制御量を決定する量子化ノイズ制御手段として前記コンピュータを機能させる。コンピュータは、このプログラムを実行することで、ユーザに聴こえる量子化ノイズを好適に制御してその影響を低減させることができる。好適には、上記プログラムは、記憶媒体に記憶される。
 以下、図面を参照して本発明の好適な実施例について説明する。以後において、「ハイレゾ」とは、サンプリング周波数:96kHz、ビット長24bitを上回る情報量を有する音源を指すものとする。
 [音出力システムの構成]
 図1は、本実施例に係る音出力システム100の構成を示す。音出力システム100は、CD規格の音データをハイレゾ規格にアップコンバートして再生するシステムであって、図1に示すように、入力装置1と、変換装置2と、出力装置3とを備える。
 入力装置1は、CD音源のデジタルデータである入力信号S1を変換装置2へ入力する。入力装置1は、例えば、CDなどの記録媒体から音データを読み取るインタフェース装置であってもよく、有線又は無線により他の装置から送信される音データを受信する通信装置であってもよく、入力信号S1を記憶する記憶装置であってもよい。
 変換装置2は、入力装置1から入力される入力信号S1をアップコンバートすることで、ハイレゾ規格のデジタルデータである出力信号S2を出力装置3に出力する。この場合、後述するように、変換装置2は、まず、所定のハイレゾフォーマットにサンプリング周波数、ビット長をアップコンバートする。フォーマットはアップコンバートされているが、この時点では、量子化ノイズを含み、かつ、高域補間もされていない信号である為、CDスペックの品質の信号である。次に、入力信号S1に含まれる量子化ノイズを減衰させる処理(量子化ノイズ減衰処理)及び倍音生成処理などを行うことで、CDスペックを上回る品質の音データである出力信号S2を生成する。変換装置2は、本発明における「信号処理装置」の一例である。
 出力装置3は、例えばスピーカなどであり、変換装置2から出力された出力信号S2に基づき音を出力する。なお、入力装置1又は出力装置3の少なくとも一方は、変換装置2と一体化して構成されてもよい。また、入力装置1と出力装置3とが一体化して構成されていてもよい。
 [変換装置のブロック構成]
 図2は、変換装置2の機能的なブロック構成図を示す。変換装置2は、CPU、ROM、RAMなどのハードウェア構成を有し、機能的には、時間窓切出しブロック21と、FFT(Fast Fourier Transform)ブロック22と、減衰量制限ブロック23と、量子化ノイズ減衰ブロック24と、倍音生成ブロック25と、IFFT(Inverse Fast Fourier Transform)ブロック26と、時間窓再合成ブロック27とを有する。
 時間窓切出しブロック21は、ハニング窓などの種々の窓関数に基づき、入力信号S1が示す音データの時間波形を所定時間長の窓幅ごとに(フレームごとに)オーバーラップさせながら切出す。そして、時間窓切出しブロック21は、フレームごとの音データを、FFTブロック22及び減衰量制限ブロック23にそれぞれ供給する。
 FFTブロック22は、時間窓切出しブロック21が出力する所定時間長の音データに対して高速フーリエ変換を行い、周波数ごとの振幅及び位相を出力する。この場合、振幅に関する情報は、量子化ノイズ減衰ブロック24に供給され、位相に関する情報は、倍音生成ブロック25に供給される。
 減衰量制限ブロック23は、時間窓切出しブロック21から供給される音データの信号レベルの大きさに基づいて、量子化ノイズ減衰ブロック24において減衰させる周波数領域での振幅に対する最大減衰量を決定する。減衰量制限ブロック23は、RMS値算出ブロック31と、最大減衰量算出ブロック32とを有する。RMS値算出ブロック31は、時間窓切出しブロック21から供給される音データのフレームごとのRMS(Root Mean Square)値を算出する。この場合、RMS値算出ブロック31により算出されるRMS値は、フレームごとの音データの平均的な信号レベルの大きさに相当する。最大減衰量算出ブロック32は、RMS値算出ブロック31が算出したRMS値に基づき、量子化ノイズ減衰ブロック24での周波数領域での振幅に対する減衰量の上限に相当する最大減衰量を算出する。最大減衰量の算出方法の詳細については図3(A)を参照して後述する。
 なお、RMS値算出ブロック31は、音データの信号レベルを示す値であれば、RMS値以外の計算値であってもよい。
 量子化ノイズ減衰ブロック24は、減衰量制限ブロック23が決定した最大減衰量に基づき、対象となるフレームの周波数領域での振幅を調整することで、量子化ノイズを減衰させる。本実施例では、量子化ノイズ減衰ブロック24は、CD規格において再現できる最小音量である-90.3dB未満の音量については量子化ノイズに起因して発生したものと推定し、-90.3dB未満の音量となる周波数の信号レベルを減衰させる。このとき、量子化ノイズ減衰ブロック24は、減衰量制限ブロック23が決定した最大減衰量を超えないように、-90.3dB未満の音量となる周波数の信号レベルを調整する。この調整処理の具体例については図3(B)を参照して後述する。なお、-90.3dBは、本発明における「所定レベル」の一例である。また、-90.3dB未満の音量となる周波数は、本発明における「所定の周波数帯域」の一例である。
 倍音生成ブロック25は、量子化ノイズ減衰ブロック24が出力する周波数ごとの振幅の情報と、FFTブロック22が出力した位相の情報とに基づき、倍音を生成し高域補間する倍音生成処理を行う。これにより、倍音生成ブロック25は、CD音源の疑似的なアップサンプリングを行う。この倍音生成処理では、公知となっている任意の倍音生成手法を適用してもよい。
 IFFTブロック26は、倍音生成処理が行われた周波数領域の音データに対して逆フーリエ高速変換を行うことで、フレームごとの音データを周波数領域から時間領域に変換する。時間窓再合成ブロック27は、IFFTブロック26が出力した各フレームの音データをオーバーラップ加算することで滑らかに接続させた出力信号S2を生成する。そして、時間窓再合成ブロック27は、生成した出力信号S2を出力装置3へ供給する。
 なお、図2に示される構成において、時間窓切出しブロック21は、本発明における「取得手段」の一例であり、FFTブロック22は、本発明における「変換手段」の一例である。また、減衰量制限ブロック23及び量子化ノイズ減衰ブロック24は、本発明における「量子化ノイズ制御手段」の一例であり、倍音生成ブロック25は、本発明における「倍音生成手段」の一例であり、時間窓再合成ブロック27は、本発明における「出力手段」の一例である。また、各ブロックを構成する変換装置2のCPUなどは、本発明におけるプログラムを実行する「コンピュータ」の一例である。
 ここで、最大減衰量算出ブロック32による最大減衰量の設定方法について具体的に説明する。
 図3(A)は、RMS値算出ブロック31が算出したRMS値をdB値に変換した値と最大減衰量算出ブロック32が決定する最大減衰量との関係を概略的に示すグラフである。図3(A)の例では、0dBから約-90dBまでの音量域において、最大減衰量が定められている。なお、約-90dBは、CD規格において再現できる音量の最小値に相当する。
 図3(A)に示すように、最大減衰量算出ブロック32は、-90dBに近付くほど、即ち、音量が小さくなるほど、最大減衰量を大きくする。この場合、例えば、最大減衰量算出ブロック32は、予め記憶された図3(A)に相当する式又はテーブル等を参照し、RMS値算出ブロック31が算出したRMS値又は当該RMS値をdB値に変換した値から最大減衰量を決定する。これにより、入力信号S1の入力レベルが小さいほど減衰量を大きくし、本来必要な入力信号の減衰を好適に低減しつつ、量子化ノイズを効果的に減衰させることができる。この効果については、[効果]のセクションで詳しく説明する。
 なお、最大減衰量と音量との関係は、図3(A)に示すグラフに示される関係に限定されず、音量が小さいほど最大減衰量が大きくなる関係であればよく、例えば直線グラフにより示される関係であってもよい。
 次に、量子化ノイズ減衰ブロック24による量子化ノイズ減衰処理の具体例について説明する。
 図3(B)は、時間窓切出しブロック21により切り出された音データの周波数領域での波形を示す。図3(B)において、実線は量子化ノイズ減衰ブロック24による量子化ノイズ減衰処理前の波形を示し、破線は量子化ノイズ減衰処理後の波形を示す。
 図3(B)に示すように、量子化ノイズ減衰ブロック24は、CD規格において再現できる最小音量である-90.3dB未満の音量となる周波数の信号レベルを、減衰量制限ブロック23が決定した最大減衰量を超えないように減衰させている。ここでは、一例として、量子化ノイズ減衰ブロック24は、対象の周波数帯域において、-90.3dBと波形の信号レベルとの差分を減衰量として算出し、かつ、算出した減衰量が最大減衰量を超える場合には最大減衰量を適用すべき減衰量とする。これにより、量子化ノイズ減衰ブロック24は、波形が不連続になるのを防ぎつつ、好適に量子化ノイズを減衰させることができる。
 [効果]
 次に、本実施例による効果について、図4~図9を参照して補足説明する。
 図4(A)は、ハイレゾ規格(24ビットの量子化ビット)により正弦波の音データを量子化した信号波形を示し、図4(B)は、CD規格(16ビットの量子化ビット)により正弦波の音データを量子化した信号波形を示す。また、図4(C)は、図4(A)の音データの周波数特性を示し、図4(D)は、図4(B)の音データの周波数特性を示す。
 図4(B)に示すように、CD規格の場合には、小さい音などが階段状の信号となっている。これにより、図4(D)に示すように、CD規格の場合には、20kHz以下の可聴周波数帯域においても、ハイレゾ規格(ここでは24ビット)での量子化では殆ど現れない量子化ノイズが多く発生している。一方、ハイレゾ規格の場合、量子化ビット数が高いことにより滑らかな信号波形となっており(図4(A)参照)、量子化ノイズが殆ど発生していない(図4(C)参照)。
 図5は、正弦波である元の音データの周波数及び音量の組合せを変化させた場合に、CD規格において発生する量子化ノイズの聴感を定量的に表したグラフである。図5では、正弦波である元の音データの周波数及び音量の任意の各組合せに対して発生する量子化ノイズを算出し、当該量子化ノイズにラウドネス曲線などから導出される聴感特性を乗じることで、量子化ノイズの聴感を定量的に求めて可視化している。図5では、色が濃い領域ほど量子化ノイズが聴こえ易い(即ちハイレゾ規格とCD規格との違いが分かりやすい)領域であることを示す。なお、出願人は、聴感実験を行ったところ、図5のグラフの傾向と同様の聴感結果を得ている。
 図5のグラフによれば、入力信号の音量及び周波数が小さいほど、量子化ノイズが聴き取りやすくなる傾向があり、特に約-70dB以下の音量領域であって約1kHz以下の低周波数帯域において量子化ノイズを聴き取りやすいことが把握される。従って、CD規格の場合には、低音量領域かつ低周波数帯域において、量子化ノイズに起因して音質が劣化していると推定される。このことから、入力信号S1の入力レベルが低いほど、または、入力信号S1の周波数が低いほど、量子化ノイズを減衰させる必要性が高いと考えられる。さらには、入力信号S1の入力レベルと入力信号S1の周波数の双方が低いほど、減衰させる必要性が高いと考えられる。
 ここで、量子化ノイズの減衰処理において、最大減衰量を設けず、入力信号S1の入力レベルの大小によらず一様に振幅を減衰させたときの影響について説明する。
 図6(A)は、入力レベルが比較的大きい入力信号S1の周波数特性を示し、図6(B)は、図6(A)に示す周波数特性を有する入力信号S1に対して窓関数を適用してフーリエ変換を行った後(即ち量子化ノイズ減衰処理前)の波形である。また、図7(A)は、図6(B)の波形に対して-90.3dB未満となる周波数を一様に減衰させる量子化ノイズ減衰処理を行った後の波形を示し、図7(B)は、図7(A)に示す波形から生成される出力信号S2の周波数特性の波形を示す。
 図6(A)、(B)に示すように、入力信号S1の入力レベルが比較的大きいときには、窓関数を適用することにより、ピークとなる波形部分の裾野が広がることになる。そして、図7(A)に示すように、-90.3dB未満となる周波数を入力信号S1の入力レベルによらずに一様に減衰させる量子化ノイズ減衰処理を行った場合には、上述の裾野部分についても量子化ノイズと共に減衰してしまう。この裾野部分については、IFFTブロック26及び時間窓再合成ブロック27において入力信号に含まれていた量子化ノイズ以外の主信号を出力信号S2として正しく元に戻すために本来必要な情報であるため、図7(B)に示すように、出力信号S2には、上述の裾野部分の減衰に起因したノイズが発生することになる。
 このように、入力信号S1の入力レベルが比較的大きいときに最大減衰量を設けることなく量子化ノイズ減衰処理を行った場合、当該量子化ノイズ減衰処理により本来必要な信号についても減衰させてしまい、結果として音質が劣化する可能性がある。
 図8(A)は、入力レベルが比較的小さい入力信号S1の周波数特性を示し、図8(B)は、図8(A)に示す周波数特性を有する入力信号S1に対して窓関数を適用してフーリエ変換を行った後(即ち量子化ノイズ減衰処理前)の波形である。また、図9(A)は、図8(B)の波形に対して-90.3dB未満となる周波数を一様に減衰させる量子化ノイズ減衰処理を行った後の波形を示し、図9(B)は、図9(A)に示す波形から生成される出力信号S2の周波数特性を示す。
 図8(A)、(B)に示すように、入力信号S1の入力レベルが比較的小さいときには、窓関数を適用してフーリエ変換を行った場合であっても、ピークとなる波形部分の裾野は、低音量の領域まで広く生じない。従って、この場合、図9(A)に示すように、-90.3dB未満となる周波数を減衰させる量子化ノイズ減衰処理を行った場合であっても、上述した裾野部分の減衰範囲が少ない。従って、この場合、図9(B)に示すように、出力信号S2には量子化ノイズ減衰処理によるノイズが殆ど発生していない。
 このように、入力信号S1の入力レベルが比較的小さいときに量子化ノイズ減衰処理を行った場合には、本来必要な入力信号を減衰させることなく好適に量子化ノイズを減衰させることができる。また、図5を参照して説明したように、入力信号S1の入力レベルが小さいほど、量子化ノイズが聴き取りやすいため、量子化ノイズを減衰させる必要性が高い。以上を勘案し、本実施例では、変換装置2は、入力信号S1の入力レベルが小さいほど最大減衰量を大きく設定する。これにより、変換装置2は、本来必要な入力信号の減衰を好適に低減しつつ、量子化ノイズを効果的に減衰させることができる。
 以上説明したように、変換装置2の時間窓切出しブロック21は、量子化が行われた音データである入力信号S1を取得し、所定時間間隔ごとに音データの切出しを行う。そして、減衰量制限ブロック23は、切り出されたフレームごとの音データの音量に基づいて最大減衰量を決定し、量子化ノイズ減衰ブロック24は、減衰量制限ブロック23が決定した最大減衰量に基づき、入力信号S1の周波数領域での振幅に対する減衰量(即ち量子化ノイズに対する制御量)を決定する。これにより、変換装置2は、本来必要な入力信号の減衰を好適に低減しつつ、可聴域にある量子化ノイズを効果的に減衰させることができる。
 [変形例]
 次に、本実施例に好適な変形例について説明する。以下の変形例は、任意に組み合わせて上述の実施例に適用してもよい。
 (変形例1)
 上述の実施例では、一例として、最大減衰量算出ブロック32は、フレームごとの平均的な入力レベルに相当するRMS値に基づき各フレームに対する最大減衰量を決定した。他の例として、最大減衰量算出ブロック32は、上述のRMS値に加えて、フレームごとの周波数をさらに勘案して各フレームの最大減衰量を決定してもよい。
 図10は、本変形例に係る変換装置2のブロック構成を示す。図10に示すように、変換装置2の減衰量制限ブロック23は、RMS値算出ブロック31及び最大減衰量算出ブロック32に加えて、周波数重心算出ブロック33を有する。ここで、周波数重心算出ブロック33は、時間窓切出しブロック21によってフレームごとに切出された入力信号S1をFFTブロック22がフーリエ変換を行うことで得られた周波数スペクトルに基づき周波数の重心(即ちスペクトル重心)を算出する。そして、周波数重心算出ブロック33は、算出したスペクトル重心の情報を最大減衰量算出ブロック32へ供給する。
 最大減衰量算出ブロック32は、RMS値算出ブロック31から得られるRMS値と、周波数重心算出ブロック33から得られるスペクトル重心とに基づき、最大減衰量を決定する。この場合、例えば、最大減衰量算出ブロック32は、予め変換装置2のメモリに記憶されたテーブル又は式を参照し、RMS値が低いほど最大減衰量を高く設定し、かつ、スペクトル重心が低い周波数であるほど最大減衰量を高く設定する。
 図5を参照して説明したように、量子化ノイズは、周波数が低い入力信号ほど聴こえ易い傾向がある。よって、本変形例によれば、変換装置2は、スペクトル重心が低い周波数であるほど最大減衰量を高く設定することで、聴こえ易い量子化ノイズを効果的に減衰させ、音質を好適に向上させることができる。なお、上記の変形例ではスペクトルの中心をフレームごとに算出したが、所定の時間長でよく、例えば楽曲一曲分の重心を算出しても良い。
 (変形例2)
 実施例では、CD規格の入力信号S1をハイレゾ規格の出力信号S2にアップコンバートする例を示したが、本発明が適用可能な例はこれに限定されない。
 例えば、変換装置2は、MP3等の音源の入力信号S1をCD規格又はハイレゾ規格並みのスペックを有する出力信号S2に変換するものであってもよい。この場合、変換装置2は、入力信号S1のデコードを行った後、図2等に示される各処理ブロックの処理を実行することで、量子化ノイズの減衰及び倍音生成などを行う。この場合、変換装置2の量子化ノイズ減衰ブロック24は、入力信号S1が採用する規格において再現できる最小音量(実施例では-90.3dB)未満の音量については量子化ノイズに起因して発生したものと推定し、最小音量以下の音量となる周波数の信号レベルを減衰させる。このように、本発明は、量子化ビット数が高い規格にアップコンバートする種々の処理に好適に適用される。
 (変形例3)
 実施例では、量子化ノイズを判別する音量を-90.3dBに設定する例を示したが、本発明が適用可能な例はこれに限らず、時間窓や周波数変換の条件に応じて量子化ノイズを判別する音量を調整してもよい。
(変形例4)
 実施例では、図2の減衰量制限ブロック23の説明において、時間窓切出しブロック21から供給される音データの全周波数帯域の信号レベルの大きさに基づいて、量子化ノイズ減衰ブロック24において減衰させる周波数領域での振幅に対する最大減衰量を決定する例を示したが、最大減衰量の決定方法はこれに限定されない。
 例えば、最大減衰量算出ブロック32が量子化ノイズ減衰処理を行なう際に、時間窓切出しブロック21から供給される音データを、ある周波数より大きい帯域と当該周波数以下の帯域とに分割し、それぞれの帯域におけるRMS値又は当該RMS値をdB値に変換した値から、分割したそれぞれの帯域において適用すべき最大減衰量を決定することも可能である。
 具体的には、図11(A)に示すような波形を示す信号において、破線41で囲われた周波数帯域と、そうでない周波数帯域とに分割する。本例では、周波数が2000Hzより大きい帯域と、2000Hz以下の帯域とに分割している。この際、2000Hzより大きい帯域におけるRMS値は、2000Hz以下の帯域におけるRMS値より小さくなる。したがって、2000Hzより大きい帯域における最大減衰量は、2000Hz以下の帯域における最大減衰量より大きくなる。
 本実施例では、2000Hzを基準として周波数帯域を2つに分割したが、本発明はこれに限定されるものではない。図11(B)に示すように、周波数帯域は1000Hzと10000Hzを基準として3つ(破線42で囲われた周波数帯域、一点鎖線43で囲われた周波数帯域、それ以外の周波数帯域)に分割されてもよいし、3以上の帯域に分割されてもよい。このように、周波数帯域を分ける基準となる周波数の値や分割後の帯域数は、適宜変更可能なものである。そして、いずれの場合においても、最大減衰量算出ブロック32は、分割したそれぞれの帯域におけるRMS値又は当該RMS値をdB値に変換した値から、分割したそれぞれの帯域において適用すべき最大減衰量を決定する。
 1 入力装置
 2 変換装置
 3 出力装置
 100 音出力システム

Claims (11)

  1.  量子化が行われた音データを取得する取得手段と、
     前記音データの音量に基づいて、前記量子化により発生した前記音データの量子化ノイズに対する制御量を決定する量子化ノイズ制御手段と、
    を備える信号処理装置。
  2.  前記制御量は、所定の周波数帯域において前記音データの信号レベルを減衰させる減衰量であり、
     前記量子化ノイズ制御手段は、前記音量に基づいて、前記減衰量を変化させる請求項1に記載の信号処理装置。
  3.  前記量子化ノイズ制御手段は、前記音量が小さいほど、前記減衰量を大きくする請求項2に記載の信号処理装置。
  4.  前記量子化ノイズ制御手段は、前記音量と前記音データの周波数とに基づいて、前記減衰量を決定する請求項2または3に記載の信号処理装置。
  5.  前記量子化ノイズ制御手段は、前記周波数が低いほど、前記減衰量を大きくする請求項4に記載の信号処理装置。
  6.  前記音データの時間波形を周波数領域へ変換する変換手段をさらに備え、
     前記量子化ノイズ制御手段は、前記周波数領域の振幅が所定レベル未満の周波数について、前記制御量に基づいて減衰を行う請求項1~5のいずれか一項に記載の信号処理装置。
  7.  前記変換手段は、所定時間間隔により切り出した前記音データの時間波形を周波数領域へ変換する請求項6に記載の信号処理装置。
  8.  前記音データを複数の周波数帯域に分割する分割手段をさらに備え、
     前記量子化ノイズ制御手段は、前記複数の周波数帯域各々に対して前記量子化ノイズに対する前記制御量を決定する請求項1~7のいずれか一項に記載の信号処理装置。
  9.  信号処理装置が実行する制御方法であって、
     量子化が行われた音データを取得する取得工程と、
     前記音データの音量に基づいて、前記量子化により発生した前記音データの量子化ノイズに対する制御量を決定する量子化ノイズ制御工程と、
    を有する制御方法。
  10.  コンピュータが実行するプログラムであって、
     量子化が行われた音データを取得する取得手段と、
     前記音データの音量に基づいて、前記量子化により発生した前記音データの量子化ノイズに対する制御量を決定する量子化ノイズ制御手段
    として前記コンピュータを機能させるプログラム。
  11.  請求項10に記載のプログラムを記憶した記憶媒体。
PCT/JP2018/024840 2017-07-03 2018-06-29 信号処理装置、制御方法、プログラム及び記憶媒体 WO2019009204A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US16/627,023 US11031023B2 (en) 2017-07-03 2018-06-29 Signal processing device, control method, program and storage medium
JP2019527673A JP6816277B2 (ja) 2017-07-03 2018-06-29 信号処理装置、制御方法、プログラム及び記憶媒体
EP18827498.9A EP3651365A4 (en) 2017-07-03 2018-06-29 SIGNAL PROCESSING DEVICE, CONTROL PROCESS, PROGRAM, AND INFORMATION SUPPORT

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017130504 2017-07-03
JP2017-130504 2017-07-03

Publications (1)

Publication Number Publication Date
WO2019009204A1 true WO2019009204A1 (ja) 2019-01-10

Family

ID=64950871

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/024840 WO2019009204A1 (ja) 2017-07-03 2018-06-29 信号処理装置、制御方法、プログラム及び記憶媒体

Country Status (4)

Country Link
US (1) US11031023B2 (ja)
EP (1) EP3651365A4 (ja)
JP (1) JP6816277B2 (ja)
WO (1) WO2019009204A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109817241A (zh) * 2019-02-18 2019-05-28 腾讯音乐娱乐科技(深圳)有限公司 音频处理方法、装置及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07193502A (ja) 1993-12-25 1995-07-28 Nippon Columbia Co Ltd データー変換装置
JPH1013244A (ja) * 1996-06-20 1998-01-16 Nippon Columbia Co Ltd データ変換装置およびデータ変換方法
JP2003504669A (ja) * 1999-07-02 2003-02-04 テラブス オペレーションズ,インコーポレイティド 符号化領域雑音制御

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3925993B2 (ja) 1997-08-29 2007-06-06 パイオニア株式会社 信号処理装置
JP4127792B2 (ja) 2001-04-09 2008-07-30 エヌエックスピー ビー ヴィ 音声強化デバイス
KR100477699B1 (ko) * 2003-01-15 2005-03-18 삼성전자주식회사 양자화 잡음 분포 조절 방법 및 장치
US8428957B2 (en) * 2007-08-24 2013-04-23 Qualcomm Incorporated Spectral noise shaping in audio coding based on spectral dynamics in frequency sub-bands
US8630848B2 (en) * 2008-05-30 2014-01-14 Digital Rise Technology Co., Ltd. Audio signal transient detection
US20100020985A1 (en) * 2008-07-24 2010-01-28 Qualcomm Incorporated Method and apparatus for reducing audio artifacts
JP2012103395A (ja) * 2010-11-09 2012-05-31 Sony Corp 符号化装置、符号化方法、およびプログラム
DE102011106033A1 (de) * 2011-06-30 2013-01-03 Zte Corporation Verfahren und System zur Audiocodierung und -decodierung und Verfahren zur Schätzung des Rauschpegels
EP2965315B1 (en) * 2013-03-04 2019-04-24 Voiceage Evs Llc Device and method for reducing quantization noise in a time-domain decoder
US9947335B2 (en) * 2013-04-05 2018-04-17 Dolby Laboratories Licensing Corporation Companding apparatus and method to reduce quantization noise using advanced spectral extension
KR102231756B1 (ko) * 2013-09-05 2021-03-30 마이클 안토니 스톤 오디오 신호의 부호화, 복호화 방법 및 장치
WO2017080835A1 (en) * 2015-11-10 2017-05-18 Dolby International Ab Signal-dependent companding system and method to reduce quantization noise
US9936304B2 (en) * 2016-08-23 2018-04-03 Infineon Technologies Ag Digital silicon microphone with configurable sensitivity, frequency response and noise transfer function

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07193502A (ja) 1993-12-25 1995-07-28 Nippon Columbia Co Ltd データー変換装置
JPH1013244A (ja) * 1996-06-20 1998-01-16 Nippon Columbia Co Ltd データ変換装置およびデータ変換方法
JP2003504669A (ja) * 1999-07-02 2003-02-04 テラブス オペレーションズ,インコーポレイティド 符号化領域雑音制御

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3651365A4 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109817241A (zh) * 2019-02-18 2019-05-28 腾讯音乐娱乐科技(深圳)有限公司 音频处理方法、装置及存储介质

Also Published As

Publication number Publication date
EP3651365A1 (en) 2020-05-13
EP3651365A4 (en) 2021-03-31
US11031023B2 (en) 2021-06-08
JPWO2019009204A1 (ja) 2020-07-09
JP6816277B2 (ja) 2021-01-20
US20200118579A1 (en) 2020-04-16

Similar Documents

Publication Publication Date Title
US8194889B2 (en) Hybrid digital/analog loudness-compensating volume control
EP2375785B1 (en) Stability improvements in hearing aids
EP2827330B1 (en) Audio signal processing device and audio signal processing method
EP2579252B1 (en) Stability and speech audibility improvements in hearing devices
US20100179808A1 (en) Speech Enhancement
CN103177727B (zh) 一种音频频带处理方法及系统
JP2015050685A (ja) オーディオ信号処理装置および方法、並びにプログラム
JP4738213B2 (ja) 利得調整方法及び利得調整装置
JP2016017982A (ja) 信号処理装置及び信号処理方法
US8949116B2 (en) Signal processing method and apparatus for amplifying speech signals
JP6482880B2 (ja) ミキシング装置、信号ミキシング方法、及びミキシングプログラム
US10147434B2 (en) Signal processing device and signal processing method
JP5340121B2 (ja) オーディオ信号再生装置
US8144762B2 (en) Band extending apparatus and method
JP6816277B2 (ja) 信号処理装置、制御方法、プログラム及び記憶媒体
WO2016059878A1 (ja) 信号処理装置、信号処理方法及びコンピュータプログラム
KR101890265B1 (ko) 오디오 신호 처리 장치, 오디오 신호 처리 방법 및 오디오 신호 처리 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체
JP6565206B2 (ja) 音声処理装置および音声処理方法
CN106796802B (zh) 用于经由非线性衰减/增益函数来消除音乐噪声的方法和装置
JP2008167152A (ja) 増幅装置、増幅方法及び増幅プログラム
JP2009188449A (ja) 量子化歪み低減装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18827498

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2019527673

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2018827498

Country of ref document: EP

Effective date: 20200203