WO2012005074A1 - 音声信号処理装置、方法、プログラム、及び記録媒体 - Google Patents

音声信号処理装置、方法、プログラム、及び記録媒体 Download PDF

Info

Publication number
WO2012005074A1
WO2012005074A1 PCT/JP2011/063043 JP2011063043W WO2012005074A1 WO 2012005074 A1 WO2012005074 A1 WO 2012005074A1 JP 2011063043 W JP2011063043 W JP 2011063043W WO 2012005074 A1 WO2012005074 A1 WO 2012005074A1
Authority
WO
WIPO (PCT)
Prior art keywords
signal
audio signal
uncorrelated
unit
signals
Prior art date
Application number
PCT/JP2011/063043
Other languages
English (en)
French (fr)
Inventor
純生 佐藤
Original Assignee
シャープ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by シャープ株式会社 filed Critical シャープ株式会社
Priority to US13/808,167 priority Critical patent/US9071215B2/en
Publication of WO2012005074A1 publication Critical patent/WO2012005074A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers
    • H03G3/20Automatic control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • H03G3/3089Control of digital or coded signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/04Circuits for transducers, loudspeakers or microphones for correcting frequency response
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/13Aspects of volume control, not necessarily automatic, in stereophonic sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/07Synergistic effects of band splitting and sub-band processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/13Application of wave-field synthesis in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels

Definitions

  • the present invention relates to an audio signal processing apparatus, method, program, and recording medium for processing an audio signal to be reproduced by a plurality of speakers.
  • Patent Document 1 an acoustic signal processing method has been proposed for enhancing the sense of presence during music playback (see, for example, Patent Document 1).
  • the technique described in Patent Document 1 increases the ratio of reverberation by artificially generating a reverberation component and adding it.
  • this technology depending on the music content, for example, a feeling of reverberation as if listening to music in a hall is added, so that a sense of reality can be enhanced.
  • Patent Document 1 Consider applying the technology described in Patent Document 1 to viewing TV programs.
  • TV program content such as sports programs, news programs, dramas, and movies as well as music programs.
  • reverberation sound is generated and added to the contents of these TV programs, it is obvious that the reverberation sound is added to outdoor sports, for example. That is, the technique by reverberation generation addition represented by patent document 1 has a very limited effect as a means to improve a sense of reality in viewing a TV program.
  • conventionally proposed sound reproduction systems include stereo (2ch) system, 5.1ch surround system (ITU-R BS.775-1), 7.1ch, 9.1ch, 22.2ch, etc.
  • stereo 5.1ch surround system
  • audio signals of television contents are also mostly stereo (2ch).
  • the audio signal as a reverberation component or other element that enhances the sense of reality is mixed in the stereo audio signal.
  • the present invention has been made in view of the above circumstances, and an object of the present invention is to provide an audio signal component that enhances the sense of presence from audio signals for two channels included in audio or musical sound content recorded in stereo.
  • An object of the present invention is to provide an audio signal processing apparatus, method, program, and recording medium that can be decompressed or increased separately.
  • a first technical means of the present invention is an audio signal processing device that increases or decreases an uncorrelated signal of two channels, and the signal between the input audio signals of the two channels
  • An audio signal adding unit for adding to the input audio signal is provided.
  • a user interface for accepting a user operation for changing the degree of increase or decrease in the uncorrelated signal increase / decrease unit, and a user operation accepted by the user interface, And a parameter control unit that changes a parameter indicating the degree of increase or decrease.
  • the user interface expresses the degree of decrease in the uncorrelated signal increase / decrease unit as a negative value and expresses the degree of increase as a positive value. It is what.
  • a fourth technical means is an audio signal processing method for increasing / decreasing uncorrelated signals of two channels, wherein the signal extraction unit extracts an uncorrelated signal between the signals from the input audio signals of the two channels; The uncorrelated signal increase / decrease unit increases / decreases the uncorrelated signal extracted in the extraction step, and the audio signal adder increases / decreases the signal increased / decreased in the increase / decrease step to the input audio signal. And an adding step for adding.
  • the fifth technical means includes: an extraction step of extracting a non-correlated signal between signals from input audio signals of two channels; and an increase / decrease step of increasing or decreasing the uncorrelated signal extracted in the extraction step; An addition step of adding the signal increased or decreased in the increase / decrease step to the input audio signal.
  • the sixth technical means is a computer-readable recording medium recording the program in the fifth technical means.
  • the present invention it is possible to separate or depressurize or increase an audio signal component that enhances the sense of reality from audio signals for two channels included in stereo-recorded audio or musical sound content.
  • FIG. 2 is a block diagram illustrating a configuration example of an audio signal processing unit in the audio data reproduction device of FIG. 1. It is a figure which shows a mode that audio
  • GUI graphical user interface
  • FIG. 6 is a schematic diagram for explaining waveform discontinuities occurring at segment boundaries after inverse discrete Fourier transform when the left and right channel audio signals are discrete Fourier transformed and the left and right channel DC components are ignored. It is a schematic diagram for demonstrating an example of the discontinuous point removal process performed in the post-processing part of FIG. It is a figure which shows the result of having performed the discontinuous point removal process of FIG. 7 with respect to the audio
  • An audio signal processing apparatus is an apparatus that extracts or increases or decreases an uncorrelated signal in two audio signals by utilizing the fact that a signal having no correlation represents a sense of reality. It can be incorporated into a playback device.
  • the audio signal is not limited to a signal in which a so-called audio is recorded, and can also be called an acoustic signal.
  • FIG. 1 is a block diagram showing an example of the configuration of an audio data reproduction apparatus equipped with an audio signal processing apparatus according to the present invention
  • FIG. FIG. 3 is a diagram illustrating a state in which audio data is stored in a buffer in the audio signal processing unit of FIG.
  • An audio data reproduction device 10 illustrated in FIG. 1 includes a decoder 11, an audio signal extraction unit 12, an audio signal processing unit 13, a D / A converter 14, an amplifier 15, a speaker 16, a parameter control unit 17, a user interface control unit 18, It comprises a display device 19a and an input device 19b.
  • the audio signal processing apparatus according to the present invention is mainly configured by the audio signal processing unit 13, and in a preferred configuration example, includes a parameter control unit 17, a user interface control unit 18, a display device 19a, and an input device 19b.
  • the decoder 11 decodes the content of only audio or video with audio, converts it into a signal processable format, and outputs it to the audio signal extraction unit 12.
  • the content is acquired by downloading from the Internet from a digital broadcast content transmitted from a broadcasting station, a server that distributes digital content via a network, or reading from a recording medium such as an external storage device.
  • the audio data reproducing apparatus 10 includes a digital content input unit that inputs digital content including a multi-channel input audio signal.
  • the decoder 11 decodes the digital content input here.
  • the audio signal extraction unit 12 separates and extracts an audio signal from the obtained signal. Here, it is a 2ch stereo signal.
  • the signals for the two channels are output to the audio signal processing unit 13.
  • the user interface control unit 18 obtains an input signal input by the user through, for example, a mouse or keyboard, a remote controller, a touch panel, or a button operation as the input device 19b via a GUI (Graphical User Interface) displayed on the display device 19a. And output to the parameter control unit 17.
  • the parameter control unit 17 converts the input signal into a parameter group related to processing in the audio signal processing unit 13 and outputs them to the audio signal processing unit 13.
  • the audio signal processing unit 13 extracts an uncorrelated signal from the two-channel signal, and uses the parameter input from the parameter control unit 17 for the uncorrelated signal, and the degree of pressure increase or decrease (suppression) of the uncorrelated signal Adjust.
  • the degree of pressure increase (or pressure reduction) refers to the degree of increase (or decrease) in the uncorrelated signal.
  • the original input audio signal may be added to the audio signal obtained as a result of increasing or decreasing the pressure on the uncorrelated signal and output to the D / A converter 14.
  • a signal remaining after extraction (separation) that is, a correlation signal
  • D / You may make it output to A converter 14.
  • the original input audio signal is added to the audio signal of the amount to be increased or decreased to the uncorrelated signal (the increased amount or the reduced amount), and the D / A converter 14 is added. It may be output.
  • the input voice signal to be added may be increased or decreased in consideration of the fact that the uncorrelated signal is originally included.
  • the process (I) is adopted is shown.
  • the processes (I) to (III) all reflect an increase or suppression in the original input audio signal, and are simply Since it can be said that the parameter values are different, they are synonymous.
  • the D / A converter 14 converts the obtained signal into an analog signal, and outputs the left and right signals to the amplifier 15.
  • Each amplifier 15 amplifies the input analog signal and transmits it to each speaker 16, and is output from each speaker 16 as sound into the space.
  • the audio signal processing apparatus is an apparatus that increases or decreases uncorrelated signals of two channels.
  • the audio signal processing apparatus according to the present invention includes the following signal extraction unit and uncorrelated signal increase / decrease unit.
  • the audio signal processing unit 20 illustrated in FIG. 2 includes a preprocessing unit 21, a discrete Fourier transform unit 22, a signal separation and extraction unit 23, gain adjustment units 25a and 25b, a synthesis unit 26, a discrete Fourier inverse transform unit (inverse discrete Fourier transform). Part) 27 and a post-processing part 28.
  • the pre-processing unit 21 reads audio data and performs window function calculation.
  • the discrete Fourier transform unit 22 converts the signal from a time domain representation to a frequency domain representation.
  • the signal extraction unit described above is a part that separates the uncorrelated signal between the two channels from the input audio signals of the two channels, and can be called a non-correlated signal extraction unit, and can be exemplified by the signal separation and extraction unit 23.
  • the signal separation / extraction unit 23 separates the audio signal into a correlation signal and an uncorrelated signal separated from the left and right channels.
  • the gain adjusting units 25a and 25b perform scaling processing (gain coefficient multiplication processing) for each of the left channel uncorrelated signal and the right channel uncorrelated signal. In this example, the gain adjusting units 25a and 25b output the result of increase or decrease.
  • the gain adjusting units 25a and 25b are an example of the above-described uncorrelated signal increasing / decreasing unit.
  • the synthesizing unit 26 synthesizes all the outputs from the gain adjusting units 25a and 25b and the discrete Fourier transform unit 22 for each channel, and outputs them to the discrete Fourier inverse transform unit 27 as a signal after reassignment for each channel.
  • the synthesis unit 26 performs addition processing (that is, superposition processing) on the three audio signals, it can be said to be an addition unit or a superposition unit.
  • the discrete Fourier inverse transform unit 27 returns the input scaled audio signal to the time domain again, and outputs it to the post-processing unit 28.
  • the post-processing unit 28 performs noise removal and outputs a signal to the D / A converter 14 of FIG.
  • the pre-processing unit 21 reads audio data having a length of half of one segment from the audio signal extraction unit 12 in FIG.
  • the audio data refers to a 2-channel discrete audio signal waveform sampled at a sampling frequency such as 48 kHz.
  • a segment is an audio data section composed of a group of sample points having a certain length, and here, it is assumed that the section length is an object of discrete Fourier transform later. For example, the value is 1024. In this example, 512 points of audio data that are half the length of one segment are to be read.
  • the read 512-point audio data is stored in the buffer 30 illustrated in FIG.
  • This buffer can hold the sound signal waveform for the immediately preceding segment, and the past segments are discarded. Audio data for one segment is created by connecting the data for the immediately preceding half segment and the data for the latest half segment, and a window function operation is performed on the signal. That is, all the sample data is read twice in the window function calculation.
  • the audio data for one segment is multiplied by the next Hann window proposed conventionally.
  • m is a natural number
  • M is an even number of one segment length.
  • the input signal x L (m 0 ) at the sample point m 0 (M / 2 ⁇ m 0 ⁇ M) is multiplied by sin 2 ((m 0 / M) ⁇ ). .
  • the same sample point is read as m 0 -M / 2.
  • the discrete Fourier transform unit 22 performs discrete Fourier transform on the sound data obtained in this way as in the following equation (3) to obtain sound data in the frequency domain.
  • DFT represents discrete Fourier transform
  • k is a natural number
  • X L (k) and X R (k) are complex numbers.
  • X L (k) DFT (x ′ L (n))
  • X R (k) DFT (x ′ R (n)) (3)
  • the obtained frequency domain audio data is divided into small bands.
  • ERB Equivalent Rectangular Bandwidth
  • the ERB bandwidth is divided from 0 Hz to half the sampling frequency.
  • f max [Hz] of a given frequency is divided by ERB, that is, the maximum value I of the index of each band divided by ERB is given by the following equation.
  • I floor (21.4 log 10 (0.000043 f max +1)) (4)
  • floor (a) is a floor function and represents the maximum value of an integer not exceeding the real number a.
  • the center frequency F c (i) (1 ⁇ i ⁇ I) [Hz] of each ERB width band (hereinafter referred to as a small band) is given by the following equation.
  • the bandwidth b (i) [Hz] of the ERB at that time is obtained by the following equation.
  • b (i) 24.7 (0.000043F c (i) +1) (6) Therefore, the boundary frequencies F L (i) and F U (i) on both sides of the i-th small band are obtained by shifting the center frequency from the low frequency side to the high frequency side by the frequency width of ERB / 2.
  • the i th small band includes the K U (i) th line spectrum from the K L (i) th line spectrum.
  • K L (i) and K U (i) are expressed by the following equations (7) and (8), respectively.
  • ceil (a) is a ceiling function and represents the minimum value of an integer that is not smaller than the real number a.
  • the line spectrum after the discrete Fourier transform is symmetric with respect to M / 2 (where M is an even number) except for the DC component, that is, for example, X L (0). That is, X L (k) and X L (Mk) have a complex conjugate relationship in the range of 0 ⁇ k ⁇ M / 2. Therefore, in the following, the range of K U (i) ⁇ M / 2 is considered as the object of analysis, and the range of k> M / 2 is treated the same as a symmetric line spectrum having a complex conjugate relationship.
  • the correlation coefficient is obtained by obtaining the normalized correlation coefficient of the left channel and the right channel by the following equation.
  • This normalized correlation coefficient d (i) represents how much the audio signals of the left and right channels are correlated, and takes a real value between 0 and 1. 1 if the signals are exactly the same, and 0 if the signals are completely uncorrelated.
  • the signal separation and extraction unit 23 obtains conversion coefficients for separating and extracting left and right uncorrelated signals from the left and right channel audio signals, and converts each conversion coefficient. Is used to separate and extract uncorrelated signals from the audio signals of the left and right channels. Any uncorrelated signal may be extracted as an estimated speech signal.
  • the left and right channel signals are composed of uncorrelated signals and correlated signals, and the same signal is output from the left and right for the correlated signals.
  • the direction of the sound image synthesized from the correlation signals output from the left and right is determined by the balance of the sound pressures on the left and right of the correlation signal.
  • s (m) is a left and right correlation signal
  • n L (m) is a signal obtained by subtracting a correlation signal s (m) from an audio signal of the left channel and can be defined as an uncorrelated signal (left channel).
  • N R (m) is obtained by subtracting the correlation signal s (m) from the audio signal of the right channel and can be defined as an uncorrelated signal (right channel).
  • is a positive real number representing the degree of left / right sound pressure balance of the correlation signal.
  • the audio signals x ′ L (m) and x ′ R (m) after the window function multiplication described in the equation (2) are expressed by the following equation (14).
  • s ′ (m), n ′ L (m), and n ′ R (m) are obtained by multiplying s (m), n L (m), and n R (m) by a window function, respectively.
  • Equation (15) is obtained by subjecting the equation (14) to discrete Fourier transform.
  • S (k), N L (k), and N R (k) are discrete Fourier transforms of s ′ (m), n ′ L (m), and n ′ R (m), respectively.
  • X L (k) S (k) + N L (k)
  • X R (k) ⁇ S (k) + N R (k) (15)
  • ⁇ (i) represents ⁇ in the i-th subband.
  • K L (i) ⁇ k ⁇ K U (i) (17) I will leave it.
  • P S (i) and P N (i) are the powers of the correlated signal and the uncorrelated signal in the i-th small band, respectively. It is expressed.
  • Equation (9) is It can be expressed as. However, in this calculation, it is assumed that S (k), N L (k), and N R (k) are orthogonal to each other and the power when multiplied is 0.
  • Equation (18) By solving Equation (18) and Equation (20), the following equation is obtained.
  • est (A) represents an estimated value of A.
  • each parameter is obtained as follows.
  • est (N R (i) (k)) for the uncorrelated signal N R (i) (k) of the right channel in the i-th subband is also calculated using the parameters ⁇ 3 and ⁇ 4 .
  • est (N R (i) (k)) ⁇ 3 X L (i) (k) + ⁇ 4 X R (i) (k) (28)
  • the intermediary variables ⁇ 3 and ⁇ 4 are obtained in the same manner as the intermediary variables ⁇ 1 and ⁇ 2 as follows.
  • the signal separation and extraction unit 23 uses the parameter variables ⁇ 1 to ⁇ 4 represented by the equations (27) and (29) and the scaling factors represented by the equations (31) and (32) as the conversion coefficients.
  • the uncorrelated signal on the right channel and the uncorrelated signal on the left channel are separated and output. More specifically, the signal separation and extraction unit 23 outputs the uncorrelated signal est ′ (N L (i) (k)) separated from the left channel to the left channel gain adjustment unit 25a, and outputs the right signal.
  • the uncorrelated signal est ′ (N R (i) (k)) separated from the channel is output to the gain adjusting unit 25b for the right channel.
  • the increase / decrease process in the gain adjustment units 25a and 25b may be an increase / decrease process based on a default value, but is the same as the process using parameters set based on the user operation by the user interface. Since it can be understood if a specific example based on it is used, description of the increase / decrease process based on the default value is omitted.
  • FIG. 4 is a diagram showing an example of a graphical user interface (GUI) screen displayed on the display device 19a by the user interface control unit 18 of FIG.
  • GUI graphical user interface
  • the user interface described below includes the display device 19a, the input device 19b, and the user interface control unit 18.
  • the user interface control unit 18 performs various processes of the user interface described below by the display device 19a and / or the display device 19a. This is done by controlling the input device 19b.
  • the GUI screen 40 illustrated in FIG. 4 shows an example of a screen displayed on the display device 19a by the user interface control unit 18.
  • the GUI screen 40 is displayed when, for example, the user selects a sound quality adjustment item from the setting menu by operating a remote controller or the like.
  • the GUI screen 40 includes a slider 41 for adjusting treble, a slider 42 for adjusting bass, a slider 43 for adjusting left / right balance, and a slider 44 for adjusting increase / decrease in background sound effects. Yes.
  • Adjustment knobs 41a, 42a, 43a, and 44a are movably displayed on the sliders 41, 42, 43, and 44, respectively.
  • the user highlights the background effect sound slider 44 by operating the up and down keys of the remote controller and moves the knob 44a to the left and right by operating the left and right keys of the remote controller.
  • the variable steps are 31 steps from -15 to 15, and the currently set number is displayed under the background sound effect.
  • the uncorrelated signal component is increased as the number is increased, that is, as the knob 44a is moved to the right side.
  • the uncorrelated signal component is reduced as the number is lowered, that is, as the knob 44b is moved to the left side.
  • the user interface expresses the degree of decrease in the uncorrelated signal increase / decrease unit as a negative value and the degree of increase as a positive value.
  • the GUI screen 40 an example including the sliders 41 to 43 is shown, but naturally the sliders 41 to 43 may be omitted.
  • the numbers at the left and right ends simply indicate the number of adjustment steps, but a decibel display or the like may be used.
  • the value of the knob 44a input in this way is converted into a gain value for representing the degree of increase / decrease in the uncorrelated signal used in the audio signal processing unit 13 (20).
  • the value of the knob is r and the gain value after conversion is r ′, for example, the following equation may be adopted in order to make the upper and lower parts of the knob proportional to the level of the audible volume.
  • is a natural number, for example, 15 here.
  • the parameter control unit 17 calculates parameters necessary for the audio signal processing unit 13 and outputs the parameters to the audio signal processing unit 13.
  • the audio signal processing unit 13 generates left and right channel signals.
  • the reassignment of the left and right channel uncorrelated signals in the i-th small band after the pressure increasing process or the suppressing process is performed. This is performed for all small bands.
  • a signal assigned by multiplying the gain and the scaling factor by the gain adjusting unit 25a and an output signal from the discrete Fourier transform unit 22 that is the original left channel signal are combined.
  • the signal assigned by multiplying the gain and the scaling factor by the gain adjustment unit 25b and the output signal from the discrete Fourier transform unit 22 that is the original right channel signal are synthesized for the right channel. This is done by combining in 26.
  • the synthesizer 26 obtains these signals.
  • the result is output to the discrete Fourier inverse transform unit 27.
  • the discrete Fourier inverse transform unit 27 performs discrete Fourier inverse transform on each channel to obtain time-domain output speech signals y ′ L (m) and y ′ R (m).
  • DFT ⁇ 1 represents inverse discrete Fourier transform (inverse discrete Fourier transform).
  • y ′ L (m) DFT ⁇ 1 (Y L (k))
  • y ′ R (m) DFT ⁇ 1 (Y R (k)) (35)
  • the signals y ′ L (m) and y ′ R (m ) Is also multiplied by the window function.
  • the window function is a function as shown in Equation (1), and reading is performed while shifting by half segment length. As described above, the window function is added to the output buffer while shifting by half segment length from the beginning of the previous processed segment. By doing so, the converted data is obtained.
  • FIG. 5 is an enlarged view of a part of the waveform of the audio signal input to the post-processing unit 28 of FIG.
  • FIG. 5 is an enlarged view of a part of the waveform of the audio signal input to the post-processing unit 28 of FIG.
  • discontinuities occur so as to be near the center 51.
  • Many of such discontinuous points are included in the data input to the post-processing unit 28 through the signal separation and extraction unit 23, so that they are perceived as annoying noise during reproduction.
  • Such a discontinuous point occurs because this audio signal processing method performs processing while ignoring the DC component, that is, does not consider the line spectrum of the DC component.
  • FIG. 6 is a waveform graph schematically showing this. More specifically, FIG. 6 is a diagram for explaining the discontinuity points of the waveform generated at the segment boundary after the inverse discrete Fourier transform when the left and right channel audio signals are discrete Fourier transformed and the left and right channel DC components are ignored. It is a schematic diagram.
  • the horizontal axis represents time.
  • the symbol (M-2) (l) indicates the M-2th sample point of the lth segment.
  • the vertical axis of the graph 60 is the value of the output signal for those sample points.
  • a discontinuity occurs in the portion from the end of the l-th segment to the beginning of the (l + 1) -th segment.
  • FIG. 7 is a schematic diagram for explaining an example of the discontinuous point removal process performed by the post-processing unit 28 in FIG. 2, in which the left and right channel audio signals are subjected to discrete Fourier transform and the left and right channel DC components are ignored.
  • FIG. 6 is a schematic diagram for explaining a method of removing a waveform discontinuity generated at a segment boundary after discrete Fourier transform.
  • FIG. 8 is a diagram illustrating a result of the discontinuous point removal process of FIG. 7 performed on the audio signal of FIG.
  • the post-processing unit 28 removes discontinuous points by adding a DC component to the audio signal after the inverse discrete Fourier transform so as to maintain the differential value of the waveform at the boundary of the processing segment.
  • a negative bias is applied, but naturally a positive bias may be applied in order to match the differential values.
  • the speech signal after the inverse discrete Fourier transform to be processed by the post-processing unit 28 performs scaling processing on the uncorrelated signal in the time domain or the frequency domain, as illustrated in each equation, and the scaling processing This is the later audio signal. That is, scaling processing is performed on the uncorrelated signal, and discontinuous points are removed from the uncorrelated signal after the scaling processing.
  • bias components may accumulate, and the waveform amplitude may overflow. Therefore, it is preferable to converge by decreasing the magnitude of the amplitude of the bias component (DC component) to be added as shown in the following equation.
  • “decreasing in time” means decreasing in proportion to the elapsed time from the addition time, for example, the elapsed time from the start point of each processing segment or the start point of the discontinuous point.
  • y ′′ j (m) y ′ j (m) + B ⁇ ((M ⁇ m ⁇ ) / M) (37)
  • is a parameter for adjusting the degree of reduction, and is set to 0.5, for example.
  • both B and ⁇ are positive.
  • may be dynamically increased or decreased according to the value.
  • the timing to increase or decrease may be in the next processing segment.
  • the feedback function works if ⁇ corresponding to the proportional constant to be reduced is changed (changed) according to the absolute value of the bias value (the magnitude of the amplitude of the DC component). A similar effect can be obtained.
  • these methods do not guarantee that the amplitude of the speech waveform does not overflow.
  • a process of not adding the bias term of the second term of Expression (37) may be added as a function of the safety valve. That is, it is preferable that the post-processing unit 28 executes the addition of the DC component (executes the removal of the discontinuous points) only when the amplitude of the DC component obtained for the addition is less than a predetermined value. By adopting this method, the bias component does not accumulate.
  • the audio signal waveform may change so much that the original waveform is already close to discontinuity. If the above-described discontinuous point removal processing is applied to such an audio signal, the waveform may be distorted. In other words, if the above-described discontinuous point removal processing is applied to an audio signal whose original waveform is close to discontinuity, this processing tries to force the waveform close to the original discontinuous state to be continuous continuously. Therefore, the waveform may be distorted.
  • the post-processing unit 28 performs discontinuous point removal processing (noise removal processing) by the following method. That is, when the signal is close to white noise, such as the consonant part of the voice, the number of times that the waveform of the input voice signal crosses 0 within a predetermined time (for example, within the processing segment or half thereof) compared to the other parts. Take advantage of extreme increases. In addition, what is necessary is just to decide where to take 0.
  • discontinuous point removal processing noise removal processing
  • the number of times that the output audio signal (at least the audio signal after the inverse discrete Fourier transform) crosses 0 in the half segment length is counted, and if it is equal to or greater than a certain value (predetermined number), the next And the second term on the right-hand side in Equation (36) or Equation (37) is not added in the next segment processing. That is, the discontinuous point removal process is executed only at other points.
  • the count may be performed for a speech waveform for a certain time regardless of the segment boundary, or may be performed for speech waveforms for a plurality of segment processes. What is necessary is just to determine whether a bias term is added by segment processing.
  • the discontinuity points (near the center 51) in the audio signal 50 in FIG. 5 are continuous by eliminating the discontinuities as shown by the audio signal 80 in FIG. I understand. In this way, discontinuities can be eliminated and noise can be removed.
  • the uncorrelated signal extracted using the present invention is usually a reverberant sound or background sound component in many cases.
  • the level of extraction of the uncorrelated signal is relatively higher than the level of extraction of the correlated signal as described above, for example, to emphasize the cheering of the audience of a sports program and improve the sense of reality. Can be watched.
  • this adjustment method By mounting this adjustment method on a television as one of the preset functions, it is possible to add a presence enhancing function to the television. Then, when the knob is shifted in the horizontal direction by remote control operation, the level of the uncorrelated signal may be controlled to be increased or decreased according to the position.
  • the present invention it is possible to separate and depressurize or increase the audio signal component that enhances the sense of reality from the audio signals for two channels included in the audio or musical sound content recorded in stereo. become. Then, by increasing and / or decreasing the uncorrelated signal, the realistic sensation of the broadcast content and the music content can be improved according to the user's preference.
  • the processing in the audio signal processing apparatus according to the present invention has been described above. Next, application examples further applicable to the above-described examples will be described. In each of the above-described examples, the description has been made on the assumption that the audio signal that has been boosted or suppressed according to the present invention is reproduced by only the left and right speakers, but a sweet spot wider than the multi-channel reproduction method is obtained. It is preferable to reproduce by the wavefront synthesis reproduction method, because the effect of boosting or suppressing is not limited to a narrow listening area.
  • the wavefront synthesis reproduction system is a reproduction system that synthesizes the wavefront of a sound by a group of speakers arranged in a straight line or a plane.
  • the Wave Field Synthesis (WFS) system is a group of speakers arranged in a line (speaker array).
  • WFS Wave Field Synthesis
  • a listener who is listening to sound while facing the speaker array in an acoustic space provided by the WFS method is actually a sound source (virtual sound) in which sound radiated from the speaker array virtually exists behind the speaker array. It feels as if it is being emitted from a sound source. Therefore, in such a system, the effect of pressure increase or suppression according to the present invention can be enjoyed in a wide listening area, and for example, a plurality of listeners arranged side by side can simultaneously enjoy the effect of pressure increase or suppression.
  • the audio signal processing according to the present invention is basically the same regardless of whether the reproduction is performed using the multi-channel reproduction method or the wavefront synthesis reproduction method.
  • the audio signal processing according to the present invention has been described only when the input audio signal is a 2ch audio signal, that is, only the content recorded in stereo. Even an audio signal can be applied.
  • Examples of popular systems other than stereo include 5.1 ch, 7.1 ch, 9.1 ch, and 22.2 ch. Since these methods are also methods for creating a synthesized sound image by combining a plurality of speakers, the uncorrelated signal pressure increasing process or suppressing process according to the present invention can be applied.
  • the uncorrelated signal is increased / decreased and output, and sound source extraction is performed only from the rear left and right channels.
  • the uncorrelated signal can be increased / decreased and output, and the center channel can be output as it is.
  • the present invention is not limited to this, and it is only necessary that separation is possible in the present invention.
  • the main feature of the present invention is to extract or increase or suppress an uncorrelated signal by increasing or decreasing the uncorrelated signal.
  • the audio signal processing apparatus includes, for example, an audio data reproducing apparatus and an audio apparatus such as a personal computer (PC), an optical disk reproducing apparatus, a portable information terminal with a music reproducing function, a television apparatus, a projector, or a small dedicated audio processing apparatus. It can be used for a device with a data reproducing device.
  • the input device is a mouse or the like, but in a portable information terminal, it is a button operation or a touch pad.
  • a button operation provided on the main body or a GUI screen may be output to a display device such as a monitor device or a television device and operated by a remote controller or the like.
  • this audio data reproducing device can be configured not only as a device that handles only audio, but also can be incorporated in a device with video as exemplified by a television device, a projector, and the like.
  • each component of the audio signal processing apparatus such as each component in the audio signal processing unit 20 illustrated in FIG. (Or DSP: Digital Signal Processor), hardware such as a memory, a bus, an interface, and a peripheral device, and software that can be executed on these hardware.
  • Part or all of the hardware can be mounted as an integrated circuit / IC (Integrated Circuit) chip set, and in this case, the software may be stored in the memory.
  • all the components of the present invention may be configured by hardware, and in that case as well, part or all of the hardware can be mounted as an integrated circuit / IC chip set. .
  • a recording medium on which a program code of software for realizing the functions in the various configuration examples described above is recorded is supplied to a device such as a general-purpose computer serving as an audio signal processing device, and the microprocessor or DSP in the device is used.
  • the object of the present invention is also achieved by executing the program code.
  • the software program code itself realizes the functions of the above-described various configuration examples. Even if the program code itself or a recording medium (external recording medium or internal storage device) on which the program code is recorded is used.
  • the present invention can be configured by the control side reading and executing the code.
  • Examples of the external recording medium include various media such as an optical disk such as a CD-ROM or a DVD-ROM and a nonvolatile semiconductor memory such as a memory card.
  • Examples of the internal storage device include various devices such as a hard disk and a semiconductor memory.
  • the program code can be downloaded from the Internet and executed, or received from a broadcast wave and executed.
  • the present invention can also take the form of an audio signal processing method that increases or decreases the uncorrelated signals of two channels.
  • This audio signal processing method has the following extraction step, increase / decrease step, and addition step.
  • the extraction step is a step in which the signal extraction unit extracts an uncorrelated signal between the signals from the input audio signals of the two channels.
  • the increase / decrease step is a step in which the uncorrelated signal increase / decrease unit increases or decreases the uncorrelated signal extracted in the extraction step.
  • the adding step is a step in which the audio signal adding unit adds the signal increased or decreased in the increase / decrease step to the input audio signal.
  • Other application examples are the same as those described for the audio signal processing apparatus, and a description thereof is omitted.
  • the program code itself is a program for causing a computer to execute this audio signal processing method. That is, this program causes a computer to extract an uncorrelated signal between signals from input audio signals of two channels, an increase / decrease step to increase or decrease the uncorrelated signal extracted in the extraction step, and an increase / decrease step An addition step of adding the signal increased or decreased in step (b) to the input audio signal.
  • this program causes a computer to extract an uncorrelated signal between signals from input audio signals of two channels, an increase / decrease step to increase or decrease the uncorrelated signal extracted in the extraction step, and an increase / decrease step An addition step of adding the signal increased or decreased in step (b) to the input audio signal.
  • Other application examples are the same as those described for the audio signal processing apparatus, and a description thereof is omitted.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)

Abstract

 2チャネル分の音声信号から、臨場感を高める音声信号成分を分離して減圧または増圧することが可能な音声信号処理装置を提供する。音声信号処理装置(音声信号処理部20で例示)は、2つのチャネルの入力音声信号から信号間の無相関信号を抽出する信号抽出部(信号分離抽出部23で例示)と、信号抽出部で抽出された信号を増加または減少させる無相関信号増減部(ゲイン調整部25a,25bで例示)と、無相関信号増減部で増加または減少させた信号を、入力音声信号に加算する音声信号加算部とを備える。

Description

音声信号処理装置、方法、プログラム、及び記録媒体
 本発明は、複数のスピーカで再生するための音声信号を処理する音声信号処理装置、方法、プログラム、及び記録媒体に関する。
 従来から、音楽の再生時において臨場感を高めるための音響信号処理方法が提案されている(例えば、特許文献1を参照)。
 特許文献1に記載の技術は、残響成分を人工的に生成してそれを付加することによって、残響音の割合を大きくしている。この技術により、音楽コンテンツによっては、例えばホールで聴いているかのような残響感が付加されることによって、臨場感を高めることができる。
特開平6-43890号公報
 特許文献1に記載の技術を、テレビ番組の視聴に適用することを考える。テレビ番組のコンテンツの種類は、音楽番組だけでなく、スポーツ番組やニュース番組、ドラマ、映画など多岐に亘る。それらのテレビ番組のコンテンツに対し、残響音を生成し付加したとしても臨場感は高まらないことは、例えば屋外スポーツに残響音が付加されることを考えても明らかである。すなわち、特許文献1に代表されるような残響生成付加による技術は、テレビ番組の視聴において臨場感を高める手段としては非常に限定的な効果しか奏しない。
 また、従来から提案されている音響再生方式には、ステレオ(2ch)方式、5.1chサラウンド方式(ITU-R BS.775-1)、7.1ch、9.1ch、22.2chなどがあるが、現在、音声や楽音コンテンツとして最も普及しているチャネル数は2ch(ステレオ)方式であって、一般的に、テレビコンテンツの音声信号もステレオ(2ch)である場合が殆どである。そして、残響成分や、あるいはそのほかの臨場感を高める要素としての音声信号は、ステレオ音声信号の中に混ざって入っている。
 本発明は、上述のような実状に鑑みてなされたものであり、その目的は、ステレオ記録された音声または楽音コンテンツなどに含まれる2チャネル分の音声信号から、臨場感を高める音声信号成分を分離して減圧または増圧することが可能な音声信号処理装置、方法、プログラム、及び記録媒体を提供することにある。
 上述したような課題を解決するために、本発明の第1の技術手段は、2つのチャネルの無相関信号を増減させる音声信号処理装置であって、2つのチャネルの入力音声信号から信号間の無相関信号を抽出する信号抽出部と、該信号抽出部で抽出された無相関信号を増加または減少させる無相関信号増減部と、該無相関信号増減部で増加または減少させた信号を、前記入力音声信号に加算する音声信号加算部とを備えたことを特徴としたものである。
 第2の技術手段は、第1の技術手段において、前記無相関信号増減部における増加または減少の度合いを変更するユーザ操作を受け付けるためのユーザインタフェースと、該ユーザインタフェースで受け付けられたユーザ操作に従って、前記増加または減少の度合いを示すパラメータを変更するパラメータ制御部とをさらに備えたことを特徴としたものである。
 第3の技術手段は、第2の技術手段において、前記ユーザインタフェースは、前記無相関信号増減部における減少の度合いを負の値で表現し、増加の度合いを正の値で表現することを特徴としたものである。
 第4の技術手段は、2つのチャネルの無相関信号を増減させる音声信号処理方法であって、信号抽出部が、2つのチャネルの入力音声信号から信号間の無相関信号を抽出する抽出ステップと、無相関信号増減部が、前記抽出ステップで抽出された無相関信号を増加または減少させる増減ステップと、音声信号加算部が、前記増減ステップで増加または減少させた信号を、前記入力音声信号に加算する加算ステップと、を有することを特徴としたものである。
 第5の技術手段は、コンピュータに、2つのチャネルの入力音声信号から信号間の無相関信号を抽出する抽出ステップと、該抽出ステップで抽出された無相関信号を増加または減少させる増減ステップと、該増減ステップで増加または減少させた信号を、前記入力音声信号に加算する加算ステップと、を実行させるためのプログラムである。
 第6の技術手段は、第5の技術手段におけるプログラムを記録したコンピュータ読み取り可能な記録媒体である。
 本発明によれば、ステレオ記録された音声または楽音コンテンツなどに含まれる2チャネル分の音声信号から、臨場感を高める音声信号成分を分離して減圧または増圧することが可能になる。
本発明に係る音声信号処理装置を備えた音声データ再生装置の一構成例を示すブロック図である。 図1の音声データ再生装置における音声信号処理部の一構成例を示すブロック図である。 図2の音声信号処理部において音声データをバッファに蓄える様子を示す図である。 図1のユーザインタフェース制御部により表示デバイスに表示させるグラフィカルユーザインタフェース(GUI)画面の一例を示す図である。 図2の後処理部に入力される音声信号の波形の一部を拡大した図である。 左右チャネルの音声信号を離散フーリエ変換し左右チャネルの直流成分を無視した場合に、離散フーリエ逆変換後のセグメント境界に生じる波形の不連続点を説明するための模式図である。 図2の後処理部で施される不連続点除去処理の一例を説明するための模式図である。 図5の音声信号に対し、図7の不連続点除去処理を施した結果を示す図である。
 本発明に係る音声信号処理装置は、相関がない信号が臨場感を表していることを利用し、2つの音声信号中の無相関信号を抽出して増加または減少させる装置であって、音声データ再生装置に組み込むことができる。なお、音声信号とは、当然、いわゆる音声を記録した信号に限ったものではなく、音響信号とも呼べる。
 以下、図面を参照しながら、本発明に係る音声信号処理装置の構成例及び処理例について説明する。図1は、本発明に係る音声信号処理装置を備えた音声データ再生装置の一構成例を示すブロック図で、図2は、図1の音声データ再生装置における音声信号処理部の一構成例を示すブロック図である。また、図3は、図2の音声信号処理部において音声データをバッファに蓄える様子を示す図である。
 図1で例示する音声データ再生装置10は、デコーダ11、音声信号抽出部12、音声信号処理部13、D/Aコンバータ14、増幅器15、スピーカ16、パラメータ制御部17、ユーザインタフェース制御部18、表示デバイス19a、及び入力デバイス19bから構成される。本発明に係る音声信号処理装置は、主に音声信号処理部13で構成され、好ましい構成例ではパラメータ制御部17、ユーザインタフェース制御部18、表示デバイス19a、及び入力デバイス19bを備える。
 デコーダ11は、音声のみあるいは音声付き映像のコンテンツを復号化し、信号処理可能な形式に変換し音声信号抽出部12に出力する。そのコンテンツは、放送局から送信されたデジタル放送のコンテンツや、ネットワークを介してディジタルコンテンツを配信するサーバからインターネットからダウンロードしたり、あるいは外部記憶装置等の記録媒体から読み込んだりすることによって取得する。このように、図1では図示しないが、音声データ再生装置10は、マルチチャネルの入力音声信号を含むディジタルコンテンツを入力するディジタルコンテンツ入力部を備える。デコーダ11は、ここで入力されたディジタルコンテンツを復号化することになる。音声信号抽出部12では、得られた信号から音声信号を分離、抽出する。ここではそれは2chステレオ信号とする。その2チャネル分の信号を音声信号処理部13に出力する。
 ユーザインタフェース制御部18では、ユーザが例えば表示デバイス19aに表示するGUI(Graphical User Interface)を介し、入力デバイス19bであるマウスやキーボード、リモートコントローラ、タッチパネル、あるいはボタン操作などによって入力した入力信号を取得し、パラメータ制御部17に出力する。パラメータ制御部17では入力された信号を、音声信号処理部13での処理に関するパラメータ群に変換し、それらを音声信号処理部13に出力する。
 音声信号処理部13では、2チャネル信号から無相関信号を抽出し、その無相関信号について、パラメータ制御部17から入力されたパラメータを用いて、無相関信号の増圧または減圧(抑圧)の度合いを調整する。なお、増圧(または減圧)の度合いとは、無相関信号を増加(または減少)させる度合いを指す。
 そして、(I)無相関信号に対して増圧または減圧を実行した結果として得られた音声信号に、元の入力音声信号を加算して、D/Aコンバータ14に出力するようにしてもよい。同等の処理として、(II)無相関信号に対して増圧または減圧を実行した結果として得られた音声信号に、抽出(分離)により残った信号(つまり相関信号)を加算して、D/Aコンバータ14に出力するようにしてもよい。また、同等の処理として、(III)無相関信号への増圧または減圧する分(増圧分または減圧分)の音声信号に、元の入力音声信号を加算して、D/Aコンバータ14に出力してもよい。
 上記(I)の例では、加算する入力音声信号に元々無相関信号が含まれることを考慮して、増圧または減圧しておけばよい。以下の説明では上記(I)の処理を採用した例を示すが、上記(I)~(III)の処理は、いずれも、増圧または抑圧を元の入力音声信号に反映させており、単にパラメータの値が違うだけとも言えるため、同義である。
 D/Aコンバータ14では得られた信号をアナログ信号に変換し、左右それぞれの信号を増幅器15に出力する。各増幅器15では入力されたアナログ信号を拡声し各スピーカ16に伝送し、各スピーカ16から空間中に音として出力される。
 図1における音声信号処理部13の詳細な構成を、図2を参照しながら説明する。本発明に係る音声信号処理装置は、2つのチャネルの無相関信号を増減させる装置である。そのために、本発明に係る音声信号処理装置(音声信号処理部20で例示)は、次の信号抽出部及び無相関信号増減部を備える。図2で例示する音声信号処理部20は、前処理部21、離散フーリエ変換部22、信号分離抽出部23、ゲイン調整部25a,25b、合成部26、離散フーリエ逆変換部(逆離散フーリエ変換部)27、そして後処理部28から構成される。
 前処理部21では音声データを読み込み、窓関数演算を行う。離散フーリエ変換部22ではその信号を時間領域の表現から周波数領域の表現に変換する。上述した信号抽出部は、2つのチャネルの入力音声信号から2つのチャネル間の無相関信号を分離する部位であり、無相関信号抽出部とも言え、信号分離抽出部23で例示できる。信号分離抽出部23では、音声信号を相関信号と左右チャネルそれぞれから分離される無相関信号に分離する。ゲイン調整部25a,25bは、左チャネル無相関信号、右チャネル無相関信号それぞれについてスケーリング処理(ゲイン係数乗算処理)を行う。この例ではゲイン調整部25a,25bは、増加または減少させた結果を出力する。ゲイン調整部25a,25bは上述の無相関信号増減部の一例である。
 合成部26は、ゲイン調整部25a,25b及び離散フーリエ変換部22からの出力を、チャネル毎に全て合成し、チャネル毎の再割り当て後の信号として、離散フーリエ逆変換部27に出力する。なお、合成部26は、3つの音声信号を加算処理(つまり重ね合わせ処理)するため、加算部あるいは重ね合わせ部とも言える。離散フーリエ逆変換部27は、入力されたスケーリング後の音声信号を再び時間領域に戻し、後処理部28へ出力する。後処理部28は、ノイズ除去を施して信号を図1のD/Aコンバータ14に出力する。
 以下、音声信号処理部20における各部について、具体的な処理例を説明する。
 まず、前処理部21は、1セグメントの半分の長さの音声データを、図1における音声信号抽出部12から読み出す。ここで、音声データとは、例えば48kHzなどの標本化周波数で標本化された2チャネルの離散音声信号波形を指すものとする。そして、セグメントとは、ある一定の長さの標本点群からなる音声データ区間であり、ここでは後ほど離散フーリエ変換の対象となる区間長を指すものとする。その値は例えば1024とする。この例では、1セグメントの半分の長さである512点の音声データが読み出し対象となる。
 読み出した512点の音声データは図3で例示するようなバッファ30に蓄えられる。このバッファは、直前の1セグメント分の音声信号波形を保持しておけるようになっており、それより過去のセグメントは捨てていく。直前の半セグメント分のデータと最新の半セグメント分のデータを繋げて1セグメント分の音声データを作成し、その信号に対し、窓関数演算を行う。すなわち、全ての標本データは窓関数演算に2回読み込まれることになる。
 窓関数演算では、従来提案されている次のHann窓を1セグメント分の音声データに乗算する。
Figure JPOXMLDOC01-appb-M000001
 ここで、mは自然数、Mは1セグメント長で偶数とする。ステレオの入力信号をそれぞれx(m)、x(m)とすると、窓関数乗算後の音声信号x′(m)、x′(m)は、
  x′(m)=w(m)x(m) 、
  x′(m)=w(m)x(m)           (2)
と計算される。このHann窓を用いると、例えば標本点m(ただし、M/2≦m<M)の入力信号x(m)にはsin((m/M)π)が乗算される。そして、その次の回の読み込みではその同じ標本点がm-M/2として読み込まれるので、
Figure JPOXMLDOC01-appb-M000002
が乗算される。ここで、sin((m/M)π)+cos((m/M)π)=1であるから、もし、何も修正を加えずに読み込んだ信号を半セグメントずつずらして加算すれば、元の信号が完全に復元されることになる。
 離散フーリエ変換部22について説明する。離散フーリエ変換部22は、そうして得られた音声データを次の数式(3)のように離散フーリエ変換し、周波数領域の音声データを得る。ここで、DFTは離散フーリエ変換を表し、kは自然数で、0≦k<Mである。X(k)、X(k)は複素数となる。
  X(k)=DFT(x′(n)) 、
  X(k)=DFT(x′(n))           (3)
 次に、信号分離抽出部23での処理について説明する。まず、得られた周波数領域の音声データを小さい帯域に分割する。分割方法についてはEquivalent Rectangular Bandwidth(ERB)を用い、ERBの帯域幅で0Hzから標本化周波数の1/2の周波数までの間を分割する。ここで、ERBにより、与えられた周波数の上限fmax[Hz]までをいくつに分割するか、すなわちERBで分割した各帯域の索引の最大値Iは次式によって与えられる。
  I=floor(21.4log10(0.00437fmax+1))  (4)
 ただし、floor(a)はフロア関数で、実数aを越えない整数の最大値を表す。
 そして、それぞれのERB幅の帯域(以下、小帯域)の中心周波数F (i)(1≦i≦I)[Hz]は次式によって与えられる。
Figure JPOXMLDOC01-appb-M000003
 また、その時のERBの帯域幅b(i)[Hz]は次式によって求められる。
  b(i)=24.7(0.00437F (i)+1)       (6)
 よって、その中心周波数から低域側と高域側にそれぞれERB/2の周波数幅だけシフトすることによりi番目の小帯域の両側の境界周波数F (i)、F (i)を求めることができる。したがって、i番目の小帯域には、K (i)番目の線スペクトルからK (i)番目の線スペクトルが含まれる。ここで、K (i)、K (i)はそれぞれ次の数式(7)、(8)で表される。
  K (i)=ceil(21.4log10(0.00437F (i)+1))  (7)
  K (i)=floor(21.4log10(0.00437F (i)+1)) (8)
 ただし、ceil(a)は天井関数で、実数aより小さくならない整数の最小値を表す。また、離散フーリエ変換した後の線スペクトルは、直流成分すなわち例えばX(0)を除いて、M/2(ただし、Mは偶数)を境に対称となっている。すなわち、X(k)とX(M-k)は0<k<M/2の範囲で複素共役の関係になる。したがって、以下ではK (i)≦M/2の範囲を分析の対象として考え、k>M/2の範囲については複素共役の関係にある対称の線スペクトルと同じ扱いとする。
 これらの具体例を示す。例えば、標本化周波数が48000Hzの場合、I=49となり、49の小帯域に分割することとなる。ただし、直流成分は分割の対象とせず、どの小帯域にも含まないこととする。なぜならば、以下の方式では左右チャネルの正規化相関係数を求めるが、直流成分は複素数の実部しか持たないために正規化相関係数が1となるため、左右チャネルの直流成分が全て相関係数に割り当てられるという不適当な処理になってしまうからである。また、最も高い小帯域区間よりもさらに上の周波数に相当する線スペクトル成分も存在するが、それらは聴感上の影響も殆ど無く、さらに通常は値が微小であるため、それらは最も高い小帯域区間に含めることとして差し支えない。
 次に、このようにして決定される各小帯域において、左チャネルと右チャネルの正規化相関係数を次式で求めることで、相関係数を取得する。
 この正規化相関係数d(i)は左右のチャネルの音声信号にどれだけ相関があるかを表すものであり、0から1の間の実数の値をとる。全く同じ信号同士であれば1、そして全く無相関の信号同士であれば0となる。ここで、左右のチャネルの音声信号の電力P (i)とP (i)の両方が0である場合、その小帯域に関して相関信号と無相関信号の抽出は不可能とし、処理を行わず次の小帯域の処理に移ることとする。また、P (i)とP (i)のいずれか片方が0である場合、数式(9)では演算不可能であるが、正規化相関係数d(i)=0とし、その小帯域の処理を続行する。
 次に、信号分離抽出部23は、この正規化相関係数d(i)を用いて、左右チャネルの音声信号から左右の無相関信号を分離抽出するための変換係数を求め、それぞれの変換係数を用いて、左右チャネルの音声信号から無相関信号を分離抽出する。無相関信号は、いずれも推定した音声信号として抽出すればよい。
 ここで、左右チャネルそれぞれの信号は、無相関信号と相関信号から構成され、相関信号については左右から同じ信号が出力されるものとするモデルを採用する。そして、左右から出力される相関信号によって合成される音像は、その相関信号の左右それぞれの音圧のバランスによって方向が決定されるものとする。そのモデルに従うと、入力信号x(n)、x(n)は、
  x(m)= s(m)+n(m)、
  x(m)=αs(m)+n(m)             (13)
と表される。ここで、s(m)は左右の相関信号、n(m)は左チャネルの音声信号から相関信号s(m)を減算したものであって(左チャネルの)無相関信号として定義できるもの、n(m)は右チャネルの音声信号から相関信号s(m)を減算したものであって(右チャネルの)無相関信号として定義できるものである。また、αは相関信号の左右音圧バランスの程度を表す正の実数である。
 数式(13)により、数式(2)で前述した窓関数乗算後の音声信号x′(m)、x′(m)は、次の数式(14)で表される。ただし、s′(m)、n′(m)、n′(m)はそれぞれs(m)、n(m)、n(m)に窓関数を乗算したものである。
  x′(m)=w(m){ s(m)+n(m)}= s′(m)+n′(m)、
  x′(m)=w(m){αs(m)+n(m)}=αs′(m)+n′(m)
                              (14)
 数式(14)を離散フーリエ変換することによって、次の数式(15)を得る。ただし、S(k)、N(k)、N(k)はそれぞれs′(m)、n′(m)、n′(m)を離散フーリエ変換したものである。
  X(k)= S(k)+N(k)、
  X(k)=αS(k)+N(k)             (15)
 したがって、i番目の小帯域における音声信号X (i)(k)、X (i)(k)は、
  X (i)(k)=   S(i)(k)+N (i)(k)、
  X (i)(k)=α(i)(i)(k)+N (i)(k)
  ただし、K (i)≦k≦K (i)           (16)
と表現される。ここで、α(i)はi番目の小帯域におけるαを表す。以後、i番目の小帯域における相関信号S(i)(k)、無相関信号N (i)(k)、N (i)(k)をそれぞれ、
  S(i)(k)=S(k)、
  N (i)(k)=N(k)、
  N (i)(k)=N(k)
  ただし、K (i)≦k≦K (i)           (17)
とおくこととする。
 数式(16)から、数式(12)の音圧P (i)とP (i)は、
  P (i)=P (i)+P (i)
  P (i)=[α(i) (i)+P (i)        (18)
と表される。ここで、P (i)、P (i)はi番目の小帯域におけるそれぞれ相関信号、無相関信号の電力であり、
Figure JPOXMLDOC01-appb-M000005
と表される。ここで、左右の無相関信号の音圧は等しいと仮定している。
 また、数式(10)~(12)より、数式(9)は、
Figure JPOXMLDOC01-appb-M000006
と表すことができる。ただし、この算出においてはS(k)、N(k)、N(k)が互いに直交し、かけ合わされたときの電力は0と仮定している。
 数式(18)と数式(20)を解くことにより、次の式が得られる。
Figure JPOXMLDOC01-appb-M000007
 これらの値を用いて、各小帯域における無相関信号を推定する。i番目の小帯域における左チャネルの無相関信号N (i)(k)に対する推定値est(N (i)(k))を、媒介変数μ、μを用いて、
  est(N (i)(k))=μ (i)(k)+μ (i)(k)  (23)
とおくと、推定誤差εは、
  ε=est(N (i)(k))-N (i)(k)           (24)
と表される。ここで、est(A)はAの推定値を表すものとする。そして二乗誤差εが最少になるとき、εとX (i)(k)、X (i)(k)はそれぞれ直交するという性質を利用すると、
  E[ε・X (i)(k)]=0 、 E[ε・X (i)(k)]=0  (25)
という関係が成り立つ。数式(16)、(19)、(21)~(24)を利用すると、数式(25)から次の連立方程式が導出できる。
     (μ+μα(i))P (i)+(μ-1)P (i)=0
  α(i)(μ+μα(i))P (i)+μ (i)=0
                                (26)
 この数式(26)を解くことによって、各媒介変数が次のように求まる。
Figure JPOXMLDOC01-appb-M000008
 さらに、i番目の小帯域における右チャネルの無相関信号N (i)(k)に対する推定値est(N (i)(k))も、媒介変数μ、μを用いて、
  est(N (i)(k))=μ (i)(k)+μ (i)(k)  (28)
とおくことができ、媒介変数μ、μは、媒介変数μ、μと同様にして次のように求まる。
Figure JPOXMLDOC01-appb-M000009
 ここで、このようにして求まる推定値est(N (i)(k))、est(N (i)(k))について、電力Pest(N) (i)が、数式(23)、(28)の両辺を二乗して求まる次の式
 Pest(N) (i)=(μ+α(i)μ (i)+(μ +μ )P (i)
       =(μ+α(i)μ (i)+(μ +μ )P (i) (30)
を満たす必要があるため、これらの式から推定値を次式のようにスケーリングする。なお、est′(A)はAの推定値をスケーリングしたものを表す。
Figure JPOXMLDOC01-appb-M000010
 以上のように、信号分離抽出部23は、上記変換係数として、数式(27)、(29)で示した各媒介変数μ~μ及び数式(31)、(32)で示したスケーリングの係数で構成される変換係数を用いて、演算(数式(23)、(28))により推定することで、右チャネルの無相関信号、左チャネルの無相関信号を分離し、出力する。出力について具体的に説明すると、信号分離抽出部23は、左チャネルより分離された無相関信号est′(N (i)(k))を左チャネル用のゲイン調整部25aに出力し、右チャネルより分離された無相関信号est′(N (i)(k))を右チャネル用のゲイン調整部25bに出力する。
 ゲイン調整部25a,25bにおける増減の処理は、デフォルト値に基づく増減処理であってもよいが、ユーザインタフェースによるユーザ操作に基づいて設定したパラメータを用いた処理と同様であり、後述するユーザ操作に基づいた具体例を援用すれば理解できるため、デフォルト値に基づく増減処理についての説明は省略する。
 以下、デフォルト値の代わりに、より好ましい例として、無相関信号が増圧または減圧すべき信号であるかどうかを、ユーザが入力した値に基づいて判断する場合を挙げて説明する。
 まず、図1におけるユーザインタフェースとパラメータ制御部17について、図4を参照しながら詳細に説明する。図4は、図1のユーザインタフェース制御部18により表示デバイス19aに表示させるグラフィカルユーザインタフェース(GUI)画面の一例を示す図である。以下に説明するユーザインタフェースは、表示デバイス19a、入力デバイス19b、及びユーザインタフェース制御部18でなり、以下に説明するようなユーザインタフェースの各種処理は、ユーザインタフェース制御部18が表示デバイス19a及び/または入力デバイス19bを制御することで施される。
 図4で例示するGUI画面40は、ユーザインタフェース制御部18が、表示デバイス19aに表示する画面の一例を示したものである。GUI画面40は、例えばユーザが設定メニューから音質調整の項目を、リモコンなどを操作することによって選択した際に表示されるものとする。GUI画面40は、高音を調整するためのスライダ41、低音を調整するためのスライダ42、左右のバランスを調整するためのスライダ43、及び背景効果音の増減を調整するためのスライダ44を含んでいる。各スライダ41,42,43,44にはそれぞれ調整用のツマミ41a,42a,43a,44aが移動可能に表示されている。
 ユーザはリモコンなどの上下キーを操作することによって、背景効果音のスライダ44をハイライト表示させ、その際に同じくリモコンなどの左右キーを操作することのよって、ツマミ44aを左右に移動させる。この例ではその可変段階を-15から15までの31段階としており、背景効果音の下には現在設定されている数字が表示される。その数字を上げるほど、すなわちツマミ44aを右側に移動するほど上述の無相関信号成分を増加させる。逆にその数字を下げるほど、すなわちツマミ44bを左側に移動するほど無相関信号成分を減少させる。
 このように、ユーザインタフェースは、無相関信号増減部における減少の度合いを負の値で表現し、増加の度合いを正の値で表現することが好ましい。GUI画面40では、スライダ41~43も含めた例を示したが、当然これらのスライダ41~43がなくてもよい。また、GUI画面40のスライダ44において、左右両端の数字は単に調整ステップの段階数を表しているものであるが、デシベル表示などを用いてもよい。
 このようにして入力されたツマミ44aの値を、音声信号処理部13(20)で使用する、無相関信号の増減の程度を表すためのゲイン値に変換する。ツマミの値をrとし、変換後のゲイン値をr′とすると、例えばツマミの上下を聴感上の音量の程度に比例させるために、次式を採用してもよい。ここで、κは自然数でここでは例えば15である。
Figure JPOXMLDOC01-appb-M000011
 このようにして、gを求める。パラメータ制御部17は以上のように、音声信号処理部13に必要なパラメータを算出し、音声信号処理部13に出力する。
 音声信号処理部13では、左右チャネルの信号を生成する。数式(33)で求めたgを無相関信号の割り当てゲインとし、次式のようにi番目の小帯域における出力音声信号Y (i)(k)、Y (i)(k)を求める。
  Y (i)(k)=X (i)(k)+g (i)(k)
  Y (i)(k)=X (i)(k)+g (i)(k)        (34)
 これから分かるように、ゲインgの値に応じて左右チャネルの音声信号に対し、無相関信号が増減される。数式(33)を用いる場合、ゲインgの値の範囲は-1≦g≦1となるので、数式(16)から無相関信号成分の項がそれぞれ0≦g (i)(k)≦2N (i)(k)、0≦g (i)(k)≦2N (i)(k)の範囲をとる。すなわち、ツマミ54aの値によって、無相関信号が0まで減圧されるところから、2倍に増圧されるところまで変化させることが可能となる。なお、数式(34)では、X (i)(k)にN (i)(k)が、X (i)(k)にN (i)(k)がそれぞれ値として含まれているため、0~2倍になる。
 以上のようにして、i番目の小帯域における、左右チャネルの無相関信号の増圧処理または抑圧処理後の再割り当てが行われる。これを全ての小帯域について行う。この再割り当ては、左チャネルについて、ゲイン調整部25aによりゲインとスケーリング係数が乗算されることで割り当てられた信号と元の左チャネルの信号である離散フーリエ変換部22からの出力信号とを合成部26で合成し、右チャネルについて、ゲイン調整部25bによりゲインとスケーリング係数が乗算されることで割り当てられた信号と元の右チャネルの信号である離散フーリエ変換部22からの出力信号とを合成部26で合成することでなされる。その結果、両チャネルそれぞれについて小帯域ごとの音声信号を加算することによって、左右チャネルに対する周波数領域の出力音声信号Y(k)、Y(k)が求まり、合成部26はそれらの信号を離散フーリエ逆変換部27に出力する。
 そして、離散フーリエ逆変換部27において、各チャネルを離散フーリエ逆変換することによって、時間領域の出力音声信号y′(m)、y′(m)が求まる。ここで、DFT-1は離散フーリエ逆変換(逆離散フーリエ変換)を表す。
  y′(m)=DFT-1(Y(k))
  y′(m)=DFT-1(Y(k))            (35)
 ここで、数式(3)で説明したように、離散フーリエ変換した信号は、窓関数乗算後の信号であったため、逆変換して得られた信号y′(m)、y′(m)も窓関数が乗算された状態となっている。窓関数は数式(1)に示すような関数であり、読み込みは半セグメント長ずつずらしながら行ったため、前述した通り、1つ前に処理したセグメントの先頭から半セグメント長ずつずらしながら出力バッファに加算していくことにより変換後のデータを得る。
 次に、後処理部28について説明する。後処理部28はノイズ除去処理を行う。図5を参照して、ノイズ除去の対象となるノイズについて説明する。図5は、図2の後処理部28に入力される音声信号の波形の一部を拡大した図である。図5に示す音声信号50は、中央付近51にあるように不連続点が生じている。このような不連続点は、信号分離抽出部23を経ることにより後処理部28に入力されるデータに多数含まれてしまうため、それらが再生時に耳障りなノイズとして知覚されてしまうことになる。このような不連続点は、この音声信号処理方式が直流成分を無視して処理するため、すなわち直流成分の線スペクトルを考慮しないために生じる。
 図6はそれを模式的に示した波形のグラフである。より詳細には、図6は、左右チャネルの音声信号を離散フーリエ変換し左右チャネルの直流成分を無視した場合に、離散フーリエ逆変換後のセグメント境界に生じる波形の不連続点を説明するための模式図である。図6に示すグラフ60において、横軸は時間を表しており、例えば(M-2)(l)という記号は、l番目のセグメントのM-2番目の標本点であることを示している。グラフ60の縦軸は、それらの標本点に対する出力信号の値である。このグラフ60から分かるように、l番目のセグメントの最後から(l+1)番目のセグメントの最初にかけての部分で不連続点が生じてしまう。
 この問題に対し、ノイズ除去処理を行う。この処理は、波形の不連続点をなくすことによってノイズを除去できる方法であればどのようなものでもよいが、ここでは図7及び図8を参照して、図6で説明したような問題を解決するためのこのような処理の一例について具体的に説明する。図7は、図2の後処理部28で施される不連続点除去処理の一例を説明するための模式図で、左右チャネルの音声信号を離散フーリエ変換し左右チャネルの直流成分を無視した場合に、離散フーリエ逆変換後のセグメント境界に生じる波形の不連続点を除去する方法を説明するための模式図である。また、図8は、図5の音声信号に対し、図7の不連続点除去処理を施した結果を示す図である。
 後処理部28で施される不連続点除去処理の例では、図7のグラフ70で図6のグラフ60に対する除去例を示すように、l番目のセグメントの最後の波形の微分値と(l+1)番目のセグメントの先頭の微分値が一致するようにする。具体的には後処理部28が、l番目のセグメントの最後の2点による傾きが維持されるような(l+1)番目のセグメントの先頭の値となるよう、(l+1)番目のセグメントの波形に直流成分(バイアス)を加える。その結果、処理後の出力音声信号y″(m)は、
  y″(m)=y′(m)+B                (36)
となる。Bはバイアスを表す定数であり、1回前の出力音声信号と今回の処理の出力音声信号が出力バッファで加算された後、図7のグラフ70のように波形が連続するように決定される。
 このように、後処理部28は、処理セグメントの境界において波形の微分値を維持させるように離散フーリエ逆変換後の音声信号に直流成分を加算することで、不連続点を除去することが好ましい。なお、この例ではマイナスのバイアスをかけているが、当然、上記微分値を一致させるためにはプラスのバイアスをかける場合もある。また、後処理部28で処理対象となる離散フーリエ逆変換後の音声信号は、各数式で例示したように、無相関信号に対して、時間領域あるいは周波数領域においてスケーリング処理を行い、そのスケーリング処理後の音声信号とする。つまり、無相関信号に対しスケーリング処理を施し、スケーリング処理後の無相関信号に対し、不連続点の除去を行う。
 また、図7で説明した不連続点除去処理のみでは、バイアス成分が蓄積してしまい、波形の振幅がオーバフローしてしまうことがある。
 したがって、次式のように、加算するバイアス成分(直流成分)の振幅の大きさを時間的に減少させることにより収束させることが好ましい。なお、「時間的に減少させる」とは、加算時点からの経過時間、例えば処理セグメント毎の開始点や不連続点の開始点からの経過時間に比例して減少させることを意味する。
  y″(m)=y′(m)+B×((M-mσ)/M)     (37)
ただし、σはその減少の程度を調整するパラメータであり、例えば0.5などとする。なお、減少のためにはB,σはいずれも正とする。さらに、加算用に求めたバイアスの値の絶対値がある一定以上となった場合には、その値に応じてσを動的に増減させるなどしてもよい。増減させるタイミングは次の処理セグメントでよい。これに限らず、減少させるための比例定数に相当するσを、バイアス値の絶対値(直流成分の振幅の大きさ)に応じて変更する(変化させる)ようにしておけば、フィードバック機能が働き、同様の効果が得られる。ただ、これらの方法では音声波形の振幅がオーバフローしないことを保障するものではない。
 よって、例えばバイアス値がある一定(所定値)以上の値になった場合には、数式(37)の第二項のバイアス項を加算しないようにする処理を安全弁の機能として加えてもよい。つまり、後処理部28は、加算するために求めた直流成分の振幅が所定値未満である場合のみ、直流成分の加算を実行する(不連続点の除去を実行する)ことが好ましい。この方法を採用することにより、バイアス成分が蓄積しないようになる。
 また、例えば音声の子音部分など、音声信号がホワイトノイズに近いような場合、音声信号波形の変化が激しく元の波形が既に不連続に近いような状態になっているものがある。このような音声信号に上述した不連続点除去処理を適用すると、逆に波形を歪ませてしまう場合もある。つまり、元の波形が不連続に近いような状態の音声信号に対し、上述した不連続点除去処理を適用すると、この処理がそのような元々不連続の状態に近い波形を無理矢理連続にしようとするため、逆に波形を歪ませてしまう可能性がある。
 この問題を解消するために、後処理部28では次に示す方法で不連続点除去処理(ノイズ除去処理)を行うことが好ましい。それは、音声の子音部分など信号がホワイトノイズに近いような場合、入力音声信号の波形が所定時間内(例えば処理セグメント内やその半分内)で0を交差する回数が、その他の部分に比べて極端に増加することを利用する。なお、0をどこに採るようにするかは任意に決めておけば済む。よって、出力音声信号(少なくとも離散フーリエ逆変換後の音声信号)が半セグメント長の中で0を交差する回数をカウントし、それが一定の値(所定回数)以上である場合には、その次のセグメントを所定回数以上存在する箇所とみなし、その次のセグメント処理において、数式(36)や数式(37)における右辺第二項のバイアス項を加算しないこととする。つまり、それ以外の箇所でのみ不連続点除去処理を実行する。なお、カウントは、セグメント境界とは関係なく一定時間の音声波形について実行してもよいし、複数のセグメント処理分の音声波形について実行してもよく、いずれの場合にもそのカウント結果から次のセグメント処理でバイアス項を加算するか否かを決めればよい。
 図5の音声信号50における不連続点の箇所(中央付近51)は、上述したようなノイズ除去処理により、図8の音声信号80で示す通り、不連続点が解消され連続になっていることが分かる。このように不連続点を無くし、ノイズを除去できる。
 また、放送コンテンツや音楽コンテンツにおいて、本発明を用いて抽出される無相関信号は通常、残響音や背景音成分であることが多い。この性質を利用して、上述のように無相関信号の抽出レベルを相対的に相関信号の抽出レベルよりも上げることによって、例えばスポーツ番組の観客の声援を強調し、臨場感を向上させて番組を視聴することが可能となる。この調整方法を、プリセット機能の1つとしてテレビに搭載することにより、テレビに臨場感向上機能を付加することができる。そして、リモコン操作によってツマミを水平方向にずらすと、その位置に応じて無相関信号のレベルを増圧または減圧するように制御するなどすればよい。
 以上説明したように、本発明によれば、ステレオ記録された音声または楽音コンテンツなどに含まれる2チャネル分の音声信号から、臨場感を高める音声信号成分を分離して減圧または増圧することが可能になる。そして、無相関信号を増加及び/または減少させることにより、放送コンテンツや音楽コンテンツの臨場感をユーザの好みに応じて向上させることができる。
 以上、本発明に係る音声信号処理装置における処理について説明したが、次に、上述した各例にさらに適用可能な応用例について説明する。
 上述した各例においては、このようにして本発明により増圧または抑圧が施された音声信号を左右のスピーカだけで再生させることを前提に説明したが、マルチチャネル再生方式より広いスイートスポットが得られる波面合成再生方式で再生することが、増圧または抑圧の効果が狭い聴取エリアに限られず広がることから好ましい。なお、波面合成再生方式とは、直線状または面状に並べたスピーカ群によって音の波面を合成する再生方式であり、例えばWave Field Synthesis(WFS)方式は直線状に並べたスピーカ群(スピーカアレイ)を用いる現実的な実装方法の1つとして近年盛んに研究されている。WFS方式によって提供される音響空間内においてスピーカアレイと対面して音を聴いている受聴者は、実際にはスピーカアレイから放射される音が、スピーカアレイの後方に仮想的に存在する音源(仮想音源)から放射されているかのような感覚を受ける。したがって、このような方式では、広い聴取エリアで本発明に係る増圧または抑圧の効果を享受でき、例えば横に並んだ複数の聴取者が同時に増圧または抑圧の効果を享受できる。本発明に係る音声信号処理は、マルチチャネル再生方式での再生であっても波面合成再生方式での再生であっても基本的に同じである。
 上述した各例では、本発明に係る音声信号処理について、入力音声信号が2chの音声信号である場合、つまりステレオで記録されているコンテンツについてのみ説明したが、より多くのチャネルをもつマルチチャネルの音声信号であっても適用可能である。ステレオ以外に普及している方式としては、5.1ch、7.1ch、9.1ch、22.2chなどがある。これらの方式も全て複数のスピーカによる組み合わせで合成音像を作る方式であるため、本発明に係る無相関信号の増圧処理または抑圧処理が適用できる。
 具体的にマルチチャネルの音声信号への適用について説明すると、着目するチャネルを2つ選び、その2つに対して上述したような増圧処理または抑圧処理を行う。これらの方式では、前方の左チャネルと右チャネル間に相関の高い信号が割り当てられることが多いため、その相関を強調するまたは目立たなくするために前方の左チャネルと右チャネルに本発明に係る抑圧処理または増圧処理を適用して出力し、前方センターチャネルはそのまま出力(ここでもゲイン調整してもよい)すればよい。
 また、例えば5.1chの入力音声信号である場合には、前方左右の2チャネルのみから音源抽出を行って無相関信号の増減を行って出力し、後方左右の2チャンネルのみから音源抽出を行って無相関信号の増減を行って出力し、センターチャネルについてはそのまま出力することもできる。
 また、上述した各例においては、無相関信号の分離について離散フーリエ空間で行う例を挙げたが、これに限ったものではなく、本発明では分離が可能であればよい。本発明の主たる特徴は無相関信号を抽出してその無相関信号について増加または減少させることで増圧または抑圧することにある。
 次に、本発明に係る音声信号処理装置の実装について説明する。
 本発明に係る音声信号処理装置は、例えばパーソナルコンピュータ(PC)や光ディスク再生装置、音楽再生機能付きの携帯情報端末、テレビ装置、プロジェクタ、あるいは小型の音声処理専用装置など、音声データ再生装置や音声データ再生装置付きの装置に利用できる。PCでは入力デバイスはマウスなどとなるが、携帯情報端末ではボタン操作やタッチパッドなどとなる。また、光ディスク再生装置や小型の処理専用装置では、本体に設置してあるボタン操作や、あるいはGUI画面をモニタ装置やテレビ装置などの表示デバイスに出力させるとともにリモートコントローラなどによって操作してもよい。また、この音声データ再生装置は、音声のみを取り扱う装置として構成することができるだけでなく、テレビ装置やプロジェクタ等で例示したように、映像の伴う装置に組み込むこともできる。
 また、例えば図2で例示した音声信号処理部20における各構成要素など、本発明に係る音声信号処理装置の各構成要素やその装置を備えた音声データ再生装置の各構成要素は、例えばマイクロプロセッサ(またはDSP:Digital Signal Processor)、メモリ、バス、インタフェース、周辺装置などのハードウェアと、これらのハードウェア上にて実行可能なソフトウェアとにより実現できる。上記ハードウェアの一部または全部は集積回路/IC(Integrated Circuit)チップセットとして搭載することができ、その場合、上記ソフトウェアは上記メモリに記憶しておければよい。また、本発明の各構成要素の全てをハードウェアで構成してもよく、その場合についても同様に、そのハードウェアの一部または全部を集積回路/ICチップセットとして搭載することも可能である。
 また、上述した様々な構成例における機能を実現するためのソフトウェアのプログラムコードを記録した記録媒体を、音声信号処理装置となる汎用コンピュータ等の装置に供給し、その装置内のマイクロプロセッサまたはDSPによりプログラムコードが実行されることによっても、本発明の目的が達成される。この場合、ソフトウェアのプログラムコード自体が上述した様々な構成例の機能を実現することになり、このプログラムコード自体や、プログラムコードを記録した記録媒体(外部記録媒体や内部記憶装置)であっても、そのコードを制御側が読み出して実行することで、本発明を構成することができる。外部記録媒体としては、例えばCD-ROMまたはDVD-ROMなどの光ディスクやメモリカード等の不揮発性の半導体メモリなど、様々なものが挙げられる。内部記憶装置としては、ハードディスクや半導体メモリなど様々なものが挙げられる。また、プログラムコードはインターネットからダウンロードして実行することや、放送波から受信して実行することもできる。
 以上、本発明に係る音声信号処理装置について説明したが、処理の流れを説明したように、本発明は、2つのチャネルの無相関信号を増減させる音声信号処理方法としての形態も採り得る。この音声信号処理方法は、次の抽出ステップ、増減ステップ、及び加算ステップを有する。抽出ステップは、信号抽出部が、2つのチャネルの入力音声信号から信号間の無相関信号を抽出するステップである。増減ステップは、無相関信号増減部が、抽出ステップで抽出された無相関信号を増加または減少させるステップである。加算ステップは、音声信号加算部が、増減ステップで増加または減少させた信号を、入力音声信号に加算するステップである。その他の応用例については、音声信号処理装置について説明した通りであり、その説明を省略する。
 なお、上記プログラムコード自体は、換言すると、この音声信号処理方法をコンピュータに実行させるためのプログラムである。すなわち、このプログラムは、コンピュータに、2つのチャネルの入力音声信号から信号間の無相関信号を抽出する抽出ステップと、抽出ステップで抽出された無相関信号を増加または減少させる増減ステップと、増減ステップで増加または減少させた信号を、入力音声信号に加算する加算ステップと、を実行させるためのプログラムである。その他の応用例については、音声信号処理装置について説明した通りであり、その説明を省略する。
 10…音声データ再生装置、11…デコーダ、12…音声信号抽出部、13,20…音声信号処理部、14…D/Aコンバータ、15…増幅器、16…スピーカ、17…パラメータ制御部、18…ユーザインタフェース制御部、19a…表示デバイス、19b…入力デバイス、21…前処理部、22…離散フーリエ変換部、23…信号分離抽出部、25a,25b…ゲイン調整部、26…合成部、27…離散フーリエ逆変換部、28…後処理部。

Claims (6)

  1.  2つのチャネルの無相関信号を増減させる音声信号処理装置であって、2つのチャネルの入力音声信号から信号間の無相関信号を抽出する信号抽出部と、該信号抽出部で抽出された無相関信号を増加または減少させる無相関信号増減部と、該無相関信号増減部で増加または減少させた信号を、前記入力音声信号に加算する音声信号加算部とを備えたことを特徴とする音声信号処理装置。
  2.  前記無相関信号増減部における増加または減少の度合いを変更するユーザ操作を受け付けるためのユーザインタフェースと、該ユーザインタフェースで受け付けられたユーザ操作に従って、前記増加または減少の度合いを示すパラメータを変更するパラメータ制御部とをさらに備えたことを特徴とする請求項1に記載の音声信号処理装置。
  3.  前記ユーザインタフェースは、前記無相関信号増減部における減少の度合いを負の値で表現し、増加の度合いを正の値で表現することを特徴とする請求項2に記載の音声信号処理装置。
  4.  2つのチャネルの無相関信号を増減させる音声信号処理方法であって、
     信号抽出部が、2つのチャネルの入力音声信号から信号間の無相関信号を抽出する抽出ステップと、
     無相関信号増減部が、前記抽出ステップで抽出された無相関信号を増加または減少させる増減ステップと、
     音声信号加算部が、前記増減ステップで増加または減少させた信号を、前記入力音声信号に加算する加算ステップと、
    を有することを特徴とする音声信号処理方法。
  5.  コンピュータに、2つのチャネルの入力音声信号から信号間の無相関信号を抽出する抽出ステップと、該抽出ステップで抽出された無相関信号を増加または減少させる増減ステップと、該増減ステップで増加または減少させた信号を、前記入力音声信号に加算する加算ステップと、を実行させるためのプログラム。
  6.  請求項5に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
PCT/JP2011/063043 2010-07-09 2011-06-07 音声信号処理装置、方法、プログラム、及び記録媒体 WO2012005074A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US13/808,167 US9071215B2 (en) 2010-07-09 2011-06-07 Audio signal processing device, method, program, and recording medium for processing audio signal to be reproduced by plurality of speakers

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2010-156787 2010-07-09
JP2010156787A JP5307770B2 (ja) 2010-07-09 2010-07-09 音声信号処理装置、方法、プログラム、及び記録媒体

Publications (1)

Publication Number Publication Date
WO2012005074A1 true WO2012005074A1 (ja) 2012-01-12

Family

ID=45441060

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2011/063043 WO2012005074A1 (ja) 2010-07-09 2011-06-07 音声信号処理装置、方法、プログラム、及び記録媒体

Country Status (3)

Country Link
US (1) US9071215B2 (ja)
JP (1) JP5307770B2 (ja)
WO (1) WO2012005074A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8855322B2 (en) * 2011-01-12 2014-10-07 Qualcomm Incorporated Loudness maximization with constrained loudspeaker excursion
WO2012153537A1 (ja) * 2011-05-11 2012-11-15 パナソニック株式会社 映像表示装置
JP2013242498A (ja) * 2012-05-23 2013-12-05 Sharp Corp 音声信号変換装置、方法、プログラム、及び記録媒体
WO2014097893A1 (ja) * 2012-12-19 2014-06-26 ソニー株式会社 音声処理装置および方法、並びにプログラム
JP2015206874A (ja) * 2014-04-18 2015-11-19 富士通株式会社 信号処理装置、信号処理方法、及び、プログラム
CA3149389A1 (en) * 2015-06-17 2016-12-22 Sony Corporation Transmitting device, transmitting method, receiving device, and receiving method

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006303799A (ja) * 2005-04-19 2006-11-02 Mitsubishi Electric Corp 音響信号再生装置
JP2008048324A (ja) * 2006-08-21 2008-02-28 Pioneer Electronic Corp パンニング自動調整装置及びパンニング自動調整方法

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2688371B1 (fr) 1992-03-03 1997-05-23 France Telecom Procede et systeme de spatialisation artificielle de signaux audio-numeriques.
US5479522A (en) * 1993-09-17 1995-12-26 Audiologic, Inc. Binaural hearing aid
US5666430A (en) * 1995-01-09 1997-09-09 Matsushita Electric Corporation Of America Method and apparatus for leveling audio output
DE19547093A1 (de) * 1995-12-16 1997-06-19 Nokia Deutschland Gmbh Schaltungsanordnung zur Verbesserung des Störabstandes
US7016501B1 (en) * 1997-02-07 2006-03-21 Bose Corporation Directional decoding
US8452023B2 (en) * 2007-05-25 2013-05-28 Aliphcom Wind suppression/replacement component for use with electronic systems
US7548854B2 (en) * 2002-01-31 2009-06-16 Awi Licensing Company Architectural sound enhancement with pre-filtered masking sound
US8098844B2 (en) * 2002-02-05 2012-01-17 Mh Acoustics, Llc Dual-microphone spatial noise suppression
JP4402636B2 (ja) * 2005-09-20 2010-01-20 アルパイン株式会社 オーディオ装置
JP4556875B2 (ja) * 2006-01-18 2010-10-06 ソニー株式会社 音声信号分離装置及び方法
JP4459177B2 (ja) * 2006-02-21 2010-04-28 アルパイン株式会社 サラウンド生成装置
DE102006017280A1 (de) * 2006-04-12 2007-10-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Umgebungssignals
US8149332B2 (en) * 2007-05-10 2012-04-03 Broadcom Corporation Method and system for using a subset of receive operations for detecting digital and analog television signals
JP4970174B2 (ja) * 2007-07-18 2012-07-04 株式会社ダイマジック ナレーション音声制御装置
JP2010538571A (ja) * 2007-09-06 2010-12-09 エルジー エレクトロニクス インコーポレイティド オーディオ信号のデコーディング方法及び装置
JP5058844B2 (ja) * 2008-02-18 2012-10-24 シャープ株式会社 音声信号変換装置、音声信号変換方法、制御プログラム、および、コンピュータ読み取り可能な記録媒体
US8238563B2 (en) * 2008-03-20 2012-08-07 University of Surrey-H4 System, devices and methods for predicting the perceived spatial quality of sound processing and reproducing equipment
EP2216774B1 (en) * 2009-01-30 2015-09-16 Harman Becker Automotive Systems GmbH Adaptive noise control system and method
US8660281B2 (en) * 2009-02-03 2014-02-25 University Of Ottawa Method and system for a multi-microphone noise reduction
JP2011239036A (ja) 2010-05-06 2011-11-24 Sharp Corp 音声信号変換装置、方法、プログラム、及び記録媒体
JP5736124B2 (ja) 2010-05-18 2015-06-17 シャープ株式会社 音声信号処理装置、方法、プログラム、及び記録媒体
JP5690082B2 (ja) 2010-05-18 2015-03-25 シャープ株式会社 音声信号処理装置、方法、プログラム、及び記録媒体
US8855322B2 (en) * 2011-01-12 2014-10-07 Qualcomm Incorporated Loudness maximization with constrained loudspeaker excursion
US8804984B2 (en) * 2011-04-18 2014-08-12 Microsoft Corporation Spectral shaping for audio mixing

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006303799A (ja) * 2005-04-19 2006-11-02 Mitsubishi Electric Corp 音響信号再生装置
JP2008048324A (ja) * 2006-08-21 2008-02-28 Pioneer Electronic Corp パンニング自動調整装置及びパンニング自動調整方法

Also Published As

Publication number Publication date
US20130108079A1 (en) 2013-05-02
JP2012019454A (ja) 2012-01-26
US9071215B2 (en) 2015-06-30
JP5307770B2 (ja) 2013-10-02

Similar Documents

Publication Publication Date Title
JP5149968B2 (ja) スピーチ信号処理を含むマルチチャンネル信号を生成するための装置および方法
KR101569032B1 (ko) 오디오 신호의 디코딩 방법 및 장치
JP4637725B2 (ja) 音声信号処理装置、音声信号処理方法、プログラム
JP6377249B2 (ja) オーディオ信号の強化のための装置と方法及び音響強化システム
EP2194733B1 (en) Sound volume correcting device, sound volume correcting method, sound volume correcting program, and electronic apparatus.
JP4664431B2 (ja) アンビエンス信号を生成するための装置および方法
WO2001024577A1 (en) Process for removing voice from stereo recordings
TW200837718A (en) Apparatus and method for generating an ambient signal from an audio signal, apparatus and method for deriving a multi-channel audio signal from an audio signal and computer program
JP5307770B2 (ja) 音声信号処理装置、方法、プログラム、及び記録媒体
JP2011528200A (ja) オブジェクトベースのメタデータを用いてオーディオ出力信号を生成するための装置および方法
JP4840421B2 (ja) 音声信号処理装置、音声信号処理方法、プログラム
JP2001069597A (ja) 音声処理方法及び装置
KR20180102596A (ko) 몰입형 오디오 재생을 위한 신호의 합성
EP2484127B1 (en) Method, computer program and apparatus for processing audio signals
JP5690082B2 (ja) 音声信号処理装置、方法、プログラム、及び記録媒体
JP5736124B2 (ja) 音声信号処理装置、方法、プログラム、及び記録媒体
JP4810621B1 (ja) 音声信号変換装置、方法、プログラム、及び記録媒体
JP5058844B2 (ja) 音声信号変換装置、音声信号変換方法、制御プログラム、および、コンピュータ読み取り可能な記録媒体
JP5202021B2 (ja) 音声信号変換装置、音声信号変換方法、制御プログラム、および、コンピュータ読み取り可能な記録媒体
JP5316560B2 (ja) 音量補正装置、音量補正方法および音量補正プログラム
JP2013055439A (ja) 音声信号変換装置、方法、プログラム、及び記録媒体
US8767969B1 (en) Process for removing voice from stereo recordings
JP2012027101A (ja) 音声再生装置、音声再生方法、プログラム、及び、記録媒体
JP2011239036A (ja) 音声信号変換装置、方法、プログラム、及び記録媒体
JP2015065551A (ja) 音声再生システム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 11803410

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 13808167

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 11803410

Country of ref document: EP

Kind code of ref document: A1