WO2005112007A1 - 音響信号除去装置、音響信号除去方法及び音響信号除去プログラム - Google Patents

音響信号除去装置、音響信号除去方法及び音響信号除去プログラム Download PDF

Info

Publication number
WO2005112007A1
WO2005112007A1 PCT/JP2004/013168 JP2004013168W WO2005112007A1 WO 2005112007 A1 WO2005112007 A1 WO 2005112007A1 JP 2004013168 W JP2004013168 W JP 2004013168W WO 2005112007 A1 WO2005112007 A1 WO 2005112007A1
Authority
WO
WIPO (PCT)
Prior art keywords
amplitude spectrum
mixed
sound
acoustic
spectral intensity
Prior art date
Application number
PCT/JP2004/013168
Other languages
English (en)
French (fr)
Inventor
Yasumasa Nakata
Tomoyuki Okamura
Hironobu Takahashi
Original Assignee
Fuji Television Network, Inc.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Television Network, Inc. filed Critical Fuji Television Network, Inc.
Publication of WO2005112007A1 publication Critical patent/WO2005112007A1/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Definitions

  • the present invention relates to an acoustic signal removing apparatus, an acoustic signal removing method, and an acoustic signal removing program.
  • the present invention relates to an audio signal elimination device and an audio signal elimination device that eliminate sound such as BGM and audio mixed in content when reusing the content such as rebroadcasting a program that has already been broadcast.
  • the present invention relates to a method and an acoustic signal removal program.
  • the bass and treble of the BGM are emphasized or attenuated for program effect at the time of program creation.
  • the frequency characteristics of the background music have changed during the process of recording and playback, and the subtraction process cannot be performed simply.
  • the present invention has been made to solve the above-described problem, and may cause erroneous processing based on a discontinuity in volume or a phase shift that occurs when a known sound is removed from mixed sound. It is an object of the present invention to provide an audio signal elimination device, an audio signal elimination method, and an audio signal elimination program capable of avoiding noise, automatically and accurately predicting a change in sound to be eliminated, and appropriately eliminating the change. I do.
  • the present invention extracts a known sound amplitude spectrum from a known sound signal to be removed, and mixes the known sound signal with another sound signal.
  • the mixed sound amplitude spectrum is extracted from the mixed sound signal, the degree of coincidence between the known sound amplitude spectrum and the mixed sound amplitude spectrum is calculated, and the mixed sound amplitude spectrum is calculated according to the calculated degree of coincidence.
  • the temporal position of the known acoustic amplitude spectrum is displaced, and the temporal positions of the known acoustic amplitude spectrum and the known acoustic amplitude spectrum mixed in the mixed acoustic amplitude spectrum are matched, and the known acoustic amplitude spectrum is displaced.
  • the sound amplitude spectrum is removed from the mixed sound amplitude spectrum force.
  • a stationary block defined by a frequency band of a predetermined width and a time width is set.
  • an estimation block having a range including the stationary block is set, and the spectrum intensity points in the estimation block corresponding to between the known acoustic amplitude spectrum and the mixed acoustic amplitude spectrum are plotted on a plane.
  • a common line is set for all the static intensity points, and the degree of coincidence is calculated based on the degree of deviation of each spectral intensity point from the common line.
  • the process of removing the known sound from the mixed sound including the known sound and performing the process of matching the start times of the mixed sound and the known sound is performed according to the present invention. It can be performed automatically and accurately.
  • a known acoustic signal force to be removed also extracts a known acoustic amplitude spectrum, and a mixed acoustic signal in which the known acoustic signal is mixed with another acoustic signal.
  • the spectrum is extracted, the degree of coincidence between the known acoustic amplitude spectrum and the mixed acoustic amplitude spectrum is calculated, and the frequency characteristic of the known acoustic amplitude spectrum is corrected according to the calculated degree of coincidence, so that the frequency characteristic is corrected.
  • the corrected known sound amplitude spectrum is removed from the mixed sound amplitude spectrum.
  • each of the known acoustic amplitude spectrum and the mixed acoustic amplitude spectrum is defined by a frequency band having a predetermined width and a time width.
  • an estimated block having a range including the stationary block is set, and corresponding spectral intensity points in the estimated block between the known acoustic amplitude spectrum and the mixed acoustic amplitude spectrum are plotted on a plane.
  • set a common line for all vector intensity points and calculate the degree of coincidence based on the degree of deviation of each spectral intensity point from the common line.
  • a process for correcting the frequency characteristic of the known sound amplitude spectrum performed when removing the known sound from the mixed sound including the known sound is performed. It can be performed automatically and accurately.
  • a stationary block defined by a frequency band having a predetermined width and a time width is set, and for all stationary blocks, mixed noise and mixed sound are determined from the degree of divergence of spectral intensity points.
  • erroneous processing such as estimating the magnitude estimation larger than the actual sound is reduced, and the Assuming that the sound is larger than the actual sound volume (intensity and amplitude spectrum), it is possible to avoid deterioration of the processed sound without excessively removing the sound signal.
  • the known sound included in the mixed sound is produced by mixing the sound of a music CD or the like given as the known sound, adjusting the frequency characteristics and volume according to the production intention, and mixing the sound with other sounds. Even in this case, it is possible to accurately estimate the intensity and the frequency characteristics of the known sound included at each time of the mixed sound.
  • the frequency characteristic is estimated only in the sample section. It is possible to solve the problem that the characteristics of the frequency not included in the known sound in the section can be predicted, and in order to avoid this problem, it is only possible to obtain discretely for each frequency. To complement or smooth the characteristics In addition to eliminating the need for such processing, it is possible to display a frequency correction graph associated with the conventional processing and eliminate the need for the operator to manually correct the frequency. As a result, it is possible to improve the efficiency and accuracy of the known sound removing operation.
  • the present invention also extracts a known acoustic signal force and a known acoustic amplitude spectrum, and extracts a mixed acoustic amplitude spectrum from a mixed acoustic signal in which the known acoustic signal and another acoustic signal are mixed.
  • the degree of coincidence between the known acoustic amplitude spectrum and the mixed acoustic amplitude spectrum is calculated, the range of only the known acoustic signal in the mixed acoustic signal is estimated according to the calculated degree of coincidence, and the range of the range is calculated. Remove the mixed acoustic signal.
  • a stationary block defined by a frequency band having a predetermined width and a time width is set, and the stationary block is determined. For all, set an estimation block having a range including a stationary block, plot the spectrum intensity points in the corresponding estimation block between the known acoustic amplitude spectrum and the mixed acoustic amplitude spectrum on a plane, and set all the vector intensity points. Is established, and the degree of coincidence is calculated from the degree of deviation of each spectral intensity point from the common line.
  • the sound that is not removed due to the estimation error of the known sound or the like in the time interval of only the known sound in the mixed sound can be solved.
  • FIG. 1 is a block diagram showing a configuration of an acoustic signal removal system according to an embodiment.
  • FIG. 2 is a flowchart showing an operation of the acoustic signal removal system according to the embodiment.
  • FIG. 3 is a functional block diagram of a removal engine according to the embodiment.
  • FIG. 4 is a flowchart showing an operation of the removal engine according to the embodiment.
  • FIG. 5 is an explanatory diagram showing the setting of a stationary block in the known acoustic method according to the embodiment.
  • FIG. 6 is an explanatory diagram showing an example of changing a stationary block setting in the known acoustic method according to the embodiment.
  • FIG. 7 is a plot of spectral intensity points in the known acoustic method according to the embodiment. It is explanatory drawing which shows a state.
  • FIG. 8 is a perspective view showing a computer-readable recording medium on which a program according to the embodiment is recorded.
  • FIG. 9 is an explanatory diagram showing the effect of the acoustic signal elimination method according to the embodiment.
  • FIG. 1 is a block diagram showing the overall configuration of the acoustic signal removal system according to the present embodiment.
  • the audio signal removal system includes an input I / F 1 and a DV capture 2 for inputting mixed sound or known sound.
  • Files (for example, AVI files and WAV files) input from the input I / F 1 and the DV capture 2 are stored in the storage device 5.
  • the input I / F1 is an interface that captures audio signals from the playback device such as a CD player or MD player.
  • the DV capture 2 is an interface for extracting MIX audio for removal, which is a mixed audio signal in which video and audio are mixed.
  • the audio signal removal system includes a voice conversion unit (PreWav / PostWav) 4 for performing voice data extraction processing and voice conversion processing on various data stored in the storage device 5 and a voice data extraction unit (DVReMix). And three.
  • the voice conversion unit 4 and the voice data extraction unit 3 read the specified file (AVI file or WAV file) from the storage device 5, perform predetermined processing, and then process the processed file (WAV file). Store in storage device 5.
  • the sound conversion unit 4 performs frequency conversion and separation of monaural stereo power (S103).
  • the WAV file is separated into two channels on the left and right to match the format of the removal engine 100, the sampling rate is converted to 48 kHz, and the two WAV files (output file name: MIX-L. WAV, the right channel is generated as MIX-R.WAV) and stored in the storage device 5.
  • the audio data extraction unit 3 is a module that extracts only audio data from the content composed of the video data and the audio data. Extract voice data in WAV format.
  • the WAV file here is in stereo format, and its sampling rate is 32kHz or 48kHz, which is the same as DV audio.
  • the extracted WAV file is stored in the storage device 5.
  • the acoustic signal removal system includes a removal engine 100 that removes a known acoustic signal from the mixed acoustic signal.
  • the removal engine 100 reads each audio file (WAV file) stored in the storage device 5 and stores the removed data and various data related to the removal processing in the storage device 5 via the temporary memory 7. Output from the monitor 10 or the speaker 11 through the output I / F8.
  • the monitor 10 displays a GUI that displays the operation and processing results of the user interface 6, and the speaker 11 outputs mixed sound, known sound, and post-removal sound based on the user operation of the user interface 6.
  • the removal engine 100 acquires an operation signal based on a user operation by an input device such as the keyboard 6a or the mouse 6b through the user interface 6, and performs various processes based on the operation signal.
  • the acoustic signal removal processing by the removal engine 100 will be described later.
  • the acoustic signal elimination system includes a synchronization control unit 9, which reads out data from the storage device 5, performs elimination processing by the elimination engine 100, and inputs data by the memory 7 and the output I / F8. Synchronize output. Thereby, the video displayed on the monitor and the audio output from the speaker 11 can be synchronized with the processing by the removal engine 100 and the user operation in the user interface 6.
  • the acoustic signal elimination system includes a simulation unit 14 that sets a default value by a simulation when setting a parameter, and assists a user's work.
  • the simulation unit 14 inputs a single tone (480 Hz) having a constant amplitude as a mixed sound, performs a removal process with zero known sound, and compares the output sound volume with the mixed sound before the process. Then, the difference amount is measured, and a default value of the removal strength in the user interface 6 is set so that the difference amount becomes zero.
  • a single tone 480 Hz
  • the simulation unit 14 inputs a single tone (480 Hz) having a constant amplitude as a mixed sound, performs a removal process with zero known sound, and compares the output sound volume with the mixed sound before the process. Then, the difference amount is measured, and a default value of the removal strength in the user interface 6 is set so that the difference amount becomes zero.
  • FIG. 2 is a flowchart showing the operation of the acoustic signal removal system.
  • a video file (DV) recorded in video and audio power stereo is assumed to be mixed sound (MIX audio)
  • MIX audio mixed sound
  • BGM is included in the video file.
  • the processing in the present embodiment is roughly divided into (1) preprocessing, (2) music removal processing, and (3) postprocessing. Hereinafter, each processing will be described in detail.
  • MIX audio to be removed is extracted from DV, and BGM audio (original music) is prepared.
  • the video is captured using DV video editing software from DV Capture 2 (S101), and the captured file is converted to a type 1 AVI file (output file name: MIX.AVI). , Stored in the storage device 5.
  • the audio data extraction unit (DVReMix) 3 extracts audio data from the AVI file in the WAV format (output file name: MIX.WAV) (S102).
  • the WAV file here is in stereo format, and its sampling rate is 32kHz or 48kHz, which is the same as DV audio.
  • the extracted WAV file is stored in the storage device 5.
  • the audio conversion unit (PreWav) 4 performs frequency conversion and separates monaural stereo power (S103).
  • the WAV file is separated into two channels on the left and right, the sampling rate is converted to 48kHz, and two WAV files (output file name: MIX-L.WAV on the left channel, right The channel is generated as MIX-R.WAV) and stored in the storage device 5.
  • the offset of the video start time is output to a setting file (file name: MIX.time) simultaneously with the audio conversion, and is stored in the storage device 5.
  • the original music (BGM music) is imported from a CD or the like, and stored in the storage device 5 as a 44.1 kHz stereo WAV file (output file name: BGM.WAV).
  • the audio conversion unit (PreWav) 3 performs frequency conversion and separation of stereophonic monaural (S105).
  • step S104 the Separate the imported WAV file into two channels (left and right), convert the sampling rate to 48 kHz, and convert it into two WAV files (output file name: BGM-L.WAV for the left channel and BGM-R.WAV for the right channel).
  • step S104 the Separate the imported WAV file into two channels (left and right), convert the sampling rate to 48 kHz, and convert it into two WAV files (output file name: BGM-L.WAV for the left channel and BGM-R.WAV for the right channel).
  • the background music is removed from the MIX sound by the removal engine (GEQ) 100 (S106).
  • the audio file output after this removal is a monaural 48 kHz WAV file for both the left and right channels (output file name: left channel power 3 ⁇ 4RASE-L.WAV, right channel is ERASE-R.WAV), in memory 7 or storage device. Stored in 5.
  • the audio power removed by the removal engine is converted to DV audio and restored to DV (AVI file).
  • the audio converter (PostWav) 4 performs frequency conversion and conversion from monaural to stereo (S107). That is, the audio conversion unit 4 synthesizes the left and right two-channel WAV file output from the removal engine 100 into stereo, converts it to the same sampling rate as the original DV audio if necessary, and converts the WAV file (file name: ERASE .WAV) in the storage device 5.
  • the audio data extraction unit (DVReMix) 3 replaces the captured AVI file (BGM.AVI) audio with the removed audio (ERASE.WAV) (S108), and removes the audio file (file name: ERASE.AV I) is stored in the storage device 5.
  • FIG. 3 is a block diagram showing functions of the removal engine 100.
  • the removal engine 100 according to the present embodiment is a module virtually constructed on a CPU by executing an acoustic signal removal program on an arithmetic processing device such as a CPU.
  • the removal engine 100 includes a mixed sound as a signal input means. Sound signal input section 101 for inputting a sound signal and a known sound signal input section 102 for inputting a known sound signal to be removed. An audio signal output unit 107 is provided.
  • the removal engine 100 includes an amplitude spectrum extracting unit 200 that extracts an amplitude spectrum from an input acoustic signal.
  • the amplitude spectrum extracting section 200 includes a data dividing section 201, a window function processing section 202, and a Fourier transform section 203.
  • the window function processing unit 202 multiplies the audio signal data of the window size section (170 ms) divided by the data division unit 201 by a Hanning function, and smoothes the first and last parts of the data. Into a signal waveform that converges to zero.
  • the Fourier transform unit 203 performs a Fourier transform on the data of each of the mixed acoustic signal and the known acoustic signal, and separates and outputs a phase and amplitude spectrum for each frequency channel. It should be noted that data that has power only in the amplitude spectrum is output as “time-frequency data”.
  • the Fourier transform section 203 performs a fast Fourier transform (FFT) on the voice data that has been subjected to the Hayung function processing.
  • FFT fast Fourier transform
  • the input speech data is only real numbers and contains imaginary parts.
  • input and output are calculated by complex numbers, so two window conversions are performed on the real and imaginary parts of the input data, respectively.
  • Fast Fourier transformation is performed, and after transformation, separation is performed using the conjugate relationship, achieving a two-fold improvement in speed.
  • This system uses the SSE2 instruction that can be used with the Intel Pentium4 processor (registered trademark) or the like to achieve high-speed processing.
  • the amplitude spectrum extracting section 200 sets the section to be Fourier-transformed to 480 samples (480 samples).
  • time-frequency data that is data representing “only the amplitude” of the audio signal is obtained for each frequency channel.
  • the circumference obtained in this way The number of wavenumber channels is 4096 channels from ⁇ (DC) to about 24 kHz for every 5.86 Hz, such as 0 ⁇ , 5.86 ⁇ , 11,72 ⁇ , 17.57 ⁇ ... 23,994.14 ⁇ .
  • the amplitude spectrum extracting section 200 functions as a mixed acoustic amplitude extracting section that extracts a mixed acoustic amplitude spectrum from the mixed acoustic signal.
  • the signal is a known sound signal to be removed, it functions as a known sound amplitude extraction unit that extracts a sound amplitude spectrum from the known sound signal.
  • the removal engine 100 automatically estimates the change of the known sound in the mixed sound based on the amplitude spectrum of the known sound extracted from the amplitude spectrum extraction unit 200, and corrects the automatic estimation result by a user operation.
  • a parameter estimating unit 300 is provided.
  • the parameter estimating unit 300 is a module for estimating the frequency characteristic, intensity, and time position of the known sound, and correcting each parameter to match the known sound in the mixed sound. The calculation is performed based on the degree of coincidence calculated by the calculation unit 304.
  • the parameter estimating unit 300 includes a frequency characteristic correcting unit 301, an intensity correcting unit 302, and a time position correcting unit 303, whereby (1) the temporal positions of the mixed sound and the known sound are shifted. Then, (2) the frequency characteristics of the known sound and (3) the time change of the volume of the known sound are estimated.
  • Frequency characteristic correction unit 301 is a module for estimating the frequency distribution, upon the estimation of the frequency distribution is a function of arbitrary shape for Ikoraijingu processing and Fueda operation processing for the amplitude spectrum c ( For co, t), the shape in the ⁇ direction is changed to adjust the frequency characteristics after removal of the known acoustic signal, like a graphic equalizer.
  • the frequency characteristic correction unit 301 smoothes the frequency characteristics because the value obtained due to noise or the like becomes unstable in a portion of the audio channel where the volume of the BGM is low. This smoothing is realized by smoothing the average value of the front and rear channels.
  • Intensity correction section 302 performs estimation and smoothing of a temporal change in volume.
  • the shape of the spectral function c (co, t) in the t direction is corrected, as in the case of the volume fader operation of a mixer, where the sound volume change after removing a known sound signal is obtained. Can be adjusted.
  • the intensity correction unit 302 detects a temporal change in the volume of the known sound over the entire time range of the mixed sound. Since the mixed sound includes sounds such as voices in addition to the known sound, the frequency channels of the mixed sound and the known sound corrected by the frequency characteristics are summed up for each octave (every double in frequency). I do.
  • the graph display allows the user to identify that the volume is clearly increased, and corrects it manually to deal with it.
  • an automatic judgment method such as a robust statistical method may be adopted!
  • the intensity correction unit 302 also performs smoothing even when estimating a time change, and smoothes the average value of the volume of the known sound before and after the time.
  • the time position correction unit 303 is a module that corrects a temporal displacement between the start point of the mixed sound and the start point of the known sound.
  • the mixed sound in the user's ear and the known sound may be output from the left and right separate speakers, and these sounds may be compared and listened to, and the user's auditory sense may be used for positioning.
  • the removal engine 100 includes a removal processing unit 104 that removes the mixed acoustic amplitude spectrum force and the known acoustic amplitude spectrum extracted by the amplitude spectrum extraction unit 200, and an inverse Fourier transform to perform the removal-subjected sound.
  • An oscillator unit 105 for superimposing and restoring and an arrangement processing unit 106 are provided.
  • the removal processing unit 104 converts the known sound according to the estimation data generated by the parameter estimating unit 300, and removes the converted signal from the “time-frequency data” of the mixed sound.
  • the oscillator unit 105 restores, by superposition conversion, data of only the sound with the known sound removed from the "time-frequency data" obtained by the subtraction calculation and the phase data in the mixed sound signal.
  • an inverse Fourier transform may be performed instead of a powerful superposition transform.
  • subtraction at each time Force to perform inverse Fourier transform of subsequent frequency channel data should have the same value as the phase of the known sound or mixed sound before removal
  • the arrangement processing unit 106 superimposes the outputs of the windows of the same width by the overlap add (OverlapAdd) method on the sound at each time point having a width of 170 milliseconds, which is the width of the Hayung window, and finally, Restore audio from which music has been removed.
  • overlapAdd overlap add
  • the post-removal sound signal output unit 107 is a module that outputs mixed sound from which the known sound has been removed as audio data.
  • the post-removal sound signal output unit 107 estimates the range of only the known sound signal in the mixed sound signal according to the matching degree calculated by the matching degree calculating unit 304, and It functions as a sound removal unit that removes sound signals.
  • FIG. 4 shows the flow of processing by the removal engine 100.
  • the removal engine 100 acquires the phase and amplitude spectrum of the mixed acoustic signal from the mixed acoustic signal by Fourier transform.
  • the removal engine 100 performs A / D conversion on the acoustic signal at a sampling frequency of 48 kHz and a quantization bit number of 16 bits, and performs STFT using a Hayung window having a window width of 8192 points as a window function h (t). , Calculated by the fast Fourier transform (FFT).
  • FFT fast Fourier transform
  • the elimination engine 100 shifts the FFT frame by 480 points at a time, and sets the frame shift time (one frame shift) to 10 ms as the processing time unit.
  • the removal engine 100 can easily cope with other standardized frequencies (16 kHz, 44 kHz, etc.), window widths, and frame shifts.
  • step S202 the removal engine 100 performs a Fourier transform of the known acoustic signal to obtain an amplitude spectrum of the known acoustic signal.
  • the coincidence calculating section 304 calculates the amplitude spectrum of the mixed sound and the amplitude spectrum of the known sound.
  • the frequency characteristics and intensity points of the mixed sound and the known sound signal at each time are plotted, and the degree of coincidence between the common linear force and the deviation force with respect to the plotted intensity points is compared (S203).
  • the frequency characteristic and the intensity are estimated from the inclination of the common line. The calculation of the degree of coincidence and the calculation of the inclination of the common line will be described later.
  • the time position corrector 303 detects the start time of the known sound signal and corrects the amplitude spectrum of the known sound signal (S204 and S205). ).
  • the corrected amplitude spectrum of the known acoustic signal is removed from the amplitude spectrum of the mixed acoustic signal (S206), and the removed amplitude spectrum is compared with the phase of the mixed acoustic signal in the oscillator unit 105. And superposition conversion (S207), and the arrangement processing unit 106 performs arrangement conversion by the overlap add method (S208). Further, based on the degree of coincidence calculated in step S203, the range of only known sounds is determined, and the range of only known sounds is removed by the acoustic signal output unit 107 after removal (S209 and S210).
  • the matching degree calculation unit 304 calculates the matching degree between the mixed sound and the known sound. Specifically, the coincidence calculating section 304 compares the intensities of the amplitude spectra of the mixed sound and the known sound, and calculates the degree of coincidence. Specifically, it is based on the following page.
  • the degree-of-coincidence calculation unit 304 calculates a mixed sound section (Tms, Tme) and a known sound section (Tms, Tme) given to the mixed sound signal, the known sound signal, and the amplitude spectrum obtained by Fourier transforming each of them. , Tme), the degree of coincidence is determined from the difference (Td) between the start times. If Td is a multiple of Tf (the frame length at the time of Fourier transform), the coincidence calculating section 304 can use the amplitude spectrum obtained in step S201. In other cases, the coincidence calculating section 304 calculates the amplitude spectrum every time.
  • the coincidence calculating unit 304 obtains a common section in which the known sound is included in the mixed sound. If this is (Ts, Te), the following equation is obtained. [Number 1]
  • Ts max (Tms, Tbs-Td)
  • Te mn (Tme, Tbe-Td)
  • Nf (Te-Ts) tTf + l
  • the coincidence calculating section 304 sets a stationary block defined by a frequency band having a predetermined width and a time width.
  • the coincidence calculating section 304 calculates the mixed acoustic amplitude spectrum M ( ⁇ , t) and the known acoustic amplitude spectrum ⁇ ( ⁇ , t) in the time axis direction and the frequency axis direction (logarithmic plot). It is divided into stationary blocks in units of time and frequency (for example, as shown in Fig. 5, the horizontal width of the stationary block is 200 milliseconds (20 frames) and the vertical width is about 0.5 octave).
  • the coincidence calculating section 304 sets an estimated block having a range including the stationary block for all of the stationary blocks. Specifically, the coincidence calculating section 304 sets a larger estimated block surrounding the block for each stationary block (for example, in FIG. 5, the width is 400 milliseconds (40 frames), and the pitch is about 1
  • the coincidence calculation unit 304 estimates the actual intensity of the known sound (BGM) using the data included in the estimation block).
  • the size of the block can be any size. That is, in the present embodiment, the size of the block is rectangular with the stationary block, the low frequency band width, and the time width as shown in FIG. 5, but, for example, as shown in FIG. It may be a strip-shaped block separated. Regardless of the amount of calculation (calculation speed), the width and height of the “stationary block” are the minimum ( Even more accurate estimation is possible, even with 10 ms horizontal and 1 vertical channel. Conversely, by increasing the horizontal and vertical widths of the “steady-state block”, the amount of calculation can be reduced and high-speed execution is possible.
  • the coincidence calculating section 304 calculates an average signal intensity (spectral intensity) for each block. Specifically, the following processing is performed for all estimated blocks.
  • the range of the estimation block set for the mixed sound amplitude spectrum is the time axis (Tks ⁇ Ti ⁇ Tke) and the frequency axis (coks coK coke)
  • the Ti and ⁇ Find all sets of known acoustic amplitude spectrum values B ( ⁇ Ti + Td) corresponding to all used mixed acoustic amplitude spectrum values ⁇ ( ⁇ ⁇ , Ti) and assumed start time shift Td .
  • the coincidence calculating section 304 obtains the coincidence in the estimation block by any one of the following procedures. Specifically, as shown in FIG. 7, the coincidence calculating section 304 plots the spectrum intensity of the corresponding estimated block on a plane between the known acoustic amplitude spectrum and the mixed acoustic amplitude spectrum. , Set a common line for all spectral intensity points, calculate the degree of coincidence based on the degree of divergence of each spectral intensity point from the common line, find the common line with the lowest degree of divergence, and calculate the spectral intensity based on the slope of the common line. Ask for. In Fig. 7 (a), the degree of coincidence is high because the intensity points are almost located on a common straight line. In Fig. 7 (b), sounds (speech and noise) other than known sounds and interference on the same frequency , The degree of coincidence is low.
  • the coincidence is calculated by the following equation. This is a correlation value, and the greater the value, the larger the value close to 1.
  • the number of samples in the estimation block (the number when all ⁇ ⁇ and Ti are exhausted) is Ns.
  • this method is a typical robust statistical method, finds a straight line that fits using a linear regression method that is a straight line passing through the origin, and then searches for a point where the linear force is also distant, and 10% from the distant point. To eliminate the point. Then, for the remaining points, a straight line that fits is found again, and among the remaining points, points that are far from the new linear force are excluded by about 10%. If this process is repeated about 5 times, 50% of the points remain as the points to be fitted, and the result is the slope of the last fitted line. For the amount to be reduced and the setting method, use a V-type method.
  • W is set with an initial value of 1 for all relevant Ti and ⁇ ⁇ . At this time [Number 6]
  • Step 3 The standard ratio ⁇ is obtained by the following equation.
  • Step 4 Obtain the deviation from the standard ratio for all applicable Ti and ⁇ .
  • Step 5 Subtract a constant value Cs from Rs.
  • the fixed value is greater than 0.0 and smaller than 0.5. (For example, use 0.1 as Cs)
  • W is set to 1 for each (sample number * Rs) in order of the force with the smallest deviation.
  • W is set to 0 for the remaining (number of samples * (1.0-Rs)).
  • the degree of coincidence is calculated by the following equation. This represents a correlation value, and the greater the value, the larger the value close to 1.
  • W is set with an initial value of 1 for all relevant Ti and ⁇ .
  • the finally obtained oc is defined as the intensity of the known sound in the stationary block. Also, for all the applicable Ti and ⁇ i, find the deviation from the standard ratio.
  • the magnitude Dmidium of the (difference in the number of samples * 0.5) -th shift is determined in ascending order.
  • the degree of coincidence is calculated by the following equation. This represents a correlation value, and the greater the value, the larger the value close to 1.
  • the set line weight is calculated by integrating the slope of the common line with the distance from the X-axis and the ⁇ -axis of the plane to each spectral intensity point, and each weight is calculated from a straight line passing through the origin. It is integrated with the distance to the torque intensity point, and the result is defined as the slope of a straight line obtained by the statistics.
  • W (coi, Ti) is determined, and a weighting function W (coi, Ti) that increases as ⁇ ( ⁇ , ⁇ ) and ⁇ ( ⁇ , Ti + Td) increases is determined. Examples include the following:
  • ⁇ ⁇ , ⁇ ⁇ ⁇ ⁇ ( ⁇ , ⁇ ⁇ ⁇ , ⁇ + Td)) 2
  • the obtained degree of coincidence is obtained for all the estimated blocks, and the average is obtained.
  • it is possible to improve the accuracy of the matching degree by excluding frequency bands (extremely low and high frequencies) that are apparently noisy from experience.
  • the inclination of the common line can also be obtained by the following procedure.
  • the slope of the straight line passing through the NZ2nd spectral intensity point among all the straight lines passing through each spectral intensity point from the origin is calculated.
  • the acoustic signal removal system is, for example, It is realized by an audio signal removal program installed in a computer such as a user terminal or a Web server or an IC chip, and a CPU, a memory, a hard disk, etc. provided in the computer. Therefore, by installing the audio signal removal program, it is possible to easily construct an audio signal removal device or an audio signal removal system having the above-described functions, and to implement the audio signal removal method. .
  • This acoustic signal elimination program can be distributed, for example, through a communication line, and can be transferred as a knocking application that runs on a stand-alone computer.
  • Such a program can be recorded on a recording medium 116-119 readable by a general-purpose computer 120 as shown in FIG. More specifically, various recording media such as a RAM card 118 as well as a magnetic recording medium such as a flexible disk 116 and a cassette tape 119, an optical disk such as a CD-ROM and a DVD-ROM 117 as shown in FIG. Can be recorded on the body.
  • various recording media such as a RAM card 118 as well as a magnetic recording medium such as a flexible disk 116 and a cassette tape 119, an optical disk such as a CD-ROM and a DVD-ROM 117 as shown in FIG.can be recorded on the body.
  • a general-purpose computer or a special-purpose computer is used to construct the above-described acoustic signal removal system or implement the acoustic signal removal method. This makes it easy to store, transport and install the program.
  • phase of the amplitude data can be changed, processing that does not depend on the phase can be performed. Therefore, for example, only music can be removed from the audio signal of a program in which audio and music are mixed, using the audio data such as a music CD used when the program was created.
  • Fig. 9 shows the result of actually processing a mixed sound of classical music being played in the background music of a dialogue between two men and women.
  • BGM component known sound signal
  • the synchronization control unit 9 synchronizes the video and the audio and outputs the synchronized video and audio from the monitor 10 and the speaker 11, so that before the music is removed, the music is removed. The operation can be performed while visually confirming each subsequent sound by comparing it with the video, thereby improving work efficiency.
  • the time change graph is displayed and can be corrected by an intuitive operation in which the user draws with the mouse, the user's intention such as taking into account each scene of the program and the reuse method can be considered. , The effect of the music removal can be adjusted.
  • the audio signal removing apparatus can appropriately remove the sound to be removed from the mixed sound. And useful.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)

Abstract

 除去しようとする既知音響信号から既知音響振幅スペクトルを抽出するとともに、混合音響信号から混合音響振幅スペクトルを抽出する音響振幅抽出部と、混合音響信号と既知音響信号との位相のずれが、0から360度の範囲で一様な確率で分布しているとして、既知信号の除去強度を設定する除去強度設定部と、除去強度設定部における設定に基づいて、該既知音響振幅スペクトルを変換し、混合音響振幅スペクトルから既知音響振幅スペクトルを除去する除去処理部とを備える。この音響信号除去装置によると、混合音響中から既知の音響を除去する際に生じる、音量の不連続や、位相のずれに基づく誤処理が派生するのを回避し、除去しようとする音響の変化を自動的且つ高精度に予測し、適正に除去することができる。

Description

明 細 書
音響信号除去装置、音響信号除去方法及び音響信号除去プログラム 技術分野
[0001] 本発明は、既に放送された番組を再放送するなど、コンテンツを再利用する際に、 コンテンツ中に混合された BGMや音声等の音響を除去する音響信号除去装置、音 響信号除去方法及び音響信号除去プログラムに関する。
背景技術
[0002] 近年の放送業界では、既に放送された番組を再放送するなど、コンテンツを再利用 する場合がある。このコンテンツの再利用に際しては、既に放送された音声や音楽が 混合している映像素材から、使用されている音楽だけを除去することで、新たな素材 として活用することができる。このように、既存の混合音響から特定の音声を減算する 技術としては、例えば、特開 2000-312395号公報に開示された技術がある。
[0003] し力しながら、放送番組の音声作成時には、製作意図に合わせて周波数特性や音 量を調整する場合が多いため、音の位相が予測不能な変化をしている。このため、 単に電子的な減算処理を行ったのみでは、適切に除去することはできない。
[0004] 詳述すると、除去しょうとする音響が、例えば番組の BGMのような既知の音楽であ つても、番組作成時に、番組効果のために BGMの低音や高音の強調や減衰を行つ たり、録音'再生を繰り返したりする過程で、 BGMの周波数特性が変化している場合 もあり、単純に減算処理をすることはできない。
[0005] 本発明は、上記問題を解決すべくなされたものであり、混合音響中から既知の音響 を除去する際に生じる、音量の不連続や、位相のずれに基づく誤処理が派生するの を回避し、除去しょうとする音響の変化を自動的且つ高精度に予測し、適正に除去 することのできる音響信号除去装置、音響信号除去方法及び音響信号除去プロダラ ムを提供することを目的とする。
発明の開示
[0006] 上記課題を解決するために、本発明は、除去しょうとする既知音響信号から既知音 響振幅スペクトルを抽出するとともに、既知音響信号と他の音響信号とが混合されて ヽる混合音響信号カゝら混合音響振幅スペクトルを抽出し、既知音響振幅スぺ外ルと 混合音響振幅スペクトルとの一致度を算定し、算定された一致度に応じて、混合音 響振幅スペクトルに対する既知音響振幅スペクトルの時間的位置を変位させ、既知 音響振幅スペクトルと、混合音響振幅スペクトル内に混合された既知音響振幅スぺク トルとの時間位置を合致させ、時間位置が変位された既知音響振幅スペクトルを、混 合音響振幅スペクトル力 除去する。
[0007] 特に、上記一致度の算定にお!、ては、既知音響振幅スペクトルと混合音響振幅ス ベクトルのそれぞれについて、所定幅の周波数帯域と時間幅とにより画定される定常 ブロックを設定し、定常ブロックの全てについて、定常ブロックを含む範囲を有する推 定ブロックを設定し、既知音響振幅スペクトル及び混合音響振幅スペクトル間にお ヽ て対応する推定ブロック内のスペクトル強度点を平面上にプロットし、全てのスぺタト ル強度点に対する共通線を設定し、各スペクトル強度点の共通線に対する乖離度に より一致度を算定する。
[0008] このような本発明によれば、既知音響が含まれて 、る混合音響から、既知音響を除 去する際に行っていた、混合音響と既知音響の開始時刻を一致させる処理を、自動 で且つ精度良く行うことができる。
[0009] この結果、従来より行っていた、正確に時刻を一致させるための、既知音響だけの 区間を指定するオペレータによる手動の作業を省略することができる。また、混合音 響中に既知音響だけの区間がな!ヽ場合や発見できな!、場合であっても、既知音の 除去処理を実行することが可能となる。
[0010] また、他の発明は、除去しょうとする既知音響信号力も既知音響振幅スペクトルを 抽出するとともに、既知音響信号と他の音響信号とが混合されている混合音響信号 カゝら混合音響振幅スぺ外ルを抽出し、既知音響振幅スペクトルと混合音響振幅スぺ タトルとの一致度を算定し、算定された一致度に応じて、既知音響振幅スペクトルの 周波数特性を補正し、周波数特性が補正された既知音響振幅スペクトルを、混合音 響振幅スペクトルから除去する。
[0011] 本発明においても、上記一致度の算定では、既知音響振幅スペクトルと混合音響 振幅スペクトルのそれぞれについて、所定幅の周波数帯域と時間幅とにより画定され る定常ブロックを設定し、定常ブロックの全てについて、定常ブロックを含む範囲を有 する推定ブロックを設定し、既知音響振幅スペクトル及び混合音響振幅スペクトル間 において対応する推定ブロック内のスペクトル強度点を平面上にプロットし、全てのス ベクトル強度点に対する共通線を設定し、各スペクトル強度点の共通線に対する乖 離度により一致度を算定する。
[0012] このような本発明によれば、既知音響が含まれて 、る混合音響から、既知音響を除 去する際に行って 、た、既知音響振幅スペクトルの周波数特性を補正する処理を、 自動で且つ精度良く行うことができる。
[0013] 特に、本発明によれば、所定幅の周波数帯域と時間幅とにより画定される定常プロ ックを設定し、全ての定常ブロックについて、スペクトル強度点の乖離度から、混合音 響と既知音響との一致度を推定するため、混合音響中に既知音響以外の大きな音 が含まれている場合であっても、強度推定を実際よりも大きく推定する等の誤処理が 低減され、既知音響を実際の音量 (強度や振幅スペクトル)より大きいとして、過剰に 音響信号を除去することがなぐ処理後の音声が劣化するのを回避することができる
[0014] この結果、混合音響中に含まれる既知音響が、既知音響として与えた音楽 CD等の 音を、制作意図に合わせて周波数特性や音量を調整して、他の音と混合して制作さ れている場合であっても、混合音の各時刻に含まれる既知音響の、強度とその周波 数特性を正確に推定することかできる。
[0015] これにより、従来行っていた、既知音響を調整した周波数特性を推定するための、 混合音響の中における既知音響のみが含まれて 、る時間区間を、オペレータが聴 ヽ て選択する作業などを省略することができ、また、混合音響中で音楽だけの区間がな い場合であっても、既知音響の除去を確実に行うことができる。
[0016] さらに、本発明では、推定のためにサンプルを取得する区間の指定を行わず、混合 音響全域について一致度を算定することから、サンプル区間のみで周波数特性を推 定することによる、その区間の既知音響に含まれない周波数についての特性が予測 できな 、と 、う問題を解決することができ、この問題を回避するために従来行って ヽ た、周波数ごとに飛び飛びにしか得られない特性を、補完したり、なめらかにしたりと いった処理を不要とすることができるとともに、これら従来の処理に付随していた、周 波数補正グラフを表示し、オペレータが手動で修正するという作業等を省略すること ができる。この結果、既知音響除去作業の効率化、高精度化を図ることができる。
[0017] 本発明は、除去しょうとする既知音響信号力も既知音響振幅スペクトルを抽出する とともに、既知音響信号と他の音響信号とが混合されている混合音響信号から混合 音響振幅スペクトルを抽出し、既知音響振幅スぺ外ルと混合音響振幅スぺ外ルと の一致度を算定し、算定された一致度に応じて、混合音響信号における既知音響信 号のみの範囲を推定し、当該範囲の混合音響信号を除去する。
[0018] 本発明においても、上記一致度の算定では、既知音響振幅スペクトルと混合音響 振幅スペクトルのそれぞれについて、所定幅の周波数帯域と時間幅とにより画定され る定常ブロックを設定し、定常ブロックの全てについて、定常ブロックを含む範囲を有 する推定ブロックを設定し、既知音響振幅スペクトル及び混合音響振幅スペクトル間 において対応する推定ブロック内のスペクトル強度点を平面上にプロットし、全てのス ベクトル強度点に対する共通線を設定し、各スペクトル強度点の共通線に対する乖 離度により一致度を算定する。
[0019] このような本発明によれば、既知音響のみの範囲を混合音響ごと除去するため、混 合音響中における既知音響のみの時間区間において、既知音響の推定誤差等によ り除去されない音が残ってしまうという問題を解消することができる。
図面の簡単な説明
[0020] [図 1]図 1は、実施形態に係る音響信号除去システムの構成を示すブロック図である。
[図 2]図 2は、実施形態に係る音響信号除去システムの動作を示すフロー図である。
[図 3]図 3は、実施形態に係る除去エンジンの機能ブロック図である。
[図 4]図 4は、実施形態に係る除去エンジンの動作を示すフロー図である。
[図 5]図 5は、実施形態に係る既知音響方法において定常ブロックの設定を示す説 明図である。
[図 6]図 6は、実施形態に係る既知音響方法において定常ブロック設定の変更例を 示す説明図である。
[図 7]図 7は、実施形態に係る既知音響方法においてスペクトル強度点をプロットした 状態を示す説明図である。
[図 8]図 8は、実施形態に係るプログラムを記録したコンピュータ読み取り可能な記録 媒体を示す斜視図である。
[図 9]図 9は、実施形態に係る音響信号除去方法による効果を示す説明図である。 発明を実施するための最良の形態
[0021] [音響信号除去システムの構成]
本発明の実施形態について図面を参照しながら説明する。図 1は、本実施形態に 係る音響信号除去システムの全体構成を示すブロック図である。
[0022] 図 1に示すように、本実施形態に係る音響信号除去システムは、混合音響や既知 音響を入力する入力 I/F1及び DVキヤプチヤー 2を備えて 、る。これら入力 I/F1及び DVキヤプチヤー 2から入力されたファイル(例えば、 AVIファイルや WAVファイル) は、記憶装置 5に蓄積される。入力 I/F1は、 CDプレーヤーや MDプレーヤ一等の再 生装置力も音響信号を取り込むインターフェースである。また、 DVキヤプチヤー 2は 、映像や音声が混合した混合音響信号である除去対象用の MIX音声を取り出すィ ンターフェースである。
[0023] また、音響信号除去システムは、記憶装置 5に蓄積された各種データに対して音声 データ抽出処理や音声変換処理を行う音声変換部 (PreWav/PostWav) 4及び音声 データ抽出部(DVReMix) 3とを備えている。これら音声変換部 4及び音声データ抽 出部 3は、指定されたファイル (AVIファイルや WAVファイル)を記憶装置 5から読み 出し、所定の処理を施した後、処理後のファイル (WAVファイル)を記憶装置 5に蓄 積する。
[0024] 音声変換部 4は、周波数変換、及びステレオ力もモノラルの分離を行う(S 103)。す なわち、除去エンジン 100のフォーマットに合うように、 WAVファイルを左右 2チャン ネルに分離するとともに、サンプリングレートを 48kHzに変換し、 2つの WAVファイル( 出力ファイル名:左チャンネルが MIX-L.WAV、右チャンネルが MIX-R.WAV)とし て生成し、記憶装置 5に蓄積する。
[0025] 音声データ抽出部 3は、映像データ及び音声データ力 構成されるコンテンツから 音声データのみを抽出するモジュールであり、本実施形態では、 AVIファイル力 音 声データを WAV形式で抽出する。ここでの WAVファイルは、ステレオ形式であり、 そのサンプリングレートは DVの音声と同じ 32kHz又は 48kHzである。この抽出された WAVファイルは、記憶装置 5に蓄積される。
[0026] そして、音響信号除去システムは、混合音響信号から既知音響信号を除去する除 去エンジン 100を備えている。この除去エンジン 100は、記憶装置 5に蓄積された各 音声ファイル (WAVファイル)を読み出し、除去したデータや除去処理に係る各種デ ータを、一時メモリ 7を介して、記憶装置 5に蓄積したり、出力 I/F8を通じて、モニタ 1 0やスピーカー 11から出力する。モニタ 10は、ユーザーインターフェース 6による操 作や処理結果を表示する GUIを表示し、スピーカー 11は、ユーザーインターフエ一 ス 6によるユーザー操作に基づいて、混合音響や既知音響、除去後音響を出力する
[0027] また、除去エンジン 100は、キーボード 6aやマウス 6b等の入力デバイスによるユー ザ一操作に基づく操作信号を、ユーザーインターフェース 6を通じて取得し、この操 作信号に基づいて、各種処理を行う。この除去エンジン 100による音響信号除去処 理については、後述する。
[0028] また、音響信号除去システムは、同期制御部 9を備えており、これにより記憶装置 5 からのデータの読み出し、除去エンジン 100による除去処理、メモリ 7や出力 I/F8に よるデータの入出力を同期させる。これにより、モニタに表示される映像と、スピーカ 一 11から出力される音声を、除去エンジン 100による処理やユーザーインターフエ一 ス 6におけるユーザー操作に同期させることができる。
[0029] さらに、音響信号除去システムは、パラメータの設定に際し、そのデフォルト値をシミ ユレーシヨンにより設定し、ユーザーの作業を支援するシミュレーション部 14を備えて いる。
[0030] 具体的に、シミュレーション部 14は、一定振幅の単音 (480Hz)を混合音として入力 し、既知音響をゼロとして除去処理を行い、出力される音量と、処理前の混合音とを 比較して差分量を計測し、その差分量が 0となるように、ユーザーインターフェース 6 における除去強度のデフォルト値を設定する。
[0031] [音響信号除去システムの動作] 以上説明した構成を備える音響信号除去システムは、以下のように動作する。図 2 は、音響信号除去システムの動作を示すフロー図である。なお、本実施形態では、 映像と音声力ステレオで記録された映像ファイル (DV)を混合音響 (MIX音声)とし、 オリジナル曲が記録された音声ファイルを既知音響とし、映像ファイル中に BGMとし て包含されている当該オリジナル曲を除去する場合を例に説明する。本実施形態お ける処理は、(1)前処理、(2)音楽除去処理、(3)後処理に大別される。以下、各処 理について詳述する。
[0032] (1)前処理
前処理では、 DVから除去対象用の MIX音声を取り出すとともに、 BGM用音声 (ォ リジナル曲)を用意する。具体的には、 DVキヤプチヤー 2から DV用のビデオ編集ソ フトを使用して動画をキヤプチヤーし(S101)、このキヤプチヤーしたファイルを、タイ プ 1の AVIファイル(出力ファイル名: MIX.AVI)として、記憶装置 5に蓄積する。
[0033] 次いで、音声データ抽出部(DVReMix) 3により、 AVIファイルから音声データを W AV形式(出力ファイル名: MIX.WAV)で抽出する(S102)。ここでの WAVファイル は、ステレオ形式であり、そのサンプリングレートは DVの音声と同じ 32kHz又は 48kHz である。この抽出された WAVファイルは、記憶装置 5に蓄積される。
[0034] その後、音声変換部(PreWav) 4により、周波数変換及び、ステレオ力もモノラルの 分離を行う(S103)。すなわち、除去エンジン 100のフォーマットに合うように、 WAV フアイルを左右 2チャンネルに分離するとともに、サンプリングレートを 48kHzに変換し 、 2つの WAVファイル(出力ファイル名:左チャンネルが MIX-L.WAV、右チャンネ ルが MIX-R.WAV)として生成し、記憶装置 5に蓄積する。また、このステップ S103 では、音声変換と同時にビデオの開始時間のオフセットを、設定ファイル (ファイル名 : MIX.time)に出力し、記憶装置 5に蓄積する。
[0035] これらステップ S101— S103と並行して、オリジナル曲の取り込みを行う(S104)。
具体的には、オリジナル曲(BGM曲)を CDなどから取り込み、 44.1kHzステレオの W AVファイル(出力ファイル名: BGM.WAV)として、記憶装置 5に蓄積する。次いで、 音声変換部 (PreWav) 3により、周波数変換、ステレオカゝらモノラルの分離を行う(S1 05)。すなわち、除去エンジン 100のフォーマットに合うように、ステップ S104で取り 込んだ WAVファイルを、左右 2チャンネルに分離し、サンプリングレートを 48kHzに変 換し 2つの WAVファイル(出力ファイル名:左チャンネルが BGM-L.WAV、右チャン ネルが BGM- R.WAV)として、記憶装置 5に蓄積する。
[0036] (2)音楽除去処理
音楽除去処理では、除去エンジン(GEQ) 100により、 MIX音声から BGM音声を除 去する(S106)。この除去後出力される音声ファイルは、左右チャンネルともにモノラ ル 48kHzの WAVファイル(出力ファイル名:左チャンネル力 ¾RASE- L.WAV、右チヤ ンネルが ERASE-R.WAV)として、メモリ 7又は記憶装置 5に蓄積される。
[0037] (3)後処理
後処理では、除去エンジンで除去された音声力 DV用の音声に変換され、 DV(A VIファイル)に復元される。先ず、音声変換部(PostWav) 4が、周波数変換、及びモノ ラルからステレオへの変換を行う(S 107)。すなわち、音声変換部 4は、除去エンジン 100から出力された左右 2チャンネルの WAVファイルをステレオに合成し、必要なら ば元の DVの音声と同じサンプリングレートに変換し、 WAVファイル(ファイル名: ERASE.WAV)として、記憶装置 5に蓄積する。次いで、音声データ抽出部( DVReMix) 3が、キヤプチヤーした AVIファイル(BGM.AVI)の音声を、除去後の音 声 (ERASE.WAV)と入れ替え(S 108)、除去後音響ファイル(ファイル名: ERASE. AV I)として、記憶装置 5に蓄積する。
[0038] なお、例えば、 1回目の作業で、ステレオ放送の左音声 (L)について作業した場合 などには、この左音声に対する各種パラメータ設定データを記憶しておき、これを次 回の右音声に対する除去処理の際に呼び出し、ユーザーインターフェース 6におけ るデフォルト値として設定する。
[0039] [除去エンジンの構成]
以上説明した理論に基づく除去エンジン 100の構成について説明する。図 3は、除 去エンジン 100の機能を示すブロック図である。なお、本実施形態に係る除去ェンジ ン 100は、 CPU等の演算処理装置上で音響信号除去プログラムを実行することによ り、 CPU上に仮想的に構築されるモジュールである。
[0040] 具体的には、図 3に示すように、除去エンジン 100は、信号入力手段として、混合音 響信号が入力される混合音響入力部 101と、除去しょうとする既知音響信号を入力 する既知音響信号入力部 102とを有し、除去処理が施された音響信号の出力手段と して除去後音響信号出力部 107を有している。
[0041] また、除去エンジン 100は、入力された音響信号から振幅スペクトルを抽出する振 幅スペクトル抽出部 200を備えている。具体的に、この振幅スペクトル抽出部 200は 、データ分割部 201と、窓関数処理部 202と、フーリエ変換部 203とを備えている。
[0042] データ分割部 201は、混合音響信号を、特定の長さ(窓サイズ)の区間に分割する 。一般の音声認識等では、一区間の長さを 20ミリ秒程度とするが、音声に比べて、音 楽では同じ音が長く継続することから、本実施形態では、これよりも 10倍程度長い、 2 のべき乗である 8192サンプル(8192÷48,000=0.170約 170ミリ秒)としている。
[0043] 窓関数処理部 202は、データ分割部 201により分割された窓サイズ区間(170m秒) の音声信号データに対し、ハニング関数を掛けて、データの最初と最後の部分にお いて、なだらかにゼロに収束させる信号波形に変換する。
[0044] フーリエ変換部 203は、混合音響信号及び既知音響信号それぞれのデータをフー リエ変換して、周波数チャンネル毎の位相及び振幅スペクトルを分離して出力する。 なお、振幅スペクトルのみ力もなるデータは「時間周波数データ」として出力される。
[0045] 詳述すると、このフーリエ変換部 203は、ハユング関数処理された音声データに対 して、高速フーリエ変換 (FFT)を行う。なお、入力される音声データは実数のみで、 虚数部が含まれ、この FFTでは入出力を複素数で計算することから、 2回の窓の変換 を入力データの実部と虚部にそれぞれ行い、高速フーリエ変換し、変換後に共役関 係を使って分離して 2倍の速度向上を実現している。なお、本システムではインテル 社の Pentium4プロセッサ(登録商標)等で利用できる SSE2命令を使用し、処理の高 速ィ匕を図っている。
[0046] そして、振幅スペクトル抽出部 200では、フーリエ変換する区間を 480サンプル (480
÷ 48,000=0.01: 10ミリ秒)単位で移動させ、窓関数処理部 202及びフーリエ変換部 2 03によるハユング窓関数の掛け算とフーリエ変換の処理を繰り返す。このようにして 10ミリセカンド毎に得られたデータから、周波数チャンネル毎に音声信号の「振幅の み」を表すデータである「時間周波数データ」を取得する。このようにして得られた周 波数チャンネルは、 0Ηζ,5.86Ηζ,11,72Ηζ,17.57Ηζ· ··.23,994.14Ηζというように、 ΟΗζ ( 直流)から約 5.86Hz毎に約 24kHzまでの 4096チャンネルとなる。
[0047] なお、振幅スペクトル抽出部 200は、入力された信号が混合音響信号であるときに は、混合音響信号から混合音響振幅スペクトルを抽出する混合音響振幅抽出部とし て機能し、入力された信号が除去しょうとする既知音響信号であるときには、既知音 響信号から音響振幅スペクトルを抽出する既知音響振幅抽出部として機能する。
[0048] また、除去エンジン 100は、振幅スペクトル抽出部 200から抽出された既知音響の 振幅スペクトルに基づいて、混合音響中の既知音響の変化を自動推定したり、自動 推定結果をユーザー操作により修正するパラメータ推定部 300を備えて 、る。このパ ラメータ推定部 300は、既知音響の周波数特性や強度、時間位置を推定し、混合音 響中の既知音響と一致させるベぐ各パラメータの補正を行うモジュールであり、この 補正は、一致度算定部 304において算定された一致度に基づいて実行される。
[0049] さらに、パラメータ推定部 300は、周波数特性補正部 301と、強度補正部 302と、時 間位置補正部 303とを備え、これらにより (1)混合音響と既知音響の時間的な位置ず れ、(2)既知音響の周波数特性、及び (3)既知音響の音量の時間変化を推定する。
[0050] 周波数特性補正部 301は、周波数分布の推定を行うモジュールであり、この周波 数分布の推定に際し、振幅スペクトルに対するィコライジング処理及びフエーダー操 作処理のための任意の形状の関数である c(co , t)について、 ω方向の形状を変化さ せることにより、グラフィックイコライザのように、既知音響信号除去後の周波数特性を 調整する。
[0051] また、周波数特性補正部 301は、音声チャンネルのうち BGMの音量が小さい部分 ではノイズ等により得られる値が不安定となるため、周波数特性の平滑化を行う。この 平滑ィ匕は、前後のチャンネルの平均値をとつてなめらかにすることによって実現され る。
[0052] 強度補正部 302は、音量の時間変化の推定と平滑化とを行う。この音量の時間変 化の推定に際しては、スペクトル関数 c( co , t)の t方向の形状を補正することにより、ミ キサ一のボリュームフエーダー操作のように、既知音響信号除去後の音量変化を調 整することができる。 [0053] 本実施形態において強度補正部 302は、混合音全時間域にわたって、既知音響 の音量の時間変化を検出する。混合音には、既知音響以外に音声等の音が含まれ ているため、混合音と周波数特性で補正した既知音響の周波数チャンネルを 1ォクタ ーブ毎 (周波数で 2倍毎)にまとめて合計する。同じ時刻毎に比較し、既知音響に対 して混合音の大きさの比率が一番小さなものを選択する。これにより、オクターブ毎に 比べた場合、どれか一つの区間では既知音響のみになっている可能性を反映させる ことができる。これをその時刻での既知音響と混合音の音量比とする。
[0054] なお、本実施形態では、グラフ表示により、ユーザーが、音量が明らかに大きくなる ことを識別し、手作業で補正して対処する。なお、この推定においては、ロバスト統計 的手法など自動的に判断する方法を採用してもよ!、。
[0055] また、強度補正部 302は、時間変化の推定でも平滑化を行い、時間前後の既知音 響の音量の平均値をとつてなめらかにする。
[0056] 時間位置補正部 303は、混合音響の開始点と、既知音響の開始点の時間的な位 置ずれを補正するモジュールである。なお、本システムでは、上記手順を実行して自 動推定することも、予め決めた時間のずれを、ユーザーが指定して、自動推定しない ことを選択することができる。また、ユーザーの耳での混合音と既知音響とを左右別 々のスピーカーから出力し、これらの音声を比較しながら聴き、ユーザーの聴覚によ り位置合わせをするようにしてもょ ヽ。
[0057] さらに、除去エンジン 100は、振幅スペクトル抽出部 200によって抽出された混合 音響振幅スペクトル力 既知音響振幅スペクトルを除去する除去処理部 104と、逆フ 一リエ変換して、除去後の音響を重畳変換し復元するオシレータ部 105及び配置処 理部 106を備えている。除去処理部 104は、既知音響をパラメータ推定部 300で生 成した推定データに応じて変換し、この変換した信号を混合音響の「時間周波数デ ータ」から、除去する。
[0058] 前記オシレータ部 105は、差し引き計算によって得られた「時間周波数データ」と、 混合音響信号中の位相データとから、既知音響を消した音声のみのデータを重畳変 換により復元する。なお、このオシレータ部においては、力かる重畳変換によらず、逆 フーリエ変換を行ってもよい。なお、逆フーリエ変換に際しては、各時刻での差し引き 後の周波数チャンネルデータを逆フーリエ変換する力 このときの各チャンネルの音 声の位相は、除去する前の既知音響又は混合音響の位相と同じ値を取るようにする
。この操作によって、除去前の音声の位相が維持でき、また区間毎に「プチプチ」とい うノイズが発生するのを防ぐことができる。なお、 IFFTの高速ィ匕については時間周波 数データを作成する場合と同じ手法を用いて ヽる。
[0059] 配置処理部 106は、ハユング窓の幅である 170ミリセカンドの幅をもつ各時刻の音声 について、同じ幅の窓の出力をオーバーラップアド(OverlapAdd)法で重ね合わせて 、最終的に音楽が除去された音声を復元する。
[0060] 除去後音響信号出力部 107は、既知音が除去された混合音響を音声データとして 出力するモジュールである。なお、本実施形態では、除去後音響信号出力部 107は 、一致度算定部 304において算定された一致度に応じて、混合音響信号における既 知音響信号のみの範囲を推定し、当該範囲の混合音響信号を除去する音響除去部 として機能する。
[0061] [除去エンジン]
次いで、上述した除去エンジン 100について詳述する。除去エンジン 100による処 理の流れを図 4に示す。
[0062] 同図に示すように、先ず、除去エンジン 100は、ステップ S201において、フーリエ 変換により、混合音響信号カゝら混合音響信号の位相及び振幅スペクトルを取得する 。本実施形態では、除去エンジン 100は、音響信号を標本化周波数 48kHz、量子化 ビット数 16bitで A/D変換し、窓関数 h(t)として窓幅 8192点のハユング窓を用いた ST FTを、高速フーリエ変換 (FFT)によって計算する。その際、除去エンジン 100は、 FFTのフレームを 480点ずつシフトし、フレームシフト時間 (1フレームシフト)は 10msと なったフレームシフトを、処理の時間単位とする。なお、除去エンジン 100は、他の標 本化周波数 (16kHz、 44kHz等)や窓幅、フレームシフトにも容易に対応できるようにな つている。
[0063] これと併せて、除去エンジン 100は、ステップ S 202において、既知音響信号のフー リエ変換を行 、、既知音響信号の振幅スペクトルを取得する。
[0064] そして、一致度算定部 304が、混合音響の振幅スペクトルと既知音響の振幅スぺク トルを用いて、混合音響及び既知音響信号の時刻ごとの周波数特性と強度点をプロ ットし、プロットされた強度点に対する共通直線力もの乖離度力も一致度を比較し (S 203)、また、共通線の傾きから周波数特性及び強度の推定を行う。この一致度の算 定、及び共通線の傾きの算定は後述する。
[0065] 一致度算定部 304により算定された一致度に応じて、時間位置補正部 303が、既 知音響信号の開始時刻を検出するとともに、既知音響信号の振幅スペクトルを補正 する(S204及び S205)。
[0066] そして、混合音響信号の振幅スペクトルから既知音響信号の補正後の振幅スぺタト ルを除去し(S206)、除去後の振幅スペクトルを、オシレータ部 105において、混合 音響信号の位相に対して重畳変換し (S 207)、配置処理部 106においてオーバーラ ップアド(Overlap Add)法により、配置変換する(S208)。また、ステップ S203におい て算定された一致度により、既知音響のみの範囲を判別し、既知音響のみの範囲を 除去後音響信号出力部 107において除去する(S209及び S210)。
[0067] (一致度及び強度の算定)
そして、上述したステップ S204では、一致度算定部 304が、混合音響と既知音響 の一致度を計算する。具体的には、一致度算定部 304が、混合音響と既知音響の 振幅スペクトルの強度を比較し、これらの一致度を算定する。具体的には、以下の手 川頁による。
[0068] (1)手順 1
一致度算定部 304は、混合音響信号、既知音響信号およびそれぞれをフーリエ変 換して得られた振幅スペクトルに対して与えられた混合音響の区間(Tms,Tme)と既 知音響の区間(Tms,Tme)と仮定される開始時刻のずれ (Td)より一致度を求める。な お、 Tdが Tf (フーリエ変換時のフレーム長)の倍数となっている場合は、一致度算定 部 304は、ステップ S201で求めた振幅スペクトルを使用することができる。それ以外 の場合は、一致度算定部 304は、毎回振幅スペクトルを計算する。
[0069] (2)手順 2
一致度算定部 304は、混合音響内に既知音響が含まれている共通区間を求める。 これを (Ts,Te)とすると、以下の式が求められる。 [数 1]
Ts = max( Tms, Tbs - Td)
Te = mn{Tme, Tbe - Td)
[0070] この区間内での音響フレーム数 Nは次の式で与えられる。
[数 2]
Nf = (Te - Ts) tTf+ l
[0071] このため範囲内のフレームの時刻 Tiは以下の式を満たす Nf個の値をとる。
[数 3]
Ts≤ T 3 , Τ^ ,Α ,T < Te
[0072] (3)手順 3
そして、一致度算定部 304は、図 5に示すように、既知音響振幅スペクトルと混合音 響振幅スペクトルのそれぞれについて、所定幅の周波数帯域と時間幅とにより画定さ れる定常ブロックを設定する。
[0073] 具体的には、一致度算定部 304は、混合音響振幅スペクトル M ( ω、 t)、既知音響 振幅スペクトル Β ( ω、 t)について、時間軸方向および周波数軸方向(対数プロット) に時刻と周波数を単位とした定常ブロックに分割する(例えば図 5のように、定常プロ ックの横幅の時間は 200ミリ秒(20フレーム)、縦幅は約 0.5オクターブとなっている)。
[0074] (4)手順 4
次いで、一致度算定部 304は、定常ブロックの全てについて、定常ブロックを含む 範囲を有する推定ブロックを設定する。具体的には、一致度算定部 304は、定常ブ ロックごとに、そのブロックを囲むさらに大きな推定ブロックを設定する(例えば図 5で は、横幅は 400ミリ秒 (40フレーム)、音程は約 1オクターブとなっている。一致度算定 部 304は、この推定ブロックに含まれるデータを使用して実際の既知音響 (BGM)の 強度を推定する)。
[0075] なお、ブロックの大きさは任意の大きさが可能である。すなわち、本実施形態では、 ブロックの大きさは、図 5に示すように、定常ブロックと周波数低域幅と時間幅とで矩 形状であるが、例えば、図 6に示すように、時間幅で区切った短冊状のブロックであつ てもよい。計算量 (計算速度)を問わなければ、「定常ブロック」の横幅や縦幅は最小 ( 横 10ミリ秒、縦 1チャンネル)でもよぐそれだけより精密な推定が可能である。逆に「 定常ブロック」の横幅や縦幅を大きくすることによって計算量を小さくし高速ィ匕が可能 である。
[0076] (5)手順 5
その後、一致度算定部 304は、ブロックごとの平均信号強度 (スペクトル強度)を算 出する。具体的には、全ての推定ブロックについて以下の処理が行われる。混合音 響振幅スペクトルについて設定された推定ブロックの範囲が時間軸(Tks< Ti< Tke) 、周波数軸(co ksく co K co ke)である場合に、当該範囲に含まれる Tiと ω ίを用いた全 ての混合音響振幅スペクトル値 Μ ( ω ί、 Ti)と、仮定される開始時刻のずれ Tdとに対 応する既知音響振幅スペクトル値 B ( ω Ti+Td)の全ての組を求める。
[0077] (6)手順 6
次いで、一致度算定部 304は、この推定ブロック内での一致度を以下のいずれか の手順で求める。具体的には、一致度算定部 304は、図 7に示すように、既知音響振 幅スペクトル及び混合音響振幅スペクトル間にお 、て対応する推定ブロックのスぺク トル強度を平面上にプロットし、全てのスペクトル強度点に対する共通線を設定し、各 スペクトル強度点の共通線に対する乖離度により一致度を算定するとともに、乖離度 が最も低い共通線を求め、その共通線の傾きによって、スペクトル強度を求める。図 7 (a)では、強度点が共通直線上にほぼ位置することから一致度が高ぐ図 7 (b)では、 既知音響以外の音響 (音声やノイズ)や、同一周波数上での干渉により、一致度が低 下している。
[0078] 力かる共通線の算定には、以下の手順が用いられ得る。
[0079] (6— 1)単純相関法
該当する全ての Tiと ω iにつ!/、て以下の式に従!、総和を求める。
[数 4]
Figure imgf000018_0001
次に以下の式で一致度を求める。これは相関値を表しており、一致しているほど 1 に近い大きな値をとる。なお推定ブロック内の標本数 (全ての ω ίと Tiを尽くした場合 の数)を Nsとする。
[数 5]
„ , ,„ SumM *SumB
SumMB ——―
一致 j¾o = ― 严
、 MM- ?≡ L - LmBB-
[0081] (6— 2)離散型ロバスト統計法
この手法では、一次回帰的に設定した原点を通る直線から、各スペクトル強度点ま での距離が遠い所定数のスペクトル強度点を排除する処理を所定回数繰り返して得 られた直線の傾きとする。すなわち、この手法は、典型的なロバスト統計手法であり、 原点を通る直線となる一次回帰手法等を用いてあてはまる直線を求め、次に、この直 線力も遠い点を探し、遠い方から 10%の点を排除する。そして、残った点について再 度、あてはまる直線を求め、残った点のうちさらに、新しい直線力も遠い点を 10%ほど 排除する。この処理を 5回程度繰り返すと、あてはめるべき点として 50%の点が残り、 最後にあてはめられた直線の傾きが結果となる。削減する量や設定方法については Vヽろ ヽろな手法を用いてょ 、。
[0082] 一次回帰的に設定した原点を通る直線から、各スペクトル強度点までの距離に応じ て設定された重みを積算する処理を所定回数繰り返し、その統計により得られた直 線の傾きである。
[0083] 具体的には、該当する全ての Tiと ω ίについて初期値を 1とした Wを定める。このとき [数 6]
[0084] とし、標本の比率を Rs≡ 1.0とおく。
[0085] そして、該当する全ての Tiと ωίについて以下の式に従い総和を求める。標本の比 率 Rsが 0.5以下の場合は手順 5にすすむ。
[数 7] Τά)
Figure imgf000019_0001
[0086] 手順 3.標準比 αを次の式で求める。
[数 8]
a = SumMB! SumBB
[0087] 手順 4.該当する全ての Tiと ωίについて標準比からのずれを求める。
[数 9]
Diff{m,Ti)= (Μ{απ,Τί)-α* Β{ΰπ,Τί + Τά)γ
[0088] 手順 5. Rsより一定値 Csを引く。一定値は 0.0より大きく 0.5より小さな値とする。(例え ば Csとして 0. 1を用いる)
[数 10]
0.0く < 0.5
Rs=Rs-Cs
[0089] ずれの小さなもの力 順に(標本数 * Rs)個につ!/、て、 Wを 1に設定する。
[数 11]
[0090] 残りの(標本数 * (1.0-Rs))個については Wを 0に設定する。
[数 12]
W{ax, Ti)≡ 0
[0091] ここで、最後に求めた aを既知音響のこの定常ブロック内での強度とする。また、該 当する全ての Tiと ω iにつ!/、て以下の式に従!、総和を求める。
[数 13] Td)
Figure imgf000020_0001
[0092] 次に以下の式で一致度を求める。これは相関値を表しており、一致しているほど 1 に近い大きな値をとる。
[数 14]
„ „ S mM*SumB
S mMB- 一致墩 = ,
\SumMM- SumMi * humBB- S "
Ms Ns
[0093] (6— 3)連続ロバスト統計法
この手法では、一次回帰的に設定した原点を通る直線から、各スペクトル強度点ま での距離に応じて設定された重みを積算する処理を所定回数繰り返し、その統計に より得られた直線の傾きを求める。上記(6— 2)の手法では、選ばれな力つた点は全 て捨てられてしまうが、本手法では、捨てずに直線からの距離にしたがった重みをつ けて計算する。距離に対する重み関数により、距離に従って、それらの関数を重みと して掛けて統計を取る。
[0094] 具体的には、該当する全ての Tiと ω ίについて初期値を 1とした Wを定める。
[数 15]
[0095] 該当する全ての Tiと ω iにつ!/、て以下の式に従!、総和を求める。
[数 16]
Figure imgf000020_0002
[0096] 標準比 ocを次の式で求める。 [数 17]
a = SumMBS SumBB
[0097] 最後に求めた ocを既知音響のこの定常ブロック内での強度とする。また、該当する 全ての Tiと ω iにつ!/、て標準比からのずれを求める。
[数 18]
Dif(ax,Ts)^ ( (cm, Ti) ~ a* B{(m, i + Td)) 2
[0098] ずれの小さなものから順に(標本数 * 0.5)個目のずれの大きさ Dmidiumを求める。
常に正値をとり、 0より大で単調減少する関数 Ωを用いて W(coi, Ti)の値を定める。 例えば Ωとしては、
[数 19]
d{x) = e¾)(-x2)
[0099] 等の関数を用い、
[数 20]
W (ia, Ti) = 0(Di f{aji, Ti) f Dmidium)
[0100] により、 Wを求める。そして、該当する全ての Tiと ωίについて以下の式に従い総和を 求める。
[数 21]
SumB = y W ai,Ti)*B(ai,Ti + Td)
Figure imgf000021_0001
SumBB= yヌ (iii.Ti) * B(ai, Ή + Td) * B(ai ,71 +7d)
Figure imgf000021_0002
[0101] 次に以下の式で一致度を求める。これは相関値を表しており、一致しているほど 1 に近い大きな値をとる。
[数 22] „ . ,„ SumM * SumB
S mMB- 一致 J¾C) - 严
N Νε
[0102] (6— 4)重みつき統計
この手法では、共通線の傾きを、平面の X軸及び Υ軸から各スペクトル強度点まで の距離を積算して設定された重みを算出し、各重みを、原点を通る直線から各スぺク トル強度点までの距離に積算し、その統計により得られた直線の傾きとする。すなわ ち、 X軸 Υ軸のスケールがほぼ同じという性質を使った計算量の小さい簡単な方法で あり、例えば、一次回帰を計算する場合に、例えば重みとして Χ*Υ をかけ、 X軸や Υ軸に近い点を軽視し、 (Χ*Υ)の二乗や高次の項を掛ける方法がある。
[0103] 具体的には、 W(coi、Ti)を定め、 Μ(ωί、Τί)及び Β(ωί, Ti+Td)が大きくなるほど 大きくなる重み関数 W(coi、 Ti)を定める。例としては以下のようなものがある。
[数 23]
W(ai, Ti) = M{ai, Ti) + B( i,Ti + Td)
W(ai, Ti) = (ai, Ti) * B{ai, Ti + Td)
Ψ{οΑ,η)=~ {Μ{(ά,ΤίΥ Β{οΛ,Τί + Td))2
[0104] 該当する全ての Tiと ω iにつ!/、て以下の式に従!、総和を求める。
[数 24]
Su B = YW(ear7i)*B(ax,Ti + Td)
SumMB *B(ai,Ti + Td)
Figure imgf000022_0001
SumMM= ^^W{ca ,Τι)* M{ax , Ti) *M ai,Ti)
+ Td) K、 9Ti + Td)
Figure imgf000022_0002
[0105] その後、標準比 aを次の式で求める。
[数 25]
a = SumMBt SumBB
[0106] この を既知音響のこの定常ブロック内での強度とする。また、以下の式で一致度 を求める。これは相関値を表しており、一致しているほど 1に近い大きな値をとる。
[数 26] 一致 J¾C) =
Figure imgf000023_0001
[0107] 求めた一致度を、全ての推定ブロックについて求め、平均を求める。なお、経験上 明らかにノイズが多いと思われる周波数帯域 (極度に低い周波数、高い周波数)につ いて除外し、一致度の精度を向上させることもできる。
[0108] (6— 5)順位法
なお、共通線の傾きは、以下の手順によっても求めることができる。この手順では、 原点から各スペクトル強度点を通る全直線のうち、 NZ2番目のスペクトル強度点を 通る直線の傾きを求める。すなわち、上記のグラフ内の全てのプロット点についてそ の原点から見こんだ傾きを求め(各点の混合音/ BGMの値)、ある点の値が(BGM = 20、混合音 =30)であれば、その傾きは混合音/ BGMで 1.5となり、同じように「推定 ブロック」内の全ての点についてこの傾きを求める。
[0109] これらを大きい順にソートし、半数以上が BGMのみの音であればちょうど順位が中 央の点は求めるべき直線上にあることが明らかなので求めることができる。
[0110] 詳述すると、オペレータが混合音響中に含まれていると期待できる、既知音響の最 大限の比率を与える。この値を Erとする。
[0111] 該当する全ての Tiと ω iにつ!/、て以下のように比を求める。
[数 27]
[M{ai,7i) S Β{(ά,Τϊ + Τά) if B(ni,Ti + Td)≠ 0
I π= / Β(αχ , Τϊ + Τα) = 0
[0112] 該当する全ての Tiと ω ίについて R ( co i, Ti)を小さい順にならベ、小さい方から数え て「標本数 X Er」番目の R ( ω i, Ti)を既知音響のこの定常ブロック内での強度とする
[0113] [プログラムを記録したコンピュータ読み取り可能な記録媒体]
なお、上述した実施形態及びその変更例に係る音響信号除去システムは、例えば 、ユーザー端末や Webサーバ等のコンピュータや ICチップにインストールされた音響 信号除去プログラムと、コンピュータに備えられる CPU、メモリ、ハードディスク等とに よって実現される。従って、音響信号除去プログラムをインストールすることにより、上 述した各機能を備える音響信号除去装置や音響信号除去システムを容易に構築す ること、及び、音響信号除去方法を実施することが可能となる。この音響信号除去プ ログラムは、例えば、通信回線を通じて配布することが可能であり、またスタンドアロー ンの計算機上で動作するノ ッケージアプリケーションとして譲渡することができる。
[0114] そして、このようなプログラムは、図 8に示すような、汎用コンピュータ 120で読み取り 可能な記録媒体 116— 119に記録することができる。具体的には、同図に示すような 、フレキシブルディスク 116やカセットテープ 119等の磁気記録媒体、若しくは CD— R OMや DVD— ROM 117等の光ディスクの他、 RAMカード 118など、種々の記録媒 体に記録することができる。
[0115] そして、このプログラムを記録したコンピュータ読み取り可能な記録媒体によれば、 汎用のコンピュータや専用コンピュータを用いて、上述した音響信号除去システムを 構築したり、音響信号除去方法を実施したりすることが可能となるとともに、プログラム の保存、運搬及びインストールを容易に行うことができる。
[0116] [実施形態における作用,効果]
以上説明した本実施形態によれば、振幅データは位相が変化してもかわらな ヽの で、位相に依存しない処理が可能となる。したがって、例えば、音声と音楽が混じつ た番組の音声信号から、番組作成時に使用した音楽 CD等の音のデータを使って、 音楽だけを除去することができる。
[0117] 例えば、二人の男女の対話の BGMにクラシック音楽が鳴っている混合音を実際に 処理した結果を図 9に示す。図 9のグラフ 501に示す混合音から、図 9のグラフ 502に 示す元音源の既知音響信号 (BGM成分)を除去した結果、図 9のグラフ 503に示す 既知音響信号除去後の音響信号が得られる。
[0118] 特に、番組音声作成時において、製作意図に合わせて周波数特性や音量が調整 され、音の位相が予測不能な変化をしている場合であっても、混合音響中における 音楽の変化を自動的且つ高精度に予測し、位相に依存せず除去することができる。 [0119] 本実施形態では、除去処理に係る音響中の範囲設定に際し、同期制御部 9により 、映像と音声とを同期させてモニタ 10及びスピーカー 11から出力するため、音楽除 去前、音楽除去後のそれぞれの音声を映像と照らし合わせて視覚的に確認しながら の操作が可能となり、作業効率を向上させることができる。
[0120] 本実施形態では、時間変化グラフを表示し、その上をユーザーがマウスでドローィ ングする直感的な操作で修正できるため、番組の各場面や再利用方法を考慮するな どユーザーの意図に基づいて、音楽除去の効果を調節することができる。 産業上の利用の可能性
[0121] 以上のように、本発明に係る音響信号除去装置は、混合音響中から、除去しようと する音響を適正に除去することができるため、コンテンツを再利用する際の音響除去 作業に対して有用である。

Claims

請求の範囲
[1] 除去しょうとする既知音響信号力も既知音響振幅スぺ外ルを抽出する既知音響振 幅抽出部と、
前記既知音響信号と他の音響信号とが混合されている混合音響信号から混合音 響振幅スペクトルを抽出する混合音響振幅抽出部と、
前記既知音響振幅スペクトルと前記混合音響振幅スペクトルとの一致度を算定する 一致度算定部と、
算定された一致度に応じて、前記混合音響振幅スペクトルに対する前記既知音響 振幅スペクトルの時間的位置を変位させ、該既知音響振幅スペクトルと、該混合音響 振幅スペクトル内に混合された該既知音響振幅スペクトルとの時間位置を合致させる 時間位置補正部と、
前記時間位置補正部により時間位置が変位された前記既知音響振幅スペクトルを 、前記混合音響振幅スペクトルから除去する除去処理部と、
を備え、前記一致度算定部は、
前記既知音響振幅スペクトルと前記混合音響振幅スペクトルのそれぞれについて、 所定幅の周波数帯域と時間幅とにより画定される定常ブロックを設定し、
前記定常ブロックの全てについて、前記定常ブロックを含む範囲を有する推定プロ ックを設定し、前記既知音響振幅スペクトル及び前記混合音響振幅スペクトル間に おいて対応する推定ブロック内のスペクトル強度点を平面上にプロットし、
全ての前記スペクトル強度点に対する共通線を設定し、それぞれの前記スペクトル 強度点の該共通線に対する乖離度により前記一致度を算定する
ことを特徴とする音響信号除去装置。
[2] 除去しょうとする既知音響信号力も既知音響振幅スぺ外ルを抽出する既知音響振 幅抽出部と、
前記既知音響信号と他の音響信号とが混合されている混合音響信号から混合音 響振幅スペクトルを抽出する混合音響振幅抽出部と、
前記既知音響振幅スペクトルと前記混合音響振幅スペクトルとの一致度を算定する 一致度算定部と、 算定された一致度に応じて、前記既知音響振幅スペクトルの周波数特性を補正す る周波数特性補正部と、
前記周波数特性補正部により周波数特性が補正された前記既知音響振幅スぺ外 ルを、前記混合音響振幅スペクトルから除去する除去処理部と、
を備え、前記一致度算定部は、
前記既知音響振幅スペクトルと前記混合音響振幅スペクトルのそれぞれについて、 所定幅の周波数帯域と時間幅とにより画定される定常ブロックを設定し、
前記定常ブロックの全てについて、前記定常ブロックを含む範囲を有する推定プロ ックを設定し、前記既知音響振幅スペクトル及び前記混合音響振幅スペクトル間に おいて対応する推定ブロック内のスペクトル強度点を平面上にプロットし、
全ての前記スペクトル強度点に対する共通線を設定し、それぞれの前記スペクトル 強度点の該共通線に対する乖離度により前記一致度を算定する
ことを特徴とする音響信号除去装置。
除去しょうとする既知音響信号力も既知音響振幅スぺ外ルを抽出する既知音響振 幅抽出部と、
前記既知音響信号と他の音響信号とが混合されている混合音響信号から混合音 響振幅スペクトルを抽出する混合音響振幅抽出部と、
前記既知音響振幅スペクトルと前記混合音響振幅スペクトルとの一致度を算定する 一致度算定部と、
算定された一致度に応じて、前記混合音響信号における既知音響信号のみの範 囲を推定し、当該範囲の混合音響信号を除去する音響除去部と
を備え、前記一致度算定部は、
前記既知音響振幅スペクトルと前記混合音響振幅スペクトルのそれぞれについて、 所定幅の周波数帯域と時間幅とにより画定される定常ブロックを設定し、
前記定常ブロックの全てについて、前記定常ブロックを含む範囲を有する推定プロ ックを設定し、前記既知音響振幅スペクトル及び前記混合音響振幅スペクトル間に おいて対応する推定ブロック内のスペクトル強度点を平面上にプロットし、
全ての前記スペクトル強度点に対する共通線を設定し、それぞれの前記スペクトル 強度点の該共通線に対する乖離度により前記一致度を算定する
ことを特徴とする音響信号除去装置。
[4] 前記共通線は直線であり、
前記除去処理部は、前記直線の傾きに応じて、前記既知音響振幅スペクトルの強 度を補正した上で、該既知音響振幅スペクトルを、前記混合音響振幅スペクトルから 除去する
ことを特徴とする請求項 1又は 2に記載の音響信号除去装置。
[5] 共通線の傾きは、前記スペクトル強度点が N個ある場合、
原点力 前記各スペクトル強度点を通る全直線のうち、 NZ2番目のスペクトル強度 点を通る直線の傾きである
ことを特徴とする請求項 4に記載の音響信号除去装置。
[6] 共通線の傾きは、
一次回帰的に設定した原点を通る直線から、各スペクトル強度点までの距離が遠 い所定数のスペクトル強度点を排除する処理を所定回数繰り返して得られた直線の 傾きである
ことを特徴とする請求項 4に記載の音響信号除去装置。
[7] 共通線の傾きは、
一次回帰的に設定した原点を通る直線から、各スペクトル強度点までの距離に応じ て設定された重みを積算する処理を所定回数繰り返し、その統計により得られた直 線の傾きである
ことを特徴とする請求項 4に記載の音響信号除去装置。
[8] 共通線の傾きは、
前記平面の X軸及び Y軸から各スペクトル強度点までの距離を積算して設定された 重みを算出し、
各重みを、原点を通る直線力 各スペクトル強度点までの距離に積算し、その統計 により得られた直線の傾きである
ことを特徴とする請求項 4に記載の音響信号除去装置。
[9] 除去しょうとする既知音響信号力も既知音響振幅スぺ外ルを抽出するとともに、前 記既知音響信号と他の音響信号とが混合されている混合音響信号から混合音響振 幅スペクトルを抽出するステップ(1)と、
前記既知音響振幅スペクトルと前記混合音響振幅スペクトルとの一致度を算定する ステップ(2)と、
算定された一致度に応じて、前記混合音響振幅スペクトルに対する前記既知音響 振幅スペクトルの時間的位置を変位させ、該既知音響振幅スペクトルと、該混合音響 振幅スペクトル内に混合された該既知音響振幅スペクトルとの時間位置を合致させる ステップ(3)と、
前記ステップ (3)により時間位置が変位された前記既知音響振幅スペクトルを、前 記混合音響振幅スペクトル力も除去するステップ (4)と
を備え、前記ステップ(2)では、
前記既知音響振幅スペクトルと前記混合音響振幅スペクトルのそれぞれについて、 所定幅の周波数帯域と時間幅とにより画定される定常ブロックを設定し、
前記定常ブロックの全てについて、前記定常ブロックを含む範囲を有する推定プロ ックを設定し、前記既知音響振幅スペクトル及び前記混合音響振幅スペクトル間に おいて対応する推定ブロック内のスペクトル強度点を平面上にプロットし、
全ての前記スペクトル強度点に対する共通線を設定し、それぞれの前記スペクトル 強度点の該共通線に対する乖離度により前記一致度を算定する
ことを特徴とする音響信号除去方法。
除去しょうとする既知音響信号力も既知音響振幅スぺ外ルを抽出するとともに、前 記既知音響信号と他の音響信号とが混合されている混合音響信号から混合音響振 幅スペクトルを抽出するステップ(1)と、
前記既知音響振幅スペクトルと前記混合音響振幅スペクトルとの一致度を算定する ステップ(2)と、
算定された一致度に応じて、前記既知音響振幅スペクトルの周波数特性を補正す るステップ(3)と、
前記ステップ(3)により周波数特性が補正された前記既知音響振幅スペクトルを、 前記混合音響振幅スペクトルから除去するステップ (4)と を備え、前記ステップ(2)では、
前記既知音響振幅スペクトルと前記混合音響振幅スペクトルのそれぞれについて、 所定幅の周波数帯域と時間幅とにより画定される定常ブロックを設定し、
前記定常ブロックの全てについて、前記定常ブロックを含む範囲を有する推定プロ ックを設定し、前記既知音響振幅スペクトル及び前記混合音響振幅スペクトル間に おいて対応する推定ブロック内のスペクトル強度点を平面上にプロットし、
全ての前記スペクトル強度点に対する共通線を設定し、それぞれの前記スペクトル 強度点の該共通線に対する乖離度により前記一致度を算定する
ことを特徴とする音響信号除去方法。
[11] 除去しょうとする既知音響信号力も既知音響振幅スぺ外ルを抽出するとともに、前 記既知音響信号と他の音響信号とが混合されている混合音響信号から混合音響振 幅スペクトルを抽出するステップ(1)と、
前記既知音響振幅スペクトルと前記混合音響振幅スペクトルとの一致度を算定する ステップ(2)と、
前記ステップ (2)により算定された一致度に応じて、前記混合音響信号における既 知音響信号のみの範囲を推定し、当該範囲の混合音響信号を除去するステップ (4) と
を備え、前記ステップ(2)では、
前記既知音響振幅スペクトルと前記混合音響振幅スペクトルのそれぞれについて、 所定幅の周波数帯域と時間幅とにより画定される定常ブロックを設定し、
前記定常ブロックの全てについて、前記定常ブロックを含む範囲を有する推定プロ ックを設定し、前記既知音響振幅スペクトル及び前記混合音響振幅スペクトル間に おいて対応する推定ブロック内のスペクトル強度点を平面上にプロットし、
全ての前記スペクトル強度点に対する共通線を設定し、それぞれの前記スペクトル 強度点の該共通線に対する乖離度により前記一致度を算定する
ことを特徴とする音響信号除去方法。
[12] 前記共通線は直線であり、
前記ステップ (4)は、前記直線の傾きに応じて、前記既知音響振幅スペクトルの強 度を補正した上で、該既知音響振幅スペクトルを、前記混合音響振幅スペクトルから 除去する
ことを特徴とする請求項 9又は 10に記載の音響信号除去方法。
[13] 共通線の傾きは、前記スペクトル強度点が N個ある場合、
原点力 前記各スペクトル強度点を通る全直線のうち、 NZ2番目のスペクトル強度 点を通る直線の傾きである
ことを特徴とする請求項 12に記載の音響信号除去方法。
[14] 共通線の傾きは、
一次回帰的に設定した原点を通る直線から、各スペクトル強度点までの距離が遠 い所定数のスペクトル強度点を排除する処理を所定回数繰り返して得られた直線の 傾きである
ことを特徴とする請求項 12に記載の音響信号除去方法。
[15] 共通線の傾きは、
一次回帰的に設定した原点を通る直線から、各スペクトル強度点までの距離に応じ て設定された重みを積算する処理を所定回数繰り返し、その統計により得られた直 線の傾きである
ことを特徴とする請求項 12に記載の音響信号除去方法。
[16] 共通線の傾きは、
前記平面の X軸及び Y軸から各スペクトル強度点までの距離を積算して設定された 重みを算出し、
各重みを、原点を通る直線力 各スペクトル強度点までの距離に積算し、その統計 により得られた直線の傾きである
ことを特徴とする請求項 12に記載の音響信号除去方法。
[17] 除去しょうとする既知音響信号力も既知音響振幅スぺ外ルを抽出するとともに、前 記既知音響信号と他の音響信号とが混合されている混合音響信号から混合音響振 幅スペクトルを抽出するステップ(1)と、
前記既知音響振幅スペクトルと前記混合音響振幅スペクトルとの一致度を算定する ステップ(2)と、 算定された一致度に応じて、前記混合音響振幅スペクトルに対する前記既知音響 振幅スペクトルの時間的位置を変位させ、該既知音響振幅スペクトルと、該混合音響 振幅スペクトル内に混合された該既知音響振幅スペクトルとの時間位置を合致させる ステップ(3)と、
前記ステップ (3)により時間位置が変位された前記既知音響振幅スペクトルを、前 記混合音響振幅スペクトルから除去するステップ (4)とを備え、前記ステップ(2)では 前記既知音響振幅スペクトルと前記混合音響振幅スペクトルのそれぞれについて、 所定幅の周波数帯域と時間幅とにより画定される定常ブロックを設定し、
前記定常ブロックの全てについて、前記定常ブロックを含む範囲を有する推定プロ ックを設定し、前記既知音響振幅スペクトル及び前記混合音響振幅スペクトル間に おいて対応する推定ブロック内のスペクトル強度点を平面上にプロットし、
全ての前記スペクトル強度点に対する共通線を設定し、それぞれの前記スペクトル 強度点の該共通線に対する乖離度により前記一致度を算定する
ことを特徴とする音響信号除去プログラム。
除去しょうとする既知音響信号力も既知音響振幅スぺ外ルを抽出するとともに、前 記既知音響信号と他の音響信号とが混合されている混合音響信号から混合音響振 幅スペクトルを抽出するステップ(1)と、
前記既知音響振幅スペクトルと前記混合音響振幅スペクトルとの一致度を算定する ステップ(2)と、
算定された一致度に応じて、前記既知音響振幅スペクトルの周波数特性を補正す るステップ(3)と、
前記ステップ(3)により周波数特性が補正された前記既知音響振幅スペクトルを、 前記混合音響振幅スペクトルから除去するステップ (4)と
を備え、前記ステップ(2)では、
前記既知音響振幅スペクトルと前記混合音響振幅スペクトルのそれぞれについて、 所定幅の周波数帯域と時間幅とにより画定される定常ブロックを設定し、
前記定常ブロックの全てについて、前記定常ブロックを含む範囲を有する推定プロ ックを設定し、前記既知音響振幅スペクトル及び前記混合音響振幅スペクトル間に おいて対応する推定ブロック内のスペクトル強度点を平面上にプロットし、
全ての前記スペクトル強度点に対する共通線を設定し、それぞれの前記スペクトル 強度点の該共通線に対する乖離度により前記一致度を算定する
ことを特徴とする音響信号除去プログラム。
[19] 除去しょうとする既知音響信号力も既知音響振幅スぺ外ルを抽出するとともに、前 記既知音響信号と他の音響信号とが混合されている混合音響信号から混合音響振 幅スペクトルを抽出するステップ(1)と、
前記既知音響振幅スペクトルと前記混合音響振幅スペクトルとの一致度を算定する ステップ(2)と、
前記ステップ (2)により算定された一致度に応じて、前記混合音響信号における既 知音響信号のみの範囲を推定し、当該範囲の混合音響信号を除去するステップ (4) と
を備え、前記ステップ(2)では、
前記既知音響振幅スペクトルと前記混合音響振幅スペクトルのそれぞれについて、 所定幅の周波数帯域と時間幅とにより画定される定常ブロックを設定し、
前記定常ブロックの全てについて、前記定常ブロックを含む範囲を有する推定プロ ックを設定し、前記既知音響振幅スペクトル及び前記混合音響振幅スペクトル間に おいて対応する推定ブロック内のスペクトル強度点を平面上にプロットし、
全ての前記スペクトル強度点に対する共通線を設定し、それぞれの前記スペクトル 強度点の該共通線に対する乖離度により前記一致度を算定する
ことを特徴とする音響信号除去プログラム。
[20] 前記共通線は直線であり、
前記ステップ (4)は、前記直線の傾きに応じて、前記既知音響振幅スペクトルの強 度を補正した上で、該既知音響振幅スペクトルを、前記混合音響振幅スペクトルから 除去する
ことを特徴とする請求項 17又は 18に記載の音響信号除去プログラム。
[21] 共通線の傾きは、前記スペクトル強度点が N個ある場合、 原点力 前記各スペクトル強度点を通る全直線のうち、 NZ2番目のスペクトル強度 点を通る直線の傾きである
ことを特徴とする請求項 20に記載の音響信号除去プログラム。
[22] 共通線の傾きは、
一次回帰的に設定した原点を通る直線から、各スペクトル強度点までの距離が遠 い所定数のスペクトル強度点を排除する処理を所定回数繰り返して得られた直線の 傾きである
ことを特徴とする請求項 20に記載の音響信号除去プログラム。
[23] 共通線の傾きは、
一次回帰的に設定した原点を通る直線から、各スペクトル強度点までの距離に応じ て設定された重みを積算する処理を所定回数繰り返し、その統計により得られた直 線の傾きである
ことを特徴とする請求項 20に記載の音響信号除去プログラム。
[24] 共通線の傾きは、
前記平面の X軸及び Y軸から各スペクトル強度点までの距離を積算して設定された 重みを算出し、
各重みを、原点を通る直線力 各スペクトル強度点までの距離に積算し、その統計 により得られた直線の傾きである
ことを特徴とする請求項 20に記載の音響信号除去プログラム。
PCT/JP2004/013168 2004-05-13 2004-09-09 音響信号除去装置、音響信号除去方法及び音響信号除去プログラム WO2005112007A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2004144177A JP4272107B2 (ja) 2004-05-13 2004-05-13 音響信号除去装置、音響信号除去方法及び音響信号除去プログラム
JP2004-144177 2004-05-13

Publications (1)

Publication Number Publication Date
WO2005112007A1 true WO2005112007A1 (ja) 2005-11-24

Family

ID=35394384

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2004/013168 WO2005112007A1 (ja) 2004-05-13 2004-09-09 音響信号除去装置、音響信号除去方法及び音響信号除去プログラム

Country Status (2)

Country Link
JP (1) JP4272107B2 (ja)
WO (1) WO2005112007A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5365380B2 (ja) * 2009-07-07 2013-12-11 ソニー株式会社 音響信号処理装置、その処理方法およびプログラム
JP5057535B1 (ja) 2011-08-31 2012-10-24 国立大学法人電気通信大学 ミキシング装置、ミキシング信号処理装置、ミキシングプログラム及びミキシング方法
JP7344649B2 (ja) * 2019-02-25 2023-09-14 株式会社ベネッセコーポレーション 情報端末装置およびプログラム

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57161800A (en) * 1981-03-30 1982-10-05 Toshiyuki Sakai Voice information filter
JPS58100199A (ja) * 1981-10-19 1983-06-14 ボータン 音声認識及び再生方法とその装置
JPS59165098A (ja) * 1983-03-10 1984-09-18 三洋電機株式会社 音声スペクトルパラメ−タ抽出装置
JPH04340599A (ja) * 1991-05-16 1992-11-26 Ricoh Co Ltd 雑音除去装置
JPH09251299A (ja) * 1996-03-15 1997-09-22 Toshiba Corp マイクロホンアレイ入力型音声認識装置及び方法
JPH10133689A (ja) * 1996-10-30 1998-05-22 Kyocera Corp 雑音除去装置
JPH1115494A (ja) * 1997-06-25 1999-01-22 Denso Corp 音声認識装置
JPH1138997A (ja) * 1997-07-16 1999-02-12 Olympus Optical Co Ltd 雑音抑圧装置および音声の雑音除去の処理をするための処理プログラムを記録した記録媒体
JP2002314637A (ja) * 2001-04-09 2002-10-25 Denso Corp 雑音低減装置
JP2003140671A (ja) * 2001-11-05 2003-05-16 Honda Motor Co Ltd 混合音の分離装置
JP2003271166A (ja) * 2002-03-14 2003-09-25 Nissan Motor Co Ltd 入力信号処理方法および入力信号処理装置

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57161800A (en) * 1981-03-30 1982-10-05 Toshiyuki Sakai Voice information filter
JPS58100199A (ja) * 1981-10-19 1983-06-14 ボータン 音声認識及び再生方法とその装置
JPS59165098A (ja) * 1983-03-10 1984-09-18 三洋電機株式会社 音声スペクトルパラメ−タ抽出装置
JPH04340599A (ja) * 1991-05-16 1992-11-26 Ricoh Co Ltd 雑音除去装置
JPH09251299A (ja) * 1996-03-15 1997-09-22 Toshiba Corp マイクロホンアレイ入力型音声認識装置及び方法
JPH10133689A (ja) * 1996-10-30 1998-05-22 Kyocera Corp 雑音除去装置
JPH1115494A (ja) * 1997-06-25 1999-01-22 Denso Corp 音声認識装置
JPH1138997A (ja) * 1997-07-16 1999-02-12 Olympus Optical Co Ltd 雑音抑圧装置および音声の雑音除去の処理をするための処理プログラムを記録した記録媒体
JP2002314637A (ja) * 2001-04-09 2002-10-25 Denso Corp 雑音低減装置
JP2003140671A (ja) * 2001-11-05 2003-05-16 Honda Motor Co Ltd 混合音の分離装置
JP2003271166A (ja) * 2002-03-14 2003-09-25 Nissan Motor Co Ltd 入力信号処理方法および入力信号処理装置

Also Published As

Publication number Publication date
JP4272107B2 (ja) 2009-06-03
JP2005326587A (ja) 2005-11-24

Similar Documents

Publication Publication Date Title
US10650796B2 (en) Single-channel, binaural and multi-channel dereverberation
JP3670562B2 (ja) ステレオ音響信号処理方法及び装置並びにステレオ音響信号処理プログラムを記録した記録媒体
US8891778B2 (en) Speech enhancement
US6405163B1 (en) Process for removing voice from stereo recordings
RU2467406C2 (ru) Способ и устройство для поддержки воспринимаемости речи в многоканальном звуковом сопровождении с минимальным влиянием на систему объемного звучания
EP1741313B1 (en) A method and system for sound source separation
US8885839B2 (en) Signal processing method and apparatus
KR20180050652A (ko) 음향 신호를 사운드 객체들로 분해하는 방법 및 시스템, 사운드 객체 및 그 사용
US9071215B2 (en) Audio signal processing device, method, program, and recording medium for processing audio signal to be reproduced by plurality of speakers
KR100750148B1 (ko) 음성신호 제거 장치 및 그 방법
JP4274419B2 (ja) 音響信号除去装置、音響信号除去方法及び音響信号除去プログラム
KR101008250B1 (ko) 기지 음향신호 제거방법 및 장치
JP2005284163A (ja) 雑音スペクトル推定方法、雑音抑圧方法および雑音抑圧装置
WO2005112007A1 (ja) 音響信号除去装置、音響信号除去方法及び音響信号除去プログラム
JP4922427B2 (ja) 信号補正装置
CN101422054A (zh) 声像定位装置
JP2008072600A (ja) 音響信号処理装置、音響信号処理プログラム、音響信号処理方法
JP2006235102A (ja) 音声処理装置および音声処理方法
JP4274418B2 (ja) 音響信号除去装置、音響信号除去方法及び音響信号除去プログラム
KR101096091B1 (ko) 음성 분리 장치 및 이를 이용한 단일 채널 음성 분리 방법
KR20090054583A (ko) 휴대용 단말기에서 스테레오 효과를 제공하기 위한 장치 및방법
JP2005284016A (ja) 音声信号の雑音推定方法およびそれを用いた雑音除去装置
JP2014158103A (ja) 音声信号処理装置、音声信号処理装置の制御方法およびプログラム
JP2004020945A (ja) 音声認識装置、音声認識方法、および、音声認識プログラム
JP2014206559A (ja) 受信装置及びプログラム

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NA NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): GM KE LS MW MZ NA SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IT LU MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
NENP Non-entry into the national phase

Ref country code: DE

WWW Wipo information: withdrawn in national office

Country of ref document: DE

122 Ep: pct application non-entry in european phase