WO2005057551A1 - 音響信号除去装置、音響信号除去方法及び音響信号除去プログラム - Google Patents

音響信号除去装置、音響信号除去方法及び音響信号除去プログラム Download PDF

Info

Publication number
WO2005057551A1
WO2005057551A1 PCT/JP2004/013165 JP2004013165W WO2005057551A1 WO 2005057551 A1 WO2005057551 A1 WO 2005057551A1 JP 2004013165 W JP2004013165 W JP 2004013165W WO 2005057551 A1 WO2005057551 A1 WO 2005057551A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound
mixed
signal
acoustic signal
amplitude
Prior art date
Application number
PCT/JP2004/013165
Other languages
English (en)
French (fr)
Inventor
Masataka Goto
Yasumasa Nakata
Tomoyuki Okamura
Hironobu Takahashi
Original Assignee
National Institute Of Advanced Industrial Science And Technology
Fuji Television Network, Inc.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute Of Advanced Industrial Science And Technology, Fuji Television Network, Inc. filed Critical National Institute Of Advanced Industrial Science And Technology
Publication of WO2005057551A1 publication Critical patent/WO2005057551A1/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Definitions

  • the present invention relates to an acoustic signal removing apparatus, an acoustic signal removing method, and an acoustic signal removing program.
  • the present invention relates to an audio signal elimination device and an audio signal elimination device that eliminate sound such as BGM and audio mixed in content when reusing the content such as rebroadcasting a program that has already been broadcast.
  • the present invention relates to a method and an acoustic signal removal program.
  • the bass and treble of the BGM are emphasized or attenuated for program effect at the time of program creation.
  • the frequency characteristics of the background music have changed during the process of recording and playback, and the subtraction process cannot be performed simply.
  • the present invention has been made to solve the above problem, and eliminates a change in sound to be removed by removing a stationary sound that causes erroneous estimation in the removal processing during mixed sound.
  • An object of the present invention is to provide an audio signal elimination device, an audio signal elimination method, and an audio signal elimination program that can be automatically and highly accurately predicted and appropriately eliminated.
  • the present invention detects a stationary sound in a mixed acoustic signal in which a known acoustic signal to be removed and another acoustic signal are mixed, and detects the stationary sound from the known acoustic signal.
  • the intellectual sound amplitude spectrum it also extracts the mixed sound amplitude spectrum for each frequency of the mixed sound signal, and among the extracted mixed sound amplitude spectrum, the mixed sound of the ⁇ frequency that does not match the frequency of the stationary sound.
  • the amplitude spectrum is selected, and the selected mixed sound amplitude spectrum force is removed.
  • the stationary sound detection unit is configured to calculate a minimum amplitude frequency, an n-th frequency sorted in ascending order of the value, and a standard deviation up to the n-th in the mixed acoustic signal. It is preferable to detect a frequency at which the maximum value of n does not exceed a certain value as a stationary sound.
  • the simulation unit removes a known acoustic signal from a mixed acoustic signal in which a known acoustic signal to be removed and another acoustic signal are mixed, a constant amplitude as mixed sound is used.
  • a pseudo subtraction process is performed on the audio signal of (1) with the known audio signal set to 0, and the difference in volume between the audio signal having a constant amplitude and the audio signal after the pseudo subtraction process is measured.
  • a signal intensity for each time of the acoustic signal is set, a known acoustic amplitude spectrum is extracted from the known acoustic signal, a mixed acoustic amplitude spectrum is extracted from the mixed acoustic signal, and the known acoustic amplitude spectrum is extracted based on the setting. , And the mixed acoustic amplitude spectral power also removes the known acoustic amplitude spectrum. Note that this pseudo subtraction process can be a subtraction of the amplitude spectrum as in the final removal process.
  • FIG. 1 is a block diagram showing a configuration of an audio signal removal system according to an embodiment.
  • FIG. 2 is an explanatory diagram of a stationary sound detection unit according to the embodiment.
  • FIG. 3 is a flowchart showing an operation of the acoustic signal removal system according to the embodiment.
  • FIG. 4 is a flowchart showing a basic theory of an acoustic signal removing method according to the embodiment.
  • FIG. 5 is an explanatory diagram showing the effect of the acoustic signal elimination method according to the embodiment.
  • FIG. 6 is a functional block diagram of a removal engine according to the embodiment.
  • FIG. 7 is a flowchart showing an operation of the removal engine according to the embodiment.
  • FIG. 8 is an explanatory diagram showing a configuration of an editor according to the embodiment.
  • FIG. 9 is an explanatory diagram showing a window of the editor according to the embodiment.
  • FIG. 10 is an explanatory diagram showing a window of the editor according to the embodiment.
  • FIG. 11 is an explanatory diagram showing an operation panel of the editor according to the embodiment.
  • FIG. 12 is an explanatory diagram showing a configuration of an editor according to a modification.
  • FIG. 13 is a perspective view showing a computer-readable recording medium on which a program according to the embodiment is recorded.
  • FIG. 14 is an explanatory diagram showing the configuration and operation of an acoustic signal removal system according to a first modification.
  • FIG. 15 is an explanatory diagram showing the configuration and operation of an acoustic signal removal system according to Modification 2.
  • FIG. 16 is an explanatory diagram showing the configuration and operation of an acoustic signal removal system according to a third modification.
  • FIG. 17 is an explanatory diagram showing the configuration and operation of an acoustic signal removal system according to Modification 4.
  • FIG. 18 is an explanatory diagram showing the configuration and operation of an acoustic signal removal system according to Modification 5.
  • FIG. 1 is a block diagram showing the overall configuration of the acoustic signal removal system according to the present embodiment.
  • the acoustic signal removal system includes an input I / F 1 for inputting mixed sound or known sound and a DV capture 2. These input I / F1 and
  • the input I / F1 is an interface that captures audio signals from the playback device such as a CD player or MD player.
  • the DV capture 2 is an interface for extracting MIX audio for removal, which is a mixed audio signal in which video and audio are mixed.
  • the audio signal removal system includes a voice conversion unit (PreWav / PostWav) 3 for performing voice data extraction processing and voice conversion processing on various data stored in the storage device 5, and a voice data extraction unit (DVReMix).
  • a voice conversion unit (PreWav / PostWav) 3 and the audio data extraction unit (DVReMix) 4 read a specified file (AVI file or WAV file) from the storage device 5, perform predetermined processing, and then perform processing.
  • the file (WAV file) is stored in the storage device 5.
  • the audio converter (PreWav) 3 performs frequency conversion and separation of monaural from stereo.
  • the WAV file is separated into two channels on the left and right to match the format of the removal engine 100, the sampling rate is converted to 48 kHz, and two WAV files (output file name: MIX-L.WAV , The right channel is generated as MIX-R.WAV) and stored in the storage device 5.
  • the audio data extraction unit (DVReMix) 3 is a module that extracts only content audio data composed of video data and audio data.
  • audio data is extracted from an AVI file in WAV format. Extract.
  • the WAV file here is in stereo format, and its sampling rate is 32kHz or 48kHz, the same as DV audio.
  • the extracted WAV file is stored in the storage device 5.
  • the acoustic signal removal system includes a removal engine 100 that removes a known acoustic signal from the mixed acoustic signal.
  • the removal engine 100 reads each audio file (WAV file) stored in the storage device 5 and stores the removed data and various data related to the removal processing in the storage device 5 via the temporary memory 7. Output from the monitor 10 or the speaker 11 through the output I / F8.
  • the monitor 10 displays an editor 400, which is a GUI that displays the operation and processing results of the user interface 6, and the speaker 11 displays mixed sound, known sound, and after removal based on the user operation of the user interface 6. Output sound.
  • the removal engine 100 acquires an operation signal based on a user operation by an input device such as the keyboard 6a and the mouse 6b through the user interface 6, and performs various processes based on the operation signal.
  • the acoustic signal removal processing by the removal engine 100 will be described later.
  • the acoustic signal elimination system includes a synchronization control unit 9, which reads out data from the storage device 5, performs elimination processing by the elimination engine 100, and inputs data by the memory 7 and the output I / F 8. Synchronize output.
  • a synchronization control unit 9 which reads out data from the storage device 5, performs elimination processing by the elimination engine 100, and inputs data by the memory 7 and the output I / F 8. Synchronize output.
  • the acoustic signal elimination system includes a simulation unit 14 that sets a default value by a simulation when setting a parameter, and supports a user's work.
  • the simulation unit 14 inputs a single sound (480 Hz) having a constant amplitude as a mixed sound, performs removal processing with zero known sound, and compares the output sound volume with the mixed sound before processing. Then, the difference amount is measured, and a default value of the removal strength in the user interface 6 is set so that the difference amount becomes zero.
  • a single sound 480 Hz
  • the simulation unit 14 inputs a single sound (480 Hz) having a constant amplitude as a mixed sound, performs removal processing with zero known sound, and compares the output sound volume with the mixed sound before processing. Then, the difference amount is measured, and a default value of the removal strength in the user interface 6 is set so that the difference amount becomes zero.
  • the simulation unit 14 performs a simulation based on a “phase-independent subtraction function” to be described later, assuming that the probability difference between the mixed sound and the known sound is uniformly distributed from 0 to 360 degrees. .
  • the simulation unit 14 sets the amplitude of the other audio signal to a predetermined value, and changes the phase difference of the amplitude of the known audio signal with respect to the predetermined value in the range of 0 to 360 degrees to obtain a mixed audio signal obtained by synthesis.
  • Calculate the average value of the amplitude calculate the approximate value of the ratio of the amplitude of the other sound signal to the average value from the ratio of the amplitude of the known sound signal to the average value, and integrate the average value with this approximate value.
  • the removal strength of the known signal is set based on the amplitude of the other sound signal obtained by the above.
  • the derivation of the phase difference independent subtraction function will be described below.
  • Audio output .4sin ( «+ 6b)
  • M ⁇ ) cos (3 ⁇ 4 + B ⁇ ( ⁇ ) sin (3 ⁇ 4) hi ⁇ ⁇ .) m (o.) + M siii ( ⁇ ) co (ot) (A c (Oa) + B co (Ob)) m (o.) + (A m (0a) + B m (y os o) t)
  • can be represented by ⁇ and ⁇ , and the phase difference (0a'0b) between the known sound and the voice output as follows.
  • phase difference ( ⁇ a- ⁇ b) between the known sound and the voice output is replaced by the phase difference ⁇
  • Ra A / 0.999975 0.997505 0.940252 0.785403 0.470126 0.09975 0.01
  • the amplitude (M) of the mixed sound and the amplitude (B) of the known sound are acquired, so that Rb, which is a value obtained by dividing B by M, can be obtained. Therefore, Ra can be obtained from table data corresponding to Table 2 above or an approximate expression thereof.
  • A is calculated from the following.
  • the amplitude of the mixed sound does not exceed the amplitude of the known sound. However, in actuality, it occurs due to an estimation error or an increase in the removal strength larger than 1, or the like. If Rb force is larger than Si), Ra is set to 0.
  • the acoustic signal elimination system includes a stationary sound detector 18. As shown in FIG. 2, the stationary sound detection unit 18 detects a stationary sound from the mixed sound signal related to the removal processing in the acoustic signal removal system, and notifies the removal engine 100 of the detected stationary sound. Module.
  • removal engine 100 selects a mixed sound amplitude spectrum having a frequency that does not match the frequency of the stationary sound from among the mixed sound amplitude spectra. That is, the removal engine 100 has a function as a frequency selection unit. The removal engine 100 removes the selected mixed acoustic amplitude spectral force known acoustic amplitude spectrum.
  • Such stationary sound is detected by detecting the amplitude of each frequency channel in the mixed acoustic signal in association with the time, sorting the amplitude, and calculating the minimum value or the representative value. Be done. The following three methods can be used to calculate the stationary sound.
  • FFT processing is performed on the mixed sound to extract the amplitude data for each frequency channel in accordance with the time.
  • the time for example, on a 15.7KHz channel
  • a value that is the minimum value at all times is set as a stationary sound from the above data.
  • the amplitude may be small due to the case where the noise is not “stationary” or due to the phase of other voices or synthesized music. It may be lower than the steady value.
  • the following values are used instead of the minimum values.
  • 300 samples are detected by detecting every 10 milliseconds for 3 seconds. Numbers from 1 to 300 are assigned to each amplitude value. Then, for example, when it is predicted that there is at least 10% of a section having no part other than noise, the value of 10% of 300 is n. Therefore, the nth, that is, the 30th value is adopted as the stationary sound.
  • the standard deviation ⁇ ( ⁇ ) is obtained by statistically calculating the standard deviation ⁇ ( ⁇ ) for the noise up to the n-th noise, even if the amplitude value is smaller than the above, and this ⁇ ( ⁇ ) exceeds a certain value.
  • the maximum value of ⁇ is found, and the amplitude value at ⁇ is used as the steady sound. This constant value is preferably determined empirically.
  • FIG. 3 is a flowchart showing the operation of the acoustic signal removal system.
  • a video file (DV) recorded in video and audio power stereo is assumed to be mixed sound (MIX audio)
  • MIX audio mixed sound
  • BGM is included in the video file.
  • the processing in this embodiment is roughly divided into (1) preprocessing, (2) music removal processing, and (3) postprocessing. Hereinafter, each processing will be described in detail.
  • the MIX audio to be removed is extracted from the DV, and the BGM audio (original music) is prepared.
  • the DV capture 2 captures a moving image using video editing software for DV (S101).
  • the captured file is stored in the storage device 5 as a type 1 AVI file (output file name: MIX.AVI).
  • the audio data extraction unit extracts audio data from the AVI file in WAV format (output file name: MIX.WAV) (S102).
  • WAV file here is in stereo format, and its sampling rate is 32kHz or 48kHz, which is the same as DV audio.
  • the extracted WAV file is stored in the storage device 5.
  • the sound conversion unit (PreWav) 4 performs frequency conversion and separation of monaural stereo power (S103).
  • the audio converter (PreWav) 4 separates the WAV file into two channels, left and right, to match the format of the removal engine 100, and performs sampling.
  • the rate is converted to 48kHz, and two WAV files (output file name: MIX-L.WAV for the left channel and MIX-R.WAV for the right channel) are generated and stored in the storage device 5.
  • the offset of the video start time is output to the setting file (file name: MIX.time) simultaneously with the audio conversion, and is stored in the storage device 5.
  • the original music piece is fetched (S104).
  • the original music (BGM music) is imported from a CD or the like, and stored in the storage device 5 as a 44.1 kHz stereo WAV file (output file name: BGM.WAV).
  • the audio conversion unit (PreWav) 3 performs frequency conversion and separation of monaural stereo power (S105).
  • the audio converter (PreWav) 3 separates the WAV file captured in step S104 into two channels on the left and right sides, converts the sampling rate to 48 kHz, and converts the two WAV files to match the format of the removal engine 100.
  • Output file name: Left channel is BGM-L.WAV
  • right channel is BGM-R.WAV
  • the BGM audio is eliminated from the MIX audio of 100 elimination engines (GEQ) (S106).
  • the audio file output after this removal is a monaural 48kHz WAV file for both the left and right channels (output file name: left channel power ⁇ RASE-L.WAV, right channel is ERASE-R.WAV) as memory 7 or storage device 5. Is accumulated in
  • the audio power removed by the removal engine is converted to DV audio and restored to DV (AVI file).
  • the audio converter (PostWav) 4 performs frequency conversion and conversion from monaural to stereo (S107). That is, the audio converter (PostWav) 4 power removal engine 100 combines the left and right 2 channel WAV files output from the engine 100 into stereo, converts them to the same sampling rate as the original DV audio if necessary, and converts the WAV file (file (File name: ERASE.WAV) in the storage device 5.
  • the audio data extraction unit (DVReMix) 3 replaces the captured AVI file (BGM.AVI) sound with the removed sound (ERASE.WAV), and removes the removed sound file (file name: ERASE.AVI). Is stored in the storage device 5.
  • various parameter setting data for this left audio is stored, and the various parameter setting data is stored in the next time. Called during the removal process for the right voice of, and set as the default value in user interface 6.
  • unknown s (t) is obtained when m (t) is given under the condition that the sound signal b '(t) of the sound source that is the source of b (t) is known.
  • m (t) is given under the condition that the sound signal b '(t) of the sound source that is the source of b (t) is known.
  • an audio signal m (t) of a TV program or the like in which BGM is sounding together with human voices and object sounds is input, and the music of the BGM is known and its sound signal b '(t) can be prepared separately, Then, the BGM in the program is removed using the music sound signal of the BGM, and a process of obtaining the sound signal s (t) of only human voice or body sound is realized.
  • the frequency characteristic of b '(t) When a known sound signal b '(t) sounds in the mixed sound m (t), the frequency characteristic often changes due to the influence of a graphic equalizer or the like. For example, low and high frequencies may be emphasized 'attenuated. Thus, the frequency characteristic of b '(t) is similarly changed and corrected, and the known sound signal is subtracted from the mixed sound.
  • the mixing ratio may be changed by operation of the mixer fader, etc., when the mixed sound is created, and the volume may change over time. Many. Therefore, the volume of b '(t) is similarly corrected by changing the time, and the known sound signal is subtracted from the mixed sound.
  • FIG. 4 shows the flow of processing by the removal engine 100.
  • the removal engine 100 performs the subtraction processing on the amplitude spectrum in the time frequency domain without performing the subtraction processing on the waveform in the time domain.
  • the short-time Fourier transform (STFT) Xm (co, t) and Xb (co, t) at time t using the window function h (t) for the acoustic signals m (t) and b '(t) are short-time Fourier transform (STFT) Xm (co, t) and Xb (co, t) at time t using the window function h (t) for the acoustic signals m (t) and b '(t) are
  • an A / D conversion is performed on an audio signal at a sampling frequency of 48 kHz and a quantization bit number of 16 bits, and a STFT using a Hayung window with a window width of 8192 points as a window function h (t) is performed at a high speed.
  • Fourier transformation Calculated by commutation FFT.
  • the frame shift time one frame shift is 10 ms because the FFT frame is shifted by 480 points at a time. This frame shift is a unit of processing time. Note that the removal engine 100 can easily cope with other sampling frequencies (16 kHz, 44 kHz, etc.), window widths, and frame shifts.
  • the amplitude spectrum S (co, t) of the desired sound signal s (t) after the removal of the known sound signal is obtained from the amplitude spectrum ⁇ ⁇ ⁇ ⁇ ( ⁇ , t), ⁇ '( ⁇ , t) as follows. Ask.
  • 'a (t) is a function of an arbitrary shape for finally adjusting the amount of subtraction of a component corresponding to the amplitude spectrum force of the mixed sound and the amplitude spectrum of the known sound signal. ) ⁇ l. The larger this is, the larger the subtraction amount is.
  • * g ( ⁇ , t) is a function for correcting the time change of the frequency characteristic and the time change of the volume.
  • gco (co, t) represents the time change of the frequency characteristic
  • gco (co, t) 1 when there is no change in the frequency characteristic.
  • ⁇ ( ⁇ , t) and ⁇ '( ⁇ , t) represent the time change of the volume, and are constants when the volume does not change.
  • the volume difference between ⁇ ( ⁇ , t) and ⁇ '( ⁇ , t) is basically corrected by gt (t).
  • 'r (t) is a function for correcting a time position shift, and usually corrects a certain shift width by setting a constant. Yes).
  • c ( ⁇ , t) is a function of an arbitrary shape for the equalizing process and the fader operation process on the amplitude spectrum.
  • the shape in the ⁇ direction it is possible to adjust the frequency characteristic after removing the known acoustic signal, like a graphic equalizer.
  • a desired sound signal s (t) after removing the known sound signal is synthesized.
  • the shape of r (t) and c (co, t) may be set manually by the user, or may be estimated automatically if possible. Alternatively, it may be modified by the user after the automatic estimation.
  • the elimination engine 100 calculates a part of the various parameter functions g (co, t) (gco (co, t), gt (t)) and r (t) in Equations (11), (12), and (13). Since only automatic shape estimation is supported, the specific automatic estimation method implemented is described below.
  • a section in which the acoustic signal s (t) of only human voices or body sounds is not substantially included is included. Used. A plurality of BGM sections may be used.
  • represents one BGM section (area on the time axis), and ⁇ is a set of ⁇ .
  • the BGM section ⁇ close to the time t of gco, t)
  • gco (co, t) is estimated by interpolation (interpolation or extrapolation). Finally, gco ( ⁇ , t) is smoothed in the frequency axis direction. Note that the smoothing width can be set arbitrarily, and smoothing is not required.
  • ⁇ ( ⁇ , t) is compared with the amplitude at each time of gco, t) B ′ ( ⁇ , t) after frequency characteristic correction.
  • ⁇ ( ⁇ , t) includes components derived from s (t) in addition to components derived from ⁇ '( ⁇ , t). Therefore, the frequency axis ⁇ is divided into a plurality of frequency bands ⁇ , and for each band ⁇ ( ⁇ ⁇ ⁇ )
  • ( ⁇ represents the set of ⁇ ).
  • represents the set of ⁇ .
  • gt (t) is estimated by min (g, t ( ⁇ , t)) or Equation 11.
  • gt (t) is smoothed in the time axis direction. Note that the smoothing width can be set arbitrarily, and it is not necessary to perform smoothing.
  • a set B of BGM sections ⁇ is used as R (t) is determined so that the time axis of the correspondence between ⁇ ( ⁇ , t) and ⁇ ( ⁇ , t) is matched.
  • the element of the set ⁇ of BGM sections for estimating r (t) is limited to one, and r (t) corresponds to only a constant.
  • the set GM of the BGM interval ⁇ was used. This may be specified manually by the user, or may be automatically estimated as follows.
  • basically, a set of the remaining BGM sections is obtained by using one BGM section ⁇ 1 as a clue.
  • various parameter functions of ⁇ ( ⁇ , t) are estimated and tentatively determined, and the values of ⁇ ( ⁇ , t) and ⁇ ( ⁇ , t) in the section of ⁇ 1 at that time are determined.
  • the distance between the amplitude spectra is obtained, and a constant multiple of the maximum value (in this embodiment, the maximum value is used, but implementation using the average value is also possible) is set as the BGM section determination threshold value. Then, the distance between the amplitude spectrums of ⁇ ( ⁇ , t) and ⁇ ( ⁇ , t) is found for all the sections, and the section below the BGM section determination threshold is detected and newly added to ⁇ . In the present embodiment, this estimation is not repeated Force may be obtained by repeating this estimation.
  • the distance between ⁇ ( ⁇ , t) and ⁇ ( ⁇ , t) is, for example,
  • Equation 5 [0093] To cope with this, the second expression in Equation 5 is defined as follows.
  • ⁇ ( ⁇ ) is a function for correcting expansion and contraction in the frequency axis direction.
  • ⁇ ′ ( ⁇ , t) By converting the frequency axis ⁇ of the amplitude spectrum ⁇ ′ ( ⁇ , t), Enables linear expansion and contraction. Note that ⁇ '( ⁇ , t) takes 0 outside the original domain of ⁇ , and interpolates appropriately when discretized and implemented.
  • -q (t) is a function for correcting expansion and contraction in the time axis direction.
  • ⁇ ′ ( ⁇ , t) takes 0 outside the original domain of t, and interpolates as appropriate when implementing discretely.
  • q (t) and r (t) can be expressed as a unified function.
  • q (t) is set to represent continuous expansion and contraction
  • r (t) is discontinuous. It shall be set for the purpose of indicating the displacement.
  • the first ⁇ 1 needs to be manually specified by the user.
  • the removal engine 100 corresponds to a case where the known acoustic signal b, (t) is included in the mixed acoustic signal m (t).
  • a plurality of types of known acoustic signals b and (t) are included as in b, l (t), b, 2 (t) to b, N (t), their amplitude spectra ⁇ ′ 1 ( ⁇ , t), B '2 ( ⁇ , t)...: From ⁇ ' ⁇ ( ⁇ , t), ⁇ 1 ( ⁇ , t), ⁇ 2 ( ⁇ , t)-- -BN ( ⁇ , t)
  • the processing can be extended to the processing for obtaining S (co, t).
  • various parameter functions of ⁇ ( ⁇ , t) are set in parallel while balancing the entire force for sequentially setting various parameter functions of ⁇ ( ⁇ , t).
  • a stereo signal may be mixed and converted to a monaural signal and applied, or a stereo signal may be applied to each of the left and right signals of a stereo signal. May be applied. Further, the present invention may be extended so as to use the sound source direction in the stereo signal.
  • FIG. 5 shows the results of actually processing a mixed sound of classical music being played in the BGM of a dialogue between two men and women.
  • the mixed sound m (t) shown in the graphs 501 and 502 of FIG. 5 as input, the known sound signal b ′ (t) of the original sound source shown in the graphs 503 and 504 of FIG.
  • the sound signal s (t) after removal of the known sound signal shown in graphs 505 and 506 of FIG. 5 was obtained.
  • the BG in the program is output using the music audio signal of BGM separately prepared.
  • M an acoustic signal consisting of only human voices and object sounds can be obtained.
  • another music may be added as BGM to the sound signal from which the BGM has been removed.
  • FIG. 5 is a block diagram showing functions of the removal engine 100. As shown in FIG.
  • the removal engine 100 includes, as signal input means, a mixed sound input unit 101 to which a mixed sound signal is input, and a known sound signal input to input a known sound signal to be removed. And a sound signal output unit 107 as an output unit of the sound signal subjected to the removal processing.
  • the removal engine 100 includes an amplitude spectrum extracting unit 200 that extracts an amplitude spectrum from the input acoustic signal.
  • the amplitude spectrum extracting section 200 includes a data dividing section 201, a window function processing section 202, and a Fourier transform section 203.
  • the window function processing section 202 multiplies the audio signal data of the window size section (170 ms) divided by the data division section 201 by a Hanning function, and performs smooth processing at the beginning and end of the data. Into a signal waveform that converges to zero.
  • Fourier transform section 203 performs a Fourier transform on the data of the mixed acoustic signal and the data of the known acoustic signal, and separates and outputs a phase and amplitude spectrum for each frequency channel. It should be noted that data that has power only in the amplitude spectrum is output as “time-frequency data”.
  • the Fourier transform unit 203 performs a fast Fourier transform (FFT) on the voice data that has been subjected to the Hayung function processing.
  • the input audio data is only real numbers. Since the imaginary part is included in this FFT, since the input and output are calculated using complex numbers, two window transformations are performed on the real and imaginary parts of the input data, respectively, and a fast Fourier transform is performed. To achieve twice the speed.
  • This system uses the SSE2 instruction that can be used with the Intel Pentium4 (registered trademark) processor and the like to achieve high-speed processing.
  • amplitude spectrum extracting section 200 sets the section for Fourier transform to 480 samples (480 samples).
  • time-frequency data that is data representing “only the amplitude” of the audio signal is obtained for each frequency channel.
  • the frequency channels obtained in this way are 4096 channels from ⁇ (DC) to about 24 kHz every about 5.86 Hz, such as 0 ⁇ , 5.86 ⁇ , 11,72 ⁇ , 17.57 ⁇ ... 23,994.14 ⁇ . Become.
  • the amplitude spectrum extracting unit 200 functions as a mixed acoustic amplitude extracting unit that extracts a mixed acoustic amplitude spectrum from the mixed acoustic signal.
  • the signal is a known sound signal to be removed, it functions as a known sound amplitude extraction unit that extracts a sound amplitude spectrum from the known sound signal.
  • the removal engine 100 automatically estimates the change of the known sound in the mixed sound based on the amplitude spectrum of the known sound extracted from the amplitude spectrum extracting unit 200, and corrects the automatic estimation result by a user operation.
  • a parameter estimating unit 300 is provided.
  • the parameter estimating unit 300 calculates all the parameter functions a and e of the above-described equations 5 and 6 based on the data for each frequency channel of the "time frequency data" extracted from the amplitude spectrum extracting unit 200.
  • (t), g (co, t) (gco (co, t), gt (t), gr (t)), ⁇ ( ⁇ ), q (co), r (t), c ( ⁇ , t )
  • the user may first draw and specify an arbitrary function shape, or may first make automatic estimation and correct the result.
  • the nomometer estimating section 300 includes a calibration section 304 for calibrating mixed sound and known sound.
  • the calibration unit 304 uses the section (BGM section) that hardly contains the sound signal s (t) of only human voices or body sounds, and And the parameter functions g (co, t), (gco (co, t), gt (t)), and r (t) in Equation 6 are automatically estimated.
  • the user can manually select, within the mixed sound, a section of only a few seconds for the one-second force in which only the known sound is output, and also perform substantially the same part for the known sound. select. Then, the calibration unit 304 sums up the volume of each frequency channel in the selected section, and compares the values obtained from the mixed sound and the removed sound. In this section, since only the known sound is included in the mixed sound, the ratio becomes the frequency characteristic.
  • the parameter estimating unit 300 includes a frequency characteristic correcting unit 301, a volume change correcting unit 302, and a time position correcting unit 303, and (1) the temporal positions of the mixed sound and the known sound. Estimate the deviation, (2) the frequency characteristics of the known sound, and (3) the time change of the volume of the known sound.
  • the frequency characteristic correction unit 301 is a module for estimating a frequency distribution.
  • a function c for equalizing processing and fader operation processing on an amplitude spectrum is used.
  • t the shape in the ⁇ direction is changed to adjust the frequency characteristics after removal of the known acoustic signal, like a graphic equalizer.
  • the frequency characteristic correction unit 301 performs smoothing of the frequency characteristic in a portion of the audio channel where the volume of the BGM is low because the value obtained due to noise or the like becomes unstable.
  • the estimated! / Since it is impossible to estimate unless there is a sound of a known sound in each frequency channel, the known sound includes low sound power and high sound when estimating the frequency distribution. V, it is desirable to use the so-called "rich" part.
  • the frequency distribution is smoothed.
  • This smoothing is achieved by smoothing the average value of the previous and next channels.
  • the number of channels is set to the slider “smoothing bark weight” of the editor 400. Thus, the greater the value, the smoother it can be.
  • Another smoothing mechanism (Blur_freq_mode) is implemented by a button “BAFAM” of the force editor 400.
  • BAFAM button “BAFAM” of the force editor 400.
  • Estimation cannot be performed on a frequency channel without sound, and there is a case where the frequency is extremely lower than that of the adjacent frequency channel. Therefore, by raising the value to the same value as that of the adjacent frequency channel, such an unpredictable case is avoided. Can be.
  • a completely zero frequency channel is implemented with a slider "shift free weight" of the editor 400 in order to avoid affecting the estimation processing.
  • the frequency characteristic correction unit 301 performs processing by ignoring the hiss and various beat sounds from the analog tape recorder and the stationary noise at the specific frequency. Has functions. If stationary sound such as horizontal frequency (15.75kHz) included in video data is included in the mixed sound, there is a problem that estimation is greatly erroneous in the surrounding frequency channels. That is, since the stationary sound is a sound that is not included at all on the known sound side, it causes erroneous estimation of the frequency characteristic.
  • Volume change correction section 302 estimates and smoothes a time change of the volume. In estimating the time change of this sound volume, the sound volume change after removing the known sound signal should be adjusted by correcting the shape of c (co, t) in the t direction, as in the operation of the volume fader of a mixer. Can be.
  • the volume change correction unit 302 detects a time change in the volume of the known sound over the entire time range of the mixed sound. Since mixed sounds include sounds such as voices in addition to known sounds, the frequency channels of mixed sounds and known sounds corrected using frequency characteristics are grouped for each octave (every double in frequency). Add up. Comparison is performed at the same time, and the sound with the smallest ratio of the mixed sound to the known sound is selected. This allows the octave When compared with each other, it is possible to reflect the possibility that only one of the known sounds is present in any one section. This is defined as the volume ratio between the known sound and the mixed sound at that time.
  • the graph display allows the user to identify that the volume is clearly increased, and correct it manually to deal with it.
  • an automatic judgment method such as a robust statistical method may be adopted!
  • volume change correction section 302 also performs smoothing in estimating a time change, and smoothes the average value of the volume of the known sound before and after the time. This value is implemented as the slider "Smoothing Time Weight" in the editor 400, so you can make it smoother by increasing this value.
  • Another smoothing mechanism (Blur_time_mode) force is implemented by a “BATAM” button. If the sound cannot be estimated at a time when there is no sound and the value is extremely low compared to the adjacent time, the unpredictable case is avoided by raising the value to the same value as the adjacent time.
  • the volume is estimated to be zero. To prevent this, a slider “shift time weight” in the editor 400 is implemented.
  • the time position correction unit 303 is for estimating a temporal displacement between the start point of the mixed sound and the start point of the known sound, and sets the constant of the function r (t) described above. , Correct a certain deviation width. More specifically, if the specified mixed sound and the known sound are temporally displaced from each other, the known sound is shifted up to 100 milliseconds back and forth every 1 ms with respect to the mixed sound, and each of the correction units The processing by 301 and 302 is repeated. The sound volume difference between the mixed sound and the known sound in the specified section is obtained, and it is determined that the difference is the best at the time when the difference becomes minimum, and the time difference between the mixed sound and the known sound is determined.
  • the above procedure can be executed to perform automatic estimation, or the user can specify a time lag determined in advance and select not to perform automatic estimation.
  • the mixed sound in the user's ear and the known sound may be output from separate left and right speakers, and these sounds may be compared and listened to, and the user's auditory sense may be used for positioning.
  • the removal engine 100 performs an inverse Fourier transform with the removal processing unit 104 that removes the mixed acoustic amplitude spectrum force and the known acoustic amplitude spectrum extracted by the amplitude spectrum extraction unit 200, and outputs the removed sound.
  • An inverse Fourier transform unit 105 for restoring and an arrangement processing unit 106 are provided.
  • the removal processing unit 104 converts the known sound according to the estimation data generated by the parameter estimation unit 300, and removes the converted signal from the "time-frequency data" of the mixed sound.
  • the embodiment implements a “phase-independent subtraction algorithm” by the simulation unit 14. That is, in the present embodiment, the simulation unit 14 performs a simulation on the assumption that the phases are uniformly distributed from 0 degrees to 360 degrees by the above-described “phase-independent subtraction function”.
  • the removal processing unit 104 also functions as a removal strength setting unit that automatically sets the removal strength to match the simulation result of the simulation unit 14.
  • the inverse Fourier transform unit 105 restores, using the inverse Fourier transform, the data of only the sound from which the known sound has been eliminated from the "time-frequency data" obtained by the subtraction calculation and the phase data in the mixed acoustic signal. . Specifically, the inverse Fourier transform unit 105 calculates Xs (Xs ( ⁇ , t) obtained using the amplitude spectrum S (co, t) obtained by the removal engine 100 and the phase ⁇ ⁇ ( ⁇ , t) of the mixed sound m (t). co, t) and inverse Fourier transform (IFFT) to obtain a unit waveform.
  • the frequency channel data after subtraction at each time is subjected to inverse Fourier transform.
  • the phase of the sound of each channel is different from the phase of the known sound or the mixed sound before being removed. Try to take the same value.
  • the phase of the voice before the removal can be maintained, and the occurrence of a “bubble” noise in each section can be prevented.
  • the same method as that used to create time-frequency data is used for IFFT's high-speed transmission.
  • the arrangement processing unit 106 superimposes the outputs of the windows of the same width by the overlap-add method (OverlapAdd) for the sound of each time having a width of 170 milliseconds, which is the width of the Hayung window, and finally, Restore audio from which music has been removed.
  • overlapAdd overlap-add method
  • FIG. 7 is a flowchart showing such an operation.
  • the data dividing unit 201 divides the mixed sound signal into a specific length (window Size).
  • FFT fast Fourier transform
  • the parameter estimating unit 300 selects, based on the user's operation, a section of one second and several seconds in which only music (BGM) is sounding in the mixed sound (the “BGM section” described above). Then, calibration (S304) is performed. Select almost the same part for the original song.
  • step S310 If the BGM in the mixed sound specified in step SO1 and the original music are temporally displaced, the original music is moved up to 100 millimeters back and forth every 1 millisecond with respect to the mixed sound. After a delay of two seconds (S310), the processing from step S305 to step S308 is repeated. The difference in volume between these sections is determined, and it is considered that this difference most closely coincides with the time at which this difference is minimized. This is the time displacement between the BGM in the mixed sound and the original music.
  • the removal processing unit 104 performs a subtraction operation of the known sound estimated from the mixed sound (S311), and the Fourier transform unit 203 converts the frequency channel data after subtraction at each time. Inverse Fourier transform is performed (S312). At this time, the phase of the sound of each channel is set to the same value as the phase of BGM in the mixed sound before being removed. Then, the inverse Fourier-transformed data of each window size is superimposed by the overlap add method (OverlapAdd) in the arrangement processing unit (S313), and finally, the sound from which the music has been removed is restored, and the data is output. Is performed (S314).
  • FIG. 8 is an explanatory diagram showing a screen configuration of the editor 400.
  • the editor 400 includes a window 401 for displaying a MIX file waveform, a window 402 for displaying a BGM file waveform, a window 403 for displaying a MIX file spectrum, and a BGM file spectrum. It has a window 404 for displaying, a window 405 for displaying the spectrum of the voice after removal and the frequency-time characteristic, and a window 406 for displaying and operating the removal strength and the like.
  • Each of these windows functions as a range setting unit that sets the range of the mixed acoustic signal to be removed.
  • the waveforms of the mix file and the BGM file are displayed.
  • the image can be enlarged or reduced (down-up).
  • you can select a section by pressing the left button and moving left and right. The selected section changes color and the first and last time of the selected time are displayed. These operations can also be performed using the arrow keys on the keyboard.
  • the spectrum of the MIX file or the BGM file in the section selected in the window 401 or 402 is displayed, and almost the same operations as those in the windows 401 and 402 can be performed.
  • the intensity of the vector is displayed in 16 levels of colors, with the horizontal axis representing time and the vertical axis representing frequency.
  • window 403 when estimating the frequency distribution in the calibration process, by selecting a section in which only BGM can be heard on this window and pressing the "SR" button, the start of the selected section is started.
  • the position and the end position are entered in the text box section 407b in the columns of the calibration start time (BGM only section start position) and calibration end time (BGM only section end position).
  • the text box portion 407b there is a direct input of a numerical value.
  • the window 405 displays the frequency distribution (frequency characteristics and amplitude) of the acoustic signal with respect to time as a line or a figure, and also classifies the signal intensity (volume) of the frequency in steps or colors.
  • This is a display unit for displaying in a thermographic format.
  • the radio button unit 407e By checking the radio button unit 407e, the spectrum display after removal and the spectrum display of the frequency-time characteristic as shown in FIG. 9 are switched.
  • a display 511 in FIG. 9 is a spectrum display after removal, and a display 512 in FIG. 9 is a spectrum display in which the time-frequency characteristics are normalized.
  • this window 405 the same mouse and keyboard operations as those in the windows 401 to 404 described above can be performed.
  • the removal intensity curve (FIG. 10A), the frequency characteristic curve (FIG. 10B), and the time characteristic curve (FIG. 10A) as shown in FIG. (C) in the same figure and the time-frequency characteristic ((d) in the same figure) are switched and displayed.
  • This window 406 functions as a setting unit for setting the signal strength of the known acoustic amplitude statue to be removed at a corresponding time by deforming the curve, and moving rightward while pressing the left button. , The curve can be deformed, and the function curve can be adjusted finely and arbitrarily. In addition, even if the mouse is moved to the left, it cannot be changed.
  • a time code is described as a time axis.
  • an acoustic signal of a predetermined frequency here, 1 kHz of a color bar
  • the mixed acoustic signal power is also detected.
  • the editor 400 is provided with two operation panels 407 and 408 on the left and right at the bottom thereof for displaying a file and setting various parameters.
  • the left operation panel 407 includes a window 407a for displaying a MIX file, a text box 407b for setting parameters, a check box 407c, radio buttons 407d and 407e, and a button for executing removal. 407d.
  • the right operation panel 408 includes a window 408a for displaying a BGM file and a slider section 408b for setting parameters.
  • the waveform of the MIX file or BGM file is displayed in windows 401 and 402 by dragging the MIX file or BGM file here. If the dragged file is a movie file, this window is displayed. The image is displayed inside. A slide bar is arranged below these windows 407a and 408a, and by sliding the slide bar, the playback start position of the MIX file can be changed. In the present embodiment, the section displayed as a waveform is set to 5 minutes from the playback start position. A play button, a play pause button, a play stop button, a volume control bar, and a text box for entering a numerical value of a play start position are arranged below the slide bar.
  • the text box section 407b includes "erase ratio", which is an input field for the removal strength of the BGM to be removed, and a section of only the BGM of the MIX file for estimating the frequency distribution. Enter the start position and end position in the fields “Calibration start time” and “Calibration end time”, and the MIX file and BGM file. Offset between ”. In “erase ratio”, the basic value is 1, and you can set up to 0.1-5. For “Offset between target and background music”, setting -1 sets the mode to calculate the automatic alignment.
  • the check box section 407c improves the estimation accuracy of the frequency distribution as shown in Fig. 11 (b).
  • a re-estimation mode ⁇ PEM '' that automatically searches for other BGM only and searches for data, and incorrectly obtained a small value Estimate and correct the value of the adjacent channel for the frequency channel Correct the frequency blur mode ⁇ BAFAM '' and estimate and correct the value of the time before and after the time when the estimation is incorrectly reduced to a small value
  • the time axis pressure mode “BATAM” can be selected.
  • the radio button section 407d As shown in Fig. 11 (c), by selectively checking, the EraseRatio (intensity curve), FreqWeight (frequency characteristic) in the window 406 as shown in Fig. 10 are displayed. Curve), TimeWeight (time characteristic curve), and BGMWeight (time-frequency characteristic curve) can be switched.
  • the time-frequency response curve force is displayed in window 406, and on each of these displays, the parameters can be reset.
  • the radio button section 407e by selectively checking, the window 405 after removal in the window 405 as shown in the graphs 511 and 512 in Fig. 9 is selected.
  • the display of the spectrum and the spectrum of the time-frequency characteristic can be switched.
  • this radio button section 407e if "Res” is checked, a vector of the data after removal is displayed, and if "BGM” is checked, the spectrum force window 405 of the time-frequency characteristic is displayed.
  • the bias amount of the frequency characteristic curve is set by "Shift Freq Weight” and the bias amount of the time characteristic curve is set by "Shift Global Weight” by sliding the bar to the left and right.
  • the amount of bias in the time-frequency characteristic can be changed with “”, and the smoothing width in the frequency direction can be changed with “Smoothing time weight”.
  • the setting of TimeWeight is reset.
  • the music removal processing is executed by clicking the "DEL_Music” button, and the music removal processing by the readjusted characteristics after the music is removed by clicking the "RDEL_Music” button. Execute the process. [0170] (Example of changing editor)
  • FIG. 12 is a configuration diagram showing a modified example of the editor 400. As shown in FIG.
  • the editor according to this modified example also calls a part of the function of the removal engine 100 by the user's operation, similarly to the editor 400 described above, and executes all the parameter functions a and e of the above Equations 5 and 6.
  • (t), g (co, t) (gco ( ⁇ , t), gt (t), gr (t)), ⁇ ( ⁇ ), q), r (t), ⁇ ( ⁇ , t)
  • the editor user may first specify the force by drawing an arbitrary function shape, or may first make an automatic estimation and modify the result.
  • This editor is roughly divided into a sub-window Wl for operating the mixed sound signal m (t), a sub-window W2 for operating the known sound signal b '(t), and a desired sound signal s ( t) It consists of three subwindows W3 for operation.
  • the switching switch W2S When there are a plurality of known acoustic signals b ′ (, the known acoustic signal b ′ (t) operated in the sub-window W2 can be switched by the switching switch W2S.
  • the operation range slider P1 indicates where in the audio signal is currently displayed.
  • Cursor P2 is an iconized (folded) button that indicates the position on the time axis of the current operation target. Pressing this button temporarily collapses the subwindow to which the button belongs and reduces the size of unused buttons other than the current operation target. Sub-windows can hide windows and make effective use of narrow screens.
  • Float (enlarge) button When the button is pressed, the subwindow to which the button belongs is temporarily disconnected from the parent window (float), and further enlarged to facilitate operation and editing. ) If only button P4 is drawn, pressing this button causes the sub-window associated with it to float and appear.
  • each amplitude In the spectrum, the amplitude is drawn in shades on the left side (the horizontal axis is the time axis, the vertical axis is the frequency axis), and the amplitude at the cursor position is drawn on the right side (the horizontal axis is the power, the vertical axis is the frequency axis) .
  • the sub-window W2 for the operation of the known sound signal b '(t) is the window at the center of the operation, and all the parameter functions a (t) and g (co, t) of Equations 5 and 6 are used. (gco ( ⁇ , t), gt (t), gr (t)), ⁇ ( ⁇ ), q (t), r (t) can be set freely. The following is a description of each operation panel.
  • gco ( ⁇ , t) is displayed. This panel is used to operate the gco ( ⁇ , t) at time t at the cursor position (horizontal axis is size, vertical axis is frequency axis). The result of the setting operation is immediately reflected on the g (co, display panel E7. The value of g (co, t) is drawn in shades of gray (the horizontal axis is the time axis, the vertical axis is the vertical axis). Axis is frequency axis).
  • the result of the setting operation is immediately reflected on the display panel E7 of g (co, t).
  • Equation 5 the shape of the parameter function c (co, t) in Equation 5 can be set freely. The following describes each operation panel. State.
  • the result of the setting operation is immediately reflected on the display panel E8 of c (co, t).
  • E8 the magnitude of the value of c (co, t) is drawn in shades (the horizontal axis is the time axis, and the vertical axis is the frequency axis).
  • This panel is used to display and operate the shape of c (co, t) in the t direction.
  • the result of the setting operation is immediately reflected on the display panel E8 of c (co, t).
  • the acoustic signal removal system includes, for example, an acoustic signal removal program installed in a computer such as a user terminal or a web server or an IC chip, and a CPU, a memory, and a hard disk provided in the computer. And so on. Therefore, by installing the audio signal elimination program, it is possible to easily construct an audio signal elimination device or an audio signal elimination system having the above-described functions, and to implement the audio signal elimination method.
  • an apparatus having the above-described functions is an acoustic signal removing apparatus. This acoustic signal elimination program can be distributed, for example, through a communication line, or can be transferred as a package application that operates on a stand-alone computer.
  • Such a program can be recorded on a recording medium 116-119 readable by a general-purpose computer 120 as shown in FIG. More specifically, various recording media such as a RAM card 118 as well as a magnetic recording medium such as a flexible disk 116 and a cassette tape 119, an optical disk such as a CD ROM and a DVD-ROM 117 as shown in FIG. It can be recorded on a medium.
  • various recording media such as a RAM card 118 as well as a magnetic recording medium such as a flexible disk 116 and a cassette tape 119, an optical disk such as a CD ROM and a DVD-ROM 117 as shown in FIG. It can be recorded on a medium.
  • a general-purpose computer or a special-purpose computer is used to construct the above-described acoustic signal elimination system or implement the acoustic signal elimination method. This makes it easy to store, transport and install the program.
  • the phase of the amplitude data can be changed, processing that does not depend on the phase can be performed. Therefore, for example, only music can be removed from a set of audio signals in which sound and music are mixed, using sound data such as a music CD used when creating the program. That is, since the amplitude spectrum of the acoustic signal does not depend on the phase, it is not affected even if the phase changes. Therefore, it is possible to appropriately estimate the frequency characteristics and volume change of the known sound signal in the mixed sound signal. As a result, according to the present invention, for example, only music can be accurately removed from the audio signal of a program in which audio and music are mixed, using the sound data of a music CD or the like used when creating the program. You. According to the present invention, not only music but also background noise and the like mixed in at the time of program creation can be removed using sound data in which only noise is simultaneously recorded.
  • stationary noise of a specific frequency such as hiss and various beat sounds
  • an analog tape recorder detects whether the noise is annoying or not.
  • a frequency channel including the noise is ignored, and the removal processing is performed. Therefore, the frequency characteristics of the known sound can be more appropriately estimated.
  • a single sound (480 Hz) having a constant amplitude is input as a mixed sound, a removal process is performed with the amount of known sound subtracted as zero, and the volume of the output sound and the volume of the sound before the process are determined. The difference in the volume of the mixed sound is measured. Then, the volume of the mixed sound and the sound after removal are set so as to eliminate the difference. For this reason, even when only a part of a specific audio file is removed, the volume of each audio file can be kept the same.
  • the synchronization control unit 9 synchronizes the video and the sound and outputs the video and the sound from the monitor 10 and the speaker 11. The operation can be performed while visually confirming each subsequent sound by comparing it with the video, thereby improving work efficiency.
  • the time change graph is displayed and can be corrected by an intuitive operation in which the user draws with the mouse, the user's intention such as taking into account each scene of the program and the reuse method can be considered. , The effect of the music removal can be adjusted.
  • the audio start position is determined, and it is necessary to proceed with the work based on information such as the cue sheet that describes the time in the program and the songs used, and it is necessary to link this information. Function is required.
  • the system is provided with an automatic time adjustment function 12.
  • the automatic time adjustment function 12 uses a window of the editor 400 or the like to perform the processing of the mixed sound signal to be removed by the window of the editor 400 when performing the processing on the tape for the air on the TV.
  • the detection unit detects the predetermined frequency (here, 1 kHz of the color bar) of the mixed sound data related to the setting of the range, and measures 15 seconds after the end time of the sound signal of this predetermined frequency with the timer.
  • This module is set to 0 on the time code by the setting unit.
  • the automatic time adjustment function 12 it is possible to adjust the time code of a color bar signal in a standard format in a commercial format in the processing of an on-air tape for a TV, etc. By simply inputting the time of the music to be removed described in the above section, the video and audio of the target portion can be extracted.
  • a parameter storage unit 13 is provided in the above system.
  • the parameter storage unit 13 stores various parameter setting data for the left audio. Is stored. That is, when various parameters are set by the user interface 6 with respect to the left voice separated and extracted by the voice data extraction unit 3, the setting data for the left voice is stored in the parameter storage unit 13 and is stored in the next time. Called during the removal processing for the right voice, and set as the default value in the user interface 6.
  • a range setting unit 15 is provided in the above system.
  • the range setting unit 15 performs a process of narrowing down the range step by step when setting the time position shift between the BGM in the mixed sound and the known sound to be removed.
  • the range setting section 15 is linked with the user interface 6 and operates when the time positional shift is automatically estimated.
  • range setting section 15 has a melody detection function, and can thereby estimate the frequency distribution. That is, when the known acoustic signal is a signal that is powerful for music, the range setting unit 15 mixes the frequency distribution according to the melody included in the music. Synthesized acoustic signal strength Detected and set relative time position based on detected signal start position. According to such a range setting section 15, when the known sound to be removed is music or the like, the melody is detected, whereby relative positioning can be made easier.
  • headphones 16 are connected to output I / F8.
  • the headphones 16 output a BGM sound source, which is a known sound, from the left speaker 16a, and a MIX sound source, which is a mixed sound, from the left speaker 16b. In this way, these sounds are compared and heard by the user's ear, and the user's hearing is used to perform positioning.
  • the mixed sound and the known sound are output from, for example, the left and right speakers of the headphones, so that the user can judge the time lag using the auditory sense. Efficiency can be improved.
  • known sound in mixed sound is emphasized or attenuated during program creation. , Its characteristics are changing every moment. Therefore, even if only one sample is obtained at the time of the calibration, the removal processing may not be performed properly. If the known sound is music or the like, it may be partially expanded or contracted in the time axis or frequency axis direction due to the difference in the number of rotations of the record or the like. Cannot obtain a proper sample.
  • a calibration setting unit 17 is provided in the above system as shown in FIG.
  • the calibration setting unit 17 is a module for acquiring the calibration sample in the above-described removal engine 100 as well as a plurality of local forces arbitrarily selected by the user.
  • the plurality of samples obtained by the calibration setting unit 17 are also used for the above-described estimation of the known sound, and the known sound is corrected by expanding and contracting in the time axis or frequency axis direction using the sample, and mixed.
  • the known sound signal is subtracted from the sound.
  • a sound collecting microphone 19 can be connected to the input I / F1, and a video camera 20 is connected to the DV capture 2. Connectable.
  • the sound collecting microphone 19 is a first sound collecting device that has directivity and obtains a known sound signal to be removed, and the video camera 20 is a second sound collecting device that obtains a mixed sound signal. .
  • the sound collecting microphone 19 is detachable from the video camera 20 and can be carried around. During shooting with the video camera 20, the sound collecting microphone 19 is set near a sound source of noise to be removed, and only the noise is recorded.
  • the sound collection microphone 19 and the video camera 20 described above may have an integral structure as shown in Fig. 21B.
  • the second sound collector 21a for acquiring the mixed acoustic signal is disposed at the tip of the integrated microphone 21, and the first sound collector 21b for acquiring the known acoustic signal is provided behind the integrated microphone 21.
  • the sound collectors 21a and 21b are disposed apart from each other.
  • the sound collector 21a has directivity in front of the device for normal photographing, and the sound collector 21b has directivity other than in front. Constitute.
  • a noise signal such as noise recorded by the sound collector 21b is used to convert noise from a sound signal in which noise recorded by the sound collector 21a is mixed with noise. Only those can be removed accurately.
  • the audio signal removing apparatus can appropriately remove the sound to be removed from the mixed sound. And useful.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Stereophonic System (AREA)

Abstract

 除去しようとする既知音響信号と他の音響信号とが混合されている混合音響信号中の、定常音を検出する定常音検出部18と、音響信号から音響振幅スペクトルを抽出する音響振幅抽出部200と、抽出された混合音響振幅スペクトルのうち、定常音の周波数と一致しない周波数の混合音響振幅スペクトルを選択し、選択された周波数の混合音響振幅スペクトルから既知音響振幅スペクトルを除去する除去処理部104とを備える。この音響信号除去装置によると、混合音響中の除去処理に際して誤推定の原因となる定常音を排除して、除去しようとする音響の変化を自動的かつ高精度に予測し、適正に除去することができる。

Description

明 細 書
音響信号除去装置、音響信号除去方法及び音響信号除去プログラム 技術分野
[0001] 本発明は、既に放送された番組を再放送するなど、コンテンツを再利用する際に、 コンテンツ中に混合された BGMや音声等の音響を除去する音響信号除去装置、音 響信号除去方法及び音響信号除去プログラムに関する。
背景技術
[0002] 近年の放送業界では、既に放送された番組を再放送するなど、コンテンツを再利用 する場合がある。このコンテンツの再利用に際しては、既に放送された音声や音楽が 混合している映像素材から、使用されている音楽だけを除去することで、新たな素材 として活用することができる。このように、既存の混合音響から特定の音声を減算する 技術としては、例えば特開 2000-312395号公報に開示された技術がある。
[0003] し力しながら、放送番組の音声作成時には、製作意図にあわせて周波数特性や音 量を調整する場合が多い。このため、音の位相が予測不能な変化をしている。このた め、単に電子的な減算処理を行ったのみでは、適切に除去することはできない。
[0004] 詳述すると、除去しょうとする音響が、例えば番組の BGMのような既知の音楽であ つても、番組作成時に、番組効果のために BGMの低音や高音の強調や減衰を行つ たり、録音'再生を繰り返したりする過程で、 BGMの周波数特性が変化している場合 もあり、単純に減算処理をすることはできない。
[0005] また、アナログテープレコーダーによるヒスや各種のビート音といった特定周波数の 定常的な雑音 (定常音)が映像データに含まれている場合には、この定常音の周辺 の周波数チャンネルで大きく推定を誤ってしまうという問題があった。すなわち、定常 音は、既知音響側にはまったく含まれない音であることから、周波数特性の推定を誤 る原因となる。
[0006] さらに、既知音響の除去処理は、既知音響が混合されている箇所に対してのみ行 われる。このため、音声ファイル中の一部のみカゝら既知音響信号が除去された場合 には、除去された部分とそれ以外の部分との間で音量が変化するという問題がある。 [0007] 本発明は、上記問題を解決すべくなされたものであり、混合音響中の除去処理に 際して誤推定の原因となる定常音を排除して、除去しょうとする音響の変化を自動的 かつ高精度に予測し、適正に除去することのできる音響信号除去装置、音響信号除 去方法及び音響信号除去プログラムを提供することを目的とする。
発明の開示
[0008] 上記課題を解決するために、本発明は、除去しょうとする既知音響信号と他の音響 信号とが混合されている混合音響信号中の、定常音を検出し、既知音響信号から既 知音響振幅スペクトルを抽出するとともに、混合音響信号カゝら周波数毎の混合音響 振幅スペクトルを抽出し、抽出された混合音響振幅スペクトルのうち、定常音の周波 数と一致しな ヽ周波数の混合音響振幅スぺ外ルを選択し、選択された混合音響振 幅スペクトル力 既知音響振幅スペクトルを除去する。
[0009] 上記発明において、定常音検出部は、混合音響信号中における、最小の振幅とな る周波数、或いは値が小さい順にソートした n番目の値となる周波数、 n番目までの標 準偏差から一定値を超えない nの最大値となる周波数を定常音として検出することが 好ましい。
[0010] また、シミュレーション部が、除去しょうとする既知音響信号と他の音響信号とが混 合されている混合音響信号カゝら既知音響信号を除去する際に、混合音響としての一 定振幅の音響信号に対し、既知音響信号を 0として疑似減算処理を行い、一定振幅 の音響信号と前記疑似減算処理後の音響信号との音量の差を計測し、前記計測結 果に基づいて、既知音響信号の時間毎の信号強度を設定し、既知音響信号から既 知音響振幅スペクトルを抽出するとともに、前記混合音響信号から混合音響振幅ス ベクトルを抽出し、前記設定に基づいて、既知音響振幅スペクトルを変換し、混合音 響振幅スペクトル力も既知音響振幅スぺ外ルを除去する。なお、この疑似減算処理 は、最終的に行われる除去処理と同様に、振幅スペクトルの減算とすることができる。 図面の簡単な説明
[0011] [図 1]図 1は、実施形態に係る音響信号除去システムの構成を示すブロック図である。
[図 2]図 2は、実施形態に係る定常音検出部の説明図である。
[図 3]図 3は、実施形態に係る音響信号除去システムの動作を示すフロー図である。 [図 4]図 4は、実施形態に係る音響信号除去方法の基本理論を示すフロー図である。
[図 5]図 5は、実施形態に係る音響信号除去方法による効果を示す説明図である。
[図 6]図 6は、実施形態に係る除去エンジンの機能ブロック図である。
[図 7]図 7は、実施形態に係る除去エンジンの動作を示すフロー図である。
[図 8]図 8は、実施形態に係るエディタの構成を示す説明図である。
[図 9]図 9は、実施形態に係るエディタのウィンドウを示す説明図である。
[図 10]図 10は、実施形態に係るエディタのウィンドウを示す説明図である。
[図 11]図 11は、実施形態に係るエディタの操作パネルを示す説明図である。
[図 12]図 12は、変更例に係るエディタの構成を示す説明図である。
[図 13]図 13は、実施形態に係るプログラムを記録したコンピュータ読み取り可能な記 録媒体を示す斜視図である。
[図 14]図 14は、変更例 1に係る音響信号除去システムの構成及び動作を示す説明 図である。
[図 15]図 15は、変更例 2に係る音響信号除去システムの構成及び動作を示す説明 図である。
[図 16]図 16は、変更例 3に係る音響信号除去システムの構成及び動作を示す説明 図である。
[図 17]図 17は、変更例 4に係る音響信号除去システムの構成及び動作を示す説明 図である。
[図 18]図 18は、変更例 5に係る音響信号除去システムの構成及び動作を示す説明 図である。
発明を実施するための最良の形態
[0012] [音響信号除去システムの構成]
本発明の実施形態について図面を参照しながら説明する。図 1は、本実施形態に 係る音響信号除去システムの全体構成を示すブロック図である。
[0013] 図 1に示すように、本実施形態に係る音響信号除去システムは、混合音響や既知 音響を入力する入力 I/F1及び DVキヤプチヤー 2を備えて 、る。これら入力 I/F1及び
DVキヤプチヤー 2から入力されたファイル(例えば、 AVIファイルや WAVファイル) は、記憶装置 5に蓄積される。入力 I/F1は、 CDプレーヤーや MDプレーヤ一等の再 生装置力も音響信号を取り込むインターフェースである。また、 DVキヤプチヤー 2は 、映像や音声が混合した混合音響信号である除去対象用の MIX音声を取り出すィ ンターフェースである。
[0014] また、音響信号除去システムは、記憶装置 5に蓄積された各種データに対して音声 データ抽出処理や音声変換処理を行う音声変換部 (PreWav/PostWav) 3及び音声 データ抽出部 (DVReMix) 4とを備えて!/、る。これら音声変換部(PreWav/PostWav) 3 及び音声データ抽出部(DVReMix) 4は、指定されたファイル (AVIファイルや WAV ファイル)を記憶装置 5から読み出し、所定の処理を施した後、処理後のファイル (W AVファイル)を記憶装置 5に蓄積する。
[0015] 音声変換部 (PreWav) 3は、周波数変換、及びステレオカゝらモノラルの分離を行う。
すなわち、除去エンジン 100のフォーマットに合うように、 WAVファイルを左右 2チヤ ンネルに分離するとともに、サンプリングレートを 48kHzに変換し、 2つの WAVフアイ ル(出力ファイル名:左チャンネルが MIX-L.WAV、右チャンネルが MIX-R.WAV) として生成し、記憶装置 5に蓄積する。
[0016] 音声データ抽出部(DVReMix) 3は、映像データ及び音声データから構成されるコ ンテンッ力 音声データのみを抽出するモジュールであり、本実施形態では、 AVIフ アイルから音声データを WAV形式で抽出する。ここでの WAVファイルは、ステレオ 形式であり、そのサンプリングレートは DVの音声と同じ 32kHz又は 48kHzである。この 抽出された WAVファイルは、記憶装置 5に蓄積される。
[0017] そして、音響信号除去システムは、混合音響信号から既知音響信号を除去する除 去エンジン 100を備えている。この除去エンジン 100は、記憶装置 5に蓄積された各 音声ファイル (WAVファイル)を読み出し、除去したデータや除去処理に係る各種デ ータを、一時メモリ 7を介して、記憶装置 5に蓄積したり、出力 I/F8を通じて、モニタ 1 0やスピーカー 11から出力する。モニタ 10は、ユーザーインターフェース 6による操 作や処理結果を表示する GUIであるエディタ 400を表示し、スピーカー 11は、ユー ザ一インターフェース 6によるユーザー操作に基づいて、混合音響や既知音響、除 去後音響を出力する。 [0018] また、除去エンジン 100は、キーボード 6aやマウス 6b等の入力デバイスによるユー ザ一操作に基づく操作信号を、ユーザーインターフェース 6を通じて取得し、この操 作信号に基づいて、各種処理を行う。この除去エンジン 100による音響信号除去処 理については、後述する。
[0019] また、音響信号除去システムは、同期制御部 9を備えており、これにより記憶装置 5 からのデータの読み出し、除去エンジン 100による除去処理、メモリ 7や出力 I/F8に よるデータの入出力を同期させる。これにより、エディタ 400に表示される映像と、スピ 一力一 11から出力される音声を、除去エンジン 100による処理やユーザーインター フェース 6におけるユーザー操作に同期させることができる。
[0020] さらに、音響信号除去システムは、パラメータの設定に際し、そのデフォルト値をシミ ユレーシヨンにより設定し、ユーザーの作業を支援するシミュレーション部 14を備えて いる。
[0021] 具体的に、シミュレーション部 14は、一定振幅の単音 (480Hz)を混合音として入力 し、既知音響をゼロとして除去処理を行い、出力される音量と、処理前の混合音とを 比較して差分量を計測し、その差分量が 0となるように、ユーザーインターフェース 6 における除去強度のデフォルト値を設定する。
[0022] また、シミュレーション部 14は、後述する「位相非依存減算関数」により、混合音響 と既知音響の位相差力 0度から 360度まで一様に確率分布しているとして、シミュレ ーシヨンを行う。具体的にシミュレーション部 14では、他の音響信号の振幅を所定値 とし、これに対する既知音響信号の振幅の位相差を 0から 360度の範囲で変化させ て合成して得られた混合音響信号の振幅の平均値を算出し、この平均値に対する既 知音響信号の振幅の割合から、平均値に対する他の音響信号の振幅の割合の近似 値を算出し、この近似値に平均値を積算することによって得られた他の音響信号の 振幅に基づいて、既知信号の除去強度を設定する。以下に、位相差非依存減算関 数の導出について説明する。
[0023] 先ず、本実施形態では、周波数チャンネル毎に演算を行い、その周波数を f (Hz)と すると、混合音響、既知音響、除去後の音声出力 (他の音響)の信号の関係は、 「混合音響」 =「除去後の音声出力」 +「既知音響」 と表される。そして、上記の各音響は、それぞれ
[数 1]
^s-^M sm(ot + Of}.)
Figure imgf000008_0001
音声出力 = .4sin(« +6b)
(ここで 《 = 2 )
[0024] と表される。ここで、混合音響と、既知音響及び除去後の音声出力の関係から、
[数 2]
M m{ o)t. +Θη)- A SIJK at + θα ) + B ^ i ot + Oh )
M
Figure imgf000008_0002
ωί) cos( ¾ + B ο (ωΐ) sin( ¾ ) hi οο β .) m(o. )+M siii(^) co (o.t) = (A c ( Oa) + B co (Ob)) m(o. ) + (A m(0a) + B m( y os o)t)
[0025] となる。如何なる時刻 tにおいても、上式(数 2)は成立するため、 Sin(cot)と cos(cot)の 係数はそれぞれ等しくなる。したがって、
[数 3]
M co i^n) = {A cos ( Ϊ)十^ co {&? ))
M sm ^7i ) = (A sini 6ti) + B sini θ ) )
[0026] が成立する。この関係から、以下のように、 Μは、 Αと Βと、既知音響と音声出力の位 相差( 0 a' 0 b)で表すことができる。
M 2 = M 2 cos 2 (θιη) + Μ 2 sin (θιη) = (Α οί,(θα) + Bco&(0b))2 + (A&m(0a) +
Figure imgf000008_0003
= (A2 c 52(0 ) + 2AB cos(ft/)cos(/9/?) + II2 cos2,) + ( 2 sin 2(ί¾) + 2,4/i siii(( ")sm(i¾ + Λ2 sin 2(<¾))
= (.42 cos 2 (ft/) + A2 sin 2 (ft/)) + (B2 cos2, + B1 sm2 ( )) + (2AB cos(0 )cos(0b) + 2AB sm(ft/)sin(6l>))
= 42(cos2((9") + sm2(6to)) + B2(cos2(0b) + s 2{eb)) + 2AB (cos{0 )cos(eb) + sm(ea)s (eb))
= A2 + B2 + 2AB cos(6to 0b)
M = sjA2 + Bl + 2 Ali cos - 9h)
(M ≥ 0)
[0027] ここで、既知音響と音声出力の位相差( Θ a- Θ b)を、位相差 θ δで置き換えると、 [数 5]
θδ=θα-θ?
M = ^JA2 +B2 + 2AB cos θδ
[0028] となる, [0029] 本実施形態では、この位相差 θ δがー様な確率で発生すると考え、実際に測定さ れる Μの値の平均値を、次式のように、 θ δを 0ラジアンから 2 πラジアンまで積分し て算出する。
[数 6]
I /Α2 + Β2 + 2AB co s0Sd0S [0030] 例えば、 A= 1. 0として、 bが様々な値を取った場合をシミュレーションすることによ り、以下のような表を得る。
[表 1]
Figure imgf000009_0001
[0031] ここで、
M
[0032] を正規化し、
[数 7]
Ra = A: M
[0033] とする。上記数 6からも明らかなように、 A及び Bに定数をかけると、 Nも定数倍になる ため、表 1の値を全て
M
[0034] で割っても(
M
[0035] の逆数倍しても)、下表のように、上記関係は維持される。
[表 2] A 1 1 1 1 1 1 1
B 0.01 0.1 0.5 1 2 10 100
M 1.000025 1.002502 1.063544 1.273231 2.127089 10.02502 100.0025
M /M 1 1 1 1 1 1 1
Rb=B/ 0.01 0.09975 0.470126 0.785403 0.940252 0.997505 0.999975
Ra=A/ 0.999975 0.997505 0.940252 0.785403 0.470126 0.09975 0.01
[0036] 本実施形態の除去処理では、混合音響の振幅 (M)と既知音響の振幅 (B)が取得 されるため、 Bを Mで除した値である Rbを求めることができる。そこで、上記表 2に相 当するテーブルデータ、若しくはその近似式によって、 Raを求めることができる。
[0037] 次に、
[数 8]
A=Ra X M
[0038] により、他の音響の振幅 Aを求めることができる。
[0039] なお、実際の適用としては、上記 Bを 0力ら 100まで 0.01刻みで変化させ、表の値 に対して以下のような近似式を生成し、 Mの平均値
M
[0040] から Aを算出する。
[数 9]
Rb = B/M
if(Rb< 0.857) (1.0 -0.257? )2 -0.0781257?)4 -0.057? )6)
Ra二
Figure imgf000010_0001
A = M- Ra
[0041] なお、理論上は、混合音の振幅を既知音響の振幅を上回ることはないが、実際に は、推定ミスや除去強度を 1より大きくする等により発生するため、このような場合 (Rb 力 Siより大きい場合)には、 Raを 0とする。
[0042] また、音響信号除去システムは、定常音検出部 18を備えている。この定常音検出 部 18は、図 2に示すように、音響信号除去システムにおける除去処理に係る混合音 響信号中から定常音を検出し、この検出された定常音を除去エンジン 100に通知す るモジュールである。
[0043] そして、除去エンジン 100は、この通知に基づいて、混合音響振幅スペクトルのうち 、定常音の周波数と一致しない周波数の混合音響振幅スペクトルを選択する。即ち、 除去エンジン 100は、周波数選択部としての機能を備える。除去エンジン 100は、選 択された混合音響振幅スペクトル力 既知音響振幅スぺ外ルを除去する。
[0044] かかる定常音の検出は、混合音響信号中における、周波数チャンネル毎の振幅を その時間と対応付けて検出し、これをソートして、その最小値や、代表値を算出する ことによって行われる。この定常音の算出には、以下の 3つの方法が挙げられる。
[0045] (1)最小値法
混合音に対して FFT処理により各周波数チャンネルごとの振幅データを時刻に対 応付けて取り出す。ここでは、例えば 15. 7KHzのチャンネルで、
時刻 0.00秒 0.01秒 0.02秒…… 1456.345秒
振幅 1.5 2.5 1.5 4.5
の値が検出されたものとする。
[0046] この最小値法では、以上のようなデータから、全時刻の値について最小となる値を 定常音とする。
[0047] (2)順位付け法
なお、上述した最小値法では、ノイズが「定常」ではない場合や、他の音声や合成さ れた音楽の位相の関係で、振幅が小さくなることがあり、このために最小値力 本来 の定常値より低くなる惧れがある。この順位付け法では、最小値ではなく次のような値 を用いる。
[0048] 上述した振幅値を、振幅値が小さい順にソートする。
[0049] 順位 1 2 3 4 5… 345 346
振幅 0.34 0.035 0.36 0.40 0.40 - --18.9 19.5
例えば 3秒間なら 10ミリ秒ごとに検出することによって 300のサンプルが検出される。 それぞれの振幅値に対して、 1番から 300番までの数字が付与される。そして、例えば 、ノイズ以外がない区間が少なくても 10%あると予測される場合は、 300の 10%の値が n である。従って、 n番目、即ち 30番目の値が定常音として採用される。 [0050] (3)順位付け改良法
順位付け法では、ノイズだけの区間が多すぎたり少なすぎたりすることや、 10%と ヽ う閾値を定める必要があるため、閾値の設定により算出結果が影響を受ける可能性 がある。そこで、順位付け法の改良法として、上記の振幅値のうち小さい方力も n番目 までのノイズについて、統計をとつて標準偏差 σ (η)を求め、この σ (η)が一定値を超 えない ηの最大値を求め、この ηの時の振幅値を定常音とする方法がある。この一定 値は、経験的に定めることが好ましい。
[0051] [音響信号除去システムの動作]
以上説明した構成を有する音響信号除去システムは、以下のように動作する。図 3 は、音響信号除去システムの動作を示すフロー図である。なお、本実施形態では、 映像と音声力ステレオで記録された映像ファイル (DV)を混合音響 (MIX音声)とし、 オリジナル曲が記録された音声ファイルを既知音響とし、映像ファイル中に BGMとし て包含されている当該オリジナル曲を除去する場合を例に説明する。本実施形態お ける処理は、(1)前処理、(2)音楽除去処理、(3)後処理に大別される。以下、各処 理について詳述する。
[0052] (1)前処理
前処理では、 DVから除去対象用の MIX音声が取り出されるとともに、 BGM用音 声 (オリジナル曲)が用意される。具体的には、 DVキヤプチヤー 2が、 DV用のビデオ 編集ソフトを使用して動画をキヤプチヤーする(S101)。このキヤプチヤーされたファ ィルは、タイプ 1の AVIファイル(出力ファイル名: MIX.AVI)として、記憶装置 5に蓄 積される。
[0053] 次!、で、音声データ抽出部(DVReMix) 3力 AVIファイルから音声データを WAV 形式(出力ファイル名: MIX.WAV)で抽出する(S102)。ここでの WAVファイルは、 ステレオ形式であり、そのサンプリングレートは DVの音声と同じ 32kHz又は 48kHzで ある。この抽出された WAVファイルは、記憶装置 5に蓄積される。
[0054] その後、音声変換部 (PreWav) 4が、周波数変換及び、ステレオ力もモノラルの分離 を行う(S103)。すなわち、音声変換部(PreWav) 4は、除去エンジン 100のフォーマ ットに合うように、 WAVファイルを左右 2チャンネルに分離するとともに、サンプリング レートを 48kHzに変換し、 2つの WAVファイル(出力ファイル名:左チャンネルが MIX -L.WAV、右チャンネルが MIX-R.WAV)として生成し、記憶装置 5に蓄積する。ま た、このステップ S103では、音声変換と同時にビデオの開始時間のオフセットが、設 定ファイル (ファイル名: MIX.time)に出力され、記憶装置 5に蓄積される。
[0055] これらステップ S101— S103と並行して、オリジナル曲の取り込みが行われる(S10 4)。具体的には、オリジナル曲(BGM曲)は、 CDなどから取り込まれ、 44.1kHzステ レオの WAVファイル(出力ファイル名: BGM.WAV)として、記憶装置 5に蓄積され る。次いで、音声変換部(PreWav) 3が、周波数変換、ステレオ力もモノラルの分離を 行う(S105)。すなわち、音声変換部(PreWav) 3は、除去エンジン 100のフォーマツ トに合うように、ステップ S 104で取り込んだ WAVファイルを、左右 2チャンネルに分 離し、サンプリングレートを 48kHzに変換し 2つの WAVファイル(出力ファイル名:左 チャンネルが BGM-L.WAV、右チャンネルが BGM-R.WAV)として、記憶装置 5に 蓄積する。
[0056] (2)音楽除去処理
音楽除去処理では、除去エンジン(GEQ) 100力 MIX音声から BGM音声を除去 する(S106)。この除去後出力される音声ファイルは、左右チャンネルともにモノラル 48kHzの WAVファイル(出力ファイル名:左チャンネル力 ¾RASE- L.WAV、右チャン ネルが ERASE-R.WAV)として、メモリ 7又は記憶装置 5に蓄積される。
[0057] (3)後処理
後処理では、除去エンジンで除去された音声力 DV用の音声に変換され、 DV(A VIファイル)に復元される。先ず、音声変換部(PostWav) 4が、周波数変換、及びモノ ラルからステレオへの変換を行う(S 107)。すなわち、音声変換部(PostWav) 4力 除 去エンジン 100から出力された左右 2チャンネルの WAVファイルをステレオに合成し 、必要ならば元の DVの音声と同じサンプリングレートに変換し、 WAVファイル(ファ ィル名: ERASE.WAV)として、記憶装置 5に蓄積する。次いで、音声データ抽出部( DVReMix) 3が、キヤプチヤーした AVIファイル(BGM.AVI)の音声を、除去後の音 声 (ERASE.WAV)と入れ替え、除去後音響ファイル(ファイル名: ERASE.AVI)として 、記憶装置 5に蓄積する。 [0058] なお、例えば、 1回目の作業で、ステレオ放送の左音声 (L)について作業した場合 などには、この左音声に対する各種パラメータ設定データが記憶され、各種パラメ一 タ設定データは、次回の右音声に対する除去処理の際に呼び出され、ユーザーイン ターフェース 6におけるデフォルト値として設定される。
[0059] [音響除去処理の理論]
次いで、上述した除去エンジン 100について詳述する。先ず、この除去エンジン 10 0による音響除去処理の理論について説明する。
[0060] (基本概念)
所望の音声や物音等の音響信号 s (t) (tは時間軸)に、 BGM等の非定常音響信号 b (t)が混合された、混合音響信号 m (t)が観測されるものとする。
[数 10] m(t) = s{t) + b(t)
[0061] ここでは、 b (t)の元となる音源の音響信号 b ' (t)が既知という条件下で、 m (t)が与 えられたときに、未知の s (t)を求める。例えば、人間の声や物音と共に BGMが鳴つ ているテレビ番組等の音響信号 m (t)を入力とし、その BGMの楽曲が既知でその音 響信号 b ' (t)が別途用意できるときに、その BGMの音楽音響信号を用いて番組中 の BGMを除去し、人間の声や物音だけの音響信号 s (t)を得る処理を実現する。
[0062] ここで、 b (t)と b ' (t)は完全には一致しないため、
[数 11]
s (t) - m{t) - b(t)
[0063] の減算に相当する処理では、 b ' (t)から b (t)に相当する成分を推定して、 s (t)を求 める必要がある。具体的には、既知の音響信号 b ' (t)は、混合音 m (t)中では、以下 のような変形に対する補正を行うことで b (t)に相当する成分を推定する。
[0064] ·時間的な位置のずれ
混合音 m (t)中で既知の音響信号 b ' (t)が鳴っている位置は先頭力 とは限らない 。そこで、既知の音響信号 b ' (t)を時間軸方向にずらし、両者の相対位置を合わせ て、混合音から既知音響信号を減算する。 [0065] ,周波数特性の時間変化
混合音 m(t)中で既知の音響信号 b' (t)が鳴る際には、グラフィックイコライザ等の 影響で周波数特性が変化することが多い。例えば、低域や高域が強調'減衰される ことがある。そこで、 b' (t)の周波数特性を同様に変化させて補正し、混合音から既 知音響信号を減算する。
[0066] ,音量の時間変化
混合音 m(t)中で既知の音響信号 b' (t)が鳴る際には、混合音作成時におけるミキ サ一のフエーダー等の操作で混合比率が変更され、音量が時間変化することが多 ヽ 。そこで、 b' (t)の音量を同様に時間変化させて補正し、混合音から既知音響信号を 減算する。
[0067] 除去エンジン 100による処理の流れを図 4に示す。除去エンジン 100は、時間領域 での波形を減算処理をせずに、時間周波数領域での振幅スペクトル上で減算処理 を行う。音響信号 m (t) , b' (t)に対する窓関数 h (t)を用いた時刻 tにおける短時間 フーリエ変換(STFT)Xm(co , t)、Xb( co , t)が、
[数 12]
Figure imgf000015_0001
[0068] で定義されるとき、それらの振幅スペクトル M(co , t), Β' (ω , t)は、
[数 13]
[0069] で求まる。
[0070] 本実施形態では、音響信号を標本化周波数 48kHz、量子化ビット数 16bitで A/D変 換し、窓関数 h(t)として窓幅 8192点のハユング窓を用いた STFTを、高速フーリエ変 換 (FFT)によって計算する。その際、 FFTのフレームを 480点ずつシフトするため、フレ ームシフト時間 (1フレームシフト)は 10msとなる。このフレームシフトを、処理の時間単 位とする。なお、除去エンジン 100は、他の標本化周波数 (16kHz、 44kHz等)や窓幅 、フレームシフトにも容易に対応できるようになって 、る。
[0071] 既知音響信号除去後の所望の音響信号 s(t)の振幅スペクトル S(co, t)は、振幅ス ベクトル Μ(ω, t), Β'(ω, t)から以下のように求める。
[数 14]
n, 、 f c(w,i} (Λί(ω,ί) -Β(υ,ί)} if (ω,ί) > Β(ω,ί)
I 0 otherwise
[0072] 上記の式における各種パラメータ関数 a(t), g(co, t), r(t) , ο(ω, t)を順に説明する。
[0073] 'a(t)は混合音の振幅スペクトル力 既知音響信号の振幅スペクトルに相当する成分 を減算する分量を最終的に調整するための任意の形状の関数であり、通常、 a(t)≥l とする。これが大きいほど、減算量が大きくなる。
[0074] *g( ω , t)は、周波数特性の時間変化と音量の時間変化を補正するための関数であり
[数 15] (ω,ί) = βω(ω, t) gt{t) + gr(t)
[0075] により求める。ここで、 gco(co , t)は、周波数特性の時間変化を表し、周波数特性の 変化がないときは gco(co, t) = lとなる。一方、 Μ(ω, t), Β'(ω, t)は、音量の時間変 化を表し、音量の変化がないときは定数となる。 Μ(ω, t)と Β'(ω, t)との音量差は、 基本的に gt(t)で補正される。 gr(t)は、主に g(co, t)の値を全体的に持ち上げるため の関数で、補正時の微調整に使用される。使用しない場合には、 gr(t) = 0とする。
[0076] 'r(t)は、時間的な位置のずれを補正するための関数であり、通常は定数を設定する ことで、一定のずれ幅を補正する (除去エンジン 100は、定数にのみ対応している)。
[0077] · c( ω , t)は、振幅スペクトルに対するィコライジング処理及びフエーダー操作処理の ための任意の形状の関数である。 ω方向の形状により、グラフィックイコライザのよう に、既知音響信号除去後の周波数特性を調整することができる。また、 t方向の形状 により、ミキサーのボリュームフエーダー操作のように、既知音響信号除去後の音量 変化を調整することができる。使用しない場合には、 c(co, t)=lとする。なお、除去 エンジン 100は、 ο(ω, t)=lにのみ対応している力 ο(ω, t)の処理を追加してもよ い。
[0078] こうして求めた振幅スペクトル S(co , t)と、混合音 m(t)の位相 0 m(co , t)を用いて X 5(ω, t)を求め、それを逆フーリエ変換 (IFFT)することで、単位波形を得る。
[数 16]
Figure imgf000017_0001
[0079] この単位波形を、オーバーラップアド(Overlap Add)法によって配置することにより、 既知音響信号除去後の所望の音響信号 s (t)を合成する。
[0080] (各種パラメータ関数の設定)
上記の処理を実行する際に、上記数 5及び数 6の各種パラメータ関数 a(t), g(co, t) (8ω(ω, t), gt(t), gr(t)), r(t) , c(co, t)の形状は、ユーザーが手作業で設定しても よいし、可能なものは自動推定してもよい。あるいは、自動推定後にユーザーが修正 してもよい。除去エンジン 100は式 (11)、式 (12)、式 (13)の各種パラメータ関数 g(co, t) (gco(co, t), gt(t)), r(t)の一部の形状の自動推定にのみ対応しているため、実装さ れている具体的な自動推定方法を以下に述べる。
[0081] ·8(ω, t)の推定では、先ず、周波数特性の時間変化 gco(co , t)を推定し、次に、音 量の時間変化 gt(t)を推定する。ただし、 g(co, t)の推定に先立ち、 r(t)は決定されて いる必要がある。ここでは便宜上、 Β'(ω, t+r(t》を Β'(ω, t)と記述する。
[0082] 周波数特性の時間変化 gco(co, t)の推定では、原則として、人間の声や物音だけ の音響信号 s(t)がほとんど含まれていない区間 (以下、 BGM区間と呼ぶ)を用いる。 B GM区間は、複数用いてもよい。 BGM区間では、混合音 m(t)の振幅スペクトル Μ(ω , t)は、既知の音響信号 b'(t)による BGMに相当する振幅スペクトル Β'(ω, t)に由来 の成分がほとんどとなる。そこで、周波数特性が時間変化せずに定常、すなわち、 g ω(ω, t) = g, ω(ω)と仮定できるときには、 g' ω(ω)を [数 17]
Figure imgf000018_0001
[0083] により推定する。ただし、 φは一つの BGM区間 (時間軸上の領域)を表し、 Ψは、 φ の集合とする。一方、周波数特性が時間変化していくときには、 gco , t)の時刻 tに 近い BGM区間 φから
[数 18]
Figure imgf000018_0002
[0084] を求め、補間 (内挿あるいは外挿)することにより gco(co, t)を推定する。最後に、 gco( ω, t)を周波数軸方向に平滑化する。なお、平滑化幅は任意に設定でき、平滑化を しなくてちょい。
[0085] 音量の時間変化 gt(t)の推定では、 Μ(ω , t)と、周波数特性補正後の gco , t) B' (ω, t)の各時刻における振幅を比較する。しかし、 Μ(ω, t)には、 Β'(ω, t)に由来の 成分以外に、 s(t)に由来の成分も含まれる。そこで、周波数軸 ωを複数の周波数帯 域 Φに分割し、各帯域 φ ( φ Ε φ)毎に
[数 19] 細 -
Figure imgf000018_0003
{"φ]
[0086] を求める (Φは φの集合を表す)。 Φとして任意の分割が適用できる力 例えば、音楽 で用いる平均律の 1オクターブ毎に分割 (対数周波数軸上で等間隔に分割)するとよ V、。そして、 gt(t)は、 min (g, t( φ , t))あるいは、数 11により推定する。
[数 20]
.' ( )
[0087] 最後に、 gt(t)を時間軸方向に平滑化する。なお、平滑化幅は任意に設定でき、平 滑ィ匕をしなくてもよい。
[0088] 'r(t)の推定では、原貝 IJとして、 BGM区間 φの集合 Ψを用いて、それらの区間におけ る Μ(ω , t)と Β(ω , t)との対応関係の時間軸を合わせるように、 r(t)を求める。本実施 形態では、 r(t)の推定のための BGM区間の集合 Ψの要素は一つに限定され、 r(t)は 定数のみに対応している。
[0089] 上記の g(co , t)や r(t)等の推定では、 BGM区間 φの集合 Ψを用いていた。これは、 ユーザーが手作業で指定してもよいし、以下のように自動推定してもよい。 Ψの自動 推定では、基本的に、どこか一箇所の BGM区間 φ 1を手掛力りとして、残りの BGM 区間の集合を求める。先ず、 Φ 1に基づいて、 Β(ω , t)の各種パラメータ関数を推定 して仮に決定し、そのときの φ 1の区間内における Μ(ω , t)と Β(ω , t)との振幅スぺク トル間の距離を求め、その最大値 (本実施形態では最大値を用いたが平均値を用い る実装も可能である)の定数倍を BGM区間判定用閾値とする。そして、全区間に対し て、 Μ(ω , t)と Β( ω , t)との振幅スペクトル間の距離を求め、 BGM区間判定用閾値 以下の区間を検出し、新たに Ψに加える。本実施形態ではこの推定は繰り返さない 力 この推定を繰り返して Ψを求めてもよい。ここで、 Μ( ω , t)と Β(ω , t)との距離とし ては、例えば、二乗平均対数スペクトル距離
[数 21]
Figure imgf000019_0001
[0090] が有効である。なお、最初の φ 1は、ユーザーが手作業で指定する。
[0091] (既知音響の伸縮推定)
本実施形態では、上記数 5及び 6の枠組みを拡張することにより、以下の変形に対 応することができる。
[0092] 時間軸あるいは周波数軸方向の伸縮混合音 m(t)中で既知の音響信号 b' (t)が鳴る 際には、レコード等の回転数の違いにより、時間軸あるいは周波数軸方向に伸縮さ れることがある。そこで、 b' (t)を時間軸あるいは周波数軸方向に伸縮して補正し、混 合音から既知音響信号を減算する必要がある。
[0093] これに対応するには、数 5中の第 2式を以下のように定義する。
[数 22] (t) g^ t) D'(p^), g(t) + r (t)) [0094] 上記の式におけるパラメータ関数 p ( ω )、 q (t)を説明する。
[0095] ·ρ(ω)は、周波数軸方向の伸縮を補正するための関数であり、振幅スペクトル Β'(ω , t)の周波数軸 ωを変換することで、周波数軸方向の線形'非線型な伸縮を可能に する。なお、 Β'(ω, t)は本来の ωの定義域外では 0をとり、離散化して実装する際に は適宜補間することとする。
[0096] -q(t)は、時間軸方向の伸縮を補正するための関数であり、振幅スペクトル Β'(ω , t) の時間軸 tを変換することで、時間軸方向の線形 ·非線型な伸縮を可能にする。なお 、 Β'(ω, t)は本来の tの定義域外では 0をとり、離散化して実装する際には適宜補間 することとする。 q(t)と r(t)を統合した一つの関数で表現することも可能だ力 ここでは 、 q (t)は連続的な伸縮を表す目的で設定し、 r (t)は不連続な位置のずれを表す目的 で設定することとする。
[0097] ·上記の数 13で新たに導入されたパラメータ関数 ρ(ω)、 q(t)の形状を自動推定す る方法を以下に述べる。
[0098] ·ρ ( ω )、 q (t)の推定では、 Μ(ω , t)と Β(ω , t)との距離 (例えば、対数スペクトル距離 等)が最小となるように、 ρ(ω)と q(t)を変更する。その際、 Β(ω, t) = a(t)g(co, t) B, ( ρ(ω), q(t)+r(t))の右辺のうち、 a(t)=lとし、
1. (推定途中の) ρ(ω)と q(t)を仮に固定した上で、 g(co, t)と!: (t)を推定
2. (推定途中の) g(co, t)と!: (t)を仮に固定した上で、 ρ(ω)と q(t)を推定
の二つを反復的に繰り返して、適切な ρ(ω), q(t)を推定する。これは、音響信号の 全区間に対して一度に実行せず、時間軸を分割して、区分的に行うとよい。初期値 は前後の区間の連続性を考慮して定める。また、 BGM区間 φの集合 Ψを用いて、 それらの複数の区間における Μ(ω, t)と Β(ω, t)との対応関係の時間軸を合わせる ように、 ρ(ω), q(t)を推定するとよい。なお、既知の音響信号 b' (t)の一部区間が使 われずに、飛び飛びで混ざっていたとき等には、その区間を飛ばすように r(t)が不連 続関数となるようにする。
[0099] ここで、 BGM区間 φの集合 Ψを自動推定する際に、本実施形態では最初の φ 1は 、ユーザーが手作業で指定する必要があるが、音響信号の時間軸を細力べ分割して 、それらの短い分割区間同士の対応関係を調査して求める方法もある。 (複数の既知音響信号への対応等)
除去エンジン 100は、混合音響信号 m (t)の中に、既知音響信号 b, (t)がー種類 含まれている場合に対応している。 b,l (t) , b,2 (t)〜b,N (t)のように既知音響信 号 b, (t)が複数種類含まれている場合には、それらの振幅スペクトル Β' 1(ω , t), B' 2( ω , t)…: Β' Ν (ω , t)から、上記数 5第 2式で求めた Β1(ω , t), Β2( ω , t)- --BN (ω , t)を用いて、
[数 23]
Figure imgf000021_0001
[0101] のように S(co , t)を求める処理へ拡張することができる。その際には、 Βη ( ω , t)の各 種パラメータ関数を順に設定する力 全体のバランスを取りながら、複数の Βη (ω , t) の各種パラメータ関数を平行して設定する。
[0102] また、本実施形態はモノラル信号を対象にして ヽるが、ステレオ信号は、左右を混合 してモノラル信号に変換して適用してもよいし、ステレオ信号の左右の各信号に対し て適用してもよい。また、ステレオ信号中の音源方向を利用して適用するように拡張 してちよい。
[0103] (実験結果)
このような本実施形態に係る除去エンジンの実験結果を以下に示す。ここでは、音 声や物音等の音響信号 s(t)に BGM等の音響信号 b(t)が加えられている混合におい て、音響信号 m(t)が観測されたときに、 b(t)の元となる音源の音響信号 b' (t)が既知と いう条件下で、未知の s(t)を求めた。 m(t)と b' (t)が収録されたオーディオファイルを 与えると、 s(t)のオーディオファイルを得ることができる。
[0104] 人間の音声にノックグラウンドミュージック (BGM)が加えられた混合音に対して実 験した結果、その BGMの原曲の音響信号を用いて、混合音中の BGMを除去し、人 間の音声や物音が得られることを確認した。
[0105] 実験結果の例として、二人の男女の対話の BGMにクラシック音楽が鳴っている混 合音を実際に処理した結果を図 5に示す。図 5のグラフ 501及び 502に示す混合音 m (t)を入力として、図 5のグラフ 503及び 504に示す元音源の既知音響信号 b' (t) を用 、て BGM成分を除去した結果、図 5グラフ 505及び 506に示す既知音響信号 除去後の音響信号 s(t)が得られた。
[0106] 以上から、人間の声や物音の背景に BGMが鳴っているテレビ番糸且や映画等の音 響信号を入力とすると、別途用意した BGMの音楽音響信号を用いて番組中の BG Mを除去し、人間の声や物音だけの音響信号を得ることができる。なお、 BGM除去 後の音響信号に対して、別の音楽を BGMとして付与するようにしてもよい。
[0107] [除去エンジンの構成]
以上説明した理論に基づく除去エンジン 100の構成について説明する。図 5は、除 去エンジン 100の機能を示すブロック図である。
[0108] 図 5に示すように、除去エンジン 100は、信号入力手段として、混合音響信号が入 力される混合音響入力部 101と、除去しょうとする既知音響信号を入力する既知音 響信号入力部 102とを有し、除去処理が施された音響信号の出力手段として除去後 音響信号出力部 107を有している。
[0109] また、除去エンジン 100は、入力された音響信号から振幅スペクトルを抽出する振 幅スペクトル抽出部 200を備えている。具体的に、この振幅スペクトル抽出部 200は 、データ分割部 201と、窓関数処理部 202と、フーリエ変換部 203とを備えている。
[0110] データ分割部 201は、混合音響信号を、特定の長さ(窓サイズ)の区間に分割する 。一般の音声認識等では、一区間の長さを 20ミリ秒程度とするが、音声に比べて、音 楽では同じ音が長く継続することから、本実施形態では、これよりも 10倍程度長い、 2 のべき乗である 8192サンプル(8192÷48,000=0.170約 170ミリ秒)としている。
[0111] 窓関数処理部 202は、データ分割部 201により分割された窓サイズ区間(170m秒) の音声信号データに対し、ハニング関数を掛けて、データの最初と最後の部分にお いて、なだらかにゼロに収束させる信号波形に変換する。
[0112] フーリエ変換部 203は、混合音響信号及び既知音響信号それぞれのデータをフー リエ変換して、周波数チャンネル毎の位相及び振幅スペクトルを分離して出力する。 なお、振幅スペクトルのみ力もなるデータは「時間周波数データ」として出力される。
[0113] 詳述すると、このフーリエ変換部 203は、ハユング関数処理された音声データに対 して、高速フーリエ変換 (FFT)を行う。なお、入力される音声データは実数のみで、 虚数部が含まれ、この FFTでは入出力を複素数で計算することから、 2回の窓の変換 を入力データの実部と虚部にそれぞれ行い、高速フーリエ変換し、変換後に共役関 係を使って分離して 2倍の速度向上を実現している。なお、本システムではインテル 社の Pentium4 (登録商標)プロセッサ等で利用できる SSE2命令を使用し、処理の高 速ィ匕を図っている。
[0114] そして、振幅スペクトル抽出部 200では、フーリエ変換する区間を 480サンプル (480
÷ 48,000=0.01: 10ミリ秒)単位で移動させ、窓関数処理部 202及びフーリエ変換部 2 03によるハユング窓関数の掛け算とフーリエ変換の処理を繰り返す。このようにして 10ミリセカンド毎に得られたデータから、周波数チャンネル毎に音声信号の「振幅の み」を表すデータである「時間周波数データ」を取得する。このようにして得られた周 波数チャンネルは、 0Ηζ,5.86Ηζ,11,72Ηζ, 17.57Ηζ· · ·.23,994.14Ηζというように、 ΟΗζ ( 直流)から約 5.86Hz毎に約 24kHzまでの 4096チャンネルとなる。
[0115] なお、振幅スペクトル抽出部 200は、入力された信号が混合音響信号であるときに は、混合音響信号から混合音響振幅スペクトルを抽出する混合音響振幅抽出部とし て機能し、入力された信号が除去しょうとする既知音響信号であるときには、既知音 響信号から音響振幅スペクトルを抽出する既知音響振幅抽出部として機能する。
[0116] また、除去エンジン 100は、振幅スペクトル抽出部 200から抽出された既知音響の 振幅スペクトルに基づいて、混合音響中の既知音響の変化を自動推定したり、自動 推定結果をユーザー操作により修正するパラメータ推定部 300を備えている。
[0117] このパラメータ推定部 300は、振幅スペクトル抽出部 200から抽出された「時間周波 数データ」の周波数チャンネル毎のデータに基づいて、上述した数 5及び数 6のすベ てのパラメータ関数 a(t), g( co , t) (g co ( co , t), gt(t), gr(t)) , ρ( ω ) , q( co ) , r(t) , c( ω , t)の形状を自動で推定したり、若しくはユーザーの操作で設定したりする。なお、 ユーザーは、最初力 任意の関数形状を描いて指定してもよいし、最初に先ず自動 推定をして、その結果を修正してもよい。
[0118] ノ ラメータ推定部 300は、混合音響及び既知音響のキャリブレーションを行うキヤリ ブレーシヨン部 304を備えている。このキャリブレーション部 304は、人間の声や物音 だけの音響信号 s(t)がほとんど含まれていない区間 (BGM区間)を用いて、上記数 5 及び数 6の各種パラメータ関数 g( co , t), (g co ( co , t), gt(t)) , r(t)の一部の形状の自 動推定する。
[0119] 具体的には、ユーザーの手動操作により、混合音の中で、既知音響のみが出力さ れている 1秒力も数秒の区間を選択するとともに、既知音響に対してもほぼ同じ部分 を選択する。そして、キャリブレーション部 304は、この選択された区間内で周波数チ ヤンネル毎の音量を合計して、混合音と除去音から得られる値を比較する。この区間 では混合音には既知音響のみが含まれていることから、その比が周波数特性となる。
[0120] さらに、パラメータ推定部 300は、周波数特性補正部 301と、音量変化補正部 302 と、時間位置補正部 303とを備え、これらにより (1)混合音響と既知音響の時間的な位 置ずれ、(2)既知音響の周波数特性、及び (3)既知音響の音量の時間変化を推定す る。
[0121] 周波数特性補正部 301は、周波数分布の推定を行うモジュールであり、この周波 数分布の推定に際し、振幅スペクトルに対するィコライジング処理及びフエーダー操 作処理のための任意の形状の関数である c( co , t)について、 ω方向の形状を変化さ せることにより、グラフィックイコライザのように、既知音響信号除去後の周波数特性を 調整する。
[0122] また、周波数特性補正部 301は、音声チャンネルのうち BGMの音量が小さい部分 ではノイズ等により得られる値が不安定となるため、周波数特性の平滑ィ匕を行う。
[0123] 詳述すると、推定した!/、各周波数チャンネルに既知音響の音がなければ推定が不 可能なことから、周波数分布の推定にあたっては既知音響に低音力 高音まで含ま れて 、る、 V、わゆる「リッチ」な部分を用いることが望ま 、。
[0124] しかしながら、 4096チャンネルといった非常に細分化されている場合には、すべて のチャンネルに音が含まれていることはむしろ不可能に近いと考えられ、また、既知 音響の音が小さぐ対して混合音側にノイズがあった場合は、割り算の結果として非 常識な推定値となることがある。
[0125] これに対して、本実施形態では、周波数分布の平滑化を行う。この平滑化は、前後 のチャンネルの平均値をとつてなめらかにすることによって実現される。本実施形態 では、このチャンネル数がエディタ 400のスライダ「スム一ジング フリーク ウェイト」 で、この値を大きくするほどなめらかにすることができる。
[0126] また、本実施形態では、別の平滑化の機構(Blur_freq_mode)力 エディタ 400のボ タン「BAFAM」により実装されている。音がない周波数チャンネルでは推定ができず 、隣接する周波数チャンネルに比べて極端に落ち込んでいる場合があるため、隣接 した周波数チャンネルと同じ値に持ち上げることにより、こうした予測不能の場合を回 避することができる。
[0127] さらに、本実施形態では、全くゼロとなる周波数チャンネルが、推定処理に影響を 及ぼすのを避けるために、エディタ 400のスライダ「シフト フリーク ウェイト」で実装 されている。
[0128] また、本実施形態に係る周波数特性補正部 301は、アナログテープレコーダーによ るヒスや各種のビート音と 、つた特定周波数の定常的な雑音を無視して、処理を行う 定常音処理機能を備えている。映像データに含まれる水平周波数 (15.75kHz)などの 定常音が混合音に含まれていると、この周辺の周波数チャンネルで大きく推定を誤 つてしまうという問題があった。すなわち、定常音は、既知音響側には全く含まれない 音であることから、周波数特性の推定を誤る原因となる。
[0129] 音量変化補正部 302は、音量の時間変化の推定と平滑化とを行う。この音量の時 間変化の推定に際しては、 c( co , t)の t方向の形状を補正することにより、ミキサーの ボリュームフエーダー操作のように、既知音響信号除去後の音量変化を調整すること ができる。
[0130] 詳述すると、時間方向の音量推定において、時刻によって混合音側があらゆる周 波数領域を含むような場合、実際より既知音響が大きいと推定をする傾向がある。こ の場合に単純に引いてしまうと、本来消すべきではない音まで引いてしまい、聴感上 は「痩せた」音になる惧れがある。
[0131] 本実施形態において音量変化補正部 302は、混合音全時間域にわたって、既知 音響の音量の時間変化を検出する。混合音には、既知音響以外に音声等の音が含 まれて!/ヽるため、混合音と周波数特性で補正した既知音響の周波数チャンネルを 1 オクターブ毎 (周波数で 2倍毎)にまとめて合計する。同じ時刻毎に比較し、既知音響 に対して混合音の大きさの比率が一番小さなものを選択する。これにより、オクターブ 毎に比べた場合、どれか一つの区間では既知音響のみになっている可能性を反映 させることができる。これをその時刻での既知音響と混合音の音量比とする。
[0132] なお、本実施形態では、グラフ表示により、ユーザーが、音量が明らかに大きくなる ことを識別し、手作業で補正して対処する。なお、この推定においては、ロバスト統計 的手法など自動的に判断する方法を採用してもよ!、。
[0133] また、音量変化補正部 302は、時間変化の推定でも平滑ィ匕を行い、時間前後の既 知音響の音量の平均値をとつてなめらかにする。この値がエディタ 400中のスライダ「 スムージング タイム ウェイト」として実装されているで、この値を大きくすることにより なめらかにすることができる。
[0134] また、本実施形態では、別の平滑化の機構(Blur_time_mode)力 「BATAM」ボタン で実装している。音がない時間に推定ができず、隣接する時間に比べて極端に落ち 込んでいる場合に、隣接した時刻と同じ値に持ち上げることで、こうした予測不能の 場合を回避する。
[0135] なお、既知音響の音がない時刻には、音量をゼロと推定してしまうことから、これを 防ぐためにエディタ 400中のスライダ「シフト タイム ウェイト」を実装している。
[0136] さらに、混合音と除去後の音の音量の調整について、特定の音声ファイルの一部 のみを除去した場合には、混合音と除去後の音との音量を同一に維持する必要があ る。このため、本実施形態では、一定振幅の単音 (480Hz)を混合音として入力し、既 知音響の引く量をゼロとして除去処理を行い、出力される音の音量と、処理前の混合 音の音量の差が計測される。そして、その差がなくなるように混合音と除去後の音と の音量が設定される。
[0137] 時間位置補正部 303は、混合音響の開始点と、既知音響の開始点の時間的な位 置ずれを推定するものであり、上述した関数 r(t)の定数を設定することで、一定のず れ幅を補正する。詳述すると、指定した混合音と既知音響が時間的に位置ずれして いる場合に、既知音響を混合音に対して、 1ミリ秒毎に前後に最大 100ミリ秒ずらして 、上記各補正部 301及び 302による処理を繰り返す。指定区間における混合音響と 既知音響との音量の差を求めて、この差が最小となる時刻に最も一致していると判断 し、この混合音と既知音響の時間的な位置ずれとする。 [0138] なお、本システムでは、上記手順を実行して自動推定することも、あら力じめ決めた 時間のずれを、ユーザーが指定して、自動推定しないことを選択することができる。ま た、ユーザーの耳での混合音と既知音響とを左右別々のスピーカーから出力し、これ らの音声を比較しながら聴き、ユーザーの聴覚により位置合わせをするようにしてもよ い。
[0139] さらに、除去エンジン 100は、振幅スペクトル抽出部 200によって抽出された混合 音響振幅スペクトル力 既知音響振幅スペクトルを除去する除去処理部 104と、逆フ 一リエ変換して、除去後の音響を復元する逆フーリエ変換部 105及び配置処理部 1 06を備えている。
[0140] 除去処理部 104は、既知音響をパラメータ推定部 300で生成した推定データに応 じて変換し、この変換した信号を混合音響の「時間周波数データ」から、除去する。な お、この除去にあたって本実施形態では、シミュレーション部 14による「位相非依存 減算アルゴリズム」も実装している。すなわち、本実施形態では、シミュレーション部 1 4は、上述した「位相非依存減算関数」によって、 0度から 360度まで位相が一様に確 率分布しているとして、シミュレーションを行う。除去処理部 104は、シミュレーション 部 14によるシミュレーション結果に一致させるように除去強度を自動設定する除去強 度設定部としても機能する。
[0141] 前記逆フーリエ変換部 105は、差し引き計算によって得られた「時間周波数データ 」と、混合音響信号中の位相データとから、既知音響を消した音声のみのデータを逆 フーリエ変換により復元する。具体的に、逆フーリエ変換部 105では、除去エンジン 1 00で求めた振幅スペクトル S(co , t)と、混合音 m(t)の位相 θ πι( ω , t)を用いて求め られる Xs(co , t)とを逆フーリエ変換 (IFFT)することで、単位波形を得る。
[0142] なお、ここでは、各時刻での差し引き後の周波数チャンネルデータを逆フーリエ変 換するが、このときの各チャンネルの音声の位相は、除去する前の既知音響又は混 合音響の位相と同じ値を取るようにする。この操作によって、除去前の音声の位相が 維持でき、また区間毎に「プチプチ」というノイズが発生するのを防ぐことができる。な お、 IFFTの高速ィ匕については時間周波数データを作成する場合と同じ手法を用い ている。 [0143] 配置処理部 106は、ハユング窓の幅である 170ミリセカンドの幅をもつ各時刻の音声 について、同じ幅の窓の出力をオーバーラップアド(OverlapAdd)法で重ね合わせて 、最終的に音楽が除去された音声を復元する。
[0144] [除去エンジンの動作]
上述した構成を有する除去エンジン 100は、以下のように動作する。図 7は、かかる 動作を示すフロー図である。
[0145] 同図に示すように、既知音響 (オリジナル曲)と混合音響のデータが入力されると( ステップ S301)、先ず、データ分割部 201により、混合音響信号を、特定の長さ(窓 サイズ)の区間に分割する。ここでは、 2のべき乗である 8192サンプル(8192 + 48,000=0.170約 170ミリ秒)とする。
[0146] 次いで、ステップ S302により、時間周波数データの取得を行う。具体的には、窓関 数処理部 202により、窓サイズ区間(170m秒)の音声信号データに対し、ハユング関 数を掛け(S302a)、フーリエ変換部 203により、高速フーリエ変換 (FFT)を行う(S30 2b)。そして、フーリエ変換する区間を 480サンプル(480÷48,000=0.01 : 10ミリ秒)単 位で移動し(S302c)、これらのステップ S302a— cをループ処理により繰り返す。
[0147] このようにして 10ミリセカンド毎に得られた「時間周波数データ」に対して各種パラメ ータの推定を行う。具体的には、パラメータ推定部 300において、ユーザー操作に基 づいて、混合音の中で、音楽 (BGM)のみが鳴っている 1秒力 数秒の区間(上述し た「BGM区間」)を選択してキャリブレーション(S304)を行う。オリジナル曲に対して もほぼ同じ部分を選択する。
[0148] 次に、この区間内で周波数チャンネル毎に合計して、混合音と除去音 (オリジナル 曲)から得られる値を比較し、その比力も周波数特性を取得する(S305)とともに、平 滑化を行う(S306)。
[0149] その後、混合音全時間域にわたって、 BGMの音量の時間変化を検出し、周波数 毎の混合音に対する BGMの音量比を取得し (S307)、これに基づいて、混合音中 の BGMと、オリジナル曲が時間的に位置ずれしているかを判断する(S309)。
[0150] 上記ステップ SO 1で指定した混合音中の BGMとオリジナル曲が時間的に位置ず れしている場合は、オリジナル曲を混合音に対して、 1ミリ秒毎に前後に最大 100ミリ 秒ずらして(S310)、ステップ S305—ステップ S308までの処理を繰り返す。この区 間での音量の差を求めて、この差が最小となる時刻に最も一致していると考えられる ので、それが混合音中の BGMとオリジナル曲の時間的な位置ずれとなる。
[0151] 位置ずれが補正された後、除去処理部 104では、混合音響から推定した既知音響 の差し引き演算を行い(S311)、フーリエ変換部 203において、各時刻での差し引き 後の周波数チャンネルデータを逆フーリエ変換する(S312)。このときの各チャンネ ルの音声の位相は、除去する前の混合音響中の BGMの位相と同じ値を取るように する。そして、逆フーリエ変換された各窓サイズのデータを、配置処理部において、 オーバーラップアド (OverlapAdd)法により重ね合わせて(S313)、最終的に音楽が 除去された音声を復元し、データの出力を行う(S314)。
[0152] [エディタ]
(エディタの構成)
次いで、音響信号除去システムの GUIであるエディタ 400について説明する。図 8 は、エディタ 400の画面構成を示す説明図である。
[0153] 同図に示すように、エディタ 400は、 MIXファイルの波形表示をするウィンドウ 401 、 BGMファイルの波形表示をするウィンドウ 402と、 MIXファイルのスペクトル表示を するウィンドウ 403と、 BGMファイルのスペクトル表示をするウィンドウ 404と、除去後 音声と周波数-時間特性のスペクトル表示をするウィンドウ 405と、除去強度等を表 示'操作するウィンドウ 406とを備えている。これらの各ウィンドウは、除去処理の対象 となる混合音響信号の範囲を設定する範囲設定部として、機能する。
[0154] ウィンドウ 401及びウィンドウ 402では、ミックスファイル及び BGMファイルの波形が 表示され、マウスの右ボタンを押しながら上下に移動することにより、拡大 ·縮小(下- 上)でき、右ボタンを押しながら左右に移動することにより左右にスクロールさせること ができる。さらに、このウィンドウ上で、左ボタンを押しながら左右に移動することにより 区間を選択することができ、選択された区間は色が変わり、選択時間の最初と最後の 時間が表示される。なお、これらの操作は、キーボードの方向キーによっても可能と なっている。
[0155] また、右端の操作ボタン 401a又は 402aを操作することにより、時間軸方向のスクロ ール、選択区間の再生'再生停止、選択区間のスペクトル表示を実行することができ る。
[0156] ウィンドウ 403及び 404では、上記ウィンドウ 401又は 402で選択された区間にお ける、 MIXファイルや BGMファイルのスペクトル表示がなされ、上記ウィンドウ 401と 402とほぼ同様の操作を行うことができる。なお、ここでのスペクトル表示において、ス ベクトルは、その強さを 16段階の色で表示され、横軸は時間、縦軸は周波数を示す
[0157] 特に、ウィンドウ 403では、キャリブレーション処理における周波数分布の推定の際 、このウィンドウ上で、 BGMだけが聞こえる区間を選択し、「SR」ボタンを押すことに より、選択された区間の開始位置及び終了位置が、テキストボックス部 407bのキヤリ ブレーシヨン開始時刻 (BGMのみ区間スタート位置)、キャリブレーション終了時刻 (B GMのみ区間終了位置)の欄に入力される。なお、このテキストボックス部 407bへの 入力としては、数値の直接入力がある。
[0158] ウィンドウ 405は、音響信号の時間毎の周波数分布 (周波数特性や振幅)を線又は 図形で表示するとともに、周波数の信号強度 (音量)を、線又は図形を段階的に色分 けすることによりサーモグラフ形式で表示する表示部であり、ラジオボタン部 407eを チェックすること〖こよって、図 9に示すような、除去後のスペクトル表示と周波数-時間 特性のスペクトル表示とを切り替える。図 9の表示 511は、除去後のスペクトル表示で あり、図 9の表示 512は、時間-周波数特性を正規ィ匕したスペクトル表示である。この ウィンドウ 405においても、上述したウィンドウ 401— 404と同様のマウスやキーボー ド操作を行うことができる。
[0159] ウィンドウ 406では、ラジオボタン部 407dをチェックすることによって、図 10に示す ような、除去強度曲線(同図 (a) )、周波数特性曲線(同図 (b) )、時間特性曲線(同図 (c) )及び時間 周波数特性(同図(d) )を切り替えて表示する。このウィンドウ 406は 、曲線を変形させることにより、対応する時間において除去される既知音響振幅スぺ タトルの信号強度などを設定する設定部として機能し、左ボタンを押しながら右方向 に移動することで、曲線を変形することができ、関数曲線を細力べ且つ任意に調整す ることができる。なお、マウスを左方向に移動しても変更できないようになっている。 [0160] なお、これらの各ウィンドウには、時間軸としてタイムコードが記述されており、このタ ィムコードでは、混合音響信号力も検出された所定周波数 (ここでは、カラーバーの 1 kHz)の音響信号終了時刻から 15秒後を 0となるように自動調整されて!、る。
[0161] また、エディタ 400は、その下部に、ファイルの表示をしたり、各種パラメータを設定 したりする左右 2つの操作パネル 407及び 408を備えている。
[0162] 左側の操作パネル 407は、 MIXファイルを表示するウィンドウ 407aと、パラメータの 設定をするテキストボックス部 407bと、チェックボックス部 407cと、ラジオボタン部 40 7d, 407eと、除去実行用のボタン 407dとが設けられている。一方、右側の操作パネ ル 408は、 BGMファイルを表示するウィンドウ 408aと、パラメータの設定をするスライ ダ部 408bとを備えている。
[0163] ウィンドウ 407a及び 408aでは、 MIXファイルや BGMファイルをここにドラッグする ことによってウィンドウ 401や 402に、 MIXファイル又は BGMファイルの波形が表示 され、ドラッグされたファイルが動画ファイルであればこのウィンドウ内に映像が表示さ れる。これらのウィンドウ 407a及び 408aの下方には、スライドバーが配置され、これ をスライドさせることによって MIXファイルの再生開始位置を変えることができる。本実 施形態において波形表示される区間は再生開始位置から 5分に設定されている。さ らにこのスライドバーの下方には、再生ボタン、再生一時停止ボタン、再生停止ボタ ン、音量調整バー、再生開始位置を数値入力するテキストボックスが配置されている
[0164] テキストボックス部 407bは、図 11 (a)に示すように、除去する BGMの除去強度の 入力欄である「ィレースラティォ」と、周波数分布の推定のために MIXファイルの BG Mのみ区間の開始位置及び終了位置を入力する欄である「キャリブレーション開始 時刻」、「キャリブレーション終了時刻」と、 MIXファイルと BGMファイルの選択区間の 開始位置のずれを入力する欄である「ターゲットと BGMの間のオフセット」とを備えて いる。「ィレースラティォ」では、基本の値は 1であり、 0. 1— 5までを設定することがで きる。また、「ターゲットと BGMの間のオフセット」では、— 1を設定すると、 自動位置合 わせを計算するモードとなる。
[0165] チェックボックス部 407cでは、図 11 (b)に示すように、周波数分布の推定精度を向 上させるために、ユーザーが指定した区間に加えて、他の BGMだけの部分を探して 自動的に探し出してデータにカ卩える再推定モード「PEM」と、推定を誤って小さな値と なった周波数チャンネルにつ 、て、隣接するチャンネルの値力 推定して補正する 周波数ぼかしモード「BAFAM」と、推定を誤って小さな値となった時刻について、前 後の時刻の値力も推定して補正する時間軸ぼ力しモード「BATAM」とを選択できるよ うになつている。
[0166] ラジオボタン部 407dでは、図 11 (c)に示すように、択一的にチェックを入れることに より、図 10に示すような、ウィンドウ 406における EraseRatio (強度曲線)、 FreqWeight( 周波数特性曲線)、 TimeWeight (時間特性曲線)、 BGMWeight (時間-周波数特性曲 線)の表示を切り替えることができる。なお、このラジオボタン部 407dにおいて、「e」を チェックすると強度曲線力 「f」をチ ックすると周波数特性曲線力 「t」をチ ックす ると時間特性曲線力 「BGM」をチェックすると時間-周波数特性曲線力 ウィンドウ 4 06に表示され、これらの各表示上において、パラメータの再設定することができる。
[0167] ラジオボタン部 407eでは、図 11 (d)に示すように、択一的にチェックを入れることに より、図 9のグラフ 511及びグラフ 512に示すような、ウィンドウ 405における、除去後 のスペクトルと時間-周波数特性のスペクトルとの表示を切り替えることができる。すな わち、このラジオボタン部 407eにおいて、「Res」をチェックすると除去後のデータのス ベクトルが、「BGM」をチェックすると時間-周波数特性のスペクトル力 ウィンドウ 40 5に表示される。
[0168] スライダ部 408bでは、バーを左右にスライドさせることによって、「シフト フリーク ウェイト」で周波数特性曲線のバイアス量を、「シフト タイム ウェイト」で時間特性曲 線のバイアス量を、「シフト グローバル ウェイト」で時間-周波数特性のバイアス量を 、 「スム一ジング タイム ウェイト」で周波数方向のスムージング幅を変更することがで きる。なお、本実施形態では、これらのパラメータを変更すると TimeWeightの設定がリ セットされる。
[0169] ボタン部 407fでは、「DEL_Music」ボタンをクリックすることにより、音楽除去処理を 実行し、「RDEL_Music」ボタンをクリックすることにより、音楽の除去後、再調整された 特性での音楽除去処理処理を実行する。 [0170] (エディタの変更例)
上述した GUIであるエディタ 400は、以下のような形態とすることができる。図 12は 、エディタ 400の変更例を示す構成図である。
[0171] この変更例に係るエディタも、上述したエディタ 400と同様に、除去エンジン 100の 一部機能を、ユーザーの操作によって呼び出して、上記数 5及び数 6のすベてのパ ラメータ関数 a(t), g(co, t) (gco (ω, t), gt(t), gr(t)), ρ(ω) , q ) , r(t) , ο(ω, t)の形状を、ユーザーが手作業で設定することができる。エディタのユーザー は、最初力も任意の関数形状を描いて指定してもよいし、最初は先ず自動推定をし て、その結果を修正してもよい。
[0172] 本エディタは、大別して、混合音響信号 m(t) 操作用のサブウィンドウ Wl、既知 音響信号 b' (t)操作用のサブウィンドウ W2、既知音響信号除去後の所望の音響信 号 s(t)操作用のサブウィンドウ W3の三つで構成されている。既知音響信号 b' ( が 複数ある場合には、切り替えスィッチ W2Sにより、サブウィンドウ W2で操作する既知 音響信号 b' (t)を切り替えることができる。
[0173] 先ず、全サブウィンドウに共通の機能を述べる。操作範囲スライダ P1は、音響信号 中のどこを現在表示しているかを表す。カーソル P2は、現在の操作対象の時間軸上 の位置を表すアイコン化(折り畳み)ボタン P3は、これを押すと一時的にそのボタンの 属するサブウィンドウが折り畳まれ、小さくなる現在操作対象以外の未使用のサブゥ インドウを隠して、狭い画面を有効活用できる。フロート化 (拡大)ボタン P4は、これを 押すと一時的にそのボタンの属するサブウィンドウが、親ウィンドウ力も切り離され (フ ロート化)、さらに拡大されて操作'編集が容易になる、フロート化 (拡大)ボタン P4し か描かれていない場合には、このボタンを押すと、それに関連づけられたサブウィン ドウがフロート化されて出現する。再生制御パネル P5には、人間が聞いて確認する ために、音響信号の再生、停止、早送り、早戻しが可能なボタン群が並んでいる。
[0174] サブウィンドウ Wl、 W2、 W3には、混合音響信号 m(t)のパワーのグラフ Elとその 振幅スペクトル Μ(ω, t)のグラフ Ε2、既知音響信号 b' (t)のパワーのグラフ E3とそ の振幅スペクトル Β' (ω, t)のグラフ Ε4、既知音響信号除去後の音響信号 s(t)のパ ヮ一のグラフ E5とその振幅スペクトル S(co, t)のグラフ E6が表示されている。各振幅 スペクトルでは、左側に濃淡で振幅が描かれ (横軸が時間軸、縦軸が周波数軸)、右 側にカーソル位置での振幅が描かれている (横軸がパワー、縦軸が周波数軸)。
[0175] 既知音響信号 b' (t)操作用のサブウィンドウ W2が操作の中心となるウィンドウであ り、数 5及び数 6のすベてのパラメータ関数 a (t), g(co, t) (gco (ω, t), gt(t), gr(t )), ρ(ω) , q(t) , r(t)の形状を、自由に設定できる。以下、各操作パネルの説明 を 3iベる。
[0176] 1.周波数特性の時間変化の補正用操作パネル C1(E7の右側)
gco (ω, t)を表示 '操作するためのパネルで、カーソル位置の時刻 tでの gco (ω, t )が描かれている (横軸が大きさ、縦軸が周波数軸)。設定操作結果は、 g(co, の 表示パネル E7に即座に反映される。 E7には、濃淡で g(co, t)の値の大きさが描か れている (横軸が時間軸、縦軸が周波数軸)。
[0177] 2.音量の時間変化の補正用操作パネル C2(E7の下側)
gt(t)を表示 ·操作するためのパネルで、設定操作結果は、 g(co, t)の表示パネル E7に即座に反映される。
[0178] 3. g ( ω , t)の値を全体的に持ち上げるための操作パネル C3 (E7の下側)
gr(t)を表示 '操作するためのパネルで、設定操作結果は、 g ( ω , t)の表示パネル E7に即座に反映される。
[0179] 4.混合音の振幅スペクトル力 既知音響信号の振幅スペクトルに相当する成分を減 算する分量を最終的に調整するための操作パネル C4
a(t)を表示'操作するためのパネルである。
[0180] 5.周波数軸方向の伸縮を補正するための操作パネル C5
P ( ω )を表示 '操作するためのパネルである。
[0181] 6.時間軸方向の伸縮を補正するための操作パネル C6
q(t)を表示'操作するためのパネルである。
[0182] 7.時間的な位置のずれを補正するための操作パネル C7
r(t)を表示'操作するためのパネルである。
[0183] 既知音響信号除去後の音響信号 s(t)操作用のサブウィンドウ W3では、数 5中の パラメータ関数 c(co, t)の形状を、自由に設定できる。以下、各操作パネルの説明を 述べる。
[0184] 1.グラフィックイコライザ (GEQ)操作パネル C8 (E8の右側)
c ( ω , t)の ω方向の形状を表示操作するためのパネルで、カーソル位置の時刻 t での c ( co , t)が描かれている (横軸が大きさ、縦軸が周波数軸)。設定操作結果は、 c ( co , t)の表示パネル E8に即座に反映される。 E8には、濃淡で c ( co , t)の値の大 きさが描かれている (横軸が時間軸、縦軸が周波数軸)。
[0185] 2.ボリュームフエーダー操作パネル C9 (E8の下側)
c ( co , t)の t方向の形状を表示'操作するためのパネルで、設定操作結果は、 c ( co , t)の表示パネル E8に即座に反映される。
[0186] 本エディタでは、オーディオファイルを入出力するだけでなぐ各種パラメータ関数 の形状もファイルに入出力できるようにする。これにより、除去作業の中断'再開を可 能にする。また、ユーザーに対して高速なレスポンスを達成するために、マルチスレツ ドに基づいて GUIと信号処理、音響再生を異なるスレッドとして実装し、時間のかか る信号処理等の待ち時間を隠蔽するとよい。
[0187] [プログラムを記録したコンピュータ読み取り可能な記録媒体]
なお、上述した実施形態及びその変更例に係る音響信号除去システムは、例えば 、ユーザー端末や Webサーバ等のコンピュータや ICチップにインストールされた音響 信号除去プログラムと、コンピュータに備えられる CPU、メモリ、ハードディスク等とに よって実現される。したがって、音響信号除去プログラムをインストールすることにより 、上述した各機能を備える音響信号除去装置や音響信号除去システムを容易に構 築すること、及び、音響信号除去方法を実施することが可能となる。尚、上述した各 機能を備える装置が、音響信号除去装置である。この音響信号除去プログラムは、 例えば、通信回線を通じて配布することが可能であり、またスタンドアローンの計算機 上で動作するパッケージアプリケーションとして譲渡することができる。
[0188] そして、このようなプログラムは、図 13に示すような、汎用コンピュータ 120で読み取 り可能な記録媒体 116— 119に記録することができる。具体的には、同図に示すよう な、フレキシブルディスク 116やカセットテープ 119等の磁気記録媒体、若しくは CD ROMや DVD— ROM 117等の光ディスクの他、 RAMカード 118など、種々の記録 媒体に記録することができる。
[0189] そして、このプログラムを記録したコンピュータ読み取り可能な記録媒体によれば、 汎用のコンピュータや専用コンピュータを用いて、上述した音響信号除去システムを 構築したり、音響信号除去方法を実施したりすることが可能となるとともに、プログラム の保存、運搬及びインストールを容易に行うことができる。
[0190] [実施形態における作用,効果]
以上説明した本実施形態によれば、振幅データは位相が変化してもかわらな ヽの で、位相に依存しない処理が可能となる。従って、例えば、音声と音楽が混じった番 組の音声信号から、番組作成時に使用した音楽 CD等の音のデータを使って、音楽 だけを除去することができる。すなわち、音響信号の振幅スペクトルは、位相に依存 しないため、位相が変化してもその影響を受けない。従って、混合音響信号中の既 知音響信号の周波数特性や音量変化を、適切に推定することができる。この結果、 本発明によれば、例えば、音声と音楽が混じった番組の音声信号から、番組作成時 に使用した音楽 CD等の音のデータを使って、音楽だけを的確に除去することができ る。なお、本発明は、音楽に限らず、番組作成時に混入した背景雑音等も、雑音の みが同時に録音された音のデータを使って除去することができる。
[0191] また、本実施形態によれば、アナログテープレコーダーによるヒスや各種のビート音 といった特定周波数の定常的な雑音を検出し、この雑音が含まれる周波数チャンネ ルを無視して、除去処理を行うため、既知音響の周波数特性の推定をより適正に行う ことができる。
[0192] また、本実施形態においては、一定振幅の単音 (480Hz)を混合音として入力し、既 知音響の引く量をゼロとして除去処理を行い、出力される音の音量と、処理前の混合 音の音量の差が計測される。そして、その差がなくなるように混合音と除去後の音と の音量が設定される。このため、特定の音声ファイルの一部のみを除去した場合であ つても、それぞれの音量を同一に維持することができる。
[0193] 特に、番組音声作成時において、製作意図にあわせて周波数特性や音量が調整 され、音の位相が予測不能な変化をしている場合であっても、混合音響中における 音楽の変化を自動的且つ高精度に予測し、位相に依存せず除去することができる。 [0194] 本実施形態では、除去処理に係る音響中の範囲設定に際し、同期制御部 9により 、映像と音声とを同期させてモニタ 10及びスピーカー 11から出力するため、音楽除 去前、音楽除去後のそれぞれの音声を映像と照らし合わせて視覚的に確認しながら の操作が可能となり、作業効率を向上させることができる。
[0195] 本実施形態では、時間変化グラフを表示し、その上をユーザーがマウスでドローィ ングする直感的な操作で修正できるため、番組の各場面や再利用方法を考慮するな どユーザーの意図に基づいて、音楽除去の効果を調節することができる。
[0196] [変更例]
なお、上述した実施形態に係るシステムには、例えば、以下のような機能を追加す ることがでさる。
[0197] (変更例 1)
民放の標準フォーマットでは、音声開始位置が決められているとともに、番組内で の時刻と使用曲を記述したキューシート等の情報に基づいて、作業を進める必要が あり、この情報とリンクするための機能が必要である。
[0198] そこで、本変更例では、図 14 (a)に示すように、上記システムに自動時刻調整機能 12を設ける。この自動時刻調整機能 12は、図 14 (b)に示すように、 TVのオンエア用 テープ力もの処理を行う場合に、エディタ 400等の各ウィンドウにより、除去処理の対 象となる混合音響信号の範囲を設定する際、範囲の設定に係る混合音響データの 所定周波数 (ここでは、カラーバーの 1kHz)を検出部により検出し、この所定周波数 の音響信号終了時刻から 15秒後を、タイマーで計測し、設定部により、タイムコード 上の 0とするモジュールである。これにより、 Qシートに記載された除去対象の音楽の 時刻を入力するだけで、対象部分の映像と音声を取り出すことができる。
[0199] このような、自動時刻調整機能 12によれば、 TVのオンエア用テープ力もの処理等 においては、民放の標準フォーマットのカラーバー信号力 タイムコードを調整するこ とが可能となり、 Qシートに記載された除去対象の音楽の時刻を入力するだけで、対 象部分の映像と音声を取り出すことができる。
[0200] (変更例 2)
上述した実施形態でも説明したように、放送番組では、左右の音声力 なるステレ ォ方式のものがある。ところが、音声の除去処理は、モノラル的に左右それぞれに対 して行わなければならないことから、ステレオ放送については、多数のパラメータの設 定を要する除去処理の作業が 2倍となるという問題がある。
[0201] そこで、本変更例では、図 15 (a)に示すように、上記システムに、パラメータ記憶部 13を設ける。このパラメータ記憶部 13は、図 15 (b)に示すように、例えば、 1回目の 作業で、ステレオ放送の左音声 (L)について作業した場合などには、この左音声に 対する各種パラメータ設定データを記憶する。すなわち、音声データ抽出部 3で分離 抽出された左音声について、ユーザーインターフェース 6により、各種パラメータを設 定した場合、この左音声に対する設定データをパラメータ記憶部 13に記憶しておき、 これを次回の右音声に対する除去処理の際に呼び出し、ユーザーインターフェース 6におけるデフォルト値として設定する。
[0202] このパラメータ記憶部 13によれば、左右の音声データを含むコンテンツデータに対 する処理に際しては、左右一方の音声に対する設定を記憶保持しておき、他方の音 声に対する作業を行うときに、記憶保持しておいた設定を利用することができるため、 作業効率の向上を図ることができる。
[0203] (変更例 3)
既知の音源と、混合音内における BGMの時間的な位置ずれがあり、混合音と BGM の時刻を正確にあわせることが困難である。
[0204] そこで、本変更例では、図 16に示すように、上記システムに、範囲設定部 15を設け る。この範囲設定部 15は、混合音響中における BGMと、除去しょうとする既知音響 の、時間的位置のずれを設定するに際し、段階的に範囲を絞り込む処理を行う。この 範囲設定部 15は、ユーザーインターフェース 6と連動しており、時間的位置ずれを自 動推定する場合に動作する。これにより、範囲設定に際し、初め広めの範囲での位 置合わせを行い、順次範囲をクローズアップしていくことにより、微調整が可能となる
[0205] また、この範囲設定部 15は、メロディーを検出機能を備えており、これにより、周波 数の分布を推定することができる。すなわち、この範囲設定部 15は、既知音響信号 が音楽に力かる信号である場合に、音楽に含まれる旋律に応じた周波数分布を、混 合音響信号力 検出し、検出された信号開始位置に基づいて、相対時間位置を設 定する。このような範囲設定部 15によれば、除去する既知音響が音楽等であるときに は、そのメロディーを検出することにより、相対位置決めをより容易なものとすることが できる。
[0206] さらに、本変更例では、出力 I/F8にヘッドホン 16を接続する。このヘッドホン 16は、 左のスピーカー 16aから既知音響である BGM音源を出力し、左のスピーカー 16bか ら混合音響である MIX音源を出力する。これにより、ユーザーの耳で、これらの音声 を比較しながら聴き、ユーザーの聴覚により位置あわせをする。
[0207] このようなヘッドホン 16によれば、混合音響と既知音響を、例えばヘッドホンの左右 のスピーカーから出力することによって、ユーザーが聴覚を用いて時間的なずれを判 断することができ、作業の効率を向上させることができる。
[0208] (変更例 4)
既知音響の除去においては、混合音響中における既知音響の特性を検出するキ ヤリブレーシヨンを行う必要があるが、混合音響中における既知音響は、番組作成時 において強調されたり減衰されたりしており、刻々とその特性が変化している。そのた め、前記キャリブレーションの際に、一箇所のみのサンプルを取得しても、適正に除 去処理を行うことができないおそれがある。また、既知音響が音楽などである場合に は、レコード等の回転数の違いにより、部分的に、時間軸あるいは周波数軸方向に 伸縮されることがあり、この場合にも、一箇所のみのキャリブレーションでは、適正なサ ンプルが取得できない。
[0209] そこで、本変更例では、図 17 (a)に示すように、上記システムにキャリブレーション 設定部 17を設ける。このキャリブレーション設定部 17は、図 17 (b)に示すように、上 述した除去エンジン 100におけるキャリブレーション用のサンプルを、ユーザーが任 意に選択した複数の箇所力も取得するためのモジュールである。このキヤリブレーシ ヨン設定部 17により取得された複数のサンプルは、上述した既知音響の推定にも用 V、られ、このサンプルを用いて既知音響を時間軸あるいは周波数軸方向に伸縮して 補正し、混合音から既知音響信号を減算する。
[0210] このようなキャリブレーション設定部 17によれば、混合音響中の複数箇所からキヤリ ブレーシヨン用のサンプルを取得するため、取得した複数の箇所から得られるデータ の中から、その平均、標準偏差、代表値等を算出することによりより精度の高い除去 処理を行うことができる。
[0211] (変更例 5)
放送番組の音声作成時には、製作意図にあわせて周波数特性や音量を調整する 場合が多い。このため、音の位相が予測不能な変化を生じ、単に電子的な減算処理 を行ったのみでは、適切に除去することはできない。
[0212] そこで、本変更例では、図 18 (a)に示すように、入力 I/F1に集音マイク 19が接続可 能となっており、また、 DVキヤプチヤー 2には、ビデオカメラ 20が接続可能となってい る。集音マイク 19は、指向性を有し、除去しょうとする既知音響信号を取得する第 1 の集音装置であり、ビデオカメラ 20は、混合音響信号を取得する第 2の集音装置で ある。集音マイク 19は、ビデオカメラ 20とは切離して携帯できるようになっており、ビ デォカメラ 20の撮影中に、除去したいノイズの音源付近に設定し、そのノイズのみを 録音する。
[0213] なお、上述した集音マイク 19とビデオカメラ 20は、同図(b)の 21に示すように、一 体構造としてもよい。この場合には、混合音響信号を取得する第 2の集音装置 21aを 一体型マイク 21の先端に配置し、既知音響信号を取得する第 1の集音装置 21bを、 一体型マイク 21の後方に配置する。集音装置 21aと、 21bは離隔して配置されており 、集音装置 21aは、通常撮影用として装置前方に指向性を有し、集音装置 21bは、 前方以外の指向性を有するように構成する。
[0214] このような本変更例によれば、例えば、集音装置 21aで録音した音声と雑音が混じ つた音声信号から、集音装置 21bで録音した雑音等の音のデータを使って、雑音だ けを的確に除去することができる。
産業上の利用の可能性
[0215] 以上のように、本発明に係る音響信号除去装置は、混合音響中から、除去しようと する音響を適正に除去することができるため、コンテンツを再利用する際の音響除去 作業に対して有用である。

Claims

請求の範囲
除去しょうとする既知音響信号と他の音響信号とが混合されている混合音響信号 中の、定常音を検出する定常音検出部と、
前記既知音響信号力 既知音響振幅スペクトルを抽出する既知音響振幅抽出部と 前記混合音響信号から周波数毎の混合音響振幅スペクトルを抽出する混合音響 振幅抽出部と、
抽出された前記混合音響振幅スぺ外ルのうち、前記定常音の周波数と一致しない 周波数の混合音響振幅スペクトルを選択する周波数選択部と、
前記選択された混合音響振幅スぺ外ルカ 前記既知音響振幅スペクトルを除去 する除去処理部と、
を備えることを特徴とする音響信号除去装置。
前記定常音検出部は、前記混合音響信号中における、最小の振幅となる周波数を
、前記定常音として検出することを特徴とする請求項 1に記載の音響信号除去装置。 前記定常音検出部は、前記混合音響信号中における、時間毎の振幅を取得し、そ の値力 、さい順にソートし、 n番目の値となる周波数を定常音として検出することを特 徴とする請求項 1に記載の音響信号除去装置。
前記定常音検出部は、前記混合音響信号中における、時間毎の振幅を取得し、そ の値が小さい順にソートし、 n番目までの標準偏差力 一定値を超えない nの最大値 を求め、この n番目の値となる周波数を定常音として検出することを特徴とする請求 項 1に記載の音響信号除去装置。
除去しょうとする既知音響信号と他の音響信号とが混合されている混合音響信号 から既知音響信号を除去する音響信号除去装置であって、
前記混合音響としての一定振幅の音響信号に対し、前記既知音響信号を 0として 疑似減算処理を行!、、前記一定振幅の音響信号と前記疑似減算処理後の音響信 号との音量の差を計測するシミュレーション部と、
前記シミュレーション部による計測結果に基づ 、て、前記既知音響信号の時間毎 の信号強度を設定する除去強度設定部と、 前記既知音響信号力 既知音響振幅スペクトルを抽出する既知音響振幅抽出部と 前記混合音響信号から混合音響振幅スペクトルを抽出する混合音響振幅抽出部と 前記除去強度設定部による設定に基づいて、前記既知音響振幅スペクトルを変換 し、前記混合音響振幅スペクトルから前記既知音響振幅スペクトルを除去する除去 処理部と、
を備えることを特徴とする音響信号除去装置。
[6] 除去しょうとする既知音響信号と他の音響信号とが混合されている混合音響信号 中の、定常音を検出するステップと、
前記既知音響信号カゝら既知音響振幅スペクトルを抽出するとともに、前記混合音響 信号力 周波数毎の混合音響振幅スペクトルを抽出するステップと、
抽出された前記混合音響振幅スぺ外ルのうち、前記定常音の周波数と一致しない 周波数の混合音響振幅スペクトルを選択するステップと、
前記選択された混合音響振幅スぺ外ルカ 前記既知音響振幅スペクトルを除去 するステップと、
を備えることを特徴とする音響信号除去方法。
[7] 前記混合音響信号中における、最小の振幅となる周波数を定常音として検出する ことを特徴とする請求項 6に記載の音響信号除去方法。
[8] 前記混合音響信号中における、時間毎の振幅を取得し、その値が小さい順にソー トし、 n番目の値となる周波数を定常音として検出することを特徴とする請求項 6に記 載の音響信号除去方法。
[9] 前記混合音響信号中における、時間毎の振幅を取得し、その値が小さい順にソー トし、 n番目までの標準偏差から一定値を超えない nの最大値を求め、この n番目の 値となる周波数を定常音として検出することを特徴とする請求項 6に記載の音響信号 除去方法。
[10] 除去しょうとする既知音響信号と他の音響信号とが混合されている混合音響信号 から既知音響信号を除去する音響信号除去方法であって、 前記混合音響としての一定振幅の音響信号に対し、前記既知音響信号を 0として 疑似減算処理を行!、、前記一定振幅の音響信号と前記疑似減算処理後の音響信 号との音量の差を計測するステップと、
前記計測結果に基づ!/、て、前記既知音響信号の時間毎の信号強度を設定するス テツプと、
前記既知音響信号カゝら既知音響振幅スペクトルを抽出するとともに、前記混合音響 信号から混合音響振幅スペクトルを抽出するステップと、
前記設定に基づいて、前記既知音響振幅スペクトルを変換し、前記混合音響振幅 スペクトル力 前記既知音響振幅スペクトルを除去するステップと、
を備えることを特徴とする音響信号除去方法。
[11] 除去しょうとする既知音響信号と他の音響信号とが混合されている混合音響信号 中の、定常音を検出するステップと、
前記既知音響信号カゝら既知音響振幅スペクトルを抽出するとともに、前記混合音響 信号力 周波数毎の混合音響振幅スペクトルを抽出するステップと、
抽出された前記混合音響振幅スぺ外ルのうち、前記定常音の周波数と一致しない 周波数の混合音響振幅スペクトルを選択するステップと、
前記選択された混合音響振幅スぺ外ルカ 前記既知音響振幅スペクトルを除去 するステップと、
を備えることを特徴とする音響信号除去プログラム。
[12] 前記混合音響信号中における、最小の振幅となる周波数を定常音として検出する ことを特徴とする請求項 11に記載の音響信号除去プログラム。
[13] 前記混合音響信号中における、時間毎の振幅を取得し、その値が小さい順にソー トし、 n番目の値となる周波数を定常音として検出することを特徴とする請求項 11に 記載の音響信号除去プログラム。
[14] 前記混合音響信号中における、時間毎の振幅を取得し、その値が小さい順にソー トし、 n番目までの標準偏差から一定値を超えない nの最大値を求め、この n番目の 値となる周波数を定常音として検出することを特徴とする請求項 11に記載の音響信 号除去プログラム。 除去しょうとする既知音響信号と他の音響信号とが混合されている混合音響信号 から既知音響信号を除去する音響信号除去プログラムであって、
前記混合音響としての一定振幅の音響信号に対し、前記既知音響信号を 0として 疑似減算処理を行!、、前記一定振幅の音響信号と前記疑似減算処理後の音響信 号との音量の差を計測するステップと、
前記計測結果に基づ!/、て、前記既知音響信号の時間毎の信号強度を設定するス テツプと、
前記既知音響信号カゝら既知音響振幅スペクトルを抽出するとともに、前記混合音響 信号から混合音響振幅スペクトルを抽出するステップと、
前記設定に基づいて、前記既知音響振幅スペクトルを変換し、前記混合音響振幅 スペクトル力 前記既知音響振幅スペクトルを除去するステップと、
を備えることを特徴とする音響信号除去プログラム。
PCT/JP2004/013165 2003-12-09 2004-09-09 音響信号除去装置、音響信号除去方法及び音響信号除去プログラム WO2005057551A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2003410959A JP4274419B2 (ja) 2003-12-09 2003-12-09 音響信号除去装置、音響信号除去方法及び音響信号除去プログラム
JP2003-410959 2003-12-09

Publications (1)

Publication Number Publication Date
WO2005057551A1 true WO2005057551A1 (ja) 2005-06-23

Family

ID=34674962

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2004/013165 WO2005057551A1 (ja) 2003-12-09 2004-09-09 音響信号除去装置、音響信号除去方法及び音響信号除去プログラム

Country Status (2)

Country Link
JP (1) JP4274419B2 (ja)
WO (1) WO2005057551A1 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8908881B2 (en) 2010-09-30 2014-12-09 Roland Corporation Sound signal processing device
CN106601264A (zh) * 2016-11-30 2017-04-26 广州广哈通信股份有限公司 一种语音会议混音系统及方法
CN110503975A (zh) * 2019-08-02 2019-11-26 广州长嘉电子有限公司 基于多麦克风降噪的智能电视语音增强控制方法及系统
CN111883151A (zh) * 2020-07-30 2020-11-03 云知声智能科技股份有限公司 音频信号的处理方法、装置、设备和存储介质
US20220147307A1 (en) * 2020-11-06 2022-05-12 Yamaha Corporation Audio processing system, audio processing method and recording medium
CN116597829A (zh) * 2023-07-18 2023-08-15 西兴(青岛)技术服务有限公司 一种提高语音识别精度的降噪处理方法及系统

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4913500B2 (ja) 2006-08-10 2012-04-11 有限会社バイセラ 聴力適合化装置
JP5200434B2 (ja) * 2007-07-06 2013-06-05 ヤマハ株式会社 音響設定支援装置
JP5625319B2 (ja) * 2009-10-27 2014-11-19 株式会社ニコン 撮像装置
JP5473786B2 (ja) * 2010-06-03 2014-04-16 キヤノン株式会社 音声信号処理装置、及びその制御方法
JP6046433B2 (ja) * 2012-09-27 2016-12-14 株式会社ディーアンドエムホールディングス ミキシング装置

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57161800A (en) * 1981-03-30 1982-10-05 Toshiyuki Sakai Voice information filter
JPS58100199A (ja) * 1981-10-19 1983-06-14 ボータン 音声認識及び再生方法とその装置
JPS59165098A (ja) * 1983-03-10 1984-09-18 三洋電機株式会社 音声スペクトルパラメ−タ抽出装置
JPH04340599A (ja) * 1991-05-16 1992-11-26 Ricoh Co Ltd 雑音除去装置
JPH09251299A (ja) * 1996-03-15 1997-09-22 Toshiba Corp マイクロホンアレイ入力型音声認識装置及び方法
JPH10133689A (ja) * 1996-10-30 1998-05-22 Kyocera Corp 雑音除去装置
JPH1115494A (ja) * 1997-06-25 1999-01-22 Denso Corp 音声認識装置
JPH1138997A (ja) * 1997-07-16 1999-02-12 Olympus Optical Co Ltd 雑音抑圧装置および音声の雑音除去の処理をするための処理プログラムを記録した記録媒体
JP2002314637A (ja) * 2001-04-09 2002-10-25 Denso Corp 雑音低減装置
JP2003140671A (ja) * 2001-11-05 2003-05-16 Honda Motor Co Ltd 混合音の分離装置
JP2003271166A (ja) * 2002-03-14 2003-09-25 Nissan Motor Co Ltd 入力信号処理方法および入力信号処理装置

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57161800A (en) * 1981-03-30 1982-10-05 Toshiyuki Sakai Voice information filter
JPS58100199A (ja) * 1981-10-19 1983-06-14 ボータン 音声認識及び再生方法とその装置
JPS59165098A (ja) * 1983-03-10 1984-09-18 三洋電機株式会社 音声スペクトルパラメ−タ抽出装置
JPH04340599A (ja) * 1991-05-16 1992-11-26 Ricoh Co Ltd 雑音除去装置
JPH09251299A (ja) * 1996-03-15 1997-09-22 Toshiba Corp マイクロホンアレイ入力型音声認識装置及び方法
JPH10133689A (ja) * 1996-10-30 1998-05-22 Kyocera Corp 雑音除去装置
JPH1115494A (ja) * 1997-06-25 1999-01-22 Denso Corp 音声認識装置
JPH1138997A (ja) * 1997-07-16 1999-02-12 Olympus Optical Co Ltd 雑音抑圧装置および音声の雑音除去の処理をするための処理プログラムを記録した記録媒体
JP2002314637A (ja) * 2001-04-09 2002-10-25 Denso Corp 雑音低減装置
JP2003140671A (ja) * 2001-11-05 2003-05-16 Honda Motor Co Ltd 混合音の分離装置
JP2003271166A (ja) * 2002-03-14 2003-09-25 Nissan Motor Co Ltd 入力信号処理方法および入力信号処理装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8908881B2 (en) 2010-09-30 2014-12-09 Roland Corporation Sound signal processing device
CN106601264A (zh) * 2016-11-30 2017-04-26 广州广哈通信股份有限公司 一种语音会议混音系统及方法
CN110503975A (zh) * 2019-08-02 2019-11-26 广州长嘉电子有限公司 基于多麦克风降噪的智能电视语音增强控制方法及系统
CN111883151A (zh) * 2020-07-30 2020-11-03 云知声智能科技股份有限公司 音频信号的处理方法、装置、设备和存储介质
US20220147307A1 (en) * 2020-11-06 2022-05-12 Yamaha Corporation Audio processing system, audio processing method and recording medium
US11609736B2 (en) * 2020-11-06 2023-03-21 Yamaha Corporation Audio processing system, audio processing method and recording medium
CN116597829A (zh) * 2023-07-18 2023-08-15 西兴(青岛)技术服务有限公司 一种提高语音识别精度的降噪处理方法及系统
CN116597829B (zh) * 2023-07-18 2023-09-08 西兴(青岛)技术服务有限公司 一种提高语音识别精度的降噪处理方法及系统

Also Published As

Publication number Publication date
JP4274419B2 (ja) 2009-06-10
JP2005173055A (ja) 2005-06-30

Similar Documents

Publication Publication Date Title
US11363314B2 (en) Network-based processing and distribution of multimedia content of a live musical performance
JP2010187363A (ja) 音響信号処理装置及び再生装置
US9877129B2 (en) Device and method for playing sound
WO2005057551A1 (ja) 音響信号除去装置、音響信号除去方法及び音響信号除去プログラム
KR101008250B1 (ko) 기지 음향신호 제거방법 및 장치
WO2018017878A1 (en) Network-based processing and distribution of multimedia content of a live musical performance
JP5307770B2 (ja) 音声信号処理装置、方法、プログラム、及び記録媒体
JP2005530213A (ja) 音声信号処理装置
US20230186782A1 (en) Electronic device, method and computer program
JP5690082B2 (ja) 音声信号処理装置、方法、プログラム、及び記録媒体
Lee et al. Clinical usefulness of voice recordings using a smartphone as a screening tool for voice disorders
CN112927713A (zh) 音频特征点的检测方法、装置和计算机存储介质
JP4274418B2 (ja) 音響信号除去装置、音響信号除去方法及び音響信号除去プログラム
Master et al. Dialog Enhancement via Spatio-Level Filtering and Classification
JP2009282536A (ja) 既知音響信号除去方法及び装置
JP4272107B2 (ja) 音響信号除去装置、音響信号除去方法及び音響信号除去プログラム
US20230057082A1 (en) Electronic device, method and computer program
Łopatka Detection of dialogue in movie soundtrack for speech intelligibility enhancement
Eisenberg et al. Granular Resynthesis for Sound Unmixing

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NA NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): BW GH GM KE LS MW MZ NA SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IT LU MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
122 Ep: pct application non-entry in european phase