WO2013094135A1 - 音分離装置、および音分離方法 - Google Patents

音分離装置、および音分離方法 Download PDF

Info

Publication number
WO2013094135A1
WO2013094135A1 PCT/JP2012/007785 JP2012007785W WO2013094135A1 WO 2013094135 A1 WO2013094135 A1 WO 2013094135A1 JP 2012007785 W JP2012007785 W JP 2012007785W WO 2013094135 A1 WO2013094135 A1 WO 2013094135A1
Authority
WO
WIPO (PCT)
Prior art keywords
signal
sound
acoustic signal
acoustic
frequency
Prior art date
Application number
PCT/JP2012/007785
Other languages
English (en)
French (fr)
Inventor
芳澤 伸一
恵三 松本
愛子 川中
Original Assignee
パナソニック株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニック株式会社 filed Critical パナソニック株式会社
Priority to JP2013508307A priority Critical patent/JP5248718B1/ja
Publication of WO2013094135A1 publication Critical patent/WO2013094135A1/ja
Priority to US14/275,482 priority patent/US9432789B2/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/11Transducers incorporated or for use in hand-held devices, e.g. mobile phones, PDA's, camera's
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/027Spatial or constructional arrangements of microphones, e.g. in dummy heads
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic

Definitions

  • the present disclosure relates to a sound separation device and a sound separation method that use two acoustic signals to generate an acoustic signal of a sound localized between reproduction positions corresponding to the two acoustic signals.
  • the present disclosure provides a sound separation device and a sound separation method that use two acoustic signals to accurately generate an acoustic signal of a sound localized between reproduction positions corresponding to the two acoustic signals.
  • the sound separation device includes a plurality of acoustic signals including a first acoustic signal representing a sound output from the first position and a second acoustic signal representing a sound output from the second position.
  • the difference signal is converted into a frequency domain from an acoustic signal generation unit that generates a third acoustic signal including a localized sound component and a first frequency signal obtained by converting the third acoustic signal into a frequency domain.
  • the present disclosure can be realized not only as a sound separation device but also as a sound separation method, a program describing the method, or a computer-readable CD-ROM (Compact Disc Read) on which the program is recorded. It can also be realized as a recording medium such as “Only Memory”.
  • the sound separation device or the like of the present disclosure it is possible to accurately generate a sound signal of a sound localized between reproduction positions corresponding to the two sound signals, using the two sound signals.
  • FIG. 1 is a diagram illustrating an example of a configuration of a sound separation device and peripheral devices according to the first embodiment.
  • FIG. 2 is a functional block diagram illustrating a configuration of the sound separation device according to the first embodiment.
  • FIG. 3 is a flowchart showing the operation of the sound separation device according to the first embodiment.
  • FIG. 4 is another flowchart showing the operation of the sound separation device according to the first embodiment.
  • FIG. 5 is a conceptual diagram showing the localization position of the sound to be extracted.
  • FIG. 6 is a schematic diagram showing the relationship between the absolute value of the weighting coefficient and the localization range of the extracted sound.
  • FIG. 7 is a diagram illustrating specific examples of the first acoustic signal and the second acoustic signal.
  • FIG. 8 is a diagram illustrating a result when a sound component localized in the region a is extracted.
  • FIG. 9 is a diagram illustrating a result when a sound component localized in the region b is extracted.
  • FIG. 10 is a diagram illustrating a result when a sound component localized in the region c is extracted.
  • FIG. 11 is a diagram illustrating a result when a sound component localized in the region d is extracted.
  • FIG. 12 is a diagram illustrating a result when a sound component localized in the region e is extracted.
  • FIG. 13 is a conceptual diagram showing a specific example of the localization position of the sound to be extracted.
  • FIG. 14 is a diagram illustrating a result when a vocal component localized in the region c is extracted.
  • FIG. 15 is a diagram illustrating a result when a sound component of castanets localized in the region b is extracted.
  • FIG. 16 is a diagram illustrating a result when a sound component of a piano localized in the region e is extracted.
  • FIG. 17 is a schematic diagram illustrating a case where the first acoustic signal is an L signal of a stereo signal and the second acoustic signal is an R signal of a stereo signal.
  • FIG. 18 is a schematic diagram showing a case where the first acoustic signal is an L signal of a 5.1ch acoustic signal and the second acoustic signal is a C signal of a 5.1ch acoustic signal.
  • FIG. 19 is a schematic diagram illustrating a case where the first acoustic signal is an L signal of a 5.1ch acoustic signal and the second acoustic signal is an R signal of a 5.1ch acoustic signal.
  • FIG. 20 is a functional block diagram illustrating a configuration of the sound separation device according to the second embodiment.
  • FIG. 21 is a flowchart showing the operation of the sound separation device according to the second embodiment.
  • FIG. 22 is another flowchart showing the operation of the sound separation device according to the second embodiment.
  • FIG. 23 is a conceptual diagram showing the localization position of the extracted sound.
  • FIG. 24 is a diagram schematically showing the localization range of the extracted sound.
  • Patent Literature 1 and Patent Literature 2 disclose a technology for generating an acoustic signal in which a localized sound is emphasized between reproduction positions of two-channel acoustic signals.
  • the generated acoustic signal includes a sound component localized at a position on the L signal side and a sound component localized at a position on the R signal side. For this reason, there is a problem that the sound component localized at the center cannot be accurately extracted from the sound component localized on the L signal side and the sound component localized on the R signal side.
  • a sound separation device represents a first acoustic signal representing a sound output from a first position and a sound output from a second position.
  • a signal acquisition unit that acquires a plurality of acoustic signals including a second acoustic signal, and a difference signal that is a signal representing a difference in the time domain between the first acoustic signal and the second acoustic signal is generated.
  • the difference signal generation unit and at least one of the plurality of acoustic signals the first position is determined by the sound output from the first position and the sound output from the second position.
  • a second acoustic signal generating unit that generates a third acoustic signal including a sound component localized at a predetermined position between the first position and the second position, and a first that converts the third acoustic signal into a frequency domain.
  • a second signal obtained by converting the difference signal into a frequency domain from the frequency signal of A separated acoustic signal that is an acoustic signal for generating a third frequency signal obtained by subtracting a frequency signal and outputting a sound localized at the predetermined position by converting the generated third frequency signal into a time domain
  • an extraction unit for generating
  • a separated acoustic signal that is an acoustic signal of a sound localized at a predetermined position can be accurately generated.
  • the acoustic signal generation unit may generate the first acoustic signal when the distance from the predetermined position to the first position is smaller than the distance from the predetermined position to the second position.
  • a signal may be used as the third acoustic signal.
  • the separated acoustic signal can be generated with higher accuracy.
  • the acoustic signal generation unit may generate the second acoustic signal when the distance from the predetermined position to the second position is smaller than the distance from the predetermined position to the first position.
  • a signal may be used as the third acoustic signal.
  • the separated acoustic signal can be generated with higher accuracy.
  • the acoustic signal generation unit includes a first coefficient that increases as the distance from the predetermined position to the first position decreases, and a distance from the predetermined position to the second position. And determining a second coefficient that increases as the value decreases, and adds a signal obtained by multiplying the first acoustic signal by the first coefficient and a signal obtained by multiplying the second acoustic signal by the second coefficient. By doing so, the third acoustic signal may be generated.
  • the separated acoustic signal can be generated more accurately.
  • the difference signal generation unit may be configured in a time domain of a signal obtained by multiplying the first acoustic signal by a first weighting factor and a signal obtained by multiplying the second acoustic signal by a second weighting factor.
  • the difference signal that is a difference is generated, and the value obtained by dividing the second weighting factor by the first weighting factor is increased as the distance from the first position to the predetermined position is smaller.
  • the first weighting factor and the second weighting factor may be determined.
  • the absolute values of the first weighting factor and the second weighting factor determined by the difference signal generation unit are larger, the localization range of the sound output by the separated acoustic signal may be smaller.
  • the localization range of the sound output by the separated acoustic signal can be adjusted by the absolute value of the first weighting factor and the absolute value of the second weighting factor.
  • the extraction unit uses the subtraction value obtained for each frequency by subtracting the magnitude of the second frequency signal from the magnitude of the first frequency signal, and uses the subtracted value obtained for each frequency.
  • the subtraction value may be replaced with a predetermined positive value.
  • a corrected acoustic signal for correcting the separated acoustic signal according to the predetermined position is generated, and the corrected acoustic signal is generated.
  • a sound correction unit that adds a signal to the separated acoustic signal may be provided.
  • the sound correction unit has a third coefficient that increases as the distance from the predetermined position to the first position decreases, and a distance from the predetermined position to the second position.
  • a fourth coefficient that increases as the value decreases is determined, and a signal obtained by multiplying the first acoustic signal by the third coefficient and a signal obtained by multiplying the second acoustic signal by the fourth coefficient are added.
  • the corrected acoustic signal may be generated.
  • the first acoustic signal and the second acoustic signal may constitute a stereo signal.
  • the sound separation method includes a first acoustic signal representing a sound output from the first position and a second acoustic signal representing a sound output from the second position.
  • FIG. 1 is a diagram illustrating an example of a configuration of a sound separation device and peripheral devices according to the present embodiment.
  • the sound separation device according to the present embodiment (as an example, the sound separation device 100 according to the first embodiment) is realized as a part of the sound reproduction device, for example, as illustrated in FIG. .
  • the sound separation device 100 extracts a sound component to be extracted using the acquired acoustic signal, and generates a separated acoustic signal that is an acoustic signal representing the extracted sound component (extracted sound).
  • the extracted sound is output by reproducing the separated sound signal using the reproduction system of the sound reproducing device 150 in which the sound separating device 100 is incorporated.
  • the sound playback device 150 is, for example, an audio device with a built-in speaker such as a portable audio device, an audio device with a speaker such as a mini component or AV center amplifier, a television, a digital still camera, or a digital video camera.
  • an audio device with a built-in speaker such as a portable audio device
  • an audio device with a speaker such as a mini component or AV center amplifier
  • a television a digital still camera, or a digital video camera.
  • Mobile terminal devices personal computers, TV conference systems, speakers, speaker systems, and the like.
  • the sound separation device 100 extracts a sound component to be extracted using the acquired acoustic signal, and represents the extracted sound component.
  • a separated acoustic signal is generated.
  • the sound separation device 100 transmits the separated acoustic signal to a sound reproduction device 150 that is separate from the sound separation device 100.
  • the separated sound signal is reproduced using the reproduction system of the sound reproduction device 150, so that the extracted sound is output.
  • the sound separation device 100 includes, for example, a network audio server and repeater, a portable audio device, a mini component, an AV center amplifier, a television, a digital still camera, a digital video camera, a portable terminal device, a personal computer, a TV, and the like. It is realized as a conference system, a speaker, a speaker system, or the like.
  • the sound separation device 100 extracts the sound component to be extracted using the acquired acoustic signal, and represents the extracted sound component. A separated acoustic signal is generated.
  • the sound separation device 100 stores or transmits the separated acoustic signal in the storage medium 200.
  • Examples of the storage medium 200 include package media such as a hard disk, a Blu-ray disc, a DVD (Digital Versatile Disc), and a CD (Compact Disc), a flash memory, and the like.
  • package media such as a hard disk, a Blu-ray disc, a DVD (Digital Versatile Disc), and a CD (Compact Disc), a flash memory, and the like.
  • a storage medium 200 such as a hard disk or a flash memory includes a server and a repeater such as network audio, a portable audio device, a mini component, an AV center amplifier, a television, a digital still camera, a digital video camera, and a portable terminal device. It may be built in a personal computer, a video conference system, a speaker, a speaker system, or the like.
  • the sound separation device may have any configuration as long as it has a function of acquiring an acoustic signal and extracting a desired sound component from the acquired acoustic signal.
  • FIG. 2 is a functional block diagram showing the configuration of the sound separation device 100 according to the first embodiment.
  • FIG. 3 is a flowchart showing the operation of the sound separation device 100.
  • the sound separation device 100 includes a signal acquisition unit 101, an acoustic signal generation unit 102, a difference signal generation unit 103, and a sound component extraction unit 104.
  • the signal acquisition unit 101 acquires a plurality of acoustic signals including a first acoustic signal that is an acoustic signal corresponding to the first position and a second acoustic signal that is an acoustic signal corresponding to the second position. (S201 in FIG. 3).
  • the first acoustic signal and the second acoustic signal include the same sound component. Specifically, for example, when the first acoustic signal includes a castanet sound component, a vocal sound component, and a piano sound component, the second acoustic signal also includes the castanet sound component. And a vocal sound component and a piano sound component.
  • the acoustic signal generation unit 102 uses the at least one acoustic signal among the plurality of acoustic signals acquired by the signal acquisition unit 101 to generate a third acoustic signal that is an acoustic signal including the sound component of the sound to be extracted. Generate (S202 in FIG. 3). Details of the third acoustic signal generation method will be described later.
  • the difference signal generation unit 103 generates a difference signal that is a signal representing a difference in the time domain between the first acoustic signal and the second acoustic signal among the acoustic signals acquired by the signal acquisition unit 101 (FIG. 3). S203). Details of the difference signal generation method will be described later.
  • the sound component extraction unit 104 subtracts the signal obtained by converting the difference signal into the frequency domain from the signal obtained by changing the third acoustic signal into the frequency domain.
  • the sound component extraction unit 104 generates a separated acoustic signal that is an acoustic signal obtained by converting the signal obtained by subtraction into the time domain (S204 in FIG. 3). By reproducing the separated acoustic signal, the sound to be extracted localized by the first acoustic signal and the second acoustic signal is output as the extracted sound. That is, the sound component extraction unit 104 can extract the sound to be extracted.
  • step S202 for generating the third acoustic signal and step S203 for generating the difference signal may be reverse to the order shown in the flowchart of FIG. Good.
  • step S202 and step S203 may be performed in parallel.
  • the sound separation device 100 acquires two acoustic signals of a first acoustic signal corresponding to the first position and a second acoustic signal corresponding to the second position, A case where a sound component localized between the first position and the second position is extracted will be described.
  • the signal acquisition unit 101 acquires an acoustic signal from a network such as the Internet, for example.
  • the signal acquisition unit 101 acquires an acoustic signal from a storage medium such as a hard disk, a package medium such as a Blu-ray disc, a DVD, or a CD, or a flash memory.
  • the signal acquisition unit 101 acquires an acoustic signal from radio waves from a television, a mobile phone, a wireless network, or the like.
  • the signal acquisition unit 101 acquires an acoustic signal of sound collected from a sound collection unit such as a smartphone, an audio recorder, a digital still camera, a digital video camera, a personal computer, or a microphone.
  • the signal acquisition unit 101 only needs to acquire the first acoustic signal and the second acoustic signal representing the same sound field, and any acquisition path for the acoustic signal may be used.
  • the first acoustic signal and the second acoustic signal are typically an L signal and an R signal that constitute a stereo signal.
  • the first position and the second position are the L channel and the R channel, respectively. It is a predetermined position where each speaker is arranged.
  • the first acoustic signal and the second acoustic signal may be, for example, a 2-channel acoustic signal selected from 5.1-channel acoustic signals.
  • the first position and the second position are predetermined positions where the selected two-channel speakers are respectively arranged.
  • the acoustic signal generation unit 102 generates a third acoustic signal corresponding to the position where the sound to be extracted is localized, using at least one of the acoustic signals acquired by the signal acquisition unit 101.
  • FIG. 5 is a conceptual diagram showing the localization position of the sound to be extracted.
  • the sound to be extracted is a sound that is localized in an area between the first position (first acoustic signal) and the second position (second acoustic signal). As shown in FIG. 5, this area is divided into five areas from area a to area e for convenience.
  • the area closest to the first position side is “area a”
  • the area closest to the second position is “area e”
  • the first position and the area near the middle of the second position are The region between the region a and the region c is referred to as “region b”
  • the region between the region c and the region e is referred to as “region d”.
  • the method for generating the third acoustic signal in the present embodiment specifically includes the following three cases. 1. 1. When generating a third acoustic signal from the first acoustic signal 2. When generating a third acoustic signal from the second acoustic signal. When generating the third acoustic signal using both the first acoustic signal and the second acoustic signal
  • the acoustic signal generation unit 102 uses the first acoustic signal as the third acoustic signal. Use the signal itself. Since the region a and the region b are regions closer to the first position than the second position, the third acoustic signal has a large sound component of the first acoustic signal and a small sound component of the second acoustic signal. This is because the sound component extraction unit 104 can extract the sound component to be extracted more accurately.
  • the acoustic signal generation unit 102 uses an acoustic signal generated by adding the first acoustic signal and the second acoustic signal as the third acoustic signal. In this way, by adding the first acoustic signal and the second acoustic signal in the same phase, a third acoustic signal in which the sound component localized in the region c is emphasized in advance is generated, and the sound component extraction is performed.
  • the unit 104 can extract the sound component to be extracted with higher accuracy.
  • the acoustic signal generation unit 102 uses the second acoustic signal itself as the third acoustic signal. Since the region d and the region e are regions closer to the second position than the first position, the third acoustic signal has a large sound component of the second acoustic signal and a small sound component of the first acoustic signal. This is because the sound component extraction unit 104 described later can extract the sound component to be extracted with higher accuracy.
  • the acoustic signal generation unit 102 may generate the third acoustic signal by weighting and adding the first acoustic signal and the second acoustic signal. That is, the acoustic signal generation unit 102 generates a third acoustic signal by adding a signal obtained by multiplying the first acoustic signal by the first coefficient and a signal obtained by multiplying the second acoustic signal by the second coefficient. May be.
  • the first coefficient and the second coefficient are real numbers of 0 or more.
  • the region a and the region b are regions closer to the first position than the second position.
  • the third acoustic signal may be generated using the second coefficient having a value smaller than the first coefficient.
  • the sound component extraction unit 104 generates the third sound signal with a large amount of sound components of the first sound signal and a small amount of sound components of the second sound signal, so that the sound component extraction unit 104 can extract the sound to be extracted with higher accuracy. Sound components can be extracted.
  • the acoustic signal generation unit 102 may be generated using one coefficient and a second coefficient having a value larger than the first coefficient.
  • the sound component extraction unit 104 generates a third sound signal with a large amount of sound component of the second sound signal and a small amount of sound component of the first sound signal, so that the sound component extraction unit 104 can extract the sound object to be extracted more accurately. Sound components can be extracted.
  • the sound separation device 100 can extract the sound component to be extracted regardless of which of the above-described methods is used to generate the third acoustic signal. In short, it suffices if the third acoustic signal includes the sound component to be extracted. This is because an unnecessary portion of the third acoustic signal is removed by a difference signal described later.
  • the difference signal generation unit 103 generates a difference signal representing a difference in the time domain between the first acoustic signal and the second acoustic signal acquired by the signal acquisition unit 101.
  • the difference signal generation unit 103 generates a difference signal by weighting and subtracting the first acoustic signal and the second acoustic signal. That is, the difference signal generation unit 103 subtracts the signal obtained by multiplying the first acoustic signal by the first weighting factor ⁇ and the signal obtained by multiplying the second acoustic signal by the second weighting factor ⁇ . Generate a signal. Specifically, the difference signal generation unit 103 generates a difference signal using the following (Equation 1). ⁇ and ⁇ are real numbers of 0 or more.
  • FIG. 5 shows the relationship between the value of the first weighting factor ⁇ and the value of the second weighting factor ⁇ , each used when extracting sounds localized in the region a to the region e.
  • the first weighting factor ⁇ is larger and the second weighting factor ⁇ is smaller.
  • the first weighting factor ⁇ is smaller and the second weighting factor ⁇ is larger.
  • the second acoustic signal is subtracted from the first acoustic signal, but the first acoustic signal may be subtracted from the second acoustic signal. This is because the sound component extraction unit 104 subtracts the difference signal from the third acoustic signal in the frequency domain. In this case, what is necessary is just to interchange about description of a 1st acoustic signal and a 2nd acoustic signal about FIG.
  • the difference signal generation unit 103 determines a coefficient value so that the second weight coefficient ⁇ is much larger than the first weight coefficient ⁇ ( ⁇ / ⁇ >> 1) A difference signal is generated using (Expression 1).
  • the sound component extraction unit 104 to be described later can mainly remove the sound component localized at the second position side included in the third acoustic signal from the third acoustic signal.
  • the difference signal generation unit 103 sets the coefficient value so that the second weighting factor ⁇ is relatively larger than the first weighting factor ⁇ ( ⁇ / A difference signal is generated using ⁇ > 1) and (Equation 1).
  • the sound component extraction unit 104 determines, from the third acoustic signal, the sound component localized at the first position and the sound component localized at the second position included in the third acoustic signal. Can be removed in a balanced manner.
  • a difference signal is generated using (Expression 1).
  • the sound component extraction unit 104 determines, from the third acoustic signal, the sound component localized at the first position and the sound component localized at the second position included in the third acoustic signal. Can be removed evenly.
  • the difference signal generation unit 103 sets the coefficient value so that the first weighting coefficient ⁇ is relatively larger than the second weighting coefficient ⁇ ( ⁇ / A difference signal is generated using ⁇ ⁇ 1) and (Expression 1).
  • the sound component extraction unit 104 determines, from the third acoustic signal, the sound component localized at the first position and the sound component localized at the second position included in the third acoustic signal. Can be removed in a balanced manner.
  • the difference signal generation unit 103 determines a coefficient value ( ⁇ / ⁇ so that the first weighting factor ⁇ is much larger than the second weighting factor ⁇ ).
  • ⁇ 1) and (Equation 1) are used to generate a difference signal.
  • the sound component extraction unit 104 can mainly remove the sound component localized at the first position included in the third acoustic signal from the third acoustic signal.
  • the difference signal generation unit 103 determines the ratio between the first weighting factor ⁇ and the second weighting factor ⁇ according to the localization position of the sound to be extracted,
  • the sound separation device 100 can extract a sound component at a desired localization position.
  • the difference signal generation unit 103 determines the absolute values of the first weighting factor ⁇ and the second weighting factor ⁇ according to the localization range of the sound to be extracted.
  • the localization range means a range in which the listener can perceive a sound image (a range in which the sound image is localized).
  • FIG. 6 is a schematic diagram showing the relationship between the absolute value of the weighting coefficient and the localization range of the extracted sound.
  • the vertical direction (vertical axis) in the figure indicates the sound pressure level of the extracted sound
  • the horizontal direction (horizontal axis) in the figure indicates the localization range
  • the difference signal generation unit 103 determines the ratio of the first weighting coefficient ⁇ and the second weighting coefficient ⁇ according to the localization position of the extraction target sound, and sets the ratio in the localization range of the extraction target sound. Accordingly, the absolute values of the first weighting factor ⁇ and the second weighting factor ⁇ are determined. In other words, the difference signal generation unit 103 can adjust the localization position and localization range of the sound to be extracted by the first weighting coefficient ⁇ and the second weighting coefficient ⁇ . As a result, the sound separation device 100 can accurately extract the sound to be extracted.
  • the difference signal generation unit 103 subtracts the powers of the amplitudes of the first acoustic signal and the second acoustic signal (for example, the third power of the amplitude or the 0.1th power of the amplitude) to obtain the difference signal. May be generated. That is, the difference signal generation unit 103 subtracts physical quantities representing different magnitudes of the first acoustic signal and the second acoustic signal, which are deformed while maintaining the magnitude relationship of the amplitudes, to obtain the difference signal. May be generated.
  • the difference signal generation unit 103 uses the first sound signal and the first sound signal.
  • the difference signal may be generated by subtracting the second acoustic signal from the first acoustic signal after adjusting the extraction target sounds included in the two acoustic signals to be at the same time.
  • the position where the sound to be extracted is localized, the position of the first microphone that picks up the first acoustic signal, and the position of the second microphone that acquires the second acoustic signal Since the relative time between the time when the sound to be extracted is physically input to the first microphone and the time when the sound is input to the second microphone can be obtained from the sound speed, the relative time is corrected. To adjust the time.
  • the sound component extraction unit 104 obtains a first frequency signal that is a signal obtained by converting the third acoustic signal generated by the acoustic signal generation unit 102 into the frequency domain. Furthermore, the sound component extraction unit 104 obtains a second frequency signal that is a signal obtained by converting the difference signal generated by the difference signal generation unit 103 into a frequency domain.
  • the sound component extraction unit 104 performs conversion to the frequency signal using fast Fourier transform. Specifically, the sound component extraction unit 104 performs conversion under the following analysis conditions.
  • the sampling frequency of the first acoustic signal and the second acoustic signal is 44.1 kHz.
  • the sampling frequency of the generated third acoustic signal and difference signal is 44.1 kHz.
  • the window length of the fast Fourier transform is 4096 pt, and a Hanning window is used. As will be described later, in order to convert a frequency signal into a signal in the time domain, the frequency signal is obtained by shifting the time axis every 512 pt.
  • the sound component extraction unit 104 subtracts the second frequency signal from the first frequency signal.
  • the frequency signal obtained as a result of the subtraction is set as a third frequency signal.
  • the sound component extraction unit 104 divides the frequency signal obtained using the fast Fourier transform into the magnitude of the frequency signal and the phase of the frequency signal, and the magnitudes of the frequency signals are separated for each frequency component. Subtract to That is, the sound component extraction unit 104 subtracts the magnitude of the frequency signal of the difference signal for each frequency component from the magnitude of the frequency signal of the third acoustic signal. The subtraction of the sound component extraction unit 104 is performed every time interval in which the time axis is shifted when obtaining a frequency signal, that is, every 512 pt. As the magnitude of the frequency signal, the amplitude of the frequency signal is used in this embodiment.
  • the sound component extraction unit 104 treats the subtraction result as a predetermined positive value extremely close to 0, that is, almost zero. This is for performing fast Fourier inverse transform described later on the third frequency signal obtained as a result of the subtraction.
  • the result of the subtraction is used as the magnitude of the frequency signal of each frequency component of the third frequency signal.
  • the phase of the third frequency signal uses the phase of the first frequency signal (a frequency signal obtained by converting the third acoustic signal into the frequency domain) as it is.
  • the first acoustic signal when the sound localized in the region a and the region b is extracted, the first acoustic signal is used as the third acoustic signal, and thus the frequency signal obtained by converting the first acoustic signal into the frequency domain. Is used as the phase of the third frequency signal.
  • an acoustic signal obtained by adding the first acoustic signal and the second acoustic signal is used as the third acoustic signal.
  • the phase of the frequency signal obtained by converting the added acoustic signal into the frequency domain is used as the phase of the third frequency signal.
  • the 2nd acoustic signal when extracting the sound localized in the area
  • the phase of the frequency signal is used as the phase of the third frequency signal.
  • the calculation amount performed by the sound component extraction unit 104 is reduced by using the phase of the first frequency signal as it is without calculating the phase.
  • the sound component extraction unit 104 converts the third frequency signal into a time domain signal, that is, an acoustic signal.
  • the sound component extraction unit 104 converts the third frequency signal into a time domain acoustic signal (separated acoustic signal) using fast Fourier inverse transform.
  • the window length width of the fast Fourier transform is 4096 pt
  • the time shift width is 512 pt, which is shorter than this. That is, the third frequency signal has an overlap portion in the time domain.
  • the third frequency signal is converted into a time domain acoustic signal using fast inverse Fourier transform
  • the plurality of time waveform candidates are averaged at the same time, thereby obtaining the acoustic signal in the time domain. Smooth continuity.
  • the separated sound signal generated by the sound component extraction unit 104 is reproduced, so that the extracted sound is output.
  • the sound component extraction unit 104 instead of subtracting the amplitude of the frequency signal for each frequency component, the power of the frequency signal (the square of the amplitude)
  • the frequency signal can be subtracted for each frequency component by a power of the amplitude of the frequency signal (for example, the third power of the amplitude or the 0.1th power of the amplitude) or an amount representing another magnitude deformed while maintaining the amplitude relationship. Also good.
  • the sound component extraction unit 104 applies the weighting coefficient to the first frequency signal and the second frequency signal, respectively, and then subtracts it. Good.
  • the fast Fourier transform is used when generating the frequency signal, but other general frequency transforms such as discrete cosine transform and wavelet transform may be used. That is, any conversion method that converts a time domain signal into a frequency domain may be used.
  • the sound component extraction unit 104 divides the frequency signal into the magnitude of the frequency signal and the phase of the frequency signal, and subtracts the magnitudes of the frequency signals for each frequency component.
  • the sound component extraction unit 104 may subtract the second frequency signal from the first frequency signal on the complex spectrum without dividing the frequency signal into the magnitude of the frequency signal and the phase of the frequency signal. .
  • the sound component extraction unit 104 compares the first acoustic signal and the second acoustic signal, and considers the sign of the difference signal from the first frequency signal. Subtract the second frequency signal.
  • first Frequency signal ⁇ ( ⁇ 1) ⁇ second frequency signal a signal obtained by inverting the sign of the second frequency signal from the first frequency signal on the complex spectrum is subtracted (first Frequency signal ⁇ ( ⁇ 1) ⁇ second frequency signal).
  • the second frequency signal can be subtracted from the first frequency signal on the complex spectrum.
  • the sound component extraction unit 104 performs the subtraction considering the sign while paying attention only to the magnitudes of the first acoustic signal and the second acoustic signal. And the phase of the second acoustic signal may be taken into account.
  • the sound component extraction unit 104 subtracts the second frequency signal from the first frequency signal as it is.
  • the sound component extraction unit 104 determines that “the first frequency signal ⁇ (the magnitude of the first frequency signal). (The size of the second frequency signal) ⁇ the second frequency signal). Thereby, the second frequency signal whose phase is inverted is not erroneously added to the first frequency signal.
  • the sound component extraction unit 104 can generate a separated acoustic signal with a more accurate phase of the frequency signal.
  • the phase of the frequency signal may not necessarily be calculated accurately.
  • the phases of the extracted sounds may interfere with each other, and an auditory effect may occur, such as a high frequency attenuation.
  • the above method of subtracting the second frequency signal from the first frequency signal on the complex spectrum is useful because it can reduce phase interference between the extracted sounds.
  • FIG. 7 is a diagram illustrating a specific example of the first acoustic signal and the second acoustic signal.
  • the first acoustic signal shown in FIG. 7A and the second acoustic signal shown in FIG. 7B are both 1 kHz sine waves, and the phase of the first acoustic signal The phase of the second acoustic signal is in phase.
  • the first acoustic signal has a sound volume that decreases with time
  • the second acoustic signal passes over time. Along with it, the loudness of the sound increases.
  • the listener is located in front of the area c and listens to the sound based on the first acoustic signal output from the first position and the sound based on the second acoustic signal output from the second position. Shall.
  • FIG. 7 shows the relationship between the sound frequency (vertical axis) and time (horizontal axis).
  • the brightness of the color represents the loudness of the sound, and the brighter the color, the greater the value.
  • FIG. 7 since a 1 kHz sine wave is used, in the upper part of FIG. 7, light and dark colors appear only in the portion corresponding to 1 kHz, and the other portions are black.
  • the lower part of FIG. 7 is a graph in which the color contrast in the upper part of FIG. 7 is clarified, and the relationship between the sound volume (vertical axis) and time (time) of the sound signal in the frequency band of 1 kHz. The graph which shows is shown.
  • the loudness of the first acoustic signal is much larger than the loudness of the second acoustic signal. For this reason, in the time zone described as the region a, the 1 kHz sound is greatly biased toward the first position and is localized in the region a.
  • the loudness of the first acoustic signal is larger than the loudness of the second acoustic signal. For this reason, in the time zone described as the area
  • the loudness of the first acoustic signal is smaller than the loudness of the second acoustic signal. For this reason, in the time zone described as the area
  • the volume of the sound of the first acoustic signal is extremely smaller than the volume of the sound of the second acoustic signal. For this reason, in the time zone described as the region a, the 1 kHz sound is greatly biased toward the second position and is localized in the region e.
  • FIG. 8 to 12 are diagrams showing results when the sound separation device 100 is operated using the acoustic signal shown in FIG. 8 to 12 are the same as those shown in FIG. 7, and thus the description thereof is omitted here.
  • FIG. 8 shows the sound (a) of the third acoustic signal, the sound (b) of the difference signal, and the extracted sound (c) when the sound separation device 100 extracts the sound component localized in the region a. Has been.
  • the acoustic signal generation unit 102 uses the first acoustic signal as it is as the third acoustic signal.
  • the third acoustic signal in this case is shown as (a) in FIG.
  • the difference signal generation unit 103 determines a coefficient value so that the second weighting coefficient ⁇ is extremely larger than the first weighting coefficient ⁇ ,
  • the difference signal is generated by subtracting the signal obtained by multiplying the second acoustic signal by the second weighting factor ⁇ from the signal obtained by multiplying the first acoustic signal by the first weighting factor ⁇ .
  • the first weighting coefficient ⁇ is a value (substantially zero) that is extremely smaller than 1.0
  • the second weighting coefficient ⁇ is 1.0.
  • the difference signal in this case is shown as (b) in FIG.
  • the sound of the separated acoustic signal generated by the sound component extraction unit 104 from the third acoustic signal and the difference signal as described above is the extracted sound shown in (c) of FIG.
  • the loudness of the extracted sound shown in (c) of FIG. 8 is the largest in the time zone described as region a. That is, the sound separation device 100 can extract the sound component localized in the region a as the extracted sound. As described above, when the magnitude of the frequency signal subtracted by the sound component extraction unit 104 becomes a negative value, the magnitude of the subtracted frequency signal is handled as almost zero.
  • FIG. 9 shows the sound (a) of the third acoustic signal, the sound (b) of the difference signal, and the extracted sound (c) when the sound separation device 100 extracts the sound component localized in the region b. Has been.
  • the acoustic signal generation unit 102 uses the first acoustic signal as it is as the third acoustic signal.
  • the third acoustic signal in this case is shown as (a) in FIG.
  • the difference signal generation unit 103 determines a value of the coefficient so that the second weighting coefficient ⁇ is larger than the first weighting coefficient ⁇
  • a difference signal is generated by subtracting a signal obtained by multiplying the second acoustic signal by the second weighting factor ⁇ from a signal obtained by multiplying the acoustic signal by the first weighting factor ⁇ .
  • the first weighting factor ⁇ is 1.0
  • the second weighting factor ⁇ is 2.0.
  • the difference signal in this case is shown as (b) in FIG.
  • the sound of the separated acoustic signal generated by the sound component extraction unit 104 from the third acoustic signal and the difference signal as described above is the extracted sound shown in FIG.
  • the loudness of the extracted sound shown in (c) of FIG. 9 is the largest in the time zone described as region b. That is, the sound separation device 100 can extract the sound component localized in the region b as the extracted sound. As described above, when the magnitude of the frequency signal subtracted by the sound component extraction unit 104 becomes a negative value, the magnitude of the subtracted frequency signal is handled as almost zero.
  • the acoustic signal generation unit 102 uses the sum of the first acoustic signal and the second acoustic signal as the third acoustic signal.
  • the third acoustic signal in this case is shown as (a) in FIG.
  • the difference signal generation unit 103 determines the value of the coefficient so that the first weight coefficient ⁇ and the second weight coefficient ⁇ are equal, A difference signal is generated by subtracting a signal obtained by multiplying the second acoustic signal by the second weighting factor ⁇ from a signal obtained by multiplying the acoustic signal by the first weighting factor ⁇ .
  • the first weighting factor ⁇ is 1.0
  • the second weighting factor ⁇ is 1.0.
  • the difference signal in this case is shown as (b) in FIG.
  • the sound of the separated acoustic signal generated by the sound component extraction unit 104 from the third acoustic signal and the difference signal as described above is the extracted sound shown in (c) of FIG.
  • the magnitude of the extracted sound shown in (c) of FIG. 10 is the largest in the time zone described as region c. That is, the sound separation device 100 can extract the sound component localized in the region c as the extracted sound. As described above, when the magnitude of the frequency signal subtracted by the sound component extraction unit 104 becomes a negative value, the magnitude of the subtracted frequency signal is handled as almost zero.
  • the acoustic signal generation unit 102 uses the second acoustic signal as it is as the third acoustic signal.
  • the third acoustic signal in this case is shown as (a) in FIG.
  • the difference signal generation unit 103 determines the coefficient value so that the second weighting factor ⁇ is smaller than the first weighting factor ⁇ , A difference signal is generated by subtracting a signal obtained by multiplying the second acoustic signal by the second weighting factor ⁇ from a signal obtained by multiplying the acoustic signal by the first weighting factor ⁇ .
  • the first weighting factor ⁇ is 2.0
  • the second weighting factor ⁇ is 1.0.
  • the difference signal in this case is shown as (b) in FIG.
  • the sound of the separated acoustic signal generated by the sound component extraction unit 104 from the third acoustic signal and the difference signal as described above is the extracted sound shown in (c) of FIG.
  • the magnitude of the extracted sound shown in (c) of FIG. 11 is the largest in the time zone described as the region d. That is, the sound separation device 100 can extract the sound component localized in the region d as the extracted sound. As described above, when the magnitude of the frequency signal subtracted by the sound component extraction unit 104 becomes a negative value, the magnitude of the subtracted frequency signal is handled as almost zero.
  • the acoustic signal generation unit 102 uses the second acoustic signal as it is as the third acoustic signal.
  • the third acoustic signal in this case is shown as (a) in FIG.
  • the difference signal generation unit 103 determines a coefficient value so that the second weighting factor ⁇ is extremely smaller than the first weighting factor ⁇
  • the difference signal is generated by subtracting the signal obtained by multiplying the second acoustic signal by the second weighting factor ⁇ from the signal obtained by multiplying the first acoustic signal by the first weighting factor ⁇ .
  • the first weighting factor ⁇ is 1.0
  • the second weighting factor ⁇ is a value (substantially zero) that is extremely smaller than 1.0.
  • the difference signal in this case is shown as (b) in FIG.
  • the sound of the separated acoustic signal generated by the sound component extraction unit 104 from the third acoustic signal and the difference signal as described above is the extracted sound shown in (c) of FIG.
  • the magnitude of the extracted sound shown in (c) of FIG. 12 is the largest in the time zone described as region e. That is, the sound separation device 100 can extract the sound component localized in the region e as the extracted sound. As described above, when the magnitude of the frequency signal subtracted by the sound component extraction unit 104 becomes a negative value, the magnitude of the subtracted frequency signal is handled as almost zero.
  • FIG. 13 is a conceptual diagram showing a specific example of the localization position of the sound to be extracted.
  • FIGS. 14 to 16 show the relationship between the frequency (vertical axis) and time (horizontal axis) of the three sounds.
  • the brightness of the color represents the loudness of the sound, and the brighter the color, the greater the value.
  • FIG. 14 shows the sound (a) of the third acoustic signal, the sound (b) of the difference signal, and the extracted sound (c) in the case where the vocal sound component localized in the region c is extracted. .
  • the acoustic signal generation unit 102 calculates the sum of the first acoustic signal and the second acoustic signal including the sound component localized in the region c as the third acoustic signal. Used as a signal.
  • the third acoustic signal in this case is shown as (a) in FIG.
  • the difference signal generation unit 103 determines a coefficient value so that the first weighting coefficient ⁇ and the second weighting coefficient ⁇ are equal, and generates a difference signal. Specifically, the first weighting factor ⁇ is 1.0, and the second weighting factor ⁇ is 1.0.
  • the difference signal in this case is shown as (b) in FIG.
  • FIG. 14 shows an extracted sound, and the extracted sound is a sound from which a vocal sound component localized in the region c is extracted.
  • the third acoustic signal shown in FIG. 14A is compared with the extracted sound, it can be seen that the SN ratio of the vocal sound component is improved.
  • FIG. 15 shows the third acoustic signal, the difference signal, and the extracted sound (c) when the sound component of the castanets localized in the region b is extracted.
  • the acoustic signal generation unit 102 uses the first acoustic signal including the sound component localized in the region b as it is as the third acoustic signal.
  • the third acoustic signal in this case is shown as (a) in FIG.
  • the difference signal generation unit 103 determines a coefficient value so that the second weighting coefficient ⁇ is larger than the first weighting coefficient ⁇ , and generates a difference signal.
  • the first weighting factor ⁇ is 1.0
  • the second weighting factor ⁇ is 2.0.
  • the difference signal in this case is shown as (b) in FIG.
  • FIG. 15 shows an extracted sound, and the extracted sound is a sound from which a sound component of castanets localized in the region b is extracted.
  • the third acoustic signal shown in FIG. 15A is compared with the extracted sound, it can be seen that the SN ratio of the sound component of the castanets is improved.
  • FIG. 16 shows the sound (a) of the third acoustic signal, the sound (b) of the difference signal, and the extracted sound (c) when the sound component of the piano localized in the region e is extracted.
  • the acoustic signal generation unit 102 uses the second acoustic signal including the sound component localized in the region e as it is as the third acoustic signal.
  • the third acoustic signal in this case is shown as (a) in FIG.
  • the difference signal generation unit 103 determines a coefficient value so that the second weighting coefficient ⁇ is extremely smaller than the first weighting coefficient ⁇ , and generates a difference signal.
  • the first weighting factor ⁇ is 1.0
  • the second weighting factor ⁇ is a value (substantially zero) that is extremely smaller than 1.0.
  • FIG. 16 shows the extracted sound, and the extracted sound is a sound from which the sound component of the piano localized in the region e is extracted.
  • the third acoustic signal shown in FIG. 16A is compared with the extracted sound, it can be seen that the SN ratio of the sound component of the piano is improved.
  • the first acoustic signal and the second acoustic signal are typically an L signal and an R signal that constitute a stereo signal.
  • FIG. 17 is a schematic diagram showing a case where the first acoustic signal is an L signal of a stereo signal and the second acoustic signal is an R signal of a stereo signal.
  • the sound separation device 100 uses the stereo signal to output an L signal sound (position where an L channel speaker is arranged) and an R signal sound output position (R channel).
  • the sound to be extracted that is localized between the speaker and the position where the speaker is placed is extracted.
  • the signal acquisition unit 101 acquires the L signal and the R signal, which are the stereo signals, and the acoustic signal generation unit 102 multiplies the L signal by the first coefficient ⁇ as the third acoustic signal.
  • An acoustic signal ( ⁇ L + ⁇ R) is generated by adding the signal and a signal obtained by multiplying the R signal by the second coefficient ⁇ ( ⁇ and ⁇ are real numbers of 0 or more).
  • the first acoustic signal and the second acoustic signal are not limited to the L signal and the R signal constituting the stereo signal.
  • the first acoustic signal and the second acoustic signal may be any two different acoustic signals selected from 5.1 channel (hereinafter referred to as 5.1ch) acoustic signals.
  • the first acoustic signal is an L signal (front left signal) of a 5.1ch acoustic signal
  • the second acoustic signal is a C signal (front center side signal) of a 5.1ch acoustic signal. It is a schematic diagram which shows the case where it is.
  • the acoustic signal generation unit 102 adds the signal obtained by multiplying the L signal by the first coefficient ⁇ as the third acoustic signal and the signal obtained by multiplying the C signal by the second coefficient ⁇ .
  • a signal ( ⁇ L + ⁇ C) is generated ( ⁇ and ⁇ are real numbers of 0 or more). Then, the sound separation device 100 performs extraction that is localized between the position where the sound of the L signal is output and the position where the sound of the C signal is output by the L signal and the C signal which are 5.1ch acoustic signals. Extract the target sound component.
  • FIG. 19 shows a case where the first acoustic signal is the L signal of the 5.1ch acoustic signal and the second acoustic signal is the R signal (front right signal) of the 5.1ch acoustic signal. It is a schematic diagram.
  • the sound separation device 100 outputs the position of the sound of the L signal and the sound of the R signal by the L signal, the C signal, and the R signal which are 5.1ch acoustic signals.
  • a sound component to be extracted that is localized between positions is extracted.
  • the signal acquisition unit 101 acquires at least the L signal, the C signal, and the R signal of the 5.1ch acoustic signal.
  • the acoustic signal generation unit 102 applies a signal obtained by multiplying the L signal by the first coefficient ⁇ , a signal obtained by multiplying the R signal by the second coefficient ⁇ , and a third coefficient ⁇ to the C signal.
  • An acoustic signal ( ⁇ L + ⁇ R + ⁇ C) obtained by adding the multiplied signals is generated ( ⁇ , ⁇ , and ⁇ are real numbers of 0 or more).
  • the third acoustic signal is the C signal itself.
  • the third acoustic signal is a signal obtained by adding the L signal, the R signal, and the C signal.
  • the sound separation device 100 uses the first acoustic signal and the second acoustic signal to extract the acoustic signal (separated acoustic signal) of the sound to be extracted that is localized at a predetermined position. It can be generated with high accuracy. That is, the sound separation device 100 can extract the extraction target sound according to the sound localization position.
  • the sound source (separated acoustic signal) of each sound extracted by the sound separation device 100 is reproduced from a speaker or the like arranged at a corresponding position or direction, so that the user (listener) can enjoy a three-dimensional acoustic space. Can do.
  • the user uses the sound separation device 100 to extract vocal sounds and instrument sounds such as those recorded in a studio with an on-microphone from package media, downloaded music content, and the like, and only the extracted vocal sounds and instrument sounds are extracted. You can enjoy listening.
  • the user can use the sound separation device 100 to extract speech such as speech from package media or broadcast movie content.
  • the user can hear the speech such as speech clearly by emphasizing and reproducing the extracted speech such as speech.
  • the user can extract the sound to be extracted from the news voice using the sound separation device 100.
  • the user can hear the news sound in which the sound to be extracted is clear.
  • the user can edit the recorded sound by extracting the sound recorded by the digital still camera or the digital video camera for each localization position using the sound separation device 100.
  • the user can emphasize and listen to the sound component he wants to hear.
  • the user uses the sound separation device 100 to extract sound components that are localized at arbitrary positions between channels with respect to a sound source recorded in 5.1ch, 7.1ch, 22.2ch, or the like. Then, an acoustic signal corresponding to this can be generated. Therefore, the user can generate an acoustic signal component suitable for the position of the speaker.
  • the extracted sound extracted by the sound separation device 100 may have a narrow localization range, and when a separated acoustic signal of a plurality of extracted sounds with a narrow localization range is reproduced, the sound is not localized in the listener's listening space. Space may be generated.
  • the sound correction unit is characterized in that the extracted sounds are connected spatially and smoothly so that such a space where the sound is not localized is generated.
  • FIG. 20 is a functional block diagram showing the configuration of the sound separation device 300 according to the second embodiment.
  • the sound separation device 300 includes a signal acquisition unit 101, an acoustic signal generation unit 102, a difference signal generation unit 103, a sound component extraction unit 104, and a sound correction unit 301.
  • the sound separation device 300 is different from the sound separation device 100 in that it includes a sound correction unit 301.
  • another component since it is the same function and operation
  • the sound correction unit 301 adds a sound component localized around the localization position to the separated acoustic signal generated by the sound component extraction unit 104.
  • 21 and 22 are flowcharts showing the operation of the sound separation device 300.
  • step S401 is obtained by adding step S401 to the flowchart of FIG.
  • the flowchart shown in FIG. 22 is obtained by adding step S401 to the flowchart of FIG.
  • step S401 that is, the operation of the sound correction unit 301 will be described with reference to the drawings.
  • FIG. 23 is a conceptual diagram showing the localization position of the extracted sound.
  • the extracted sound a is a sound that is localized on the first acoustic signal side
  • the extracted sound b is on the first acoustic signal side and the second acoustic signal side. It is assumed that the extracted sound c is a sound localized at the center of the second acoustic signal.
  • FIG. 24 is a diagram schematically showing the localization range (sound pressure distribution) of the extracted sound.
  • the vertical direction (vertical axis) in the figure indicates the magnitude of the extracted sound pressure
  • the horizontal direction (horizontal axis) in the figure indicates the localization position and localization range.
  • the sound correction unit 301 applies to each of the extracted sounds a to c a sound component (localized around the localization position according to the extracted sounds a to c localization positions ( (Corrected acoustic signal) is added.
  • the sound correction unit 301 has a first acoustic signal and a second acoustic signal in which sound components localized around the localization position of the extracted sound are determined according to the localization position of the extraction sound. And the weighted sum.
  • the sound correction unit 301 firstly includes a third coefficient that increases as the distance from the localization position of the extracted sound to the first position decreases, and the position from the localization position of the extracted sound to the second position. A fourth coefficient whose value increases as the distance decreases is determined. Then, the sound correction unit 301 adds a signal obtained by multiplying the first acoustic signal by the third coefficient and a signal obtained by multiplying the second acoustic signal by the fourth coefficient to the separated acoustic signal representing the extracted sound.
  • the corrected acoustic signal may be generated according to the localization position of the extracted sound using at least one acoustic signal among the plurality of acoustic signals acquired by the signal acquisition unit 101.
  • the corrected acoustic signal may be generated by applying a panning technique and using a weighted sum of a plurality of acoustic signals acquired by the signal acquisition unit 101.
  • the corrected sound signal of the extracted sound localized at the center of the position of the L signal, the position of the C signal, and the position of the R signal is the L signal, the C signal, the R signal, and the SL signal.
  • the weighted sum of the SR signals is the L signal, the C signal, the R signal, and the SL signal.
  • the corrected acoustic signal of the extracted sound that is localized at the center of the position of the L signal, the position of the C signal, and the position of the R signal may be generated from C.
  • the corrected sound signal of the extracted sound localized at the center of the position of the L signal, the position of the C signal, and the position of the R signal is the weighted sum of the L signal and the R signal. May be generated.
  • the corrected sound signal of the extracted sound localized at the center of the position of the L signal, the position of the C signal, and the position of the R signal is the C signal, the SL signal, and the SR signal. May be generated by the weighted sum of.
  • any method may be used as long as it is a method in which the influence of sounds around the extracted sound is added to the extracted sound and the sound is connected spatially and smoothly.
  • the sound separation device 300 can connect the extracted sounds spatially and smoothly so as not to generate a space where the sound is not localized.
  • Embodiments 1 and 2 have been described as examples of the technology disclosed in the present application. However, the technology in the present disclosure is not limited to this, and can also be applied to an embodiment in which changes, replacements, additions, omissions, and the like are appropriately performed. Moreover, it is also possible to combine each component demonstrated in the said Embodiment 1 and 2 into a new embodiment.
  • part or all of the sound separation device described in Embodiments 1 and 2 may be realized by a circuit using dedicated hardware, or may be realized as a program executed by a processor. That is, the following cases are also included in the present invention.
  • each of the above devices can be realized by a computer system including a microprocessor, a ROM, a RAM, a hard disk unit, a display unit, a keyboard, a mouse, and the like.
  • a computer program is stored in the RAM or the hard disk unit.
  • Each device achieves its functions by the microprocessor operating according to the computer program.
  • the computer program is configured by combining a plurality of instruction codes indicating instructions for the computer in order to achieve a predetermined function.
  • a part or all of the components constituting each of the above devices may be configured by one system LSI (Large Scale Integration).
  • the system LSI is an ultra-multifunctional LSI manufactured by integrating a plurality of components on a single chip, and specifically, a computer system including a microprocessor, ROM, RAM, and the like. .
  • a computer program is stored in the ROM.
  • the system LSI achieves its functions by the microprocessor loading a computer program from the ROM to the RAM and performing operations such as operations in accordance with the loaded computer program.
  • Part or all of the constituent elements constituting each of the above devices may be configured from an IC card or a single module that can be attached to and detached from each device.
  • the IC card or module is a computer system that includes a microprocessor, ROM, RAM, and the like.
  • the IC card or the module may include the super multifunctional LSI described above.
  • the IC card or the module achieves its functions by the microprocessor operating according to the computer program. This IC card or this module may have tamper resistance.
  • the present disclosure may be realized by the method described above. Further, these methods may be realized by a computer program realized by a computer, or may be realized by a digital signal consisting of a computer program.
  • the present disclosure also discloses a computer program or a recording medium capable of reading a digital signal such as a flexible disk, a hard disk, a CD-ROM, an MO, a DVD, a DVD-ROM, a DVD-RAM, a BD (Blu-ray Disc), You may implement
  • a computer program or a digital signal may be transmitted via an electric communication line, a wireless or wired communication line, a network represented by the Internet, a data broadcast, or the like.
  • the present disclosure is a computer system including a microprocessor and a memory.
  • the memory stores a computer program, and the microprocessor may operate according to the computer program.
  • program or digital signal may be recorded on a recording medium and transferred, or the program or digital signal may be transferred via a network or the like, and may be implemented by another independent computer system.
  • the sound separation device can accurately generate a sound signal of a sound localized between reproduction positions corresponding to the two sound signals by using the two sound signals.
  • the present invention can be applied to network audio devices, portable audio devices, disc players and recorders such as Blu-ray, DVD, and hard disk, televisions, digital still cameras, digital video cameras, portable terminal devices, personal computers, and the like.

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Stereophonic System (AREA)

Abstract

 第1の位置から出力される音を表す第1の音響信号と、第2の位置から出力される音を表す第2の音響信号とを含む複数の音響信号を取得する信号取得部(101)と、第1の音響信号と、第2の音響信号との時間領域における差分を表す信号である差信号を生成する差信号生成部(103)と、複数の音響信号のうちの少なくとも一の音響信号を用いて、第1の位置と第2の位置との間の所定の位置に定位する音の成分が含まれる第3の音響信号を生成する音響信号生成部(102)と、第3の音響信号を周波数領域に変換した信号から、差信号を周波数領域に変換した信号を減算した周波数信号を生成し、生成した周波数信号を時間領域に変換することによって所定の位置に定位する音を出力するための音響信号である分離音響信号を生成する抽出部(104)とを備える。

Description

音分離装置、および音分離方法
 本開示は、2つの音響信号を用いて、当該2つの音響信号にそれぞれに対応する再生位置の間に定位する音の音響信号を生成する音分離装置および音分離方法に関する。
 従来、2チャンネルの音響信号(オーディオ信号)であるL信号とR信号とを用いて、縮尺率+1/2でL信号およびR信号を線形結合する、いわゆる(1/2*(L+R))技術が知られている。このような技術を用いることで、L信号が再生される再生位置と、R信号が再生される再生位置との間の中央付近に定位する音の音響信号を求めることができる(例えば、特許文献1参照)。
 また、2チャンネルの音響信号を用いて、周波数帯域ごとに、チャンネル間の振幅比と位相差とからオーディオ信号同士の類似度を求めることによって、類似度が低い周波数帯域の信号に小さな減衰係数を乗算して再合成する技術が知られている。このような技術を用いることで、L信号を再生する再生位置と、R信号を再生する再生位置との間の中央付近に定位する音の音響信号を求めることができる(例えば、特許文献2参照)。
 上記の技術では、2チャンネルの音響信号それぞれに対応する再生位置の中央付近に定位する音を強調した音響信号を生成することができる。
特表2003-516069号公報 特開2002-78100号公報
 本開示は、2つの音響信号を用いて、当該2つの音響信号にそれぞれに対応する再生位置の間に定位する音の音響信号を精度よく生成する音分離装置および音分離方法を提供する。
 本開示の音分離装置は、第1の位置から出力される音を表す第1の音響信号と、第2の位置から出力される音を表す第2の音響信号とを含む複数の音響信号を取得する信号取得部と、前記第1の音響信号と、前記第2の音響信号との時間領域における差分を表す信号である差信号を生成する差信号生成部と、前記複数の音響信号のうちの少なくとも一の音響信号を用いて、前記第1の位置から出力される音および前記第2の位置から出力される音によって前記第1の位置と前記第2の位置との間の所定の位置に定位する音の成分が含まれる第3の音響信号を生成する音響信号生成部と、前記第3の音響信号を周波数領域に変換した第1の周波数信号から、前記差信号を周波数領域に変換した第2の周波数信号を減算した第3の周波数信号を生成し、生成した前記第3の周波数信号を時間領域に変換することによって前記所定の位置に定位する音を出力するための音響信号である分離音響信号を生成する抽出部とを備える。
 なお、本開示は、音分離装置として実現できるだけでなく、音分離方法として実現したり、その方法を記述したプログラムとして実現したり、そのプログラムを記録したコンピュータ読み取り可能なCD-ROM(Compact Disc Read Only Memory)等の記録媒体としても実現することができる。
 本開示の音分離装置等によれば、2つの音響信号を用いて、当該2つの音響信号にそれぞれ対応する再生位置の間に定位する音の音響信号を精度よく生成することができる。
図1は、実施の形態1に係る音分離装置と周辺装置との構成の一例を示す図である。 図2は、実施の形態1に係る音分離装置の構成を示す機能ブロック図である。 図3は、実施の形態1に係る音分離装置の動作を示すフローチャートである。 図4は、実施の形態1に係る音分離装置の動作を示す別のフローチャートである。 図5は、抽出対象の音の定位位置を示す概念図である。 図6は、重み係数の絶対値の大きさと抽出音の定位範囲との関係を示す模式図である。 図7は、第1の音響信号および第2の音響信号の具体例を示す図である。 図8は、領域aに定位する音成分を抽出した場合の結果を示す図である。 図9は、領域bに定位する音成分を抽出した場合の結果を示す図である。 図10は、領域cに定位する音成分を抽出した場合の結果を示す図である。 図11は、領域dに定位する音成分を抽出した場合の結果を示す図である。 図12は、領域eに定位する音成分を抽出した場合の結果を示す図である。 図13は、抽出対象の音の定位位置の具体例を示す概念図である。 図14は、領域cに定位するボーカルの音成分を抽出した場合の結果を示す図である。 図15は、領域bに定位するカスタネットの音成分を抽出した場合の結果を示す図である。 図16は、領域eに定位するピアノの音成分を抽出した場合の結果を示す図である。 図17は、第1の音響信号がステレオ信号のL信号であり、第2の音響信号が、ステレオ信号のR信号である場合を示す模式図である。 図18は、第1の音響信号が5.1chの音響信号のL信号であり、第2の音響信号が5.1chの音響信号のC信号である場合を示す模式図である。 図19は、第1の音響信号が5.1chの音響信号のL信号であり、第2の音響信号が5.1chの音響信号のR信号である場合を示す模式図である。 図20は、実施の形態2に係る音分離装置の構成を示す機能ブロック図である。 図21は、実施の形態2に係る音分離装置の動作を示すフローチャートである。 図22は、実施の形態2に係る音分離装置の動作を示す別のフローチャートである。 図23は、抽出音の定位位置を示す概念図である。 図24は、抽出音の定位範囲を模式的に示した図である。
 (本開示の基礎となった知見)
 背景技術で説明したように、特許文献1および特許文献2には、2チャンネルの音響信号それぞれの再生位置の間に定位する音を強調した音響信号を生成する技術が開示されている。
 特許文献1と同様の技術思想に基づく方法では、生成された音響信号には、L信号側の位置に定位する音成分とR信号側の位置に定位する音成分とが含まれる。このため、中央に定位する音成分を、L信号側に定位する音成分とR信号側に定位する音成分とから精度よく抽出できないという課題があった。
 また、特許文献2と同様の技術思想に基づく方法では、複数の方向に定位する音成分が混合するような場合、振幅比や位相差も複数の音成分が混合した値となる。したがって、中央に定位する音成分の類似度が低くなる。このため、中央に定位する音成分を、中央とは異なる方向に定位する音成分から精度よく抽出できないという課題があった。
 このように、上記従来の技術思想に基づく方法では、複数の音響信号に含まれる音成分から、特定の位置に定位する音成分を精度よく抽出できないという課題があった。
 上記の課題を解決するために、本開示の一態様に係る音分離装置は、第1の位置から出力される音を表す第1の音響信号と、第2の位置から出力される音を表す第2の音響信号とを含む複数の音響信号を取得する信号取得部と、前記第1の音響信号と、前記第2の音響信号との時間領域における差分を表す信号である差信号を生成する差信号生成部と、前記複数の音響信号のうちの少なくとも一の音響信号を用いて、前記第1の位置から出力される音および前記第2の位置から出力される音によって前記第1の位置と前記第2の位置との間の所定の位置に定位する音の成分が含まれる第3の音響信号を生成する音響信号生成部と、前記第3の音響信号を周波数領域に変換した第1の周波数信号から、前記差信号を周波数領域に変換した第2の周波数信号を減算した第3の周波数信号を生成し、生成した前記第3の周波数信号を時間領域に変換することによって前記所定の位置に定位する音を出力するための音響信号である分離音響信号を生成する抽出部とを備える。
 このように、第3の音響信号から、差信号を周波数領域において減算することで、所定の位置に定位する音の音響信号である分離音響信号を精度よく生成することができる。
 また、例えば、前記音響信号生成部は、前記所定の位置から前記第1の位置までの距離が、前記所定の位置から前記第2の位置までの距離よりも小さい場合に、前記第1の音響信号を前記第3の音響信号として用いてもよい。
 これにより、所定の位置からの距離が大きい第2の音響信号の音成分が少ない第3の音響信号がされるため、分離音響信号をより精度よく生成することができる。
 また、例えば、前記音響信号生成部は、前記所定の位置から前記第2の位置までの距離が、前記所定の位置から前記第1の位置までの距離よりも小さい場合に、前記第2の音響信号を前記第3の音響信号として用いてもよい。
 これにより、所定の位置からの距離が大きい第1の音響信号の音成分が少ない第3の音響信号がされるため、分離音響信号をより精度よく生成することができる。
 また、例えば、前記音響信号生成部は、前記所定の位置から前記第1の位置までの距離が小さいほど、値が大きくなる第1係数と、前記所定の位置から前記第2の位置までの距離が小さいほど値が大きくなる第2係数とを決定し、前記第1の音響信号に前記第1係数を乗算した信号と、前記第2の音響信号に前記第2係数を乗算した信号とを加算することによって前記第3の音響信号を生成してもよい。
 これにより、所定の位置に応じた第3の音響信号が生成されるため、分離音響信号をより精度よく生成することができる。
 また、例えば、前記差信号生成部は、前記第1の音響信号に第1の重み係数を乗算した信号と、前記第2の音響信号に第2の重み係数を乗算した信号との時間領域における差分である前記差信号を生成し、前記第2の重み係数を前記第1の重み係数によって除算した値が、前記第1の位置から前記所定の位置までの距離が小さいほど、大きくなるように、前記第1の重み係数と前記第2の重み係数とを決定してもよい。
 このようにすれば、第1の重み係数と第2の重み係数とを用いて、所定の位置に応じた分離音響信号を精度よく生成することができる。
 また、例えば、前記差信号生成部が決定した前記第1の重み係数および前記第2の重み係数の絶対値が小さいほど、前記分離音響信号によって出力される音の定位範囲は、大きくなり、前記差信号生成部が決定した前記第1の重み係数および前記第2の重み係数の絶対値が大きいほど、前記分離音響信号によって出力される音の定位範囲は、小さくなってもよい。
 すなわち、第1の重み係数の絶対値と第2の重み係数の絶対値とにより、分離音響信号により出力される音の定位範囲を調整することができる。
 また、例えば、前記抽出部は、前記第1の周波数信号の大きさから、前記第2の周波数信号の大きさを減算することで周波数ごとに得られる減算値を用いて、前記第3の周波数信号を生成し、前記減算値が負の値である場合、当該減算値は、所定の正の値に置き換えられてもよい。
 また、例えば、さらに、前記複数の音響信号のうちの少なくとも一の前記音響信号を用いることによって前記所定の位置に応じて前記分離音響信号を補正するための補正音響信号を生成し、前記補正音響信号を前記分離音響信号に加算する音補正部を備えてもよい。
 また、例えば、前記音補正部は、前記所定の位置から前記第1の位置までの距離が小さいほど、値が大きくなる第3係数と、前記所定の位置から前記第2の位置までの距離が小さいほど値が大きくなる第4係数とを決定し、前記第1の音響信号に前記第3係数を乗算した信号と、前記第2の音響信号に前記第4係数を乗算した信号とを加算することによって前記補正音響信号を生成してもよい。
 これにより、分離音響信号に所定の位置の周辺に定位する音成分(補正音響信号)を加算して補正することで、音が定位しない空間が発生しないように分離音響信号によって出力される音同士を空間的に滑らかにつなぐことができる。
 また、例えば、前記第1の音響信号と前記第2の音響信号とは、ステレオ信号を構成してもよい。
 また、本開示の一態様に係る音分離方法は、第1の位置から出力される音を表す第1の音響信号と、第2の位置から出力される音を表す第2の音響信号とを含む複数の音響信号を取得する信号取得ステップと、前記第1の音響信号と、前記第2の音響信号との時間領域における差分を表す信号である差信号を生成する差信号生成ステップと、前記複数の音響信号のうちの少なくとも一の音響信号を用いて、前記第1の位置から出力される音および前記第2の位置から出力される音によって前記第1の位置と前記第2の位置との間の所定の位置に定位する音の成分が含まれる、第3の音響信号を生成する音響信号生成ステップと、前記第3の音響信号を周波数領域に変換した第1の周波数信号から、前記差信号を周波数領域に変換した第2の周波数信号を減算した第3の周波数信号を生成し、生成した前記第3の周波数信号を時間領域に変換することによって前記所定の位置に定位する音を出力するための音響信号である分離音響信号を生成する抽出ステップとを含む。
 なお、これらの包括的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なCD-ROMなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラムおよび記録媒体の任意な組み合わせで実現されてもよい。
 以下、本開示に係る音分離装置の実施の形態について、図面を用いて詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。
 なお、発明者らは、当業者が本開示を十分に理解するために添付図面および以下の説明を提供するのであって、これらによって請求の範囲に記載の主題を限定することを意図するものではない。
 (実施の形態1)
 まず、本実施の形態に係る音分離装置の適用例について説明する。
 図1は、本実施の形態に係る音分離装置と周辺装置との構成の一例を示す図である。
 本実施の形態に係る音分離装置(一例として、実施の形態1に係る音分離装置100)は、例えば、図1の(a)に示されるように、音再生装置の一部として実現される。
 音分離装置100は、取得した音響信号を用いて抽出対象の音成分を抽出し、抽出した音成分(抽出音)を表す音響信号である分離音響信号を生成する。音分離装置100が組み込まれている音再生装置150の再生系を用いて上記分離音響信号が再生されることによって、抽出音は出力される。
 この場合、音再生装置150は、例えば、携帯型オーディオ装置等のスピーカが内蔵されたオーディオ装置、ミニコンポーネント、AVセンターアンプ等のスピーカが接続されたオーディオ装置、テレビ、デジタルスチルカメラ、デジタルビデオカメラ、携帯端末装置、パーソナルコンピュータ、TV会議システム、スピーカ、スピーカシステム等である。
 また、音分離装置100は、例えば、図1の(b)に示されるように、音分離装置100は、取得した音響信号を用いて抽出対象の音成分を抽出し、抽出した音成分を表す分離音響信号を生成する。音分離装置100は、上記分離音響信号を音分離装置100とは別体の音再生装置150に送信する。音再生装置150の再生系を用いて分離音響信号が再生されることによって、抽出音は出力される。
 この場合、音分離装置100は、例えば、ネットワークオーディオ等のサーバおよび中継器、携帯型オーディオ装置、ミニコンポーネント、AVセンターアンプ、テレビ、デジタルスチルカメラ、デジタルビデオカメラ、携帯端末装置、パーソナルコンピュータ、TV会議システム、スピーカ、スピーカシステム等として実現される。
 また、音分離装置100は、例えば、図1の(c)に示されるように、音分離装置100は、取得した音響信号を用いて抽出対象の音成分を抽出し、抽出した音成分を表す分離音響信号を生成する。音分離装置100は、上記分離音響信号を、記憶媒体200に記憶しまたは送信する。
 記憶媒体200は、例えば、ハードディスク、ブルーレイディスクやDVD(Digital Versatile Disc)やCD(Compact Disc)等のパッケージメディア、フラッシュメモリ等が挙げられる。また、このようなハードディスクやフラッシュメモリ等の記憶媒体200は、ネットワークオーディオ等のサーバおよび中継器、携帯型オーディオ装置、ミニコンポーネント、AVセンターアンプ、テレビ、デジタルスチルカメラ、デジタルビデオカメラ、携帯端末装置、パーソナルコンピュータ、テレビ会議システム、スピーカ、スピーカシステム等に内蔵されたものであってもよい。
 上記のように、本実施の形態に係る音分離装置は、音響信号を取得し、取得した音響信号から所望の音成分を抽出する機能を有していれば、どのような構成でも構わない。
 以下、音分離装置100の具体的な構成および動作の概要について図2および図3を用いて説明する。
 図2は、実施の形態1に係る音分離装置100の構成を示す機能ブロック図である。
 図3は、音分離装置100の動作を示すフローチャートである。
 図2に示されるように、音分離装置100は、信号取得部101と、音響信号生成部102と、差信号生成部103と、音成分抽出部104とを備える。
 信号取得部101は、第1の位置に対応する音響信号である第1の音響信号と、第2の位置に対応する音響信号である第2の音響信号とを含む複数の音響信号を取得する(図3のS201)。第1の音響信号および第2の音響信号は、同一の音成分を含む。具体的には、例えば、第1の音響信号に、カスタネットの音成分と、ボーカルの音成分と、ピアノの音成分とが含まれる場合、第2の音響信号にも、カスタネットの音成分と、ボーカルの音成分と、ピアノの音成分とが含まれることを意味する。
 音響信号生成部102は、信号取得部101が取得した複数の音響信号のうちの少なくとも一の音響信号を用いて、抽出対象の音の音成分が含まれる音響信号である第3の音響信号を生成する(図3のS202)。第3の音響信号の生成方法の詳細については、後述する。
 差信号生成部103は、信号取得部101が取得した音響信号のうち、第1の音響信号と、第2の音響信号との時間領域における差分を表す信号である差信号を生成する(図3のS203)。差信号の生成方法の詳細については、後述する。
 音成分抽出部104は、第3の音響信号を周波数領域に変化した信号から、差信号を周波数領域に変換した信号を減算する。音成分抽出部104は、減算して得られた信号を時間領域に変換した音響信号である分離音響信号を生成する(図3のS204)。分離音響信号が再生されることで、第1の音響信号、および第2の音響信号によって定位する抽出対象の音が抽出音として出力される。すなわち、音成分抽出部104は、抽出対象の音を抽出することができる。
 なお、音分離装置100の動作の順序は、図3のフローチャートで示される順序に限定されない。例えば、図4に示されるように、第3の音響信号を生成するステップS202と、差信号を生成するステップS203との動作の順序は、図3のフローチャートで示される順序と逆であってもよい。また、ステップS202とステップS203とは、並行して行われてもよい。
 次に、音分離装置の各動作の詳細について説明する。
 なお、以下の説明では、一例として、音分離装置100が第1の位置に対応する第1の音響信号と第2の位置に対応する第2の音響信号の2つの音響信号を取得して、第1の位置および第2の位置の間に定位する音成分を抽出する場合について説明する。
 <音響信号の取得動作について>
 以下、信号取得部101の音響信号の取得動作の詳細について説明する。
 図1を用いて既に説明したように、信号取得部101は、例えば、インターネット等のネットワークから音響信号を取得する。また、例えば、信号取得部101は、ハードディスク、ブルーレイディスクやDVDやCD等のパッケージメディア、フラッシュメモリ等の記憶媒体から音響信号を取得する。
 また、例えば、信号取得部101は、テレビ、携帯電話、無線ネットワーク等の電波から音響信号を取得する。また、例えば、信号取得部101は、スマートフォン、オーディオレコーダー、デジタルスチルカメラ、デジタルビデオカメラ、パーソナルコンピュータ、マイクロホン等の収音部から収音された音の音響信号を取得する。
 要するに、信号取得部101は、同一の音場を表す第1の音響信号および第2の音響信号を取得できればよく、音響信号の取得経路についてはどのようなものでも構わない。
 第1の音響信号および第2の音響信号は、典型的には、ステレオ信号を構成するL信号とR信号であり、この場合の第1の位置および第2の位置は、LチャンネルおよびRチャンネルのスピーカそれぞれが配置される所定の位置である。第1の音響信号および第2の音響信号は、例えば、5.1チャンネルの音響信号のうちから選択した2チャンネルの音響信号であってもよい。この場合の第1の位置および第2の位置は、選択した2チャンネルのスピーカそれぞれが配置される所定の位置である。
 <第3の音響信号の生成動作について>
 以下、音響信号生成部102の第3の音響信号の生成動作の詳細について説明する。
 音響信号生成部102は、信号取得部101が取得した音響信号のうちの少なくとも一の音響信号を用いて、抽出対象の音が定位する位置に対応する第3の音響信号を生成する。
 以下、第3の音響信号の生成方法について具体的に説明する。
 図5は、抽出対象の音の定位位置を示す概念図である。
 本実施の形態では、抽出対象の音は、第1の位置(第1の音響信号)と第2の位置(第2の音響信号)との間の領域に定位する音である。この領域は、図5に示されるように、領域aから領域eの5つの領域に便宜的に分けられる。
 具体的には、第1の位置側に最も近い領域を「領域a」、第2の位置に最も近い領域を「領域e」、第1の位置と、第2の位置の真ん中付近の領域を「領域c」とし、領域aと領域cとの間の領域を「領域b」、領域cと領域eとの間の領域を「領域d」とする。
 本実施の形態における第3の音響信号の生成方法は、具体的に以下の3つの場合がある。
  1.第1の音響信号から第3の音響信号を生成する場合
  2.第2の音響信号から第3の音響信号を生成する場合
  3.第1の音響信号および第2の音響信号の両方を用いて第3の音響信号を生成する場合
 第1の音響信号および第2の音響信号によって表される音のうち、領域aおよび領域bに定位する音を抽出する場合、音響信号生成部102は、第3の音響信号として第1の音響信号そのものを用いる。領域aおよび領域bは、第2の位置よりも第1の位置に近い領域であるため、第1の音響信号の音成分が多く、第2の音響信号の音成分が少ない第3の音響信号が生成されることで、音成分抽出部104は、より精度良く抽出対象の音成分を抽出することができるからである。
 また、領域cに定位する音を抽出する場合、音響信号生成部102は、第1の音響信号と第2の音響信号とを加算して生成される音響信号を第3の音響信号として用いる。このように、第1の音響信号と第2の音響信号とが同位相で加算されることにより、領域cに定位する音成分が予め強調された第3の音響信号が生成され、音成分抽出部104は、より精度良く抽出対象の音成分を抽出することができる。
 さらに、領域dおよび領域eに定位する音を抽出する場合、音響信号生成部102は、第3の音響信号として第2の音響信号そのものを用いる。領域dおよび領域eは、第1の位置よりも第2の位置に近い領域であるため、第2の音響信号の音成分が多く、第1の音響信号の音成分が少ない第3の音響信号が生成されることで、後述する音成分抽出部104は、より精度良く抽出対象の音成分を抽出することができるからである。
 なお、音響信号生成部102は、第1の音響信号と、第2の音響信号とを重み付けして加算することによって第3の音響信号を生成してもよい。すなわち、音響信号生成部102は、第1の音響信号に第1係数を乗算した信号と、第2の音響信号に第2係数を乗算した信号とを加算することによって第3の音響信号を生成してもよい。ここで、第1係数および第2係数は、0以上の実数である。
 例えば、領域aおよび領域bに定位する音を抽出する場合、領域aおよび領域bは、第2の位置よりも第1の位置に近い領域であるため、音響信号生成部102は、第1係数と、第1係数よりも小さい値の第2係数とを用いて第3の音響信号を生成してもよい。このように、第1の音響信号の音成分が多く、第2の音響信号の音成分が少ない第3の音響信号が生成されることで、音成分抽出部104は、より精度良く抽出対象の音成分を抽出することができる。
 また、例えば、領域dおよび領域eに定位する音を抽出する場合、領域dおよび領域eは、第1の位置よりも第2の位置に近い領域であるため、音響信号生成部102は、第1係数と、第1係数よりも大きい値の第2係数とを用いて第3の音響信号を生成してもよい。このように、第2の音響信号の音成分が多く、第1の音響信号の音成分が少ない第3の音響信号が生成されることで、音成分抽出部104は、より精度良く抽出対象の音成分を抽出することができる。
 なお、第3の音響信号の生成に、上述のいずれの方法を用いたとしても音分離装置100は、抽出対象の音成分を抽出可能である。要するに、第3の音響信号に抽出対象の音成分が含まれていればよい。第3の音響信号のうち不要な部分は、後述する差信号によって除かれるからである。
 <差信号の生成動作について>
 以下、差信号生成部103の差信号の生成動作の詳細について説明する。
 差信号生成部103は、信号取得部101が取得した第1の音響信号および第2の音響信号の時間領域における差分を表す差信号を生成する。
 本実施の形態では、差信号生成部103は、第1の音響信号と、第2の音響信号とを重み付けして減算することによって差信号を生成する。すなわち、差信号生成部103は、第1の音響信号に第1の重み係数αを乗算した信号と、第2の音響信号に第2の重み係数βを乗算した信号とを減算することによって差信号を生成する。具体的には、差信号生成部103は、下記(式1)を用いて差信号を生成する。なお、αおよびβは0以上の実数である。
  差信号=α×第1の音響信号-β×第2の音響信号・・(式1)
 図5では、領域a~領域eに定位する音を抽出する場合にそれぞれ用いられる、第1の重み係数αの値と、第2の重み係数βの値との関係が示されている。抽出対象の音が定位する位置から第1の位置までの距離が小さいほど、第1の重み係数αは大きくなり、第2の重み係数βは小さくなる。また、抽出対象の音が定位する位置から第2の位置までの距離が小さいほど第1の重み係数αは小さくなり、第2の重み係数βは大きくなる。
 なお、(式1)では、第1の音響信号から第2の音響信号を減算しているが、第2の音響信号から第1の音響信号を減算してもよい。なぜなら、音成分抽出部104は、周波数領域において第3の音響信号から、差信号を減算するからである。この場合は、図5については、第1の音響信号と第2の音響信号の記載を入れ替えて解釈すればよい。
 領域aに定位する音を抽出する場合、差信号生成部103は、第1の重み係数αよりも第2の重み係数βが極めて大きくなるように係数の値を決定し(β/α>>1)、(式1)を用いて差信号を生成する。これにより、後述する音成分抽出部104は、第3の音響信号から、当該第3の音響信号に含まれる第2の位置側に定位する音成分を主に取り除くことができる。
 なお、領域aに定位する音を抽出する場合、差信号生成部103は、第1の重み係数α=0として、第2の音響信号そのものを差信号として生成してもよい。
 また、領域bに定位する音を抽出する場合、差信号生成部103は、第1の重み係数αよりも第2の重み係数βが比較的大きくなるように係数の値を設定し(β/α>1)、(式1)を用いて差信号を生成する。これにより、音成分抽出部104は、第3の音響信号から、当該第3の音響信号に含まれる、第1の位置側に定位する音成分、および第2の位置側に定位する音成分をバランスよく取り除くことができる。
 また、領域cに定位する音を抽出する場合、差信号生成部103は、第1の重み係数αと第2の重み係数βとが等しくなるように係数の値を設定し(β/α=1)、(式1)を用いて差信号を生成する。これにより、音成分抽出部104は、第3の音響信号から、当該第3の音響信号に含まれる、第1の位置側に定位する音成分、および第2の位置側に定位する音成分を均等に取り除くことができる。
 また、領域dに定位する音を抽出する場合、差信号生成部103は、第2の重み係数βよりも第1の重み係数αが比較的大きくなるように係数の値を設定し(β/α<1)、(式1)を用いて差信号を生成する。これにより、音成分抽出部104は、第3の音響信号から、当該第3の音響信号に含まれる、第1の位置側に定位する音成分、および第2の位置側に定位する音成分をバランスよく取り除くことができる。
 また、領域eに定位する音を抽出する場合、差信号生成部103は、第2の重み係数βよりも第1の重み係数αが極めて大きくなるように係数の値を決定し(β/α<<1)、(式1)を用いて差信号を生成する。これにより、音成分抽出部104は、第3の音響信号から、当該第3の音響信号に含まれる第1の位置側に定位する音成分を主に取り除くことができる。
 なお、領域eに定位する音を抽出する場合、差信号生成部103は、第2の重み係数β=0として、第1の音響信号そのものを差信号として生成してもよい。
 このように、本実施の形態では、差信号生成部103は、抽出対象の音の定位位置に応じて、第1の重み係数αと第2の重み係数βとの比率を決定することで、音分離装置100は、所望の定位位置の音成分を抽出することができる。
 なお、差信号生成部103は、抽出対象の音の定位範囲に応じて、第1の重み係数αと第2の重み係数βとの絶対値を決定する。定位範囲とは、受聴者が音像を知覚可能な範囲(音像が定位する範囲)を意味する。
 図6は、重み係数の絶対値の大きさと抽出音の定位範囲との関係を示す模式図である。
 図6において、図の上下方向(縦軸)は、抽出音の音圧の大きさを示し、図の左右方向(横軸)は、定位範囲を示す。
 図6に示されるように、第1の重み係数αおよび第2の重み係数βの絶対値を大きくすればするほど、抽出音の定位範囲Aは、小さくなる。
 図6の(b)は、α=β=1.0の状態であるが、差信号生成部103がこの状態よりも第1の重み係数αおよび第2の重み係数βの絶対値を大きい値(例えば、α=β=5.0)に決定した場合、図6の(a)に示されるように抽出音の定位範囲は、小さくなる。
 同様に、差信号生成部103が図6の(b)の状態よりも第1の重み係数αおよび第2の重み係数βの絶対値を小さい値(例えば、α=β=0.2)に決定した場合、図6の(c)に示されるように、抽出音の定位範囲は、大きくなる。
 以上説明したように、差信号生成部103は、抽出対象の音の定位位置に応じて第1の重み係数αおよび第2の重み係数βの比率を決定し、抽出対象の音の定位範囲に応じて第1の重み係数αおよび第2の重み係数βの絶対値を決定する。言い換えれば、差信号生成部103は、第1の重み係数αおよび第2の重み係数βによって抽出対象の音の定位位置および定位範囲を調整することができる。これにより、音分離装置100は、抽出対象の音を精度よく抽出することができる。
 なお、差信号生成部103は、第1の音響信号および第2の音響信号のそれぞれの信号の振幅のべき乗(例えば、振幅の3乗や振幅の0.1乗)同士を減算して差信号を生成してもよい。すなわち、差信号生成部103は、第1の音響信号および第2の音響信号のそれぞれの信号について、振幅の大小関係を保持して変形した別の大きさを表す物理量同士を減算して差信号を生成してもよい。
 なお、マイクロホン等の収音部から収音される音の音響信号を、第1の音響信号および第2の音響信号として用いる場合には、差信号生成部103は、第1の音響信号および第2の音響信号に含まれる抽出対象の音が同一時刻になるように調整したのちに、第1の音響信号から第2の音響信号を減算することで差信号を生成してもよい。時刻を調整する方法の一例として、抽出対象の音が定位する位置と、第1の音響信号を収音した第1のマイクロホンの位置と、第2の音響信号を取得した第2のマイクロホンの位置と、音速とから、物理的に抽出対象の音が第1のマイクロホンに入力される時刻および第2のマイクロホンに入力される時刻の相対時刻を求めることができるため、その相対時刻を補正することで時刻を調整することができる。
 <音成分の抽出動作について>
 以下、音成分抽出部104の音成分の抽出動作の詳細について説明する。
 はじめに、音成分抽出部104は、音響信号生成部102が生成した第3の音響信号を周波数領域に変換した信号である第1の周波数信号を求める。さらに、音成分抽出部104は、差信号生成部103が生成した差信号を周波数領域に変換した信号である第2の周波数信号を求める。
 本実施の形態において、音成分抽出部104は、高速フーリエ変換を用いて上記周波数信号への変換を行っている。具体的には、音成分抽出部104は、以下の分析条件で変換を行っている。
 第1の音響信号および第2の音響信号のサンプリング周波数は、44.1kHzである。そして生成された第3の音響信号と差信号のサンプリング周波数は、44.1kHzである。高速フーリエ変換の窓長は、4096ptであり、ハニング窓が用いられる。また、後述するように周波数信号を時間領域の信号に変換するために、周波数信号は、512ptごとに時間軸をシフトさせて求められる。
 続いて、音成分抽出部104は、第1の周波数信号から、第2の周波数信号を減算する。なお、減算した結果得られる周波数信号を第3の周波数信号とする。
 本実施の形態では、音成分抽出部104は、高速フーリエ変換を用いて求めた周波数信号を当該周波数信号の大きさと当該周波数信号の位相とに分け、周波数信号の大きさ同士を各周波数成分ごとに減算する。すなわち、音成分抽出部104は、第3の音響信号の周波数信号の大きさから差信号の周波数信号の大きさを周波数成分ごとに減算する。音成分抽出部104の上記減算は、周波数信号を求めるときに時間軸をシフトさせた時間間隔、すなわち512ptごとに行われる。なお、周波数信号の大きさとしては、本実施の形態では、周波数信号の振幅が用いられる。
 このとき、音成分抽出部104は、減算した結果が負の値になる場合は、減算結果を0に極めて近い所定の正の値、すなわち、ほぼゼロとして取り扱う。これは、減算した結果得られる第3の周波数信号に対して、後述する高速フーリエ逆変換を行うためである。減算した結果は、第3の周波数信号の各周波数成分の周波数信号の大きさとして用いられる。
 なお、第3の周波数信号の位相は、本実施の形態では、第1の周波数信号(第3の音響信号を周波数領域に変換した周波数信号)の位相をそのまま用いる。
 本実施の形態では、領域aおよび領域bに定位する音を抽出する場合、第3の音響信号として第1の音響信号を用いているため、第1の音響信号を周波数領域に変換した周波数信号の位相が、第3の周波数信号の位相として用いられる。
 また、本実施の形態では、領域cに定位する音を抽出する場合、第3の音響信号として、第1の音響信号と第2の音響信号とを加算した音響信号を用いているため、上記加算した音響信号を周波数領域に変換した周波数信号の位相が、第3の周波数信号の位相として用いられる。
 また、本実施の形態では、領域dおよび領域eに定位する音を抽出する場合、第3の音響信号として第2の音響信号を用いているため、第2の音響信号を周波数領域に変換した周波数信号の位相が、第3の周波数信号の位相として用いられる。
 このように、第3の周波数信号を生成するにあたり、位相については演算を行わず、第1の周波数信号の位相をそのまま用いることで、音成分抽出部104が行う演算量は、低減される。
 そして、音成分抽出部104は、第3の周波数信号を時間領域の信号、すなわち音響信号に変換する。本実施の形態では、音成分抽出部104は、高速フーリエ逆変換を用いて第3の周波数信号を時間領域の音響信号(分離音響信号)に変換する。
 本実施の形態では、上述のように高速フーリエ変換の窓長幅は、4096ptであり、時間シフト幅は、これよりも短い512ptである。すなわち、第3の周波数信号は、時間領域においてオーバーラップ部分を有する。これにより、高速フーリエ逆変換を用いて第3の周波数信号が時間領域の音響信号に変換されたときに、同時刻において複数の時間波形の候補を平均化することで、時間領域における音響信号の連続性をなめらかにできる。
 以上のように音成分抽出部104によって生成された分離音響信号が再生されることで、抽出音が出力される。
 なお、音成分抽出部104は、第1の周波数信号から、第2の周波数信号を減算する場合、周波数信号の振幅を周波数成分ごとに減算する代わりに、周波数信号のパワー(振幅の2乗)や、周波数信号の振幅のべき乗(例えば、振幅の3乗や振幅の0.1乗)や、振幅の大小関係を保持して変形した別の大きさを表す量を周波数成分ごとに減算してもよい。
 また、音成分抽出部104は、第1の周波数信号から、第2の周波数信号を減算する場合、第1の周波数信号と第2の周波数信号とにそれぞれ重み係数をかけてから減算してもよい。
 なお、本実施の形態では、周波数信号を生成する際、高速フーリエ変換を利用したが、離散コサイン変換、ウェーブレット変換等の、他の一般的な周波数変換を用いてもよい。つまり、時間領域の信号を周波数領域に変換する変換方法であればどのような方法を利用しても構わない。
 なお、上記の説明では、音成分抽出部104は、周波数信号を当該周波数信号の大きさと当該周波数信号の位相とに分け、上記周波数信号の大きさ同士を各周波数成分ごとに減算した。しかしながら、音成分抽出部104は、周波数信号を当該周波数信号の大きさと当該周波数信号の位相とに分けずに、複素スペクトル上で第1の周波数信号から第2の周波数信号を減算してもよい。
 複素スペクトル上で周波数信号の減算を行うために、音成分抽出部104は、第1の音響信号と第2の音響信号とを比較し、差信号の符号を考慮して第1の周波数信号から第2の周波数信号を減算する。
 具体的には、例えば、差信号を第1の音響信号から第2の音響信号を減算して生成した場合(差信号=第1の音響信号-第2の音響信号)、第1の音響信号の大きさが、第2の音響信号の大きさよりも大きければ、複素スペクトル上で第1の周波数信号から第2の周波数信号を減算(第1の周波数信号-第2の周波数信号)する。
 同様に、第2の音響信号の大きさが、第1の音響信号よりも大きければ、複素スペクトル上で第1の周波数信号から第2の周波数信号の符号を反転した信号を減算(第1の周波数信号-(-1)×第2の周波数信号)する。
 上記のような方法により、第1の周波数信号から第2の周波数信号を複素スペクトル上で減算することができる。
 なお、上記の方法では、音成分抽出部104は、第1の音響信号と第2の音響信号との大きさのみに着目して符号を考慮した減算を行ったが、さらに第1の音響信号および第2の音響信号の位相を考慮してもよい。
 また、第1の周波数信号から第2の周波数信号を減算する場合に、周波数信号の大きさに応じた演算方法を用いてもよい。
 例えば、「第1の周波数信号の大きさ-第2の周波数信号の大きさ≧0」の場合は、音成分抽出部104は、第1の周波数信号から第2の周波数信号をそのまま減算する。
 一方、「第1の周波数信号の大きさ-第2の周波数信号の大きさ<0」の場合には、音成分抽出部104は、「第1の周波数信号-(第1の周波数信号の大きさ/第2の周波数信号の大きさ)×第2の周波数信号」の演算を行う。これにより、第1の周波数信号に、位相が反転した第2の周波数信号が誤って加算されることがなくなる。
 このように第1の周波数信号から第2の周波数信号を複素スペクトル上で減算することで、音成分抽出部104は、周波数信号の位相がより正確な分離音響信号を生成することができる。
 抽出音が単独で再生されるような場合、周波数信号の位相が受聴者に与える聴感上の影響は小さいため、周波数信号の位相については、必ずしも正確な演算が行われなくてもよい。しかしながら、複数の抽出音が同時に再生される場合、抽出音同士の位相が干渉してしまい、高周波が減衰する等、聴感上の影響が生じることがある。
 よって、このような場合、第1の周波数信号から第2の周波数信号を複素スペクトル上で減算する上記の方法は、抽出音同士の位相の干渉を低減できるため、有用である。
 <音分離装置100の動作の具体例>
 以下、図7~図9を用いて、音分離装置100の動作の具体例について説明する。
 図7は、第1の音響信号と第2の音響信号との具体例を示す図である。
 図7の(a)に示される第1の音響信号と、図7の(b)に示される第2の音響信号とは、いずれも1kHzの正弦波であり、第1の音響信号の位相と、第2の音響信号の位相とは、同相である。また、図7の(a)に示されるように第1の音響信号は、時間経過とともに音の大きさが小さくなり、図7の(b)に示されるように第2の音響信号は時間経過とともに音の大きさが大きくなる。また、受聴者は、領域cの正面に位置し、第1の位置から出力される第1の音響信号による音と、第2の位置から出力される第2の音響信号による音とを受聴するものとする。
 図7の上段には、音の周波数(縦軸)と時間(横軸)との関係が示されている。本図中において、色の明暗は、音の大きさを表しており、色が明るいほど大きな値であることを示す。図7では、1kHzの正弦波を用いているため、図7の上段の図では、1kHzに対応する部分のみ色の明暗が現れ、他の部分は、黒色となっている。
 図7の下段には、図7の上段の図における色の明暗を明確にしたグラフであって、1kHzの周波数帯域における音響信号の音の大きさ(縦軸)と時間(時間)との関係を示すグラフが示されている。
 図7に記載された、領域a~領域eは、図5の領域a~領域eに対応している。
 具体的には、図7において、領域aと記載された時間帯においては、第1の音響信号の音の大きさは、第2の音響信号の音の大きさよりも極めて大きい。このため、領域aと記載された時間帯においては、1kHzの音は、第1の位置側に大きく偏り、領域aに定位する。
 また、図7において、領域bと記載された時間帯においては、第1の音響信号の音の大きさは、第2の音響信号の音の大きさよりも大きい。このため、領域bと記載された時間帯においては、1kHzの音は、第1の位置側に偏り、領域bに定位する。
 また、図7において、領域cと記載された時間帯においては、第1の音響信号の音の大きさと、第2の音響信号との大きさとはほぼ等しく、1kHzの音は、領域cに定位する。
 また、図7において、領域dと記載された時間帯においては、第1の音響信号の音の大きさは、第2の音響信号の音の大きさよりも小さい。このため、領域dと記載された時間帯においては、1kHzの音は、第2の位置側に偏り、領域dに定位する。
 また、図7において、領域eと記載された時間帯においては、第1の音響信号の音の大きさは、第2の音響信号の音の大きさよりも極めて小さい。このため、領域aと記載された時間帯においては、1kHzの音は、第2の位置側に大きく偏り、領域eに定位する。
 図8~図12に、図7に示される音響信号を用いて音分離装置100を動作させた場合の結果を示す図である。なお、図8~図12に示される図の表示方法は、図7と同様であるため、ここでの説明は省略する。
 図8では、音分離装置100が、領域aに定位する音成分を抽出する場合における、第3の音響信号の音(a)、差信号の音(b)、および抽出音(c)が示されている。
 領域aに定位する音成分を抽出する場合、音響信号生成部102は、第1の音響信号をそのまま第3の音響信号として用いる。この場合の第3の音響信号は、図8の(a)のように示される。
 また、領域aに定位する音成分を抽出する場合、差信号生成部103は、第1の重み係数αよりも第2の重み係数βが極めて大きくなるように係数の値を決定し、第1の音響信号に第1の重み係数αを乗算した信号から第2の音響信号に第2の重み係数βを乗算した信号を減算することによって差信号を生成する。具体的には、第1の重み係数αは、1.0より極めて小さい値(ほぼゼロ)であり、第2の重み係数βは、1.0である。この場合の差信号は、図8の(b)のように示される。
 上記のような第3の音響信号と差信号から音成分抽出部104によって生成される分離音響信号の音は、図8の(c)に示される抽出音である。図8の(c)に示される抽出音の大きさは、領域aと記載された時間帯において最も大きい。すなわち、音分離装置100は、領域aに定位する音成分を抽出音として抽出できている。なお、上述のように、音成分抽出部104によって減算された周波数信号の大きさが負の値になる場合には、減算された周波数信号の大きさは、ほぼゼロとして取り扱われる。
 図9では、音分離装置100が、領域bに定位する音成分を抽出する場合における、第3の音響信号の音(a)、差信号の音(b)、および抽出音(c)が示されている。
 領域bに定位する音成分を抽出する場合、音響信号生成部102は、第1の音響信号をそのまま第3の音響信号として用いる。この場合の第3の音響信号は、図9の(a)のように示される。
 また、領域bに定位する音成分を抽出する場合、差信号生成部103は、第1の重み係数αよりも第2の重み係数βが大きくなるように係数の値を決定し、第1の音響信号に第1の重み係数αを乗算した信号から第2の音響信号に第2の重み係数βを乗算した信号を減算することによって差信号を生成する。具体的には、第1の重み係数αは、1.0であり、第2の重み係数βは、2.0である。この場合の差信号は、図9の(b)のように示される。
 上記のような第3の音響信号と差信号から音成分抽出部104によって生成される分離音響信号の音は、図9(c)に示される抽出音である。図9の(c)に示される抽出音の大きさは、領域bと記載された時間帯において最も大きい。すなわち、音分離装置100は、領域bに定位する音成分を抽出音として抽出できている。なお、上述のように、音成分抽出部104によって減算された周波数信号の大きさが負の値になる場合には、減算された周波数信号の大きさは、ほぼゼロとして取り扱われる。
 図10では、音分離装置100が、領域cに定位する音を抽出する場合における、この実験で用いた、第3の音響信号の音(a)、差信号の音(b)、および抽出音(c)が示されている。
 領域cに定位する音成分を抽出する場合、音響信号生成部102は、第1の音響信号と第2の音響信号との和を第3の音響信号として用いる。この場合の第3の音響信号は、図10の(a)のように示される。
 また、領域cに定位する音成分を抽出する場合、差信号生成部103は、第1の重み係数αと第2の重み係数βとが等しくなるように係数の値を決定し、第1の音響信号に第1の重み係数αを乗算した信号から第2の音響信号に第2の重み係数βを乗算した信号を減算することによって差信号を生成する。具体的には、第1の重み係数αは、1.0であり、第2の重み係数βは、1.0である。この場合の差信号は、図10の(b)のように示される。
 上記のような第3の音響信号と差信号から音成分抽出部104によって生成される分離音響信号の音は、図10の(c)に示される抽出音である。図10の(c)に示される抽出音の大きさは、領域cと記載された時間帯において最も大きい。すなわち、音分離装置100は、領域cに定位する音成分を抽出音として抽出できている。なお、上述のように、音成分抽出部104によって減算された周波数信号の大きさが負の値になる場合には、減算された周波数信号の大きさは、ほぼゼロとして取り扱われる。
 図11では、音分離装置100が、領域dに定位する音成分を抽出する場合における、この実験で用いた、第3の音響信号の音(a)、差信号の音(b)、および抽出音(c)が示されている。
 領域dに定位する音成分を抽出する場合、音響信号生成部102は、第2の音響信号をそのまま第3の音響信号として用いる。この場合の第3の音響信号は、図11の(a)のように示される。
 また、領域dに定位する音成分を抽出する場合、差信号生成部103は、第1の重み係数αよりも第2の重み係数βが小さくなるように係数の値を決定し、第1の音響信号に第1の重み係数αを乗算した信号から第2の音響信号に第2の重み係数βを乗算した信号を減算することによって差信号を生成する。具体的には、第1の重み係数αは、2.0であり、第2の重み係数βは、1.0である。この場合の差信号は、図11の(b)のように示される。
 上記のような第3の音響信号と差信号から音成分抽出部104によって生成される分離音響信号の音は、図11の(c)に示される抽出音である。図11の(c)に示される抽出音の大きさは、領域dと記載された時間帯において最も大きい。すなわち、音分離装置100は、領域dに定位する音成分を抽出音として抽出できている。なお、上述のように、音成分抽出部104によって減算された周波数信号の大きさが負の値になる場合には、減算された周波数信号の大きさは、ほぼゼロとして取り扱われる。
 図12では、音分離装置100が、領域eに定位する音成分を抽出する場合における、この実験で用いた、第3の音響信号の音(a)、差信号の音(b)、および抽出音(c)が示されている。
 領域eに定位する音成分を抽出する場合、音響信号生成部102は、第2の音響信号をそのまま第3の音響信号として用いる。この場合の第3の音響信号は、図12の(a)のように示される。
 また、領域eに定位する音成分を抽出する場合、差信号生成部103は、第1の重み係数αよりも第2の重み係数βが極めて小さくなるように係数の値を決定し、第1の音響信号に第1の重み係数αを乗算した信号から第2の音響信号に第2の重み係数βを乗算した信号を減算することによって差信号を生成する。具体的には、第1の重み係数αは、1.0であり、第2の重み係数βは、1.0より極めて小さい値(ほぼゼロ)である。この場合の差信号は、図12の(b)のように示される。
 上記のような第3の音響信号と差信号から音成分抽出部104によって生成される分離音響信号の音は、図12の(c)に示される抽出音である。図12の(c)に示される抽出音の大きさは、領域eと記載された時間帯において最も大きい。すなわち、音分離装置100は、領域eに定位する音成分を抽出音として抽出できている。なお、上述のように、音成分抽出部104によって減算された周波数信号の大きさが負の値になる場合には、減算された周波数信号の大きさは、ほぼゼロとして取り扱われる。
 以下、図13~図16を用いて音分離装置100の動作のさらに具体的な例について説明する。
 図13は、抽出対象の音の定位位置の具体例を示す概念図である。
 以下の図14~図16は、図13に示されるように、カスタネットの音が領域bに定位し、ボーカルの音が領域cに定位し、ピアノの音が領域eに定位する場合に、各領域の音を抽出する場合の第3の音響信号の音、差信号の音、および抽出音をそれぞれ示す。なお、図14~図16には、上記3つの音の周波数(縦軸)と時間(横軸)との関係がそれぞれ示されている。図中において、色の明暗は、音の大きさを表しており、色が明るいほど大きな値であることを示す。
 図14には、領域cに定位するボーカルの音成分を抽出する場合における、第3の音響信号の音(a)、差信号の音(b)、および抽出音(c)が示されている。
 領域cに定位するボーカルの音成分を抽出する場合、音響信号生成部102は、領域cに定位する音成分を含む、第1の音響信号と第2の音響信号との和を第3の音響信号として用いる。この場合の第3の音響信号は、図14の(a)のように示される。
 また、この場合、差信号生成部103は、第1の重み係数αと第2の重み係数βとが等しくなるように係数の値を決定し、差信号を生成する。具体的には、第1の重み係数αは、1.0であり、第2の重み係数βは、1.0である。この場合の差信号は、図14の(b)のように示される。
 図14の(c)は、抽出音を示し、当該抽出音は、領域cに定位するボーカルの音成分が抽出された音である。図14の(a)に示される第3の音響信号と、抽出音とを比較すると、ボーカルの音成分のSN比が向上していることがわかる。
 図15には、領域bに定位するカスタネットの音成分を抽出する場合における、第3の音響信号、差信号、および抽出音(c)が示されている。
 領域bに定位するカスタネットの音成分を抽出する場合、音響信号生成部102は、領域bに定位する音成分を含む第1の音響信号をそのまま第3の音響信号として用いる。この場合の第3の音響信号は、図15の(a)のように示される。
 また、この場合、差信号生成部103は、第1の重み係数αよりも第2の重み係数βが大きくなるように係数の値を決定し、差信号を生成する。具体的には、第1の重み係数αは、1.0であり、第2の重み係数βは、2.0である。この場合の差信号は、図15の(b)のように示される。
 図15の(c)は、抽出音を示し、当該抽出音は、領域bに定位するカスタネットの音成分が抽出された音である。図15の(a)に示される第3の音響信号と、抽出音とを比較すると、カスタネットの音成分のSN比が向上していることがわかる。
 図16に、領域eに定位するピアノの音成分を抽出する場合における、第3の音響信号の音(a)、差信号の音(b)、および抽出音(c)が示されている。
 領域eに定位するピアノの音成分を抽出する場合、音響信号生成部102は、領域eに定位する音成分を含む第2の音響信号をそのまま第3の音響信号として用いる。この場合の第3の音響信号は、図16の(a)のように示される。
 また、この場合、差信号生成部103は、第1の重み係数αよりも第2の重み係数βが極めて小さくなるように係数の値を決定し、差信号を生成する。具体的には、第1の重み係数αは、1.0であり、第2の重み係数βは、1.0より極めて小さい値(ほぼゼロ)である。
 図16の(c)は、抽出音を示し、当該抽出音は、領域eに定位するピアノの音成分が抽出された音である。図16の(a)に示される第3の音響信号と、抽出音とを比較すると、ピアノの音成分のSN比が向上していることが分かる。
 <第1の音響信号、第2の音響信号の別の例>
 上述のように、第1の音響信号および第2の音響信号は、典型的には、ステレオ信号を構成するL信号とR信号である。
 図17は、第1の音響信号がステレオ信号のL信号であり、第2の音響信号が、ステレオ信号のR信号である場合を示す模式図である。
 図17の例では、音分離装置100は、上記ステレオ信号によって、L信号の音が出力される位置(Lチャンネルスピーカが配置される位置)と、R信号の音が出力される位置(Rチャンネルスピーカが配置される位置)との間に定位する抽出対象の音を抽出する。具体的には、信号取得部101は、上記ステレオ信号であるL信号とR信号とを取得し、音響信号生成部102は、第3の音響信号としてL信号に第1の係数γを乗算した信号と、R信号に第2の係数ηを乗算した信号とを加算した音響信号(γL+ηR)を生成する(γ、ηは、0以上の実数)。
 しかしながら、第1の音響信号および第2の音響信号は、ステレオ信号を構成するL信号とR信号に限定されるものではない。例えば、第1の音響信号および第2の音響信号は、5.1チャンネル(以下、5.1chと記載する)の音響信号から選択した互いに異なる任意の2つの音響信号であってもよい。
 図18は、第1の音響信号が5.1chの音響信号のL信号(フロント左側の信号)であり、第2の音響信号が5.1chの音響信号のC信号(フロントセンター側の信号)である場合を示す模式図である。
 図18の例では、音響信号生成部102は、第3の音響信号としてL信号に第1の係数γを乗算した信号と、C信号に第2の係数ηを乗算した信号とを加算した音響信号(γL+ηC)を生成する(γ、ηは、0以上の実数)。そして、音分離装置100は、5.1chの音響信号であるL信号、C信号によって、L信号の音が出力される位置と、C信号の音が出力される位置との間に定位する抽出対象の音成分を抽出する。
 また、図19は、第1の音響信号が5.1chの音響信号のL信号であり、第2の音響信号が5.1chの音響信号のR信号(フロント右側の信号)である場合を示す模式図である。
 図19の例では、音分離装置100は、5.1chの音響信号であるL信号、C信号、およびR信号によって、L信号の音が出力される位置と、R信号の音が出力される位置との間に定位する抽出対象の音成分を抽出する。具体的には、信号取得部101は、5.1chの音響信号の少なくともL信号とC信号とR信号とを取得する。
 音響信号生成部102は、図19の例では、L信号に第1の係数γを乗算した信号と、R信号に第2の係数ηを乗算した信号と、C信号に第3の係数ζを乗算した信号とを加算した音響信号(γL+ηR+ζC)を生成する(γ、η、ζは、0以上の実数)。
 例えば、γ=η=0である場合は、第3の音響信号は、C信号そのものである。また、例えば、γ=η=ζ=1である場合は、第3の音響信号は、L信号とR信号とC信号とを加算した信号である。
 <まとめ>
 以上説明したように、実施の形態1に係る音分離装置100は、第1の音響信号と第2の音響信号とによって所定の位置に定位する抽出対象の音の音響信号(分離音響信号)を精度よく生成することができる。すなわち、音分離装置100は、音の定位位置に応じて抽出対象の音を抽出することができる。
 音分離装置100が抽出した各音の音源(分離音響信号)が、対応する位置や方向に配置したスピーカ等から再生されることで、ユーザ(受聴者)は、立体的な音響空間を楽しむことができる。
 例えば、ユーザは、音分離装置100を用いて、パッケージメディアやダウンロードされた音楽コンテンツ等から、オンマイクでスタジオ収録したようなボーカル音声や楽器音を抽出し、抽出されたボーカル音声や楽器音のみを聞いて楽しむことができる。
 同様に、ユーザは、音分離装置100を用いて、パッケージメディアや放送された映画コンテンツ等から、セリフ等の音声を抽出することができる。ユーザは、抽出したセリフ等の音声を強調して再生することによって、セリフ等の音声を明瞭に聞くことができる。
 また、例えば、ユーザは、音分離装置100を用いてニュース音声から抽出対象の音を抽出することができる。この場合、例えば、抽出した音の音響信号を耳元に近いスピーカから再生することで、ユーザは、抽出対象の音が明瞭となったニュース音声を聞くことができる。
 また、例えば、ユーザは、音分離装置100を用いて、デジタルスチルカメラやデジタルビデオカメラで収録した音を、定位位置ごとに抽出することによって、収録した音を編集することができる。この結果、ユーザは、聞きたい音成分を強調して聞くことができる。
 また、例えば、ユーザは、音分離装置100を用いて、5.1ch、7.1ch、22.2ch等で収録された音源に対して、各チャンネル間の任意の位置に定位する音成分を抽出し、これに対応する音響信号を生成することができる。したがって、ユーザは、スピーカの位置に適した音響信号成分を生成することができる。
 (実施の形態2)
 実施の形態2では、さらに音補正部を備える音分離装置について説明する。音分離装置100が抽出した抽出音は、定位範囲が狭い場合があり、定位範囲が狭い複数の抽出音の分離音響信号が再生された場合に、受聴者の受聴空間上において、音が定位しない空間が発生してしまう場合がある。音補正部は、このような、音が定位しない空間が発生しないように抽出音同士を空間的に滑らかにつなぐ点に特徴を有する。
 図20は、実施の形態2に係る音分離装置300の構成を示す機能ブロック図である。
 音分離装置300は、信号取得部101、音響信号生成部102、差信号生成部103、音成分抽出部104、および音補正部301を備える。音分離装置300は、音補正部301を備える点で音分離装置100と異なる。なお、その他の構成要素については、実施の形態1において説明したものと同様の機能および動作であるものとして説明を省略する。
 音補正部301は、音成分抽出部104が生成した分離音響信号に、定位位置の周辺に定位する音成分を加算する。
 次に、音分離装置300の動作について説明する。
 図21および図22は、音分離装置300の動作を示すフローチャートである。
 図21に示されるフローチャートは、図3のフローチャートにステップS401が追加されたものである。図22に示されるフローチャートは、図4のフローチャートにステップS401が追加されたものである。
 以下、ステップS401の動作、すなわち音補正部301の動作の詳細について図面を参照しながら説明する。
 <音補正部の動作について>
 図23は、抽出音の定位位置を示す概念図である。以下の説明では、図23に示されるように、抽出音aは、第1の音響信号側に定位する音であり、抽出音bは、第1の音響信号側と第2の音響信号側との中央に定位する音であり、抽出音cは、第2の音響信号側に定位する音であるとする。
 図24は、抽出音の定位範囲(音圧の分布)を模式的に示した図である。
 図24において、図の上下方向(縦軸)は、抽出音の音圧の大きさを示し、図の左右方向(横軸)は、定位位置および定位範囲を示す。
 図24の(a)に示されるように、抽出音a、抽出音b、および抽出音cがそれぞれの位置から出力された場合、抽出音aが定位する領域と抽出音bが定位する領域と間に音が定位しない領域が存在する。また、同様に抽出音bが定位する領域と抽出音cが定位する領域との間に音が定位しない領域が存在する。このように、抽出音と抽出音の間に音が定位しない領域(空間)が発生する場合がある。
 そこで、図24の(b)に示されるように、音補正部301は、抽出音a~cのそれぞれに、抽出音a~c定位位置に応じて当該定位位置の周辺に定位する音成分(補正音響信号)を加算する。
 実施の形態2では、音補正部301は、抽出音の定位位置の周辺に定位する音成分は、当該抽出音の定位位置に応じて決定される、第1の音響信号と第2の音響信号との重み付け和により生成する。
 具体的には、音補正部301は、まず、抽出音の定位位置から第1の位置までの距離が小さいほど値が大きくなる第3係数と、抽出音の定位位置から第2の位置までの距離が小さいほど値が大きくなる第4係数とを決定する。そして、音補正部301は、第1の音響信号に第3係数を乗算した信号と、第2の音響信号に第4係数を乗算した信号とを抽出音を表す分離音響信号に加算する。
 なお、補正音響信号は、信号取得部101が取得する複数の音響信号のうちの少なくとも一の音響信号を用いて、抽出音の定位位置に応じて生成されてもよい。例えば、補正音響信号は、パニングの技術を応用して、信号取得部101が取得した複数の音響信号の重み付け和により生成されてもよい。
 例えば、図19に示されるような場合において、L信号の位置とC信号の位置とR信号の位置の中央に定位する抽出音の補正音響信号は、L信号とC信号とR信号とSL信号とSR信号の重み付け和により生成されてもよい。
 また、例えば、図19に示されるような場合において、L信号の位置とC信号の位置とR信号の位置の中央に定位する抽出音の補正音響信号は、Cから生成されてもよい。
 また、例えば、図19に示されるような場合において、L信号の位置とC信号の位置とR信号の位置の中央に定位する抽出音の補正音響信号は、L信号とR信号との重み付け和により生成されてもよい。
 また、例えば、図19に示されるような場合において、L信号の位置とC信号の位置とR信号の位置の中央に定位する抽出音の補正音響信号は、C信号とSL信号とSR信号との重み付け和により生成されてもよい。
 要するに、抽出音に当該抽出音の周囲の音の影響を付加し、音が空間的に滑らかに繋がるような方法であれば、どのような方法を利用しても構わない。
 以上説明した音補正部301の動作によって、音分離装置300は、音が定位しない空間が発生しないように抽出音同士を空間的に滑らかにつなぐことができる。
 (その他の実施の形態)
 以上のように、本出願において開示する技術の例示として、実施の形態1および2を説明した。しかしながら、本開示における技術は、これに限定されず、適宜、変更、置き換え、付加、省略などを行った実施の形態にも適用可能である。また、上記実施の形態1および2で説明した各構成要素を組み合わせて、新たな実施の形態とすることも可能である。
 そこで、以下、他の実施の形態をまとめて説明する。
 例えば、実施の形態1および2で説明した音分離装置は、その一部あるいは全部が、専用ハードウェアによる回路で実現されてもよいし、プロセッサにより実行されるプログラムとして実現されてもよい。すなわち、以下のような場合も本発明に含まれる。
 (1)上記の各装置は、具体的には、マイクロプロセッサ、ROM、RAM、ハードディスクユニット、ディスプレイユニット、キーボード、マウスなどから構成されるコンピュータシステムで実現され得る。RAMまたはハードディスクユニットには、コンピュータプログラムが記憶されている。マイクロプロセッサが、コンピュータプログラムにしたがって動作することにより、各装置は、その機能を達成する。ここでコンピュータプログラムは、所定の機能を達成するために、コンピュータに対する指令を示す命令コードが複数個組み合わされて構成されたものである。
 (2)上記の各装置を構成する構成要素の一部または全部は、1個のシステムLSI(Large Scale Integration:大規模集積回路)から構成されているとしてもよい。システムLSIは、複数の構成部を1個のチップ上に集積して製造された超多機能LSIであり、具体的には、マイクロプロセッサ、ROM、RAMなどを含んで構成されるコンピュータシステムである。ROMには、コンピュータプログラムが記憶されている。マイクロプロセッサが、ROMからRAMにコンピュータプログラムをロードし、ロードしたコンピュータプログラムにしたがって演算等の動作することにより、システムLSIは、その機能を達成する。
 (3)上記の各装置を構成する構成要素の一部または全部は、各装置に脱着可能なICカードまたは単体のモジュールから構成されてもよい。ICカードまたはモジュールは、マイクロプロセッサ、ROM、RAMなどから構成されるコンピュータシステムである。ICカードまたはモジュールには、上記の超多機能LSIが含まれてもよい。マイクロプロセッサが、コンピュータプログラムにしたがって動作することにより、ICカードまたはモジュールは、その機能を達成する。このICカードまたはこのモジュールは、耐タンパ性を有してもよい。
 (4)本開示は、上記に示す方法で実現されてもよい。また、これらの方法をコンピュータにより実現するコンピュータプログラムで実現してもよいし、コンピュータプログラムからなるデジタル信号で実現してもよい。
 また、本開示は、コンピュータプログラムまたはデジタル信号をコンピュータ読み取り可能な記録媒体、例えば、フレキシブルディスク、ハードディスク、CD-ROM、MO、DVD、DVD-ROM、DVD-RAM、BD(Blu-ray Disc)、半導体メモリなどに記録したもので実現してもよい。また、これらの記録媒体に記録されているデジタル信号で実現してもよい。
 また、本開示は、コンピュータプログラムまたはデジタル信号を、電気通信回線、無線または有線通信回線、インターネットを代表とするネットワーク、データ放送等を経由して伝送してもよい。
 また、本開示は、マイクロプロセッサとメモリを備えたコンピュータシステムであって、メモリは、コンピュータプログラムを記憶しており、マイクロプロセッサは、コンピュータプログラムにしたがって動作してもよい。
 また、プログラムまたはデジタル信号を記録媒体に記録して移送することにより、またはプログラムまたはデジタル信号をネットワーク等を経由して移送することにより、独立した他のコンピュータシステムにより実施するとしてもよい。
 (5)上記実施の形態および上記変形例をそれぞれ組み合わせるとしてもよい。
 以上のように、本開示における技術の例示として、実施の形態を説明した。そのために、添付図面および詳細な説明を提供した。
 したがって、添付図面および詳細な説明に記載された構成要素の中には、課題解決のために必須な構成要素だけでなく、上記技術を例示するために、課題解決のためには必須でない構成要素も含まれ得る。そのため、それらの必須ではない構成要素が添付図面や詳細な説明に記載されていることをもって、直ちに、それらの必須ではない構成要素が必須であるとの認定をするべきではない。
 また、上述の実施の形態は、本開示における技術を例示するためのものであるから、請求の範囲またはその均等の範囲において種々の変更、置き換え、付加、省略などを行うことができる。
 本開示に係る音分離装置は、2つの音響信号を用いて、当該2つの音響信号にそれぞれ対応する再生位置の間に定位する音の音響信号を精度よく生成することができ、オーディオ再生装置、ネットワークオーディオ装置、携帯型オーディオ装置、ブルーレイやDVDやハードディスク等のディスクプレーヤーおよびレコーダ、テレビ、デジタルスチルカメラ、デジタルビデオカメラ、携帯端末装置、パーソナルコンピュータ等に適用できる。
 100、300  音分離装置
 101  信号取得部
 102  音響信号生成部
 103  差信号生成部
 104  音成分抽出部
 150  音再生装置
 200  記憶媒体
 301  音補正部

Claims (11)

  1.  第1の位置から出力される音を表す第1の音響信号と、第2の位置から出力される音を表す第2の音響信号とを含む複数の音響信号を取得する信号取得部と、
     前記第1の音響信号と、前記第2の音響信号との時間領域における差分を表す信号である差信号を生成する差信号生成部と、
     前記複数の音響信号のうちの少なくとも一の音響信号を用いて、前記第1の位置から出力される音および前記第2の位置から出力される音によって前記第1の位置と前記第2の位置との間の所定の位置に定位する音の成分が含まれる第3の音響信号を生成する音響信号生成部と、
     前記第3の音響信号を周波数領域に変換した第1の周波数信号から、前記差信号を周波数領域に変換した第2の周波数信号を減算した第3の周波数信号を生成し、生成した前記第3の周波数信号を時間領域に変換することによって前記所定の位置に定位する音を出力するための音響信号である分離音響信号を生成する抽出部とを備える
     音分離装置。
  2.  前記音響信号生成部は、前記所定の位置から前記第1の位置までの距離が、前記所定の位置から前記第2の位置までの距離よりも小さい場合に、前記第1の音響信号を前記第3の音響信号として用いる
     請求項1に記載の音分離装置。
  3.  前記音響信号生成部は、前記所定の位置から前記第2の位置までの距離が、前記所定の位置から前記第1の位置までの距離よりも小さい場合に、前記第2の音響信号を前記第3の音響信号として用いる
     請求項1に記載の音分離装置。
  4.  前記音響信号生成部は、前記所定の位置から前記第1の位置までの距離が小さいほど、値が大きくなる第1係数と、前記所定の位置から前記第2の位置までの距離が小さいほど値が大きくなる第2係数とを決定し、前記第1の音響信号に前記第1係数を乗算した信号と、前記第2の音響信号に前記第2係数を乗算した信号とを加算することによって前記第3の音響信号を生成する
     請求項1に記載の音分離装置。
  5.  前記差信号生成部は、前記第1の音響信号に第1の重み係数を乗算した信号と、前記第2の音響信号に第2の重み係数を乗算した信号との時間領域における差分である前記差信号を生成し、前記第2の重み係数を前記第1の重み係数によって除算した値が、前記第1の位置から前記所定の位置までの距離が小さいほど、大きくなるように、前記第1の重み係数と前記第2の重み係数とを決定する
     請求項1~4のいずれか1項に記載の音分離装置。
  6.  前記差信号生成部が決定した前記第1の重み係数および前記第2の重み係数の絶対値が小さいほど、前記分離音響信号によって出力される音の定位範囲は、大きくなり、
     前記差信号生成部が決定した前記第1の重み係数および前記第2の重み係数の絶対値が大きいほど、前記分離音響信号によって出力される音の定位範囲は、小さくなる
     請求項5に記載の音分離装置。
  7.  前記抽出部は、前記第1の周波数信号の大きさから、前記第2の周波数信号の大きさを減算することで周波数ごとに得られる減算値を用いて、前記第3の周波数信号を生成し、
     前記減算値が負の値である場合、当該減算値は、所定の正の値に置き換えられる
     請求項1~6のいずれか1項に記載の音分離装置。
  8.  さらに、前記複数の音響信号のうちの少なくとも一の前記音響信号を用いることによって前記所定の位置に応じて前記分離音響信号を補正するための補正音響信号を生成し、前記補正音響信号を前記分離音響信号に加算する音補正部を備える
     請求項1~7のいずれか1項に記載の音分離装置。
  9.  前記音補正部は、前記所定の位置から前記第1の位置までの距離が小さいほど、値が大きくなる第3係数と、前記所定の位置から前記第2の位置までの距離が小さいほど値が大きくなる第4係数とを決定し、前記第1の音響信号に前記第3係数を乗算した信号と、前記第2の音響信号に前記第4係数を乗算した信号とを加算することによって前記補正音響信号を生成する
     請求項8に記載の音分離装置。
  10.  前記第1の音響信号と前記第2の音響信号とは、ステレオ信号を構成する
     請求項1~9のいずれか1項に記載の音分離装置。
  11.  第1の位置から出力される音を表す第1の音響信号と、第2の位置から出力される音を表す第2の音響信号とを含む複数の音響信号を取得する信号取得ステップと、
     前記第1の音響信号と、前記第2の音響信号との時間領域における差分を表す信号である差信号を生成する差信号生成ステップと、
     前記複数の音響信号のうちの少なくとも一の音響信号を用いて、前記第1の位置から出力される音および前記第2の位置から出力される音によって前記第1の位置と前記第2の位置との間の所定の位置に定位する音の成分が含まれる、第3の音響信号を生成する音響信号生成ステップと、
     前記第3の音響信号を周波数領域に変換した第1の周波数信号から、前記差信号を周波数領域に変換した第2の周波数信号を減算した第3の周波数信号を生成し、生成した前記第3の周波数信号を時間領域に変換することによって前記所定の位置に定位する音を出力するための音響信号である分離音響信号を生成する抽出ステップとを含む
     音分離方法。
PCT/JP2012/007785 2011-12-19 2012-12-05 音分離装置、および音分離方法 WO2013094135A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2013508307A JP5248718B1 (ja) 2011-12-19 2012-12-05 音分離装置、および音分離方法
US14/275,482 US9432789B2 (en) 2011-12-19 2014-05-12 Sound separation device and sound separation method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2011276790 2011-12-19
JP2011-276790 2011-12-19

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US14/275,482 Continuation US9432789B2 (en) 2011-12-19 2014-05-12 Sound separation device and sound separation method

Publications (1)

Publication Number Publication Date
WO2013094135A1 true WO2013094135A1 (ja) 2013-06-27

Family

ID=48668054

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2012/007785 WO2013094135A1 (ja) 2011-12-19 2012-12-05 音分離装置、および音分離方法

Country Status (3)

Country Link
US (1) US9432789B2 (ja)
JP (1) JP5248718B1 (ja)
WO (1) WO2013094135A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9414177B2 (en) 2013-11-27 2016-08-09 Panasonic Intellectual Property Management Co., Ltd. Audio signal processing method and audio signal processing device

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115731941A (zh) * 2021-08-27 2023-03-03 脸萌有限公司 音频信号的分离方法、装置、设备、存储介质及程序

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001069597A (ja) * 1999-06-22 2001-03-16 Yamaha Corp 音声処理方法及び装置
JP2002044793A (ja) * 2000-07-25 2002-02-08 Yamaha Corp 音響信号処理方法及び装置
JP2008104240A (ja) * 2008-01-07 2008-05-01 Sony Corp 音声信号処理装置および音声信号処理方法
JP2011244197A (ja) * 2010-05-18 2011-12-01 Sharp Corp 音声信号処理装置、方法、プログラム、及び記録媒体

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6920223B1 (en) 1999-12-03 2005-07-19 Dolby Laboratories Licensing Corporation Method for deriving at least three audio signals from two input audio signals
TW510143B (en) 1999-12-03 2002-11-11 Dolby Lab Licensing Corp Method for deriving at least three audio signals from two input audio signals
US6970567B1 (en) 1999-12-03 2005-11-29 Dolby Laboratories Licensing Corporation Method and apparatus for deriving at least one audio signal from two or more input audio signals
JP3670562B2 (ja) 2000-09-05 2005-07-13 日本電信電話株式会社 ステレオ音響信号処理方法及び装置並びにステレオ音響信号処理プログラムを記録した記録媒体
JP4767247B2 (ja) * 2005-02-25 2011-09-07 パイオニア株式会社 音分離装置、音分離方法、音分離プログラムおよびコンピュータに読み取り可能な記録媒体
US7760886B2 (en) * 2005-12-20 2010-07-20 Fraunhofer-Gesellschaft zur Foerderung der Angewandten Forscheng e.V. Apparatus and method for synthesizing three output channels using two input channels
EP3779977B1 (en) * 2010-04-13 2023-06-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder for processing stereo audio using a variable prediction direction

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001069597A (ja) * 1999-06-22 2001-03-16 Yamaha Corp 音声処理方法及び装置
JP2002044793A (ja) * 2000-07-25 2002-02-08 Yamaha Corp 音響信号処理方法及び装置
JP2008104240A (ja) * 2008-01-07 2008-05-01 Sony Corp 音声信号処理装置および音声信号処理方法
JP2011244197A (ja) * 2010-05-18 2011-12-01 Sharp Corp 音声信号処理装置、方法、プログラム、及び記録媒体

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9414177B2 (en) 2013-11-27 2016-08-09 Panasonic Intellectual Property Management Co., Ltd. Audio signal processing method and audio signal processing device

Also Published As

Publication number Publication date
US20140247947A1 (en) 2014-09-04
US9432789B2 (en) 2016-08-30
JPWO2013094135A1 (ja) 2015-04-27
JP5248718B1 (ja) 2013-07-31

Similar Documents

Publication Publication Date Title
US10397699B2 (en) Audio lens
TWI489887B (zh) 用於喇叭或耳機播放之虛擬音訊處理技術
KR101935183B1 (ko) 멀티-채널 오디오 신호 내의 음성 성분을 향상시키는 신호 처리 장치
EP1635611B1 (en) Audio signal processing apparatus and method
GB2549532A (en) Merging audio signals with spatial metadata
US20150071446A1 (en) Audio Processing Method and Audio Processing Apparatus
JP2011501486A (ja) スピーチ信号処理を含むマルチチャンネル信号を生成するための装置および方法
US10165382B2 (en) Signal processing device, audio signal transfer method, and signal processing system
US20210112340A1 (en) Subband spatial and crosstalk processing using spectrally orthogonal audio components
KR101637407B1 (ko) 부가적인 출력 채널들을 제공하기 위하여 스테레오 출력 신호를 발생시키기 위한 장치와 방법 및 컴퓨터 프로그램
US9071215B2 (en) Audio signal processing device, method, program, and recording medium for processing audio signal to be reproduced by plurality of speakers
JP5248718B1 (ja) 音分離装置、および音分離方法
JP4810621B1 (ja) 音声信号変換装置、方法、プログラム、及び記録媒体
JP4706666B2 (ja) 音量制御装置及びコンピュータプログラム
JP5058844B2 (ja) 音声信号変換装置、音声信号変換方法、制御プログラム、および、コンピュータ読み取り可能な記録媒体
JP6355049B2 (ja) 音響信号処理方法、及び音響信号処理装置
JP5202021B2 (ja) 音声信号変換装置、音声信号変換方法、制御プログラム、および、コンピュータ読み取り可能な記録媒体
JP5268581B2 (ja) 低域補完装置
JP5224586B2 (ja) オーディオ信号補間装置
KR20090054583A (ko) 휴대용 단말기에서 스테레오 효과를 제공하기 위한 장치 및방법
JP2012027101A (ja) 音声再生装置、音声再生方法、プログラム、及び、記録媒体
JP5459019B2 (ja) 信号生成装置及び信号処理装置
JPWO2019016905A1 (ja) 音響処理装置及び音響出力装置
JP2015065551A (ja) 音声再生システム
JP6832095B2 (ja) チャンネル数変換装置およびそのプログラム

Legal Events

Date Code Title Description
ENP Entry into the national phase

Ref document number: 2013508307

Country of ref document: JP

Kind code of ref document: A

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12858839

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 12858839

Country of ref document: EP

Kind code of ref document: A1