WO2019203124A1 - ミキシング装置、ミキシング方法、及びミキシングプログラム - Google Patents

ミキシング装置、ミキシング方法、及びミキシングプログラム Download PDF

Info

Publication number
WO2019203124A1
WO2019203124A1 PCT/JP2019/015832 JP2019015832W WO2019203124A1 WO 2019203124 A1 WO2019203124 A1 WO 2019203124A1 JP 2019015832 W JP2019015832 W JP 2019015832W WO 2019203124 A1 WO2019203124 A1 WO 2019203124A1
Authority
WO
WIPO (PCT)
Prior art keywords
signal
value
mixing
spectrum
control signal
Prior art date
Application number
PCT/JP2019/015832
Other languages
English (en)
French (fr)
Inventor
弘太 高橋
宰 宮本
良行 小野
洋司 阿部
比呂志 井上
Original Assignee
国立大学法人電気通信大学
ヒビノ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 国立大学法人電気通信大学, ヒビノ株式会社 filed Critical 国立大学法人電気通信大学
Priority to EP19787973.7A priority Critical patent/EP3783912B1/en
Priority to US17/047,504 priority patent/US11308975B2/en
Priority to JP2020514117A priority patent/JP7260100B2/ja
Publication of WO2019203124A1 publication Critical patent/WO2019203124A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • G10L21/0332Details of processing therefor involving modification of waveforms
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R25/00Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
    • H04R25/43Electronic input selection or mixing based on input signal analysis, e.g. mixing or selection between microphone and telecoil or between microphones with different directivity characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/007Two-channel systems in which the audio signals are in digital form
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/46Volume control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H7/00Instruments in which the tones are synthesised from a data store, e.g. computer organs
    • G10H7/008Means for controlling the transition from one tone waveform to another
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers
    • H03G3/20Automatic control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H60/00Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
    • H04H60/02Arrangements for generating broadcast information; Arrangements for generating broadcast-related information with a direct linking to broadcast information or to broadcast space-time; Arrangements for simultaneous generation of broadcast information and broadcast-related information
    • H04H60/04Studio equipment; Interconnection of studios
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2227/00Details of public address [PA] systems covered by H04R27/00 but not provided for in any of its subgroups
    • H04R2227/009Signal processing in [PA] systems to enhance the speech intelligibility
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2420/00Details of connection covered by H04R, not provided for in its groups
    • H04R2420/01Input selection or mixing for amplifiers or loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control

Definitions

  • the present invention relates to input signal mixing technology.
  • the smart mixer is a new sound mixing method that increases the intelligibility of the priority sound while maintaining the volume feeling of the non-priority sound by mixing the priority sound and the non-priority sound on the time frequency plane (for example, Patent Document 1). reference).
  • a signal characteristic is determined at each point on the time-frequency plane, and processing for increasing the clarity of the priority sound is performed according to the signal characteristic.
  • some side effects may occur in the non-priority sound.
  • there has been proposed a method of outputting a more natural mixed sound by appropriately determining the gain applied to the priority sound and the non-priority sound see, for example, Patent Document 2.
  • FIG. 1 is a diagram showing a configuration of a conventional smart mixer.
  • Each of the priority sound and the non-priority sound is developed on the time-frequency plane, and the gain ⁇ 1 for the priority sound and the gain ⁇ 2 for the non-priority sound are derived from the respective smoothing powers.
  • the priority sound and the non-priority sound are multiplied by gain ⁇ 1 and gain ⁇ 2, respectively, and then added back to the time domain signal for output.
  • the two basic principles are used to derive the gain: “the principle of sum of logarithmic intensities” and “the principle of filling in holes”.
  • the “principle of sum of logarithmic strength” is to limit the logarithmic strength of an output signal to a range not exceeding the sum of logarithmic strengths of input signals. According to the “principle of sum of logarithmic intensity”, it is suppressed that the priority sound is emphasized too much and the mixed sound is uncomfortable.
  • the “filling principle” is to limit the decrease in the power of the non-priority sound to a range not exceeding the power increase of the priority sound. By the “principle of hole filling”, it is possible to suppress the occurrence of a sense of incongruity due to excessive suppression of non-priority sounds in mixed sounds.
  • the gain is rationally determined based on these principles, and a more natural mixed sound is output.
  • Patent No. 5057535 Japanese Unexamined Patent Publication No. 2016-134706
  • Patent Document 2 assumes a small and simple playback device such as a smartphone. As long as the method is applied to such a playback device, the priority sound is clearly maintained and the deterioration of the non-priority sound (feeling of missing) ) Is effectively perceived.
  • professional mixers often use a large playback device for high sound quality and are often played back at high volume. Non-priority sound degradation that is not perceived by a small and simple playback device may be perceived as an unnatural stimulus.
  • deterioration of non-priority sound is suppressed by applying preferential sound mixing processing including emphasis of priority sound and suppression of non-priority sound to a specific important frequency band in the priority sound.
  • the mixing device for the first signal and the second signal on the time-frequency plane is: A control signal generation unit that generates a control signal indicating whether to perform preferential mixing including amplification of the first signal and attenuation of the second signal; A gain deriving unit for deriving a first gain for amplifying the first signal and a second gain for attenuating the second signal based on the control signal; Have The control signal takes at least a first value and a second value different from the first value, and the first value is not continuous over a certain bandwidth on the frequency axis, The mixing device applies the preferential mixing to the first signal and the second signal when the control signal indicates the first value, and when the control signal indicates the second value. Simple addition is applied to the first signal and the second signal.
  • FIG. 2 is a diagram for explaining the basic concept of smart mixing.
  • a window function is applied to each of the priority sound and the non-priority sound to perform a short-time FFT (Fast Fourier Transform) to convert the signal into a signal on the frequency plane (Ptf).
  • FFT Fast Fourier Transform
  • Ptf frequency plane
  • each of the priority sound and the non-priority sound is multiplied by a gain, and the priority sound and the non-priority sound after gain multiplication are added (mixed).
  • the summed signal is returned to the time domain signal and output.
  • the present invention is characterized in that the gain is adjusted using a novel control signal to suppress the lack of non-priority sound while maintaining the clarity of the priority sound.
  • the priority sound is a sound to be preferentially heard, such as voice, vocal, solo part and the like.
  • Non-priority sounds are sounds other than priority sounds, such as background sounds and accompaniment sounds.
  • the priority sound and the non-priority sound developed on the time-frequency plane are respectively expressed as X 1 [i, k] and X 2 [i, k] using the coordinate value i in the time direction and the coordinate value k in the frequency direction. It is represented by On the time-frequency plane, a signal obtained by multiplying the priority sound by the gain ⁇ 1 is Y 1 [i, k], and a signal obtained by multiplying the non-priority sound gain ⁇ 2 is Y 2 [i, k]. A signal obtained by adding the signals Y 1 [i, k] and Y 2 [i, k] multiplied by the gain is a signal Y [i, k] representing the mixing result. This process is expressed by Equation (1) and Equation (2).
  • the signal Y [i, k] representing the mixing result is restored to a time domain signal, and a mixed sound signal y [n] is output.
  • the inventors say that when a smart mixer for smartphones is applied as it is to an audio device that requires high sound quality, for example, a business device such as a concert venue, and output at a high volume, deterioration of non-priority sound will be noticeable. I found a problem. Even in the case of smart mixers for smartphones, listeners who already know the original sound of non-priority sounds may feel the lack of non-priority sound when listening carefully to the mixed sound from the smart masser. In order to avoid this, simple measures have been taken, such as limiting the frequency band for preferential mixing to 350 Hz or higher.
  • priority mixing that is, emphasis of priority sounds and suppression of non-priority sounds
  • the inventors analyzed a phenomenon in which deterioration of the non-priority sound is particularly noticeable.
  • the priority sound suppresses the non-priority sound over a certain length on the frequency axis, the lack of non-priority sound is sensed. was found to be prominent.
  • control signal is referred to as a “vivid signal” in this specification in the sense that a clear mixed sound is realized without a feeling of lack of non-priority sound.
  • the vivid signal is an index indicating whether or not to apply preferential mixing (including suppression of non-priority sound) and if so, to what extent.
  • the vivid signal is generated so that preferential mixing does not continue beyond a certain bandwidth on the frequency axis, and mixing is controlled so that deterioration of non-priority sound is not perceived.
  • Important frequency components in the priority sound are selected as a certain range of frequency bands to which preferential mixing is applied. For example, when mixing vocals (priority sounds) and backband sounds (non-priority sounds) at a concert venue, a particularly important frequency band exists in the vocals. Even in an instrument-only session, there are important frequency bands in the part played by a particular instrument. An important frequency component may be rephrased as a band where energy is concentrated as compared with other parts.
  • the “vivid signal” is generated so that preferential mixing is performed on important frequency bands and simple addition is performed on other bands. Since the important frequency band varies depending on the music piece, the important frequency band of the priority sound is discriminated in real time during mixing, and a vivid signal is generated. That is, only the important frequency part of the priority sound is emphasized by vivid signal, and the non-priority sound is attenuated. By generating a gain mask using the vivid signal, the sound quality of the non-priority sound can be improved without impairing the clarity of the priority sound.
  • FIG. 3 is a schematic diagram of the mixing apparatus 1A of the first embodiment.
  • the mixing apparatus 1A includes a signal input unit 11, a frequency analysis unit 12, a signal processing unit 15A, a frequency time conversion unit 16, and a signal output unit 17.
  • the signal input unit 11 inputs a plurality of input signals to be mixed.
  • the input signal is an audio signal, for example, and includes a priority sound signal x 1 [n] such as voice and a non-priority signal x 2 [n] such as background sound.
  • the frequency analysis unit 12 develops the input signals of the priority sound and the non-priority sound on the time-frequency plane by frequency analysis.
  • any method such as short-time FFT (Fast Fourier Transform), wavelet transformation, transformation by a filter bank, transformation to temporal frequency distribution such as Wigner distribution, or the like can be used.
  • a window function is applied to the input signal, and the input signal is developed on the time-frequency plane by short-time FFT.
  • the signal processing unit 15A includes a power calculation unit 14A.
  • the power calculation unit 14A is an example of an intensity calculation unit that calculates the intensity of an input signal developed on a time-frequency plane. The power of the input signal is expressed by the square of the amplitude.
  • the power calculation unit 14A calculates the power
  • the input signal strength on the time-frequency plane is not necessarily limited to power, and may be logarithmic strength.
  • the intensities of the priority sound and the non-priority sound are smoothed in the time direction and the frequency direction and then input to the gain deriving unit 19, and the gain deriving unit 19 calculates the gain for each of the priority signal and the non-priority signal.
  • the power smoothed in the time direction is E [i, k]
  • the power smoothed in the frequency direction is F [i, k].
  • the gain derivation unit 19 derives the gain ⁇ 1 [i, k] of the priority signal and the gain ⁇ 2 [i, k] of the non-priority signal.
  • the gains ⁇ 1 [i, k] and ⁇ 2 [i, k] are, for example, such that the log intensity of the mixed signal output from the mixing apparatus 1A exceeds the sum of the log intensity of the priority sound and the log intensity of the non-priority sound. It is determined that the priority sound is increased in a range that is not present and the non-priority sound is attenuated in a range that does not exceed the power increase of the priority sound.
  • the method of Patent Document 2 may be used.
  • the priority signal and the non-priority signal are multiplied by gains ⁇ 1 and ⁇ 2, respectively, and then added, and a signal Y [i, k] as a mixing result is output from the signal processing unit 15A.
  • the frequency time conversion unit 16 converts the output signal of the signal processing unit 15 into a time domain signal y [n].
  • the signal output unit 17 outputs a signal restored in the time domain.
  • the control signal generation unit 150 generates a control signal (vivid signal) instructing whether to perform preferential mixing or simple addition.
  • the vivid signal is generated based on an absolute spectrum that represents the absolute amount of the smoothed spectrum of the priority sound developed on the time-frequency plane and a relative spectrum that represents a local change in the priority sound spectrum.
  • the gain deriving unit 19 adjusts the gain applied to the priority sound and the non-priority sound based on the vivid signal.
  • FIG. 4 is a configuration example of the control signal generation unit 150 of FIG.
  • the control signal generation unit 150 includes a time direction smoothing unit 151, a first frequency direction smoothing unit 152, a second frequency direction smoothing unit 153, a subtraction unit 154, and a vivid signal generator 155.
  • the time direction smoothing unit 151 smoothes the signal intensity of the priority sound on the time frequency plane in the time direction, and outputs a smoothed signal Ev [i, k].
  • the power level of the priority sound is input as the signal strength.
  • the first frequency direction smoothing unit 152 smoothes the signal smoothed in the time direction in the frequency direction and outputs an absolute spectrum Fv [i, k].
  • the absolute spectrum Fv [i, k] is input to the second frequency direction smoothing unit 153 and subjected to the second smoothing, and is also input to the subtraction unit 154 and the vivid signal generator 155.
  • the signal after the second smoothing is represented by Gv [i, k].
  • the subtraction unit 154 obtains a difference between the smoothing result in the first frequency direction and the smoothing result in the second frequency direction (Gv [i, k] ⁇ Fv [i, k]), and represents a relative value representing this difference.
  • the spectrum Hv [i, k] is supplied to the vivid signal generator 155.
  • the vivid signal generator 155 generates a vivid signal V [i, k] from the smoothed absolute spectrum Fv [i, k] and the relative spectrum Hv [i, k] by a procedure described later, and obtains a gain derivation unit. 19 output.
  • the vivid signal V [i, k] takes at least two values (for example, “0.0” and “1.0”) at each point (i, k) on the time-frequency plane.
  • V [i, k] 0.0
  • the mixing is performed by simple addition
  • V [i, k] 1.0
  • Mixing shall be performed with priority mixing alone.
  • the simple addition is a process of adding the priority sound and the non-priority sound developed on the time-frequency plane as they are, and does not multiply the gain or multiply the gain having a value of 1.
  • the vivid signal V [i, k] is not necessarily binary, and can take any value between 0.0 and 1.0.
  • a preferential mixing operation with reduced effects may be performed according to the value of the vivid signal. Thereby, the operation of simple addition and the operation of preferential mixing can be smoothly connected.
  • the first viewpoint is “to suppress the feeling of lack of non-priority sounds”.
  • the feeling of lack of non-priority sounds becomes particularly noticeable when non-priority sounds are suppressed continuously over a wide band on the frequency axis.
  • the second point of view is “to keep the effect of increasing the clarity of the priority sound as much as possible”.
  • the formant component for clearly listening to phrases the band component of several kHz for clearly listening to consonants, the high frequency component necessary to prevent the sound quality from becoming muffled, and the sense of energy of sound are lost.
  • these frequency components are examined from an engineering and music theoretical viewpoint, and the most important frequency band for the priority sound at that time is selected so that the vivid signal becomes 1.0. It is desirable to make it.
  • the control signal generation unit 150 of FIG. 4 is used.
  • the time direction smoothing unit 151 smoothes the power
  • the time smoothing power Ev [i, k] is obtained by Expression (3).
  • ⁇ v is a coefficient of the exponential smoothing method, and is obtained by the equation (4) from the smoothing time constant ⁇ v and the sampling frequency F s .
  • N d is the number of shift window function to be applied in a short time FFT of N F points for by priority sound acquired at a sampling frequency F s and the non-priority tone (N d point shift ).
  • the time smoothing power Ev [i, k] is smoothed in the frequency direction by the first frequency direction smoothing unit 152 to obtain Fv [i, k].
  • Ev [i, k] is ⁇ N F / 2 ⁇ k ⁇ N F / 2 Since it is defined only for, care must be taken in smoothing.
  • the non-definition part (k ⁇ N F / 2, and N F / 2 ⁇ k) is set to 0 and smoothed, the absolute spectrum Fv [i, k] is marked for
  • f () is a smoothing weight coefficient
  • N A is a smoothing width
  • g () is a weighting factor for smoothing.
  • the smoothing in the first frequency direction and the smoothing in the second frequency direction are performed by storing the coefficient table of f () and g () in the memory of the mixing apparatus 1A and multiplying the coefficients. May be.
  • arithmetic processing of the mixing apparatus 1A is implemented by a logic device such as an FPGA (Field Programmable Gate Array), a memory area built in the FPGA may be used.
  • an effect that is substantially similar to a Gaussian type that is, f () is obtained by performing cascade connection of operations that take the sum of a certain interval, for example, operations of equations (9) to (12). And the same effect as using g ().
  • the power Fv [i, k] after smoothing in the first frequency direction can be regarded as representing the absolute amount of the spectrum, and Fv [i, k] is called the absolute spectrum.
  • the power Gv [i, k] after the second smoothing in the frequency direction represents a general outline of Fv [i, k].
  • Hv [i, k] defined by the difference between Fv [i, k] and Gv [i, k] is the relative unevenness of Fv [i, k] when focusing on the local region on the frequency axis ( Change). Therefore, Hv [i, k] is called a relative spectrum.
  • Hv [i, k] is expected to be positive at the formant frequency at which words are clearly heard. Further, Hv [i, k] is expected to be negative at the frequency of the gap between the fault cape and the fault cape. Even in the case of musical instrument sounds, Hv [i, k] is expected to be positive at an important frequency where energy is relatively concentrated, and Hv [i, k] is expected to be positive in the region between the important frequency and the important frequency. i, k] are expected to be negative.
  • a signal V H [i, k] of Expression (14) is considered from the relative spectrum as a vivid signal candidate.
  • V H [i, k] defined in Expression (14) is used as it is as a vivid signal, the sound intensity of the priority sound is very small (for example, the vocal microphone when the vocal is not speaking) In the case where a backband sound is mixed in), the vivid signal may be 1.0.
  • V F [i, k] is obtained from the absolute spectrum by the equation (15).
  • V [i, k] is defined as the minimum value (whichever is smaller) of V F [i, k] and V H [i, k], which is expressed by Equation (16) Define as follows.
  • the vivid signal generated by the vivid signal generator 155 according to the equation (16) is used for switching between preferential mixing and simple addition in the gain deriving unit 19. Specifically, this switching is realized by the following method.
  • an upper limit T 1H of the gain ⁇ 1 of the priority sound and a lower limit T 2L of the gain ⁇ 2 of the non-priority sound are set. This is due to the “filling principle” in which priority sounds are emphasized within a range not exceeding a predetermined threshold and non-priority sounds are suppressed within a range not exceeding a predetermined threshold.
  • These threshold values are redefined as shown in equations (17) and (18) for each point (i, k) on the time-frequency plane.
  • a simple addition is performed. Between simple addition and preferential mixing, the degree of preferential mixing changes according to the value of V [i, k], and it is possible to smoothly connect between preferential mixing and simple addition.
  • the gain ⁇ 1 for the priority sound is obtained by increasing ⁇ 1 in the previous time frame (i ⁇ 1) by a predetermined step size within a range not exceeding the adjusted upper limit T 1H .
  • the gain ⁇ 2 for the non-priority sound is obtained by reducing ⁇ 2 in the previous time frame (i-1) by a predetermined step size as long as it does not become smaller than T 2L .
  • preferential mixing is specified by vivid signal, and when preferential mixing is performed, priority sound and non-priority sound are added using gains ⁇ 1 and ⁇ 2 calculated within a reasonable range. Due to the mixed signal restored in the time domain, the priority sound is emphasized and the non-priority sound is reproduced as a natural sound with a sufficient volume feeling.
  • FIG. 5 is a schematic diagram of a mixing apparatus 1B according to the second embodiment.
  • the same components as those in the mixing apparatus 1A of the first embodiment are denoted by the same reference numerals, and redundant description is omitted.
  • the vivid signal is generated based on the power (amplitude squared) of the priority sound developed on the time-frequency plane.
  • the vivid signal is generated based on the logarithm of the absolute value of the priority sound developed on the time-frequency plane.
  • logarithmic calculation is performed. If a logarithmic operation is performed for display, it is easier to perform an operation related to an intensity-related operation by taking the logarithm from the beginning (in dB notation).
  • the mixing apparatus 1B includes a signal input unit 11, a frequency analysis unit 12, a signal processing unit 15B, a frequency time conversion unit 16, and a signal output unit 17.
  • the signal input unit 11 inputs a priority signal and a non-priority signal to be mixed.
  • the signals X 1 [i, k] and X 2 [i, k] respectively developed on the time frequency plane by the frequency analysis unit 12 are input to the signal processing unit 15B.
  • the signal processing unit 15B includes a logarithmic intensity calculation unit 14B as an intensity calculation unit.
  • the logarithmic intensity calculation unit 14B uses, for example, the CORDIC method, and the norms
  • Logarithmic intensities of the priority sound and the non-priority sound are smoothed in the time direction and the frequency direction and then input to the gain deriving unit 19, and the gain deriving unit 19 calculates gains for the priority signal and the non-priority signal, respectively.
  • the log intensity smoothed in the time direction is E [i, k]
  • the log intensity smoothed in the frequency direction is F [i, k].
  • the gain deriving unit 19 Based on the smoothed logarithmic intensity and the vivid signal from the control signal generation unit 150, the gain deriving unit 19 performs gain ⁇ 1 [i, k] of the priority signal and gain ⁇ 2 [i, k of the non-priority signal. k] is derived.
  • the gains ⁇ 1 [i, k] and ⁇ 2 [i, k] are set so that the priority sound is within a range not exceeding the upper and lower limits defined by the equations (17) and (18) in a certain important frequency band. Increased and determined to attenuate non-priority sounds.
  • the priority signal and the non-priority signal are multiplied by gains ⁇ 1 and ⁇ 2, respectively, and then added, and a signal Y [i, k] as a mixing result is output from the signal processing unit 15B.
  • the frequency time conversion unit 16 converts the output signal of the signal processing unit 15 into a time domain signal y [n].
  • the signal output unit 17 outputs a signal restored in the time domain.
  • of the priority sound is input to the control signal generation unit 150, and a vivid signal for controlling gain derivation is generated.
  • the configuration of the control signal generation unit 150 is the same as the configuration of FIG. The difference is that the signal intensity input to the time direction smoothing unit 151 is not the power of the priority sound on the time frequency plane but a logarithmic value of the amplitude of the priority sound.
  • the operation after the time direction smoothing unit 151 is the same as that of the first embodiment. That is, the input logarithmic intensity is smoothed in the time direction and the frequency direction to generate a smoothed spectrum (absolute spectrum). The absolute spectrum is further smoothed in the frequency direction, and a relative spectrum representing a local change on the frequency axis is generated based on the difference from the absolute spectrum.
  • the vivid signal generator 155 generates and outputs a vivid signal according to the smaller one of the signal value based on the absolute spectrum and the signal value based on the relative spectrum.
  • the gain deriving unit 19 generates gains ⁇ 1 and ⁇ 2 based on the smoothed logarithmic values of the priority sound and the non-priority sound and the vivid signal.
  • the input signals of the priority sound and the non-priority sound are multiplied by gains ⁇ 1 and ⁇ 2, respectively, and the multiplication value is added, and a signal Y [i, k] as a mixing result is output from the signal processing unit 15B.
  • the signal Y [i, k] is restored to a time domain signal by the frequency time conversion unit 16 and output from the signal output unit 17.
  • the signal E [i, k] smoothed in the time direction and the signal F [i, k] smoothed in the frequency direction in FIG. 5 are both new variables using the logarithmic intensity.
  • the values of the signals E [i, k] and F [i, k] shown in FIG. 3 of the embodiment are different.
  • the time direction smoothed signal Ev [i, k], the absolute spectrum Fv [i, k], the relative spectrum Hv [i, k], etc. generated by the control signal generation unit 150 are the same in calculation method. The value is different.
  • the vertical axis of smoothing is based on the value of logarithmic intensity rather than power, so that mixing is appropriate for the listener's sense. Processing can be performed.
  • the third embodiment human auditory characteristics are reflected when performing smoothing in the frequency direction.
  • the absolute spectrum Fv [i, k] is obtained by the first frequency direction smoothing, and the global shape is represented by the second frequency direction smoothing.
  • a spectrum Gv [i, k] is obtained.
  • Fv [i, k] and Gv [i, k] are obtained by the above-described equations (7) and (8), respectively.
  • the human auditory filter has a characteristic of being narrow at a low frequency and wide at a high frequency. In other words, the auditory resolution is high in the low frequency band, and the resolution is low in the high frequency band.
  • the Bark scale, ERB (Equivalent Rectangular Bandwidth) scale, etc. are known as frequency scales that take into account the characteristics of human auditory filters.
  • the Bark scale ranges from 1 to 24, corresponding to the 24 critical bands of hearing.
  • the frequency axis based on the Bark scale is called the Bark axis
  • the frequency axis based on the ERB scale is called the ERB axis.
  • FIG. 6 is a diagram showing conversion to the Bark axis at a high frequency
  • FIG. 7 is a diagram showing conversion to the Bark axis at a low frequency.
  • the conversion of data from the linear frequency axis to the Bark axis will be described with reference to FIGS. 6 and 7, the second vertical axis from the left is the linear frequency axis f, and the leftmost vertical axis is the bin number k of the linear frequency axis.
  • the third vertical axis from the left is the Bark axis f Bark .
  • the rightmost vertical axis is the Bark bin number h.
  • the bin on the f axis and the bin on the Bark axis (f Bark ) may be one-to-one, many-to-one, or one-to-many depending on the frequency band.
  • the conversion may be a simple method of using the data of the frequency bin number k on the linear frequency axis closest to the frequency corresponding to the Bark bin number h as it is.
  • the same k data is repeatedly referred to in a small h.
  • a skipped k may occur.
  • the smoothness of the values on the time frequency plane may be lost. Therefore, by performing the processing of FIGS. 6 and 7, the data on the time-frequency plane on the Bark axis is smoothed.
  • the line graph of FIG. 6 can be drawn.
  • the broken line represents the signal strength (power or log strength) on the linear frequency axis.
  • the area of the hatched region between the upper limit f H (57) and the lower limit f L (57) is obtained.
  • k ⁇ (h) N F / F S (f H (h) ⁇ f L (h)) It is.
  • one h on the Bark axis refers to many k on the linear frequency axis, but smooth conversion is realized by the above-described conversion processing.
  • a single section that is, a section between k and k + 1 is referenced from a plurality of h.
  • the above-described frequency conversion operation is easily executed even in an FPGA by calculating in advance which k is to be added with what weight for each Bark bin number h and storing this as a table. can do.
  • inverse transformation processing to return from the Bark axis to the linear axis
  • inverse transformation processing to return from the Bark axis to the linear axis
  • FIG. 8 is a schematic diagram of a mixing apparatus 1C according to the third embodiment.
  • the same components as those in the first embodiment and the second embodiment are denoted by the same reference numerals, and redundant description is omitted.
  • the mixing apparatus 1C includes a signal input unit 11, a frequency analysis unit 12, a signal processing unit 15C, a frequency time conversion unit 16, and a signal output unit 17.
  • the configurations and operations of the signal input unit 11, the frequency analysis unit 12, the frequency time conversion unit 16, and the signal output unit 17 are the same as those in the first embodiment and the second embodiment.
  • the signal processing unit 15C includes a logarithmic intensity calculation unit 14B as an intensity calculation unit, a frequency axis conversion unit 18, a frequency axis inverse conversion unit 21, a gain derivation unit 19, And a control signal generator 250.
  • a double circle ( ⁇ ) represents a signal on the linear frequency axis
  • a black circle ( ⁇ ) represents a signal on the Bark axis.
  • the logarithmic intensity calculating unit 14B calculates the logarithmic intensity log
  • of the non-priority sound are calculated.
  • of the priority sound and the non-priority sound are converted into frequency axes (for example, a human auditory scale) by the frequency axis conversion unit 18 Bark axis).
  • the logarithmic intensities D 1 B [i, h] and D 2 B [i, h] of the priority sound and the non-priority sound converted to the Bark axis are smoothed in the time direction and the frequency direction, respectively, After being converted back to the linear frequency axis smoothed signals F 1 [i, k] and F 2 [i, k] by the inverse transform unit 21, they are input to the gain deriving unit 19.
  • the logarithmic intensity D 1 B [i, h] of the priority sound on the Bark axis is input to the control signal generation unit 250 and used to generate a vivid signal.
  • the time direction smoothing unit 251 smoothes the logarithmic intensity D 1 B [i, h] of the priority sound on the Bark axis in the time direction, and outputs a time direction smoothed signal E V B [i, h]. .
  • the first frequency direction smoothing unit 252 performs frequency direction smoothing on the signal smoothed in the time direction, and outputs an absolute spectrum F V B [i, h].
  • the second frequency direction smoothing unit 253 further smoothes the signal smoothed in the frequency direction, and a spectrum G V B [i, h representing a general outline of the absolute spectrum F V B [i, h]. ] Is output.
  • the subtraction unit 254 calculates the difference between the absolute spectrum and the relative spectrum and outputs the relative spectrum H V B [i, h].
  • the absolute spectrum F V B [i, h] and the relative spectrum H V B [i, h] are input to the vivid signal generator 255, and the control signal V B [i, h] on the Bark axis is output from the vivid signal generator 255. ] Is output.
  • the frequency axis inverse transform unit 356 returns the control signal V B [i, h] to the linear frequency axis, and then supplies the vivid signal V [i, k] to the gain deriving unit 19.
  • control signal generation unit 250 Since the control signal generation unit 250 generates the vivid signal after performing smoothing in the frequency direction twice on the Bark axis (or other auditory scale axis such as ERB), more human hearing It is possible to generate a control signal conforming to Even when a graphical display device is connected and the power on the time-frequency plane is displayed in shades or pseudo colors, it can be displayed on the Bark axis, so the processing becomes efficient.
  • FIG. 9 shows a monitor screen when a control signal is generated on the Bark axis.
  • the three spectra on the left side of FIG. 9 are the absolute spectrum F V B [i, h] on the bark axis, its lower threshold F L B [i, h], and the upper threshold F H B [i, h]. .
  • the three spectra at the center are the relative spectrum H V B [i, h] on the bark axis, its lower threshold H L B [i, h], and the upper threshold H H B [i, h].
  • 9 is a vivid signal V B [i, h] from which the right spectrum of FIG. 9 is output.
  • the vivid signal takes a value in the range of 0.0 to 1.0.
  • the resulting vivid signal V B [i, h] is determined. For example, when the absolute spectrum F V B [i, h] is smaller than the lower threshold F L B [i, h], there is no locally concentrated energy. Set to 0.0. When the absolute spectrum F V B [i, h] exceeds the upper threshold F H B [i, h], the energy concentration (priority sound) is emphasized, and the deterioration of non-priority sound is suppressed and preferential mixing is performed. In order to do so, the value of the vivid signal is provisionally set to 1.0 (see equation (15)). In other cases, the vivid signal takes an intermediate value corresponding to the absolute spectrum value.
  • the upper limit threshold value F H B [i, h] and the lower limit threshold value F L B [i, h] of the absolute spectrum differ depending on the frequency band. Since the noise energy is relatively low in the high frequency region, the setting threshold is reduced. Since the noise energy is relatively high in the low frequency region, the setting threshold is increased.
  • the relative spectral H V B [i, h] when focusing on the case relative spectral H V B [i, h] is the lower limit threshold H L B [i, h] is smaller than the value of the vivid signal 0
  • the value of the vivid signal is provisionally set to 1.0 (see Expression (14)).
  • the vivid signal takes an intermediate value according to the value of the relative spectrum.
  • the provisional value of the vivid signal is substantially a binary signal.
  • the finally output vivid signal V B [i, h] takes a smaller value of the vivid signal based on the relative spectrum and the absolute spectrum (see Expression (16)).
  • the value of the output vivid signal V B [i, h] is 1.0.
  • the value of the output vivid signal V B [i, h] is 0.0.
  • the band where the vivid signal becomes 0.0 and the band where the viid signal becomes 1.0 appear alternately within a certain interval on the Bark axis, and preferential mixing is prevented from being carried out continuously for a long time on the Bark axis. can do.
  • the non-priority sound can be prevented from being attenuated over a long section on the Bark axis, and the priority sound can be emphasized and the deterioration of the non-priority sound can be prevented.
  • the upper and lower thresholds of the absolute spectrum and the upper and lower thresholds of the relative spectrum may be set by user input.
  • the threshold value set according to the frequency band may be changed.
  • gain derivation may be performed on the Bark axis.
  • the gain mask ( ⁇ 1 and ⁇ 2 at each point on the time frequency plane) expressed on the Bark axis may be returned to the linear frequency axis by inverse transformation, and then gain multiplication may be performed.
  • the vivid signal may be generated after conversion to the ERB axis instead of the Bark axis.
  • a band-pass filter may be used instead of performing two-stage frequency smoothing (processing in the frequency direction smoothing units 252 and 253) by the control signal generation unit 250.
  • the bandpass filter repeats positive and negative inversion at the center frequency of the pass frequency, so that the band where the vivid signal becomes 1.0 and the band where 0.0 becomes alternately appear within a certain interval. Can do.
  • the vivid signal is a signal that becomes 1.0 at the important frequency part of the priority sound such as voice.
  • another sound mixed in the microphone (a sound generally called “fogging”) has a spectrum almost unrelated to the vivid signal if the signal level is within a certain range.
  • the relative spectrum Hv [i, k] does not necessarily need to be expressed by the difference between the first smoothing strength and the second smoothing strength in the frequency direction. You may express using a ratio.
  • FIG. 10 is a flowchart illustrating a control signal generation flow according to the embodiment.
  • the priority sound intensity power, logarithmic intensity, etc.
  • S11 the time-frequency plane
  • S12 A smoothed spectrum (absolute spectrum) obtained by smoothing the intensity of the priority sound in the time direction and the frequency direction and a relative spectrum indicating local unevenness (variation) of the absolute spectrum are obtained (S12).
  • a signal V F [i, k] based on the absolute spectrum and a signal V H [i, k] based on the relative spectrum are generated (S13), and any of V F [i, k] and V H [i, k] is generated.
  • the smaller value is output as a vivid signal (S14).
  • the vivid signal V [i, k] becomes 1.0 and the continuous frequency section in which the preferential mixing (including the suppression process for the non-priority sound) is performed is suppressed, and the non-priority over a wide range. Sound suppression can be prevented.
  • the priority ⁇ is multiplied by the gain ⁇ 1 that increases the priority sound, and the gain ⁇ 2 that decreases the non-priority sound within the range of increase in the priority sound is multiplied by the non-priority sound. Is added.
  • the vivid signal is 0.0, simple addition is performed.
  • the gain ⁇ 1 and ⁇ 2 are multiplied by a coefficient corresponding to the value of the vivid signal to reduce the amplification factor ⁇ 1 and the attenuation factor ⁇ 2. Also good.
  • a natural mixed sound is output by applying a preferential sound mixing process to a specific frequency band of the priority sound using the vivid signal as a control signal.
  • the fourth embodiment provides a configuration and method for further improving the priority sound.
  • the vivid signal is a control signal that suppresses deterioration of non-priority sound by applying preferential mixing to specific important frequency bands in the priority sound and performing simple addition in other bands. If there is a time delay for the vivid signal to rise to “1” or a predetermined level, the timing of the preferential mixing process may be delayed and the rise of the priority sound may be insufficient.
  • the rise delay of the priority sound is improved by eliminating the delay of the rise of the vivid signal and applying the preferential mixing process without timing delay.
  • the inventors have clarified the cause of a time delay when the vivid signal rises to “1” or a predetermined level.
  • a delay may occur due to the size of the window function of the frequency analysis, and second, an additional delay may occur due to exponential smoothing. .
  • the vivid signal is set to “1” or a predetermined level after the sound reaches a certain level, a certain amount of delay occurs. Therefore, in the fourth embodiment, when the priority sound is silent, the vivid signal is set to “1” in all bands, and when the priority sound reaches a level that can be analyzed and the time that can be analyzed has passed. In addition, the vivid signal is set to “0” only for the necessary band.
  • the vivid signal is set to “1” when there is no sound, the absolute spectrum reference cannot be used.
  • an absolute spectral reference and a relative spectral reference can be selected. For example, when the priority sound is silent, a vivid signal is generated based only on the reference of the relative spectrum, and the upper threshold value H B H [h] of the relative spectrum is made negative.
  • FIG. 11A shows an operation block of the vivid signal generator 155A used in the first to third embodiments
  • FIG. 11B shows an operation block of the vivid signal generator 155B of the fourth embodiment.
  • the operation mode of the vivid signal generator 155A in FIG. 11A is referred to as “normal mode”.
  • the operation mode of the vivid signal generator 155B in FIG. 11B is referred to as “selection mode”.
  • the signal V F [i, k] is generated by applying the function of Equation (15) to the absolute spectrum Fv [i, k], and the relative spectrum Hv [i, k] is generated.
  • the signal V H [i, k] is generated by applying the function of Expression (14), and the smaller one of the two control signals is output as the final vivid signal V [i, k].
  • the vivid signal generator 155B of FIG. 11B includes a first switch (ABS-SW) that selects whether to use an absolute spectrum reference and a second switch (REL--) that selects whether to use a relative spectrum reference. SW).
  • the first switch (ABS-SW) selects the fixed value “1.0”.
  • the second switch (REL-SW) selects the fixed value “1.0”. The smaller value of the selection results of the first switch (ABS-SW) and the second switch (REL-SW) is output as the final vivid signal V [i, k].
  • This selection process may be performed by the control signal generation unit 150 (FIG. 4) or 250 (FIG. 8) based on the strength of the input priority sound signal, or may be performed according to user input. Also good.
  • FIG. 12 is an example of an interface (GUI) that enables mode selection by user input.
  • GUI mode selection window
  • ABS absolute spectrum reference
  • REL relative spectrum reference
  • the most preferable setting can be selected from the four combinations in FIG. 12 according to the nature of the sound to be mixed and the situation at the site.
  • FIG. 13A shows an example of a waveform immediately after the priority sound rises in the normal mode.
  • both the absolute spectrum reference and the relative spectrum reference are used.
  • the vivid signal has a value of 0 or the vicinity thereof over the entire frequency band. ing. Therefore, the operation of smart mixing is hardly performed, and the priority sound (for example, vocal) is not emphasized. In other words, the gain at the rising portion of the priority sound is relatively insufficient, and the rising of the priority sound in the mixing sound may be heard inadequately.
  • FIG. 13B shows a waveform after 100 ms has elapsed since the rising of the priority sound in the normal mode. Since the relative spectrum has grown sufficiently, the band where the value of the vivid signal is “1” has increased to nearly half, and the priority sound expected in smart mixing is emphasized.
  • FIG. 13C shows a waveform immediately after rising when only the relative spectrum is selected in the selection mode.
  • the setting for selecting only the relative spectrum is performed when it is particularly important to prioritize the priority sound.
  • Vivid signal is “1” in all bands.
  • FIG. 13D shows a waveform after 100 ms has elapsed from the rise when only the relative spectrum is selected in the selection mode.
  • the band in which the vivid signal is “1” is wider than that in the normal mode in FIG. 13B, but there is also a sufficient band in which the vivid signal is “0”, enhancing the rise of the priority sound and non-priority sound. It plays the role of the vivid signal that does not deteriorate.
  • FIG. 14 is a schematic diagram of a mixing system 100 to which the mixing apparatus 1 of the embodiment is applied.
  • the mixing apparatus 1 can be realized by a logic device 101 such as an FPGA or PLD (Programmable Logic Device). Since the mixing apparatuses 1A to 1C having the above-described configuration are relatively simple in arithmetic processing, they sufficiently function with the memory 102 built in the logic device 101. However, a separate memory may be provided.
  • a user input / output device 2 is connected to the mixing device 1.
  • An amplifier 5 may be inserted between the mixing device 1 and the speaker 6.
  • the user input / output device 2 is an information processing terminal such as a personal computer (PC).
  • the user input / output device 2 includes an upper threshold F H [i, k] and a lower threshold F L [i, k] for absolute spectrum, an upper threshold H H [i, k] and a lower threshold H L [i] for relative spectrum. , K] etc., a box for setting and inputting parameters is displayed to allow user input.
  • the display device 3 is a monitor display such as liquid crystal or organic electroluminescence.
  • a monitor display such as liquid crystal or organic electroluminescence.
  • the audio signal input device 4 is, for example, microphones 4a and 4b, and an audio signal that is a priority sound and an audio signal that is a non-priority sound are input to the mixing device 1.
  • the signal mixed by the mixing device 1 is amplified by the amplifier 5 and output from the speaker 6.
  • the mixing device 1 of the embodiment By using the mixing device 1 of the embodiment, the following effects can be obtained. (1) It is possible to suppress a lack of feeling (deterioration of sound quality) in non-priority sounds while maintaining the effect of increasing the clarity of priority sounds as much as possible. (2) Since it can be realized by a combination of simple calculations, the calculation load is light when implemented as software. Moreover, it is suitable for mounting on a programmable logic device such as an FPGA. When implemented as software, a program that executes functions (smoothing processing, gain derivation processing, multiplication processing, addition processing) of each component of the mixing apparatus 1 of the embodiment including the control signal generation flow of FIG. You may install in information processing apparatuses, such as.
  • the present invention has been described based on specific configuration examples, the present invention includes various modifications, replacements, and the like.
  • the order of the addition process of the signal whose gain is adjusted based on the control signal and the conversion process to the time domain signal by the frequency time conversion unit 16 may be reversed. That is, the priority sound and the non-priority sound whose gains are adjusted according to the presence or absence of preferential mixing may be individually converted into time domain signals and then added.
  • the signal processing units 15A to 15C it is not always necessary to output the mixed signal after the addition, and the time domain signals of the priority sound and the non-priority sound that are gain-adjusted according to the presence or absence of the preferential mixing are respectively It may be output individually.
  • the signal processing units 15A to 15C output the priority sound, the non-priority sound, the priority sound and the gain adjustment. You may output the difference with a subsequent signal, the difference of the original sound of a non-priority sound, and the signal after gain adjustment, etc.
  • the individual outputs from the signal processing unit 15 may be input to an external mixer (for example, a conventional mixer) to perform further mixing operation.
  • the output of the mixing device 1 is not limited to the mixed sound of the priority sound and the non-priority sound whose gain is adjusted according to the presence or absence of the priority mixing.
  • the gain-adjusted time-domain priority sound signal and non-priority signal are input to the amplifier 5, they may be input to the amplifier 5 after further processing by another external mixer or the like.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Otolaryngology (AREA)
  • Neurosurgery (AREA)
  • General Health & Medical Sciences (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

再生装置の規模や品質を問わずに非優先音の劣化を抑制し、より自然な混合音を出力することのできるミキシング技術を提供する。時間周波数平面上の第1信号と第2信号のミキシング装置は、前記第1信号の増幅と前記第2信号の減衰とを含む優先的混合を行うか否かを示す制御信号を生成する制御信号生成部と、前記制御信号に基づいて、前記第1信号を増幅させる第1ゲインと前記第2信号を減衰させる第2ゲインを導出するゲイン導出部とを有し、前記制御信号は、少なくとも第1の値と、前記第1の値と異なる第2の値をとり、前記第1の値は周波数軸上で一定帯域幅を超えて連続せず、前記ミキシング装置は、前記制御信号が前記第1の値を示すときは、前記第1信号と前記第2信号に前記優先的混合を適用し、前記制御信号が前記第2の値を示すときは、前記第1信号と前記第2信号に単純加算を適用する。

Description

ミキシング装置、ミキシング方法、及びミキシングプログラム
 本発明は、入力信号のミキシング技術に関する。
 スマートミキサは、優先音と非優先音を時間周波数平面上で混合することにより、非優先音の音量感を保ったまま、優先音の明瞭度をあげる新しい音混合法である(たとえば特許文献1参照)。時間周波数平面上の各点で信号特性を判断し、その信号特性に応じて優先音の明瞭度を上げる処理が施される。しかし、スマートミキシングで優先音を明瞭に聞かせることに重点がおかれると、非優先音に若干の副作用(音の欠落感の知覚)が生じ得る。そこで、優先音と非優先音に適用されるゲインを適切に決定することで、より自然な混合音を出力する手法が提案されている(たとえば、特許文献2参照)。
 図1は、従来のスマートミキサの構成を示す図である。優先音と非優先音のそれぞれが時間周波数平面上に展開され、それぞれの平滑化パワーから優先音のためのゲインα1と、非優先音のためのゲインα2が導出される。優先音と非優先音にゲインα1とゲインα2をそれぞれ乗算して加算した後に、時間領域信号に戻して出力する。
 ゲインの導出には、「対数強度の和の原理」と、「穴埋めの原理」という2つの基本原理が用いられている。「対数強度の和の原理」とは、出力信号の対数強度を入力信号の対数強度の和を超えない範囲に制限するものである。「対数強度の和の原理」によって、優先音が強調されすぎて混合音に違和感が生じることを抑制する。「穴埋めの原理」とは、非優先音のパワーの減少を、優先音のパワー増加分を超えない範囲に制限するものである。「穴埋めの原理」によって、混合音において非優先音が抑制されすぎて違和感が生じることを抑制する。
 これらの原理に基づいて合理的にゲインが決定され、より自然な混合音が出力される。
特許第5057535号 特開第2016-134706号公報
 特許文献2の手法は、スマートフォンなどの小型で簡易な再生装置を想定しており、そのような再生装置に適用される限り、優先音を明瞭に維持し、かつ非優先音の劣化(欠落感)を知覚されにくくするという効果を発揮する。しかし、業務用のミキサーでは、高音質を求めて大掛かりな再生装置を用い、大音量での再生もしばしば行われる。小型で簡易な再生装置では知覚されない非優先音の劣化が、不自然な刺激として知覚されることがある。
 本発明は、再生装置の規模や品質を問わずに、非優先音の劣化を抑制し、より自然な混合音を出力することのできるミキシング技術を提供することを課題とする。
 本発明では、優先音の中の特定の重要周波数帯域に優先音の強調と非優先音の抑制を含む優先的な音混合処理を適用することで、非優先音の劣化を抑制する。
 具体的には、本発明の一つの側面において、時間周波数平面上の第1信号と第2信号のミキシング装置は、
 前記第1信号の増幅と前記第2信号の減衰とを含む優先的混合を行うか否かを示す制御信号を生成する制御信号生成部と、
 前記制御信号に基づいて、前記第1信号を増幅させる第1ゲインと前記第2信号を減衰させる第2ゲインを導出するゲイン導出部と、
を有し、
 前記制御信号は、少なくとも第1の値と、前記第1の値と異なる第2の値をとり、前記第1の値は周波数軸上で一定帯域幅を超えて連続せず、
 前記ミキシング装置は、前記制御信号が前記第1の値を示すときは、前記第1信号と前記第2信号に前記優先的混合を適用し、前記制御信号が前記第2の値を示すときは、前記第1信号と前記第2信号に単純加算を適用する。
 上記の構成により、再生装置の規模や品質を問わずに、非優先音の劣化を抑制して、より自然な状態で混合音を出力することができる。
従来のスマートミキサの構成を説明する図である。 スマートミキシングの基本概念を説明する図である。 第1実施形態のミキシング装置の概略図である。 図3の制御信号生成部の構成例を示す図である。 第2実施形態のミキシング装置の概略図である。 第3実施形態における高い周波数でのBark軸への変換を示す図であり。 第3実施形態における低い周波数でのBark軸への変換を示す図である。 第3実施形態のミキシング装置の概略図である。 Bark軸上で制御信号を生成したときのモニタ画面を示す。 実施形態の制御信号生成部の制御信号生成処理を示すフローチャートである。 通常モードでのvivid信号生成器の構成を示す図である。 第3実施形態のvivid信号生成器の構成を示す図である。 vivid信号生成のソースを選択するGUI画面を例示する図である。 通常モードでの優先音の立ち上がり直後の波形である。 通常モードでの優先音の立ち上がりから100ms経過後の波形である。 選択モードで相対スペクトルだけが選択されたときの立ち上がり直後の波形である。 選択モードで相対スペクトルだけが選択されたときの立ち上がりから100ミリ秒経過後の波形である。 実施形態のミキシング装置を用いたミキシングシステムの概略図である。
 図2は、スマートミキシングの基本概念を説明する図である。優先音と非優先音のそれぞれに窓関数をかけて短時間のFFT(Fast Fourier Transform:高速フーリエ変換)を行い、周波数平面(Ptf)上の信号に変換する。周波数平面上で、優先音と非優先音のそれぞれにゲインを乗算し、ゲイン乗算後の優先音と非優先音を合算(ミックス)する。合算された信号を時間領域の信号に戻して出力する。
 後述するように、本発明は新規な制御信号を用いてゲインを調整し、優先音の明瞭度を保ったまま非優先音の欠落感を抑制する点に特徴がある。ここで、優先音とは、音声、ボーカル、ソロパート等のように、優先的に聞かせたい音である。非優先音とは、バックグラウンド音、伴奏音等、優先音以外の音である。
 時間周波数平面上に展開された優先音と非優先音は、時間方向の座標値iと、周波数方向の座標値kを用いて、それぞれX1[i,k]とX2[i,k]で表される。時間周波数平面上で、優先音にゲインα1が乗算された信号はY1[i,k]、非優先音のゲインα2が乗算された信号をY2[i,k]とする。ゲインが乗算された信号Y1[i,k]とY2[i,k]を合算した信号が混合結果を表わす信号Y[i,k]である。この処理は、式(1)と式(2)で表される。
Figure JPOXMLDOC01-appb-M000001
混合結果を表わす信号Y[i,k]は、時間領域の信号に復元されて、混合音の信号y[n]が出力される。
 発明者らは、スマートフォン向けのスマートミキサを高音質が要求される音響機器、たとえばコンサート会場等の業務用機器にそのまま適用して大音量で出力した場合、非優先音の劣化が目立ってしまうという問題を見いだした。スマートフォン向けのスマートミキサの場合でも、非優先音の原音をあらかじめ知っている聴取者がスマートミサーによる混合音を注意深く聴いたときに非優先音の欠落感を感じる場合があるが、従来法では、これを避けるために、優先的混合を行う周波数帯域を350Hz以上に限定するなど、簡易的な措置がとられることもあった。
 しかし、コンサート会場やレコーディングスタジオにおけるミキシング装置を考えたときに、350Hz以下の帯域においてこそ優先的混合、すなわち優先音の強調と非優先音の抑制を実施したいことも多く、簡易的な措置では不十分である。
 一方で、発明者らは非優先音の劣化が特に目立つ現象を解析したところ、周波数軸上で一定以上の長さにわたって優先音が非優先音を押さえつけてしまう場合に、非優先音の欠落感が顕著になることがわかった。
 この知見に基づき、優先的混合は、周波数軸上で一定の長さ以上にわたって連続しないほうがよいという結論に達し、独自の制御信号を導入するに至った。この制御信号は、非優先音欠落感なしに明瞭な混合音を実現するという意味で、この明細書中では「vivid信号」と呼ばれる。
 vivid信号は、優先的混合(非優先音の抑制を含む)を適用するか否か、適用するとしたらどの程度で行うかを示す指標である。vivid信号は、周波数軸上で優先的混合が一定の帯域幅を超えて連続しないように生成され、非優先音の劣化が知覚されないようにミキシングを制御する。
 優先的混合が適用される一定範囲の周波数帯域として、優先音の中の重要な周波数成分が選択される。たとえば、コンサート会場でボーカル(優先音)とバックバンドの音(非優先音)をミキシングする場合、ボーカルの中に特に重要な周波数帯域が存在する。楽器のみのセッションの場合でも、特定の楽器が演奏するパートの中に重要な周波数帯域が存在する。重要な周波数成分とは、他のパートと比較してエネルギーが集中している帯域と言い換えてもよい。
 「vivid信号」は、重要な周波数帯域に対して優先的混合が行われ、それ以外の帯域では単純加算が行われるように生成される。重要な周波数帯域は曲目によって異なるので、ミキシング中にリアルタイムで優先音の重要周波数帯域を判別し、vivid信号を生成する。すなわち、vivid信号によって優先音の重要な周波数部分だけを強調し、非優先音を減衰させる箇所を絞る。vivid信号を用いてゲインマスクを生成することで、優先音の明瞭さを損なわずに、非優先音の音質を向上することができる。
 また、スマートミキシングの処理において、人間の聴覚特性に合致させる工夫をする。
 <第1実施形態>
 図3は、第1実施形態のミキシング装置1Aの概略図である。ミキシング装置1Aは、信号入力部11、周波数解析部12、信号処理部15A、周波数時間変換部16、及び信号出力部17を有する。信号入力部11は、ミキシングの対象となる複数の入力信号を入力する。入力信号はたとえばオーディオ信号であり、音声等の優先音の信号x1[n]と、バックグラウンド音等の非優先音の信号x[n]を含む。
 周波数解析部12は、周波数解析によって、優先音と非優先音の入力信号を時間周波数平面上に展開する。周波数解析は、短時間FFT(Fast Fourier Transform;高速フーリエ変換)、ウェーブレット変換、フィルタバンクによる変換、ウイグナー分布などの時間周波数分布への変換等、任意の手法を用いることができる。実施形態では、入力信号に窓関数を掛けて、短時間FFTにより入力信号を時間周波数平面上に展開する。時間周波数平面上に展開された優先信号をX1[i,k]、非優先信号をX2[i,k]とする。
 信号処理部15Aは、パワー算出部14Aを有する。パワー算出部14Aは、時間周波数平面上に展開された入力信号の強度を算出する強度算出部の一例である。入力信号のパワーは振幅の2乗で表される。パワー算出部14Aは、時間周波数平面上の各点(i,k)で、入力信号のパワー|X[i,k]|2を算出する。後述するように、時間周波数平面上での入力信号強度は、必ずしもパワーに限定されず、対数強度であってもよい。
 優先音と非優先音の強度は、時間方向と周波数方向で平滑化された後にゲイン導出部19に入力され、ゲイン導出部19で、優先信号と非優先信号のそれぞれに対するゲインが算出される。時間方向に平滑化されたパワーをE[i,k]、周波数方向に平滑化されたパワーをF[i,k]とする。
 平滑化されたパワーに基づき、ゲイン導出部19によって、優先信号のゲインα1[i,k]と非優先信号のゲインα2[i,k]が導出される。ゲインα1[i,k]とα2[i,k]は、たとえば、ミキシング装置1Aから出力される混合信号の対数強度が、優先音の対数強度と非優先音の対数強度の和を超えない範囲で優先音が増大され、かつ、優先音のパワー増加分を超えない範囲内で非優先音が減衰されるように決定される。具体的なゲインの算出法として、特許文献2の方法を用いてもよい。
 優先信号と非優先信号にそれぞれゲインα1とα2が乗算された後、加算され、混合結果の信号Y[i,k]が信号処理部15Aから出力される。周波数時間変換部16は、信号処理部15の出力信号を時間領域の信号y[n]に変換する。信号出力部17は、時間領域に復元された信号を出力する。
 第1実施形態の特徴として、制御信号生成部150によって、優先的混合を行うか、あるいは単純加算を行うかを指示する制御信号(vivid信号)が生成される。vivid信号は、時間周波数平面上に展開された優先音の平滑化スペクトルの絶対量を表わす絶対スペクトルと、優先音スペクトルの局所的な変化を表わす相対スペクトルに基づいて生成される。ゲイン導出部19は、vivid信号に基づいて優先音と非優先音に適用されるゲインを調整する。
 図4は、図3の制御信号生成部150の構成例である。制御信号生成部150は、時間方向平滑化部151と、第1の周波数方向平滑化部152と、第2の周波数方向平滑化部153と、減算部154と、vivid信号生成器155を有する。
 時間方向平滑化部151は、時間周波数平面上の優先音の信号強度を時間方向に平滑化して、平滑化信号Ev[i,k]を出力する。第1実施形態では、優先音のパワーレベルが信号強度として入力される。
 第1の周波数方向平滑化部152は、時間方向に平滑化された信号を、周波数方向に平滑化して、絶対スペクトルFv[i,k]を出力する。絶対スペクトルFv[i,k]は、第2の周波数方向平滑化部153に入力されて2回目の平滑化を受けるとともに、減算部154とvivid信号生成器155にも入力される。2回目の平滑化後の信号をGv[i,k]で表す。
 減算部154は、1回目の周波数方向の平滑化結果と、2回目の周波数方向の平滑化結果の差分を求め(Gv[i,k]-Fv[i,k])、この差分をあらわす相対スペクトルHv[i,k]をvivid信号生成器155に供給する。
 vivid信号生成器155は、平滑化された絶対スペクトルFv[i,k]と、相対スペクトルHv[i,k]から、後述する手順でvivid信号V[i,k]を生成してゲイン導出部19に出力する。
 vivid信号V[i,k]は、時間周波数平面の各点(i,k)で少なくとも2値(たとえば「0.0」と「1.0」)をとる。V[i,k]=0.0である(i,k)に対して、混合は単純加算で行うものとし、V[i,k]=1.0である(i,k)に対して、混合は優先的混合単で行うものとする。ここでいう単純加算とは、時間周波数平面上に展開された優先音と非優先音をそのまま加算する処理であり、ゲインを乗算しないか、または値が1のゲインを乗算する。
 vivid信号V[i,k]は必ずしも2値である必要はなく、0.0と1.0の間の任意の値を取り得る。0.0<V[i,k]<1.0を満たす(i,k)に対しては、vivid信号の値に応じて効果を軽減した優先的混合動作を行ってもよい。これにより、単純加算の動作と優先的混合の動作を滑らかに接続することができる。
 vivid信号としては、以下の2つの観点から見た条件を両方満たすものが望ましい。
 第1の観点は、「非優先音の欠落感を抑止する」という観点である。上述したように、非優先音の欠落感は、周波数軸上で広い帯域にわたって連続して非優先音の抑制が行われると特に顕著になる。このため、周波数軸上でvivid信号が1.0となる帯域と、0.0となる帯域が交互に配置され、かつ、1.0を示す帯域幅が所定範囲を超えないことが望ましい。
 第2の観点は、「優先音の明瞭度を上げる効果をできるだけ保つ」という観点である。たとえば、ボーカルには、語句をはっきり聴かせるためのフォルマント成分、子音をはっきり聴かせるための数kHzの帯域成分、音質がこもらないようにするために必要な高周波成分、音のエネルギー感を失わせないための低周波成分などが含まれる。理想的には、これらの周波数成分を、工学的見地、及び音楽理論的見地から検討し、その時点での優先音にとって最も重要な周波数帯域を選択して、vivid信号が1.0になるようにするのが望ましい。
 優先音の重要周波数部分ではvivid信号がV[i,k]=1.0を示すことにより、優先的混合が行われる。一方、優先音がそれほど重要でない部分では、V[i,k]=0.0となることにより、単純加算が行われる。これにより、優先音の明瞭度を保ちつつ、非優先音の劣化を抑制することができる。
 しかし上述した理想的な方法では、音声認識をはじめとする多数の複雑な判断機構と最適化問題を解く機構が必要となり、実装上、計算コストが膨大になる。そこで、コンサート会場等で、リアルタイムに重要周波数帯を判断してvivid信号を生成するために、図4の制御信号生成部150が用いられる。
 上述のように、時間方向平滑化部151は、時間周波数平面上に展開された優先音X1[i,k]のパワー|X1[i,k]|2を時間方向に平滑化して、時間平滑化パワーEv[i,k]を得る。時間平滑化パワーEv[i,k]は、式(3)で求められる。
Figure JPOXMLDOC01-appb-M000002
ここで、μvは指数平滑化方法の係数であり、平滑の時定数τvとサンプリング周波数Fsから、式(4)で求められる。
Figure JPOXMLDOC01-appb-M000003
ここで、Ndは、サンプリング周波数Fで取得された優先音と非優先音に対してNF点の短時間FFTを行う際に適用される窓関数のシフト数である(N点シフト)。
 時間平滑化パワーEv[i,k]は、第1の周波数方向平滑化部152で、周波数方向に平滑化され、Fv[i,k]が得られる。このとき、Ev[i,k]は、
   -NF/2≦k<NF/2
に対してのみ定義されているので、平滑化には注意が必要である。定義外の部分(k<-NF/2,およびNF/2≦k)を0とおいて平滑化すると、|k|≒NF/2に対して絶対スペクトルFv[i,k]が著しく減少する場合がある。そこで、Ev[i,k]の未定義の部分について、式(5)及び式(6)のように定義域を拡張してから平滑化を行うのが望ましい。
Figure JPOXMLDOC01-appb-M000004
 こうして拡張されたEv[i,k]を周波数方向に平滑化して(1回目の周波数方向の平滑化)、絶対スペクトルFv[i,k]を得る。Fv[i,k]は式(7)で表される。
Figure JPOXMLDOC01-appb-M000005
ここで、f()は平滑化の重み係数、NAは平滑化の幅である。
 Fv[i,k]に対して2回目の周波数方向の平滑化を行い、Gv[i,k]を得る。
Gv[i,k]は、式(8)で表される。
Figure JPOXMLDOC01-appb-M000006
ここで、g()は平滑化の重み係数である。第1の周波数方向の平滑化と第2の周波数方向の平滑化は、f()とg()の係数テーブルをミキシング装置1Aのメモリに記憶しておき、その係数を乗算することで実施してもよい。ミキシング装置1Aの演算処理を、FPGA(Field Programmable Gate Array)などのロジックデバイスで実装する場合、FPGAに内蔵されるメモリ領域を用いてもよい。
 重み係数の適用に替えては、一定区間の和をとる演算の縦続接続、たとえば、式(9)~(12)の演算を行うことで、実質的にガウス型に近い効果、すなわちf()とg()を使ったのと同じ効果を得ることができる。
Figure JPOXMLDOC01-appb-M000007
この方法は乗算器が必要ないため、FPGAにスマートミキシングを実装する場合に特に有利である。
 次に、Fv[i,k]とGv[i,k]の差を取ることで、式(13)で表される相対スペクトルHv[i,k]を得る。
Figure JPOXMLDOC01-appb-M000008
 1回目の周波数方向の平滑化後のパワーFv[i,k]はスペクトルの絶対量を表わしているとみることができ、Fv[i,k]を絶対スペクトルと呼ぶ。一方、2回目の周波数方向の平滑化後のパワーGv[i,k]は、Fv[i,k]の大局的な概形を表わしている。Fv[i,k]とGv[i,k]の差で定義されたHv[i,k]は、周波数軸上の局所領域に着目したときのFv[i,k]の相対的な凹凸(変化)をあらわしていると解釈できる。そこで、Hv[i,k]を相対スペクトルと呼ぶ。
 相対スペクトルHv[i,k]の振る舞いについて考える。たとえば、語句をはっきりと聴かせるフォルマント周波数においては、Hv[i,k]は正になることが期待される。また、フォルトマントとフォルトマントの隙間の周波数では、Hv[i,k]は負になることが期待される。楽器音の場合においても、エネルギーが相対的に集中している重要な周波数ではHv[i,k]は正になることが期待され、重要な周波数と重要な周波数の隙間の領域では、Hv[i,k]は負になることが期待される。
 まず、vivid信号の候補として、相対スペクトルから、式(14)の信号VH[i,k]を考える。
Figure JPOXMLDOC01-appb-M000009
時間周波数平面上の点(i,k)における相対スペクトルHv[i,k]が一定の閾値HL[k]よりも小さい場合には、VH[i,k]=0.0とする。相対スペクトルHv[i,k]が一定の閾値HH[k]以上である場合(すなわちエネルギーが高い場合)は、VH[i,k]=1.0とする。相対スペクトルHv[i,k]が、閾値HL[k]以上でありHH[k]よも小さい場合には、その位置での相対スペクトルの値に応じて、0.0以上で、1.0よりも小さい値を与える。
 たとえば、最も簡単な設定として、HL[k]=HH[k]=0とすれば、周波数軸上でVH[i,k]が1.0となる帯域と0.0となる帯域が、一定間隔以内で交互にあらわれやすくなり、上述した「非優先音の欠落感を抑止する」ため(第1の観点)の条件をほぼ満たしている。また、フォルマント周波数においてVH[i,k]が1.0となることが期待されていることから、「優先音の明瞭度を上げる効果をできるだけ保つ」ため(第2の観点)の条件も満たしている。したがって、VH[i,k]はvivid信号として有力な候補である。
 しかし、vivid信号として式(14)で定義されるVH[i,k]をそのまま使うと、優先音の音強度が非常に小さい場合(たとえば、ボーカルが発声を行っていないときにボーカルのマイクにバックバンドの音が混入している場合)にも、vivid信号が1.0となってしまうおそれがある。
 そこで、絶対スペクトルから、式(15)によってVF[i,k]を求める。
Figure JPOXMLDOC01-appb-M000010
式(15)では、絶対スペクトルFv[i,k]が一定の閾値FL[k]よりも小さい場合は、時間周波数平面上の点(i,k)において優先音は発声されていないとして、VF[i,k]を0.0とし、絶対スペクトルFv[i,k]が一定の閾値FH[k]以上である場合は、優先音が発声されているとしてVF[i,k]=1.0とする。絶対スペクトルFv[i,k]が、2つの閾値の間にあるときは、その位置での絶対スペクトルの値に応じて0.0よりも大きく、1.0よりも小さい値を与える。
 以上の準備のもとで、vivid信号V[i,k]を、VF[i,k]とVH[i,k]の最小値(いずれか小さい方の値)として、式(16)のように定義する。
Figure JPOXMLDOC01-appb-M000011
 式(16)にしたがってvivid信号生成器155で生成されるvivid信号は、ゲイン導出部19における優先的混合と単純加算の切り替えに用いられる。この切り替えは、具体的には、以下の方法で実現される。
 スマートミキサのパラメータには、優先音のゲインα1の上限T1Hと、非優先音のゲインα2の下限T2Lが設定される。これは、優先音を所定の閾値を超えない範囲内で強調し、非優先音を所定の閾値を超えない範囲内で抑制するという「穴埋めの原理」によるものである。これらの閾値を、時間周波数平面の各点(i,k)ごとに、式(17)及び式(18)のように、定義しなおす。
Figure JPOXMLDOC01-appb-M000012
 調整されたゲインの上限T1Hと下限T2Lと閾値を用いて、V[i,k]=1.0のときに優先的混合が行われ、V[i,k]=0.0のときに単純加算が行われる。単純加算と優先的混合の間は、V[i,k]の値に応じて優先的混合の度合いが変化して、優先的混合と単純加算の間を滑らかに接続することができる。なお、優先音のためのゲインα1は、一つ前の時間フレーム(i-1)におけるα1を、調整された上限T1Hを超えない範囲で、所定のステップサイズだけ増加させることによって得られる。非優先音のためのゲインα2は、一つ前の時間フレーム(i―1)におけるα2を、T2Lよりも小さくならない限度で所定のステップサイズだけ減少させることによって得られる。
 vivid信号により優先的混合を行うか否かが特定され、優先的混合を行う際に、合理的な範囲内で算出されるゲインα1とα2を用いて優先音と非優先音が加算される。時間領域に復元される混合信号により、優先音が強調され、かつ非優先音が十分な音量感をもつ自然な音が再生される。
 <第2実施形態>
 図5は、第2実施形態のミキシング装置1Bの概略図である。第1実施形態のミキシング装置1Aと同じ構成要素には同じ符号を付けて、重複する説明を省略する。第1実施形態では、時間周波数平面上に展開された優先音のパワー(振幅の2乗)に基づいて、vivid信号を生成した。第2実施形態では、時間周波数平面上に展開された優先音の絶対値の対数に基づいてvivid信号を生成する。
 第1実施形態のように、優先音と非優先音をパワー|X1[i,k]|2と|X1[i,k]|2で評価すると、2乗することでビット長が2倍になる。スマートミキサをFPGA等のロジックデバイスで実現する場合、処理量が多くなる。
 一方、スマートミキサにグラフィカルな表示装置を設け、時間周波数平面上のパワーを濃淡もしくは疑似カラーで表示する場合、対数演算が行われる。表示のために対数演算を行うのであれば、強度関連の演算について、はじめから対数をとって(dB表記により)演算を行う方が簡便である。
 ミキシング装置1Bは、信号入力部11、周波数解析部12、信号処理部15B、周波数時間変換部16、及び信号出力部17を有する。信号入力部11は、ミキシングの対象となる優先信号と非優先信号を入力する。周波数解析部12によってそれぞれ時間周波数平面上に展開された信号X1[i,k]とX2[i,k]は、信号処理部15Bに入力される。
 信号処理部15Bは、強度算出部として、対数強度算出部14Bを有する。対数強度算出部14Bは、たとえばCORDIC法を用いて、入力された複素数値の信号X1[i,k]とX2[i,k]のノルム|X1[i,k]|、及び|X2[i,k]|を求める。次に、たとえばメモリ等に記憶されたテーブルを参照して対数演算を行い、優先音の対数強度log|X1[i,k]|と、非優先音の対数強度log|X2[i,k]|を算出する。
 優先音と非優先音の対数強度は、時間方向と周波数方向で平滑化された後にゲイン導出部19に入力され、ゲイン導出部19で、優先信号と非優先信号のそれぞれに対するゲインが算出される。時間方向に平滑化された対数強度をE[i,k]、周波数方向に平滑化された対数強度をF[i,k]とする。
 平滑化された対数強度と、制御信号生成部150からのvivid信号に基づいて、ゲイン導出部19により、優先信号のゲインα1[i,k]と、非優先信号のゲインα2[i,k]が導出される。ゲインα1[i,k]とα2[i,k]は、一定の重要周波数帯域において、式(17)と式(18)で定義された上限と下限を超えない範囲内で優先音が増大され、非優先音が減衰されるように決定される。
 優先信号と非優先信号にそれぞれゲインα1とα2が乗算された後、加算され、混合結果の信号Y[i,k]が信号処理部15Bから出力される。周波数時間変換部16は、信号処理部15の出力信号を時間領域の信号y[n]に変換する。信号出力部17は、時間領域に復元された信号を出力する。
 第2実施形態では、優先音の対数強度log|X1[i,k]|が制御信号生成部150に入力されて、ゲインの導出を制御するvivid信号が生成される。制御信号生成部150の構成は、図4の構成と同じである。異なる点は、時間方向平滑化部151に入力される信号強度が、時間周波数平面上の優先音のパワーではなく、優先音の振幅の対数値となる点である。
 時間方向平滑化部151以降の動作は、第1実施形態と同じである。すなわち、入力された対数強度は時間方向と周波数方向に平滑化されて平滑化スペクトル(絶対スペクトル)が生成される。絶対スペクトルはさらに周波数方向に平滑化され、絶対スペクトルとの差分に基づいて、周波数軸上の局所的な変化を表わす相対スペクトルが生成される。vivid信号生成器155は、絶対スペクトルに基づく信号値と、相対スペクトルに基づく信号値のいずれか小さい方にしたがってvivid信号を生成し、出力する。
 ゲイン導出部19は、優先音と非優先音の平滑化された対数値と、vivid信号とに基づいてゲインα1とα2を生成する。優先音と非優先音の入力信号にゲインα1とα2がそれぞれ乗算され、乗算値が加算されて、混合結果の信号Y[i,k]が信号処理部15Bから出力される。信号Y[i,k]は、周波数時間変換部16で時間領域の信号に復元され、信号出力部17から出力される。
 なお、図5における時間方向に平滑化された信号E[i,k]と周波数方向に平滑化された信号F[i,k]は、いずれも対数強度を用いた新しい変数であり、第1実施形態の図3に示されている信号E[i,k]とF[i,k]とは値が異なる。また、制御信号生成部150で生成される時間方向平滑化信号Ev[i,k]、絶対スペクトルFv[i,k]、相対スペクトルHv[i,k]なども、算出方法は同じであるが値は異なる。
 人間は、パワーの大きさに関して対数的に感じる聴覚特性を持っているので、平滑化の縦軸に関しては、パワーよりも対数強度の値をベースにすることで、聴取者の感覚に適したミキシング処理を行うことができる。
 <第3実施形態>
 第3実施形態では、周波数方向での平滑化を行う際に、人間の聴覚特性を反映させる。実施形態では、vivid信号の生成のために、1回目の周波数方向の平滑化で絶対スペクトルFv[i,k]が得られ、2回目の周波数方向の平滑化により、大局的な概形を表わすスペクトルGv[i,k]が得られる。Fv[i,k]とGv[i,k]は、上述した式(7)と式(8)でそれぞれ得られる。
 平滑化を式(7)と式(8)で実行するとき、平滑化の効果は周波数軸の全ての位置で同一となる。しかし、人間の聴覚フィルタは、低い周波数で狭く、高い周波数で広いという特性を有している。換言すると、低い周波数帯域で聴覚の分解能が高く、高い周波数帯域で分解能は低くなる。
 周波数方向への平滑化処理を、人間の聴覚特性に合致させるならば、式(7)におけるf()と、式(8)におけるg()に周波数依存性を持たせることが望ましい。しかし、周波数依存性を持たせようとすると、そのデータを記憶するメモリの追加容量が必要になるだけでなく、式(9)~(12)の加算器だけの計算が使えなくなり、計算負荷が大きくなる。
 一方、人間の聴覚フィルタの特性を考慮した周波数尺度として、Bark尺度、ERB(Equivalent Rectangular Bandwidth:等価矩形帯域幅)尺度などが知られている。Bark尺度の範囲は、1から24であり、聴覚の24の臨界帯域に対応している。Bark尺度に基づく周波数軸はBark軸と呼ばれ、ERB尺度に基づく周波数軸はERB軸と呼ばれる。これらの軸を使って時間周波数平面を構成することで、f()やg()に周波数依存性を持たせなくても、式(7)と式(8)による平滑化の処理が、人間の聴覚特性に合致したものとなる。すなわち、低い周波数では狭い平滑化が行われ、高い周波数では広い平滑化が実施される。そこで、平滑化に先立って、周波数軸の変換を行う。
 図6は、高い周波数でのBark軸への変換を示す図であり、図7は、低い周波数でのBark軸への変換を示す図である。図6と図7を参照して、線形周波数軸からBark軸へのデータの変換について説明する。図6と図7において、左から2番目の縦軸は線形周波数軸fであり、最も左側の縦軸は、線形周波数軸のビン番号kである。左から3番目の縦軸は、Bark軸fBarkである。一番右側の縦軸は、Barkビン番号hである。f軸上のビンとBark軸(fBark)上のビンは、周波数帯域によって、1対1であってもよいし、多対1、あるいは1対多であってもよい。
 線形軸の周波数fからBark軸の周波数fBarkへの変換関数をJB()とすると、この変換は式(19)及び式(20)であらわされる。
Figure JPOXMLDOC01-appb-M000013
 線形軸データの0~FS/2[Hz]の周波数成分が、ビン番号0~NF/2の(NF/2+1)個の周波数ビン上にあらわされているとする。このうち0~FB[Hz]の周波数成分をBark軸に変換し、ビン番号0~NBの(NB+1)個のBarkビンであらわすように変換するものとする。
 変換は、Barkビン番号hが相当する周波数に最も近い線形周波数軸上の周波数ビン番号kのデータをそのまま使うという簡単な方法でもよい。しかし、この方法では、小さなhにおいては、同じkのデータを繰り返し参照することになる。また、大きなhに対しては読み飛ばされるkが生じ得る。結果として、時間周波数平面上での値の滑らかさが失われる場合がある。そこで、図6及び図7の処理を行うことで、Bark軸での時間周波数平面上のデータを滑らかにする。
 まず、第h番目のBarkビンに対応する線形周波数領域の下限と上限をそれぞれfL(h)とfH(h)とすると、下限と上限は、式(21)と式(22)で表される。
Figure JPOXMLDOC01-appb-M000014
 図6を参照すると、第57番目のBarkビンに対応して、56.5/NBが下限を求めるときの係数として用いられ、57.5/NBが上限を求めるときの係数として用いられる。
 一方、第k番目の線形周波数ビンに対応する周波数は、kFS/NF[Hz]なので、変換前のデータを周波数軸上に展開すると、図6の折れ線グラフを描くことができる。折れ線は、線形周波数軸での信号強度(パワーまたは対数強度)を表わす。折れ線と線形周波数軸fの間の領域のうち、上限fH(57)と下限fL(57)に挟まれた斜線の領域の面積を求める。この面積を線形周波数軸上の間隔kΔ(57)で除算することで、Barkビン番号h=57に対応する線形周波数fのビン番号が得られる。ここで、
   kΔ(h)=NF/FS(fH(h)-fL(h))
である。
 図6のように高い周波数領域では、Bark軸上のひとつのhが線形周波数軸上の多数のkを参照することになるが、上述した変換処理により滑らかな変換が実現される。
 図7のように低い周波数領域では、複数のhから、ひとつの区間、すなわちkとk+1の間の区間が参照されるが、この場合も上述した方法でなめらかな変換が実現できる。すなわち、Barkビンhが17の場合、上限をfH(17)と下限をfL(17)の間の斜線の領域の面積を求め、この面積をkΔ(17)で除算することで、Barkビン番号h=17に対応する線形周波数fのビン番号が得られる。
 上述した周波数変換の演算は、Barkビン番号hごとに、どのkをどのような重みで加算するかという計算をあらかじめ求めておき、これをテーブルとして格納しておくことで、FPGAでも容易に実行することができる。
 なお、逆変換(Bark軸から線形軸に戻す処理)も、同じ方法で逆向きの方向の演算により表現することができる。
 図8は、第3実施形態のミキシング装置1Cの概略図である。第1実施形態及び第2実施形態と同じ構成要素には同じ符号を付けて、重複する説明を省略する。ミキシング装置1Cは、信号入力部11と、周波数解析部12と、信号処理部15Cと、周波数時間変換部16と、信号出力部17を有する。信号入力部11、周波数解析部12、周波数時間変換部16、及び信号出力部17の構成と動作は、第1実施形態及び第2実施形態と同じである。
 信号処理部15Cは、平滑化器、乗算器、加算器等の他に、強度算出部としての対数強度算出部14B、周波数軸変換部18、周波数軸の逆変換部21、ゲイン導出部19、及び制御信号生成部250を有する。信号処理部15Cのうち、二重丸(◎)は線形周波数軸上での信号をあらわし、黒丸(●)は、Bark軸上での信号をあらわす。
 信号処理部15Cにおいて、対数強度算出部14Bは、入力された複素数値の信号X1[i,k]とX2[i,k]から、優先音の対数強度log|X1[i,k]|と、非優先音の対数強度log|X2[i,k]|を算出する。
 優先音と非優先音の対数強度log|X1[i,k]|とlog|X2[i,k]|は、周波数軸変換部18によって、人間の聴覚尺度に合致する周波数軸(たとえばBark軸)に変換される。Bark軸に変換された優先音と非優先音の対数強度D1 B[i,h]とD2 B[i,h]は、それぞれ時間方向と周波数方向に平滑化された後に、周波数軸の逆変換部21によって、線形周波数軸の平滑化信号F1[i,k]とF2[i,k]に戻された後に、ゲイン導出部19に入力される。
 一方、Bark軸上での優先音の対数強度D1 B[i,h]は、制御信号生成部250に入力されて、vivid信号の生成に用いられる。時間方向平滑化部251は、Bark軸上での優先音の対数強度D1 B[i,h]を時間方向に平滑化して、時間方向平滑化信号EV B[i,h]を出力する。第1の周波数方向平滑化部252は、時間方向に平滑化された信号に周波数方向平滑化を行い、絶対スペクトルFV B[i,h]を出力する。
 第2の周波数方向平滑化部253は、周波数方向に平滑化された信号をさらに平滑化し、絶対スペクトルFV B[i,h]の大局的な概形を表わすスペクトルGV B[i,h]を出力する。減算部254は、絶対スペクトルと相対スペクトルの差分を計算して、相対スペクトルHV B[i,h]を出力する。
 絶対スペクトルFV B[i,h]と相対スペクトルHV B[i,h]は、vivid信号生成器255に入力され、vivid信号生成器255からBark軸上の制御信号VB[i,h]が出力される。周波数軸の逆変換部356は、制御信号VB[i,h]を線形周波数軸に戻してから、vivid信号V[i,k]をゲイン導出部19に供給する。
 制御信号生成部250において、2回の周波数方向の平滑化をBark軸上(あるいはERBなど、他の聴覚尺度軸であってもよい)で行ってからvivid信号を生成するので、より人間の聴覚に即した制御信号を生成することができる。グラフィカルな表示装置を接続して時間周波数平面上のパワーを濃淡または疑似カラーで表示する場合にもBark軸で表示することができるため、処理が効率的になる。
 図9は、Bark軸上で制御信号を生成したときのモニタ画面を示す。図9の左側の3つのスペクトルが、bark軸での絶対スペクトルFV B [i,h]とその下限閾値FL B [i,h]、及び上限閾値FH B [i,h]である。中央の3つのスペクトルが、bark軸での相対スペクトルHV B [i,h]とその下限閾値HL B [i, h]、及び上限閾値HH B [i,h]である。図9の右側のスペクトルが出力されるvivid信号VB [i,h]である。vivid信号は、0.0~1.0の範囲の値をとる。
 絶対スペクトルFV B [i,h]が、下限閾値FL B [i,h]と上限閾値FH B [i,h]に対してどの位置にあるかによって、局所的なエネルギー集中の評価結果であるvivid信号VB [i,h]が決まってくる。たとえば、絶対スペクトルFV B [i,h]が下限閾値FL B [i,h]よりも小さいときは、局所的に集中するエネルギーがないため、単純加算を行うべく、vivid信号の値は0.0に設定される。絶対スペクトルFV B [i,h]が上限閾値FH B [i,h]以上になると、そのエネルギー集中(優先音)を強調し、かつ非優先音の劣化を抑制して優先的混合を行うために、vivid信号の値は暫定的に1.0に設定される(式(15)参照)。それ以外の場合は、vivid信号は絶対スペクトルの値に応じた中間値をとる。
 絶対スペクトルの上限閾値FH B [i,h]と下限閾値FL B [i,h]は、周波数帯域によって大きさが異なる。高い周波数領域では騒音エネルギーが比較的低いため、設定閾値を小さくする。低い周波数領域では騒音エネルギーが比較的高いため、設定閾値を大きくしてある。
 次に、相対スペクトルHV B [i,h]に着目すると、相対スペクトルHV B [i,h]が下限閾値HL B [i,h]よりも小さい場合は、vivid信号の値は0.0に設定され、上限閾値HH B [i,h]以上になると、vivid信号の値は暫定的に1.0に設定される(式(14)参照)。それ以外の場合は、vivid信号は相対スペクトルの値に応じた中間値をとる。上限閾値HH B [i,h]と下限閾値HL B [i,h]の間隔がゼロに近づくと、vivid信号の暫定値は実質的に2値の信号になる。
 最終的に出力されるvivid信号VB [i,h]は、相対スペクトルに基づくvivid信号と、絶対スペクトルのいずれか小さい方の値をとる(式(16)参照)。相対スペクトルに基づくvivid信号と絶対スペクトルに基づくvivid信号の双方が1.0のときは、出力されるvivid信号VB [i,h]の値は1.0になる。相対スペクトルに基づくvivid信号と絶対スペクトルに基づくvivid信号のいずれか一方が0.0のときは、出力されるvivid信号VB [i,h]の値は0.0になる。このように、絶対スペクトルと相対スペクトルの評価の厳しいほうに基づいて出力されるvivid信号が決定される。
 これにより、vivid信号が0.0になる帯域と1.0になる帯域がBark軸上の一定間隔以内で交互にあらわれ、Bark軸上で長く連続して優先的混合が実施されることを抑制することができる。換言すると、Bark軸上で非優先音が長い区間にわたって減衰されることを抑制し、優先音を強調しつつ、非優先音の劣化を防止することができる。
 なお、絶対スペクトルの上限閾値と下限閾値、及び相対スペクトルの上限閾値と下限閾値を、ユーザ入力により設定可能にしてもよい。たとえば、周波数帯域に応じて設定される閾値を変えてもよい。
 <第3実施形態の変形例>
 図8では、制御信号生成部250においてBark軸上で表現されるvivid信号が、線形周波数軸上に逆変換されてから、ゲイン導出部19に入力され、ゲインの導出は線形周波数軸上で行われている。これは、ゲイン導出部19で信号エネルギーを評価する場合などに、線形軸のほうが都合がよいからである。
 しかし、そのような必要がない場合は、ゲインの導出をBark軸上で行ってもよい。この場合は、Bark軸上で表現されたゲインマスク(時間周波数平面上の各点でのα1とα2)を逆変換によって線形周波数軸に戻してから、ゲインの乗算を行えばよい。
 周波数軸の変換を行う場合は、Bark軸に替えてERB軸に変換してからvivid信号を生成してもよい。
 制御信号生成部250によるvivid信号生成のための時間方向の平滑化の時定数と、ゲイン導出の際の優先音の平滑化のための時定数が等しくてもよいのであれば、EV B[i,h]=E1 B[i,h]となるので、優先音に対する時間軸方向の平滑化のブロックを共用することができる。さらに、周波数方向の平滑化の重み係数も等しくてもよいのであれば、FV B[i,h]=F1 B[i,h]であるので、周波数方向の平滑化ブロック(第1の平滑化)を共用することができる。
 グラフィカルな表示装置によるパワー表示をBark軸上で行う必要が無ければ、優先音と非優先音のパワーに対して周波数軸の変換を行わなくてもよく、対応する逆変換も省略できる。この場合、周波数軸変換部18と、周波数軸の逆変換部21を省略できる。D1 B[i,h]とD2 B[i,h]を求めないので、優先音と非優先音の対数強度log|X1[i,k]|とlog|X2[i,k]|を、そのまま時間方向に平滑化してもよい。
 さらに、制御信号生成部250で2段階の周波数の平滑化(周波数方向平滑化部252と253の処理)を行うかわりに、バンドパスフィルタを用いることもできる。バンドパスフィルタは、通過周波数の中心周波数で出力が正負の反転を繰り返すため、vivid信号が1.0となる帯域と、0.0となる帯域が一定間隔以内で交互にあらわれるという条件を満たすことができる。
<その他の変形例>
 vivid信号は、音声等の優先音の重要周波数部分で1.0となる信号である。一方、マイクロフォンに混入する別の音(一般に「かぶり」と呼ばれる音)は、信号レベルが一定範囲内であれば、vivid信号とほぼ無関係のスペクトルを持つ。
 vivid信号を「かぶり」のあるマイク信号に乗算することで、マイク信号のかぶりを低減できる。なぜなら、vivid信号を乗算することで、vivid信号が1.0である部分、すなわち音声の重要部分のみを残しのみを残し、かぶり成分についてはそのような効果が生じなりため、総合的にみると、音声の強調が行われるからである。
 制御信号生成部150、250で、相対スペクトルHv [i,k]は、必ずしも周波数方向の第1の平滑化強度と第2の平滑化強度の差分で表す必要はなく、2つの平滑化強度の比を用いて表現してもよい。
 図10は、実施形態の制御信号の生成フローを示すフローチャートである。まず、時間周波数平面上の各点(i,k)で優先音の強度(パワー、対数強度など)を取得する(S11)。優先音の強度を時間方向と周波数方向に平滑化した平滑化スペクトル(絶対スペクトル)と、絶対スペクトルの局所的な凹凸(変動)を示す相対スペクトルを求める(S12)。
 絶対スペクトルに基づく信号VF[i,k]と、相対スペクトルに基づく信号VH[i,k]を生成し(S13)、VF[i,k]とVH[i,k]のいずれか小さい方の値をvivid信号として出力する(S14)。すべての点(i,k)について処理が終わるまで(S15でYES)、ステップS11~14の処理を繰り返す。この処理により、vivid信号V[i,k]が1.0となって優先的混合(非優先音に対する抑制処理を含む)が実施される周波数区間が連続することを抑制し、広範囲にわたる非優先音の抑制を防止することができる。
 vivid信号が1.0のときは、優先音を増大させるゲインα1が優先音に乗算され、優先音の増大の範囲内で非優先音を減少させるゲインα2が非優先音に乗算され、乗算結果が加算される。vivid信号が0.0のときは、単純加算が行われる。vivid信号が0.0と1.0の間の値をとるときは、ゲインα1とα2にvivid信号の値に応じた係数を乗算して、α1の増幅率とα2の減衰率を小さくしてもよい。
 <第4実施形態>
 上述した第1~第3実施形態では、vivid信号を制御信号として用いて、優先音の特定の周波数帯域に優先的な音混合処理を適用して、自然な混合音を出力している。第4実施形態では、優先音の立ち上がりをさらに良くする構成と手法を提供する。
 vivid信号は、優先音の中の特定の重要な周波数帯域に対して優先的混合を適用し、それ以外の帯域では単純加算を行うことで、非優先音の劣化を抑制する制御信号である。このvivid信号が「1」または所定のレベルに立ち上がるのに時間的な遅れがあると、優先的な混合処理のタイミングが遅れて、優先音の立ち上がりが不十分になる場合があり得る。
 そこで、vivid信号の立ち上がり遅延を解消して、タイミング遅れなしに優先的な混合処理を適用して優先音の立ち上がりを改良する。
 発明者らは、vivid信号が「1」または所定のレベルに立ち上がるのに時間遅れが生じるときの原因を解明した。第1には、絶対スペクトルFv[i,k]を作る際に、周波数解析の窓関数の大きさによって遅延が生じ得ること、第2に、指数平滑化によりさらなる遅延が起こり得ること、である。
 絶対スペクトルFv[i,k]の生成が遅れると、絶対スペクトルFv[i,k]を元にして創られる相対スペクトルHv[i,k]にも、遅延が生じる。
 音があるレベルに達してからvivid信号を「1」または所定のレベルにするのでは、どのような方法をとってもある程度の遅れは生じる。そこで、第4実施形態では、優先音が無音のときはvivid信号をすべての帯域で「1」に設定し、優先音が解析可能なレベルに達して、かつ、解析可能な時間を経過したときに、必要な帯域だけvivid信号を「0」にする。
 無音時にvivid信号を「1」にすることから、絶対スペクトルの基準を用いることができない。状況に応じて、絶対スペクトルの基準と相対スペクトルの基準を選択可能にする。たとえば優先音が無音のときは、相対スペクトルの基準だけでvivid信号を生成し、また、相対スペクトルの上限閾値HB H[h]を負にする。これらの具体的な構成を説明する。
 図11Aは、第1~第3実施形態で用いられるvivid信号生成器155Aの動作ブロックを示し、図11Bは、第4実施形態のvivid信号生成器155Bの動作ブロックを示す。図11Aのvivid信号生成器155Aの動作態様を「通常モード」と呼ぶ。図11Bのvivid信号生成器155Bの動作態様を「選択モード」と呼ぶ。
 図11Aのvivid信号生成器155Aでは、絶対スペクトルFv[i,k]に式(15)の関数を適用して信号VF[i,k]を生成し、相対スペクトルHv[i,k]に式(14)の関数を適用して信号VH[i,k]を生成し、この2つの制御信号のうち、いずれか小さい方を最終的なvivid信号V[i,k]として出力する。
 図11Bのvivid信号生成器155Bは、絶対スペクトルの基準を使うか否かを選択する第1スイッチ(ABS-SW)と、相対スペクトルの基準を用いるか否かを選択する第2スイッチ(REL-SW)を有する。
 絶対スペクトルの基準を使用しない場合は、第1スイッチ(ABS-SW)は、固定値「1.0」を選択する。相対スペクトルの基準を使用しない場合は、第2スイッチ(REL-SW)は、固定値「1.0」を選択する。第1スイッチ(ABS-SW)と第2スイッチ(REL-SW)の選択結果のうち、いずれか小さい方の値が、最終的なvivid信号V[i,k]として出力される。
 この選択処理は、制御信号生成部150(図4)または250(図8)が、入力された優先音信号の強度に基づいて判断し、実行してもよいし、ユーザ入力にしたがって実行されてもよい。
 図12は、ユーザ入力によるモード選択を可能にするインタフェース(GUI)の一例である。モード選択ウィンドウ(Vivid Src)に、絶対スペクトル基準(ABS)選択ボックスと、相対スペクトル基準(REL)選択ボックスが表示され、たとえばボックスにチェックを入れることで選択可能である。
 図12の(a)~(d)のように、4通りの組み合わせが可能である。図12(a)で絶対スペクトル基準(ABS)と相対スペクトル基準(REL)の両方が選択されているときは、第1~第3実施形態のように、絶対スペクトルと相対スペクトルのそれぞれから制御信号が生成されて、いずれか小さい方が出力される。
 図12(b)のように、相対スペクトル基準(REL)だけが選択されていると、相対スペクトルから生成された制御信号だけを用いてvivid信号が生成される。絶対スペクトルの制御信号値が「1.0」に固定され、常に相対スペクトルから生成される信号VH[i,k]の方が小さくなるからである。
 図12(c)のように、絶対スペクトル基準(ABS)だけが選択されていると、絶対スペクトルから生成された制御信号だけを用いてvivid信号が生成される。相対スペクトルの制御信号値が「1.0」に固定され、常に絶対スペクトルから生成される信号VF[i,k]の方が小さくなるからである。
 図12(d)のように、いずれのスペクトル基準も選択されていない場合は、vivid信号を使わないスマートミキサとなり、すべての帯域において、スマートミキサのゲイン決定手法(「対数強度の和の原理」と「穴埋めの原理」に基づく手法)によって、ゲインが決定される。
 図12の4つの組み合わせの中から、混合する音の性質、現場の状況等に応じて、最も好ましい設定を選ぶことができる。
 図13Aは、通常モードでの優先音の立ち上がり直後の波形の一例を示す。通常モードでは、絶対スペクトル基準と相対スペクトル基準の両方が用いられるが、優先音の立ち上がり直後に相対スペクトルが十分に立ち上がっていない場合、vivid信号は、全周波数帯域にわたって0またはその近傍の値となっている。そのため、スマートミキシングの動作はほとんど行われず、優先音(たとえばボーカル)は強調されない。換言すると、優先音の立ち上り部分でのゲインが相対的に不足しており、ミキシング音中の優先音の立ち上りが不十分に聴こえことがある。
 図13Bは、通常モードでの優先音の立ち上がりから100ms経過後の波形である。相対スペクトルが十分に成長しているので、vivid信号の値が「1」となる帯域が半分近くまで増加し、スマートミキシングで期待されている優先音の強調が行われている。
 図13Cは、選択モードで相対スペクトルだけが選択されたときの立ち上がり直後の波形である。相対スペクトルだけを選択する設定は、優先音の立ち上りを特に重視したい場合に行われる。
 ここで、相対スペクトルの上限閾値HB H[h]を負にするという特殊な設定にすることで、無音時または優先音の立ち上り時の相対スペクトルは常に上限閾値を超え(式(14)参照)、vivid信号は全帯域で「1」になる。
 このように設定しても、非優先音にはほとんど影響しない。無音時や優先音の立ち上り時には、そもそも優先音のエネルギーは弱いので、スマートミキシングのゲイン決定の法則よって、非優先音が大きく削られることはないからである。「穴埋めの原理」によると、非優先は、優先音が強調された範囲内でしか低減されない。また、優先音の立ち上り時間は数ミリ秒から数十ミリ秒程度の短い時間であり、連続聴効果を考えれば、非優先音を保護する意義はそれほど高くないからである。
 図13Dは、選択モードで相対スペクトルだけが選択されたときの、立ち上がりから100ms経過後の波形を示す。vivid信号が「1」である帯域は、図13Bの通常モードのときよりも広がるが、vivid信号が「0」である帯域も十分に存在し、優先音の立ち上がりを強化しつつ、非優先音を劣化させないというvivid信号の役割を果たしている。
 絶対スペクトル基準と相対スペクトル基準のそれぞれで適用の有無を選択可能にすることで、無音時、優先音の立ち上がり時などの特定の場合にも、スマートミキシングを最適化することができる。
 図14は、実施形態のミキシング装置1を適用したミキシングシステム100の概略図である。ミキシング装置1は、FPGA、PLD(Programmable Logic Device)などのロジックデバイス101で実現可能である。上述した構成のミキシング装置1A~1Cは、演算処理が比較的簡易なので、ロジックデバイス101に内蔵されるメモリ102で十分機能するが、別途、メモリを設けてもよい。
 ミキシング装置1に、ユーザ入出力装置2と、表示装置3と、オーディオ信号入力装置4と、スピーカ6が接続されている。ミキシング装置1とスピーカ6の間にアンプ5が挿入されていてもよい。ユーザ入出力装置2は、パーソナルコンピュータ(PC)などの情報処理端末である。ユーザ入出力装置2には、絶対スペクトルの上限閾値FH[i,k]と下限閾値FL[i,k]、相対スペクトルの上限閾値HH[i,k]と下限閾値HL[i,k]などのパラメータを設定入力するボックスが表示されて、ユーザ入力を可能にする。
 表示装置3は、液晶、有機エレクトロルミネッセンス等のモニタディスプレイである。表示装置3に、絶対スペクトルFv [i,k]、相対スペクトルHv [i,k]、vivid信号などを表示することで、ミキシングを行うユーザは、入力音のスペクトルと設定パラメータの状態を認識し、調整することができる。
 オーディオ信号入力装置4は、たとえばマイク4a、4bであり、優先音となるオーディオ信号と非優先音となるオーディオ信号がミキシング装置1に入力される。ミキシング装置1によってミキシングされた信号は、アンプ5で増幅され、スピーカ6から出力される。
 実施形態のミキシング装置1を用いることで、以下の効果を奏することができる。
(1)優先音の明瞭度を上げるという効果をできるだけ保ったまま、非優先音に欠落感(音質の劣化)が生じることを抑制できる。
(2)単純な計算の組み合わせで実現可能なため、ソフトウエアとして実装した場合に計算負荷が軽い。また、FPGAなどのプログラマブルなロジックデバイスへの実装に適している。ソフトウエアとして実装する場合は、図10の制御信号生成フローを含む実施形態のミキシング装置1の各構成要素の機能(平滑処理、ゲイン導出処理、乗算処理、加算処理)を実行するプログラムをユーザ端末等の情報処理装置にインストールしてもよい。
(3)優先音として、スピーチ、ボーカル、歌声などの音声、楽器音など、多種多様の音源に対応可能である。
(4)コンサート会場やレコーディングスタジオにおける業務用ミキシング装置だけではなく、アマチュア用のミキサー、DAW(Digital Audio Workstation)、スマートフォン用のアプリケーション、会議システム等にも応用可能である。
(5)vivid信号は、ミキシング以外にも一つの入力オーディオ信号に対する簡易的なかぶり除去機能ももつ。
(6)優先音の立ち上がりが良好になる。
 本発明について、特定の構成例に基づいて説明してきたが、本発明は多様な変形、置換等を含む。たとえば、図3、図5、及び図8において、制御信号に基づくゲイン調整がされた信号の加算処理と、周波数時間変換部16による時間領域信号への変換処理の順序を逆にしてもよい。すなわち、優先的混合の有無に応じてゲイン調整された優先音と非優先音を個別に時間領域信号に変換した後に、加算してもよい。
 信号処理部15A~15Cの出力として、必ずしも加算した後の混合信号を出力する必要はなく、優先的混合の有無に応じてゲイン調整がされた優先音と非優先音の時間領域信号を、それぞれ個別に出力してもよい。
 信号処理部15A~15Cの出力として、優先的混合の有無に応じてゲイン調整された優先音と非優先音の他に、優先音の原音、非優先音の原音、優先音の原音とゲイン調整後の信号との差分、非優先音の原音とゲイン調整後の信号との差分等を出力してもよい。この場合、信号処理部15からの個別の出力を外部のミキサー(たとえば従来型のミキサー)に入力して、さらなるミキシング操作を行ってもよい。
 図14のシステムにおいても同様に、ミキシング装置1の出力は優先的混合の有無に応じてゲイン調整された優先音と非優先音の混合音に限定されない。ゲイン調整された時間領域の優先音信号と非優先信号をアンプに5に入力する前に、他の外部ミキサー等でさらなる処理を行った後にアンプ5に入力してもよい。
 この出願は、2018年4月17日に出願された日本国特許出願第2018-078981号に基づき、その優先権を主張するものであり、その全内容は本件出願中に含まれる。
1、1A~1C ミキシング装置
11 信号入力部
12 周波数解析部
15、15A~15C 信号処理部
16 周波数時間変換部
17 信号出力部
18 周波数軸変換部
19 ゲイン導出部
21 周波数軸の逆変換部
150、250 制御信号生成部
151、251 時間方向平滑化部
152、252 周波数方向平滑化部
153、253 周波数方向平滑化部
154、254 減算部(または比計算部)

Claims (12)

  1.  時間周波数平面上の第1信号と第2信号のミキシング装置であって、
     前記第1信号の増幅と前記第2信号の減衰とを含む優先的混合を行うか否かを示す制御信号を生成する制御信号生成部と、
     前記制御信号に基づいて、前記第1信号を増幅させる第1ゲインと前記第2信号を減衰させる第2ゲインを導出するゲイン導出部と、
    を有し、
     前記制御信号は、少なくとも第1の値と、前記第1の値と異なる第2の値をとり、前記第1の値は周波数軸上で一定帯域幅を超えて連続せず、
     前記ミキシング装置は、前記制御信号が前記第1の値を示すときは、前記第1信号と前記第2信号に前記優先的混合を適用し、前記制御信号が前記第2の値を示すときは、前記第1信号と前記第2信号に単純加算を適用することを特徴とするミキシング装置。
  2.  前記制御信号生成部は、
     前記時間周波数平面上の前記第1信号の強度に対して第1の周波数処理を行って前記第1信号の絶対量を表わす第1スペクトルを取得する第1の周波数方向処理部と、
     前記第1スペクトルに対して、第2の周波数処理を行って前記第1スペクトルの局所的な変動を表わす第2スペクトルを取得する第2の周波数方向処理部と、
     前記第1スペクトルと前記第2スペクトルに基づいて前記制御信号を生成する信号生成器と、
    を有することを特徴とする請求項1に記載のミキシング装置。
  3.  前記信号生成器は、前記第1スペクトルと前記第2スペクトルに閾値処理を行い、前記第1スペクトルの第1の閾値処理結果と、前記第2スペクトルの第2の閾値処理結果のいずれか小さい方を前記制御信号として出力することを特徴とする請求項2に記載のミキシング装置。
  4.  前記信号生成器は、前記第1スペクトルが第1閾値以上のときに前記第1の値をとり第2閾値よりも小さいときに前記第2の値をとる第1制御信号と、前記第2スペクトルが第3閾値以上のときに前記第1の値をとり第4閾値よりも小さいときに前記第2の値をとる第2制御信号を生成し、前記第1制御信号と前記第2制御信号のいずれか小さい方を前記制御信号として出力することを特徴とする請求項3に記載のミキシング装置。
  5.  前記信号生成器は、前記第1信号と前記第2信号の状態に応じて、前記第1スペクトルと前記第2スペクトルの適用の有無を切り替えることを特徴とする請求項2に記載のミキシング装置。
  6.  前記信号生成器は、前記第1信号が無音または微弱なときは、前記第2スペクトルだけを用いることを特徴とする請求項5に記載のミキシング装置。
  7.  ユーザによる前記第1スペクトルの適用と前記第2スペクトルの適用の有無を選択可能にするユーザインタフェース、
    をさらに有し、
     前記信号生成器は、前記ユーザインタフェースを介した入力にしたがって、前記第1スペクトルと前記第2スペクトルの適用の有無を実行する、
    請求項5に記載のミキシング装置。
  8.  前記制御信号生成部は、
     前記時間周波数平面上の前記第1信号の強度信号を周波数方向に反復的に反転させて透過させるバンドパスフィルタと、
     前記バンドパスフィルタの出力に基づいて前記制御信号を生成する信号生成器と、
    を有することを特徴とする請求項1~7のいずれか1項に記載のミキシング装置。
  9.  前記制御信号生成部は、線形周波数軸を聴覚ベースの軸に変換する周波数軸変換部、
    をさらに有し、前記聴覚ベースの軸で前記制御信号を生成することを特徴とする請求項1~8のいずれか1項に記載のミキシング装置。
  10.  前記制御信号は、前記第1の値と前記第2の値の間の第3の値をとり、
     前記第3の値に応じて、前記優先的混合の程度が調整されることを特徴とする請求項1~9のいずれか1項に記載のミキシング装置。
  11.  時間周波数平面上の第1信号と第2信号のミキシング方法であって、
     前記第1信号の増幅と前記第2信号の減衰とを含む優先的混合を行うか否かを示す制御信号として、少なくとも第1の値と、前記第1の値と異なる第2の値をとり、前記第1の値が周波数軸上で一定帯域幅を超えて連続しない信号を生成し、
     前記制御信号に基づいて、前記第1信号を増幅させる第1ゲインと前記第2信号を減衰させる第2ゲインを導出し、
     前記制御信号が前記第1の値を示すときは、前記第1信号と前記第2信号に前記優先的混合を適用し、前記制御信号が前記第2の値を示すときは、前記第1信号と前記第2信号に単純加算を適用する、
    ことを特徴とするミキシング方法。
  12.  時間周波数平面上の第1信号と第2信号のミキシング処理をコンピュータに実行させるミキシングプログラムであって、前記コンピュータに、
     前記第1信号の増幅と前記第2信号の減衰とを含む優先的混合を行うか否かを示す制御信号として、少なくとも第1の値と前記第1の値と異なる第2の値をとり、前記第1の値が周波数軸上で一定帯域幅を超えて連続しない信号を生成する手順と、
     前記制御信号に基づいて、前記第1信号を増幅させる第1ゲインと前記第2信号を減衰させる第2ゲインを導出する手順と、
     前記制御信号が前記第1の値を示すときは、前記第1信号と前記第2信号に前記優先的混合を適用し、前記制御信号が前記第2の値を示すときは、前記第1信号と前記第2信号に単純加算を適用する手順と、
    を実行させることを特徴とするミキシングプログラム。
PCT/JP2019/015832 2018-04-17 2019-04-11 ミキシング装置、ミキシング方法、及びミキシングプログラム WO2019203124A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
EP19787973.7A EP3783912B1 (en) 2018-04-17 2019-04-11 Mixing device, mixing method, and mixing program
US17/047,504 US11308975B2 (en) 2018-04-17 2019-04-11 Mixing device, mixing method, and non-transitory computer-readable recording medium
JP2020514117A JP7260100B2 (ja) 2018-04-17 2019-04-11 ミキシング装置、ミキシング方法、及びミキシングプログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018-078981 2018-04-17
JP2018078981 2018-04-17

Publications (1)

Publication Number Publication Date
WO2019203124A1 true WO2019203124A1 (ja) 2019-10-24

Family

ID=68239119

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/015832 WO2019203124A1 (ja) 2018-04-17 2019-04-11 ミキシング装置、ミキシング方法、及びミキシングプログラム

Country Status (4)

Country Link
US (1) US11308975B2 (ja)
EP (1) EP3783912B1 (ja)
JP (1) JP7260100B2 (ja)
WO (1) WO2019203124A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012010154A (ja) * 2010-06-25 2012-01-12 Yamaha Corp 周波数特性制御装置
JP5057535B1 (ja) 2011-08-31 2012-10-24 国立大学法人電気通信大学 ミキシング装置、ミキシング信号処理装置、ミキシングプログラム及びミキシング方法
JP2016134706A (ja) 2015-01-19 2016-07-25 国立大学法人電気通信大学 ミキシング装置、信号ミキシング方法、及びミキシングプログラム
JP2018078981A (ja) 2016-11-15 2018-05-24 株式会社オリンピア 遊技機

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5228093A (en) * 1991-10-24 1993-07-13 Agnello Anthony M Method for mixing source audio signals and an audio signal mixing system
US6587816B1 (en) 2000-07-14 2003-07-01 International Business Machines Corporation Fast frequency-domain pitch estimation
JP3815347B2 (ja) * 2002-02-27 2006-08-30 ヤマハ株式会社 歌唱合成方法と装置及び記録媒体
JP2008532353A (ja) * 2005-02-14 2008-08-14 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 第1の音声データを第2の音声データと混合するためのシステム及び方法、プログラム要素並びにコンピュータ読取可能な媒体
JP4823030B2 (ja) * 2006-11-27 2011-11-24 株式会社ソニー・コンピュータエンタテインメント 音声処理装置および音声処理方法
WO2009119460A1 (ja) * 2008-03-24 2009-10-01 日本ビクター株式会社 オーディオ信号処理装置及びオーディオ信号処理方法
JP2010081505A (ja) 2008-09-29 2010-04-08 Panasonic Corp 窓関数算出装置、方法及び窓関数算出プログラム
US8874245B2 (en) * 2010-11-23 2014-10-28 Inmusic Brands, Inc. Effects transitions in a music and audio playback system
JP2013164572A (ja) 2012-01-10 2013-08-22 Toshiba Corp 音声特徴量抽出装置、音声特徴量抽出方法及び音声特徴量抽出プログラム
US9312829B2 (en) 2012-04-12 2016-04-12 Dts Llc System for adjusting loudness of audio signals in real time
US9143107B2 (en) * 2013-10-08 2015-09-22 2236008 Ontario Inc. System and method for dynamically mixing audio signals
JP2015118361A (ja) 2013-11-15 2015-06-25 キヤノン株式会社 情報処理装置、情報処理方法、及びプログラム
DE102014214143B4 (de) 2014-03-14 2015-12-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Verarbeiten eines Signals im Frequenzbereich
US10057681B2 (en) * 2016-08-01 2018-08-21 Bose Corporation Entertainment audio processing

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012010154A (ja) * 2010-06-25 2012-01-12 Yamaha Corp 周波数特性制御装置
JP5057535B1 (ja) 2011-08-31 2012-10-24 国立大学法人電気通信大学 ミキシング装置、ミキシング信号処理装置、ミキシングプログラム及びミキシング方法
JP2013051589A (ja) * 2011-08-31 2013-03-14 Univ Of Electro-Communications ミキシング装置、ミキシング信号処理装置、ミキシングプログラム及びミキシング方法
JP2016134706A (ja) 2015-01-19 2016-07-25 国立大学法人電気通信大学 ミキシング装置、信号ミキシング方法、及びミキシングプログラム
JP2018078981A (ja) 2016-11-15 2018-05-24 株式会社オリンピア 遊技機

Also Published As

Publication number Publication date
US11308975B2 (en) 2022-04-19
US20210151067A1 (en) 2021-05-20
EP3783912A4 (en) 2021-05-26
EP3783912A1 (en) 2021-02-24
EP3783912B1 (en) 2023-08-23
JP7260100B2 (ja) 2023-04-18
JPWO2019203124A1 (ja) 2021-05-13

Similar Documents

Publication Publication Date Title
US10242692B2 (en) Audio coherence enhancement by controlling time variant weighting factors for decorrelated signals
JP5057535B1 (ja) ミキシング装置、ミキシング信号処理装置、ミキシングプログラム及びミキシング方法
TWI459828B (zh) 在多頻道音訊中決定語音相關頻道的音量降低比例的方法及系統
JP5666023B2 (ja) 残響知覚レベルの大きさを決定する装置及び方法、オーディオプロセッサ並びに信号処理方法
US9589573B2 (en) Wind noise reduction
JP2011518520A (ja) サラウンド体験に対する影響を最小限にしてマルチチャンネルオーディオにおけるスピーチの聴覚性を維持するための方法及び装置
JP2013102411A (ja) 音声信号処理装置、および音声信号処理方法、並びにプログラム
EP2597639A2 (en) Sound processing device
JP2007178675A (ja) オーディオ再生の効果付加方法およびその装置
CN103650538A (zh) 用于使用采用谱权重生成器的频域处理分解立体声录音的方法和装置
JP6482880B2 (ja) ミキシング装置、信号ミキシング方法、及びミキシングプログラム
WO2019203127A1 (ja) 情報処理装置、これを用いたミキシング装置、及びレイテンシ減少方法
JP2008072600A (ja) 音響信号処理装置、音響信号処理プログラム、音響信号処理方法
WO2019203124A1 (ja) ミキシング装置、ミキシング方法、及びミキシングプログラム
JP2004343590A (ja) ステレオ音響信号処理方法、装置、プログラムおよび記憶媒体
RU2589298C1 (ru) Способ повышения разборчивости и информативности звуковых сигналов в шумовой обстановке
JP6409417B2 (ja) 音響処理装置
JP5321171B2 (ja) 音処理装置およびプログラム
JP2016050994A (ja) 音響処理装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19787973

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2020514117

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2019787973

Country of ref document: EP

Effective date: 20201117