WO2023243454A1 - パラメータ推定方法、音処理装置、および音処理プログラム - Google Patents

パラメータ推定方法、音処理装置、および音処理プログラム Download PDF

Info

Publication number
WO2023243454A1
WO2023243454A1 PCT/JP2023/020749 JP2023020749W WO2023243454A1 WO 2023243454 A1 WO2023243454 A1 WO 2023243454A1 JP 2023020749 W JP2023020749 W JP 2023020749W WO 2023243454 A1 WO2023243454 A1 WO 2023243454A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound signal
target
alternative
mixed
alternative expression
Prior art date
Application number
PCT/JP2023/020749
Other languages
English (en)
French (fr)
Inventor
颯人 山川
祐 高橋
Original Assignee
ヤマハ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ヤマハ株式会社 filed Critical ヤマハ株式会社
Publication of WO2023243454A1 publication Critical patent/WO2023243454A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones

Definitions

  • One embodiment of the present invention relates to a parameter estimation method, a sound processing device, and a sound processing program.
  • Non-Patent Document 1 discloses a configuration for adjusting parameters of an equalizer in order to bring the amplitude spectrum of a sound signal closer to a target characteristic.
  • Ozone 9 Match EQ [Retrieved April 18, 2020], Internet ⁇ URL: https://www.izotope.com/en/products/ozone/features/match-eq.html>
  • Patent Document 1 does not adjust the amplitude spectrum of each of the plurality of sound signals before mixing so that the amplitude spectrum after mixing the plurality of sound signals approaches the target characteristic.
  • the amplitude spectrum of each of the plurality of sound signals before mixing is adjusted so that the characteristics of the sound signal after mixing approach the target characteristics, the amplitude spectrum lacks phase information. Therefore, the characteristics obtained when a plurality of sound signals are mixed do not necessarily correspond to the characteristics obtained when the plurality of sound signals are mixed after obtaining their respective amplitude spectra.
  • one aspect of the present disclosure aims to provide a parameter estimation method for determining sound processing parameters for bringing a mixed signal closer to target characteristics while also taking phase information into consideration. .
  • the parameter estimation method receives a first sound signal and a second sound signal that are processed and mixed, processes the first sound signal and the second sound signal using an encoder, and calculates the characteristics of the first sound signal. generating a first alternative representation corresponding to the amount and a second alternative representation corresponding to the feature amount of the second sound signal, the encoder generating the obtained result by mixing the first alternative representation and the second alternative representation.
  • the mixed alternative representation is trained to correspond to the feature amount of a mixed sound signal obtained by mixing the first sound signal and the second sound signal, receives reference data indicating a reference mixed sound having a target characteristic, and receives reference data representing a reference mixed sound having a target characteristic.
  • a first target alternative representation and a second target alternative representation are selected using a reference mixed alternative representation corresponding to the data, and a first target alternative representation and a second target alternative representation are used to respond to the first sound signal.
  • a first parameter used in the signal processing is estimated, and a second parameter used in the signal processing for the second sound signal is estimated using the second alternative representation and the second target alternative representation.
  • the sound processing device can determine sound processing parameters for bringing the mixed signal closer to the target characteristics, also taking into account the phase information.
  • FIG. 1 is a block diagram showing the configuration of an audio mixer 1.
  • FIG. FIG. 2 is a block diagram showing a functional configuration of signal processing.
  • 3 is a block diagram showing the functional configuration of an input channel 302, a stereo bus 303, and a MIX bus 304.
  • FIG. 3 is a schematic diagram of an operation panel of the audio mixer 1.
  • FIG. FIG. 2 is a block diagram showing the functional configuration of a CPU 206 that performs parameter estimation processing.
  • FIG. 3 is a block diagram showing the functional configuration of the encoder 50 during a training stage. 3 is a flowchart of a sound processing method showing operations at an execution stage.
  • FIG. 1 is a block diagram showing the configuration of the audio mixer 1.
  • the audio mixer 1 is an example of a sound processing device of the present invention.
  • the audio mixer 1 includes a display 201, an operation unit 202, an audio I/O 203, a signal processing unit 204, a network I/F 205, a CPU 206, a flash memory 207, and a RAM 208.
  • the audio I/O 203 and the signal processing section 204 are also connected to a waveform bus 172 for transmitting digital sound signals.
  • the CPU 206 is a control unit that controls the operation of the audio mixer 1.
  • the CPU 206 performs various operations by reading a predetermined program (sound processing program) stored in the flash memory 207, which is a storage medium, into the RAM 208 and executing it.
  • the program may be stored in the server.
  • the CPU 206 may download a program from a server via a network and execute it.
  • the signal processing unit 204 is composed of a DSP for performing various sound processing such as mixing processing.
  • the signal processing unit 204 performs signal processing such as effect processing, level adjustment processing, and mixing processing on the sound signal received via the network I/F 205 or the audio I/O 203.
  • the signal processing unit 204 outputs the digital sound signal after signal processing via the audio I/O 203 or the network I/F 205.
  • FIG. 2 is a block diagram showing the functional configuration of signal processing performed by the signal processing unit 204, audio I/O 203 (or network I/F 205), and CPU 206. As shown in FIG. 2, signal processing is functionally performed by input patch 301, input channel 302, stereo bus 303, MIX bus 304, output channel 305, and output patch 306.
  • the input patch 301 receives a sound signal from a microphone, a musical instrument, an amplifier for a musical instrument, or the like.
  • the input patch 301 supplies the received sound signal to each channel of the input channel 302.
  • FIG. 3 is a block diagram showing the functional configuration of the input channel.
  • Each channel of the input channel 302 receives a sound signal from the input patch 301 and performs signal processing.
  • FIG. 3 is a block diagram showing the functional configuration of the input channel 302, stereo bus 303, and MIX bus 304.
  • the first input channel and the second input channel each include an input signal processing section 350, a FADER 351, a PAN 352, and a send level adjustment circuit 353.
  • Other input channels (not shown) also have the same configuration.
  • the input signal processing section 350 performs effect processing such as an equalizer or compressor, or level adjustment processing.
  • FADER 351 adjusts the gain of each input channel.
  • FIG. 4 is a schematic diagram of the operation panel of the audio mixer 1.
  • the operation panel has a channel strip 61 corresponding to each input channel.
  • the channel strip 61 has sliders and knobs arranged vertically for each channel.
  • the slider corresponds to FADER 351 in FIG.
  • the user of the audio mixer 1 adjusts the gain of the corresponding input channel by changing the position of the slider.
  • the knob corresponds to the PAN 352 in FIG. 3, for example.
  • the user of the audio mixer 1 adjusts the left and right stereo level balance by moving the knob clockwise or counterclockwise.
  • the sound signals distributed by the PAN 352 are sent to the stereo bus 303.
  • the knob corresponds to, for example, the send level adjustment circuit 353 in FIG.
  • the user of the audio mixer 1 adjusts the amount of data sent to the MIX bus 304 by moving the knob clockwise or counterclockwise.
  • the slider can also function as an operation unit that adjusts the amount of feed to the MIX bus 304. In this case, the slider corresponds to the send level adjustment circuit 353 in FIG.
  • the stereo bus 303 is a bus that corresponds to the main speakers in the hall or conference room. Stereo bus 303 mixes the sound signals sent from each input channel. Stereo bus 303 outputs the mixed sound signal to output channel 305.
  • the MIX bus 304 is a bus for sending a mixed sound signal of sound signals of one or more input channels to a specific audio device such as a monitor speaker or monitor headphones. MIX bus 304 outputs the mixed sound signal to output channel 305.
  • the output channel 305 performs effect processing such as an equalizer or compressor, level adjustment processing, etc. on the sound signals output from the stereo bus 303 and the MIX bus 304.
  • the output channel 305 outputs the mixed sound signal after signal processing to the output patch 306.
  • the output patch 306 assigns each of the output channels to any one of a plurality of analog output ports or digital output ports. Thereby, the sound signal after being subjected to signal processing is supplied to the audio I/O 203 or the network I/F 205.
  • the audio mixer 1 of this embodiment estimates parameters for sound processing such as effect processing and level adjustment processing for each of the plurality of input channels so that the sound signal after mixing approaches the target characteristics.
  • FIG. 5 is a block diagram showing the functional configuration of the CPU 206 that performs parameter estimation processing.
  • the CPU 206 includes an encoder 50, a target alternative expression selection unit 55, an estimation unit 57, and a target reception unit 85.
  • the flash memory 207 also includes a target alternative representation database (ztDB) 59.
  • the encoder 50 is a data compression algorithm using a neural network.
  • the encoder 50 inputs certain data and outputs the input data as another compressed data (alternative representation).
  • the alternative representation represents the feature amount of the sound signal.
  • the alternative representations are values in the acoustic feature space obtained by the training results of the encoder 50.
  • the alternative expressions in this embodiment include a first alternative expression and a second alternative expression.
  • the encoder 50 determines the characteristics of the result obtained by mixing the first alternative representation of the first sound signal and the second alternative representation of the second sound signal, and the result obtained by mixing the first sound signal and the second sound signal. is trained to correspond to the amount.
  • the encoder 50 inputs the first sound signal s1 of the first input channel, and outputs the first alternative representation z1 corresponding to the feature amount of the input first sound signal s1. Furthermore, the encoder 50 receives the second sound signal s2 of the second input channel, and outputs a second alternative representation z2 corresponding to the feature amount of the input second sound signal s2. The encoder 50 determines that the first mixed alternative expression (z1+z2) obtained by mixing the first alternative expression z1 and the second alternative expression z2 is a first mixed sound signal obtained by mixing the first sound signal s1 and the second sound signal s2. It is trained to correspond to the feature amount of (s1+s2).
  • FIG. 6 is a block diagram showing the functional configuration of the encoder 50 at the training stage.
  • Encoder 50 has an input layer 501 and an output layer 502 in the training phase.
  • the input layer 501 inputs the first sound signal s1 and the second sound signal s2, and generates a first alternative representation z1 corresponding to the feature amount of the first sound signal s1 and a second alternative representation z1 corresponding to the feature amount of the second sound signal s2.
  • the output layer 502 receives and decodes the first alternative representation z1 and the second alternative representation z2, and outputs the first output sound signal out1 and the second output sound signal out2.
  • the encoder 50 trains the input layer 501 and the output layer 502 so that the first output sound signal out1 and the second output sound signal out2 approach the first sound signal s1 and the second sound signal s2, respectively. .
  • the output layer 502 inputs and decodes a first mixed alternative expression (z1+z2) that is a mixture of the first alternative expression z1 and the second alternative expression z2, and outputs a mixed output sound signal outmix.
  • the encoder 50 trains the input layer 501 and the output layer 502 so that the mixed output sound signal outmix approaches the mixed sound signal (s1+s2) obtained by mixing the first sound signal s1 and the second sound signal s2. do.
  • the first mixed alternative expression (z1+z2) obtained by mixing the first alternative expression z1 and the second alternative expression z2 is the first sound signal s1. and corresponds to an alternative expression z (s1+s2) representing the feature amount of the first mixed sound signal (s1+s2) mixed with the second sound signal s2.
  • FIG. 7 is a flowchart of the sound processing method showing operations at the execution stage.
  • the encoder 50 receives the first sound signal s1 and the second sound signal s2 (S11).
  • the first sound signal s1 and the second sound signal s2 are input to the encoder 50 from the first input channel and the second input channel shown in FIG. 3, respectively.
  • the target reception unit 85 receives the second mixed sound signal st mix having the target characteristics as reference data indicating the reference mixed sound having the target characteristics (S12), and inputs it to the encoder 50.
  • the second mixed sound signal st mix corresponds to the reference mixed sound signal of the present invention.
  • the target second mixed sound signal st mix can be calculated, for example, by acquiring the audio content (existing mixed sound signal) of a specific song and from the acquired audio content. Further, the second mixed sound signal st mix may be obtained by selecting a specific song from a database that accumulates sound signals of a plurality of songs. In this case, the user of the audio mixer 1 operates the operation unit 202 to input the song title. The target receiving unit 85 can obtain the second mixed sound signal of the audio content based on the input song title. The reception unit 51 also identifies a song based on the mixed sound signal output from the output channel 305, acquires audio content of a song similar to the identified song (for example, in the same genre), and obtains the second mixed sound. You may also obtain a signal. In this case, the corresponding song name can be estimated from the input mixed sound signal using a trained model that has machine learned the relationship between sound signals and song names.
  • the target second mixed sound signal is not the entire period of the audio content, but a specific period (for example, 30 seconds) that includes all the sounds of the sound source (instrument, singer, etc.) that you want to adjust. It is a mixed sound signal of a certain degree).
  • the user specifies any section of the audio content of a specific song or any section of multi-track recording data of a past live event. Further, the user may specify an arbitrary section of the input sound signal input at the time of rehearsal or an arbitrary section of the input sound signal input up to that point in the live event.
  • the target reception unit 85 may obtain the second mixed sound signal for each song in advance and store it in the flash memory 207. Alternatively, the second mixed sound signal for each song may be stored in the server. The target receiving unit 85 may acquire the second mixed sound signal corresponding to the input song name (or the song name specified from the sound signal) from the flash memory 207, the server, or the like.
  • the second mixed sound signal may be obtained in advance from the output sound signal to the main speaker when ideal parameter adjustments are made by a skilled user of the audio mixer 1 (PA engineer). Further, the second mixed sound signal may be obtained in advance from the audio content that has been edited by a skilled recording engineer.
  • the user of the audio mixer 1 operates the operation unit 202 to input the PA engineer name or recording engineer name.
  • the target reception unit 85 receives the PA engineer name or the recording engineer name, and acquires the corresponding second mixed sound signal.
  • the target receiving unit 85 may obtain a plurality of audio contents in advance and obtain the second mixed sound signal based on the plurality of obtained audio contents.
  • the second mixed sound signal may be an average value of a plurality of second mixed sound signals obtained from a plurality of audio contents. Such an average value can be obtained for each song, each genre, or each engineer.
  • the target receiving unit 85 may obtain the target using a certain trained model.
  • the target reception unit 85 acquires in advance a large number of audio contents of the same genre for each of the plurality of genres, and causes a predetermined model to perform machine learning on the relationship between each genre and the corresponding second mixed sound signal. Build the model. Further, the target reception unit 85 acquires a large number of audio contents, such as audio contents with different arrangements or audio contents with different performers even though they are songs of the same genre, and selects corresponding pieces of music from a desired genre and a desired arrangement.
  • a trained model capable of estimating a second mixed sound signal or a trained model capable of estimating a corresponding second mixed sound signal from a desired genre and a desired performer may be constructed.
  • a user of the audio mixer 1 operates the operation unit 202 to input a genre name or song title.
  • the target receiving unit 85 receives a genre name or a song title, and receives the corresponding second mixed sound signal.
  • the encoder 50 generates a first alternative representation z1 corresponding to the feature amount of the first sound signal s1, a second alternative representation z2 corresponding to the feature amount of the second sound signal s2, and a feature amount of the second mixed sound signal stmix.
  • a corresponding second mixed alternative expression zt mix is obtained (S13).
  • the second mixed alternative expression zt mix corresponds to the reference mixed alternative expression of the present invention.
  • the target alternative expression selection unit 55 selects the second mixed alternative expression zt mix. to select the first target alternative expression z1t and the second target alternative expression z2t (S14). Specifically, the target alternative expression selection unit 55 first selects the first target alternative expression z1t and the second target alternative expression z2t that are closest to the first alternative expression z1 and the second alternative expression z2 from the target alternative expression database 59. Select as the initial value.
  • the target alternative expression selection unit 55 selects a predetermined expression (described later) from the target alternative expression database 59 so that the sum of the first target alternative expression z1t and the second target alternative expression z2t matches the second mixed alternative expression zt mix.
  • the selection of the first target alternative expression z1t and the second target alternative expression z2t is repeated using the method shown in FIG.
  • the first alternative expression z1 and the second alternative expression z2 correspond to the feature amounts of the first sound signal s1 and the second sound signal s2, respectively, before being subjected to effect processing.
  • the second mixed alternative expression zt mix corresponds to the feature amount of the second mixed sound signal st mix.
  • the second mixed alternative expression zt mix is also the target feature quantity of the sound signal to be mixed after effect processing is applied to the first sound signal s1 and the second sound signal s2. Therefore, the target alternative expression selection unit 55 selects the first target alternative expression z1t and the second target alternative expression z2t using the second mixed alternative expression zt mix.
  • the first target alternative expression z1t and the second target alternative expression z2t are selected by considering whether it is sufficient to have the quantity.
  • the target alternative representation selection unit 55 uses an adaptive algorithm such as LMS (Least Mean Square) or recursive least squares method to select the sum of the first target alternative representation z1t and the second target alternative representation z2t.
  • the first target alternative expression z1t and the second target alternative expression z2t are searched from the target alternative expression database 59 until the difference between (z1t + z2t) and the second mixed alternative expression zt mix (
  • the selection is repeated (s15: No). If the above difference (
  • the target alternative expression selection unit 55 performs the following process. Good too.
  • the target alternative expression selection unit 55 selects the difference (
  • the target alternative expression selection unit 55 can uniquely determine the first target alternative expression zlt and the second target alternative expression z2t.
  • the user can weight the vocal by setting a large coefficient w1, and can greatly change the parameters of the effect processing applied to the vocal sound signal. can.
  • the target alternative expression selection section 55 is the above difference (
  • ) is minimized using a trained model that has machine learned the relationship between the first target alternative expression z1t, the second target alternative expression z2t, and the second mixed alternative expression ztmix.
  • a two-goal alternative representation z2t may also be obtained.
  • the estimation unit 57 uses the first effect alternative expression z1e, which is the feature amount of the first effect signal s1e after performing sound processing on the first sound signal s1, and the first target alternative expression z1t.
  • a first parameter P1 of sound processing for the first sound signal s1 is estimated.
  • the estimation unit 57 uses a second effect alternative expression z2e, which is a feature amount of the second effect signal s2e after performing sound processing on the second sound signal s2, and a second target alternative expression z2t.
  • a second parameter P2 of sound processing for the second sound signal s2 is estimated.
  • the first parameter P1 is a parameter used by the input signal processing section 350 of the first input channel shown in FIG.
  • the second parameter P2 is a parameter used by the input signal processing section 350 of the second input channel shown in FIG.
  • the estimation unit 57 first determines an initial value P1 init of the first parameter P1 (S17), and uses the initial value P1 init to generate the first sound in the input signal processing unit 350 of the first input channel. Sound processing is performed on the signal s1 to obtain a first effect signal s1e (S18). The estimation unit 57 converts the first effect signal s1e using the encoder 50 and obtains the first effect alternative representation z1e (S19).
  • the estimation unit 57 calculates the difference ( The updating of the first parameter P1 is repeated until
  • the estimation unit 57 determines an initial value P2 init of the second parameter P2 (S23), and uses the initial value P2 init to convert the second sound signal s2 into a sound in the input signal processing unit 350 of the second input channel.
  • the processing is performed to obtain a second effect signal s2e (S24).
  • the estimation unit 57 converts the second effect signal s2e using the encoder 50 and obtains a second effect alternative expression z2e (S25).
  • the estimation unit 57 calculates the difference (
  • LMS Local Mean Square
  • recursive least squares -z2e
  • the audio mixer 1 of the present embodiment has an effect parameter that causes the first alternative expression z1 to approach the first target alternative expression z1t, and an effect that causes the second alternative expression z2 to approach the second target alternative expression z2t.
  • Sound processing includes, for example, a compressor or an equalizer.
  • the equalizer is sound processing that adjusts the amplitude spectrum, which is an example of a feature amount, it is suitable for applying the sound processing method of this embodiment.
  • the sound processing may be a single effect process, or may be a plurality of effect processes including a compressor and an equalizer. Further, the sound processing may include not only effect processing in the input signal processing section 350 but also level adjustment processing in the FADER 351.
  • the sound processing method of this embodiment is such that the feature amount of the mixed sound signal after sound processing including multiple effect processing, level adjustment processing, and mixing processing approaches the feature amount of the target second mixed sound signal st mix. , parameters for each process can be determined.
  • the sum (z1t+z2t) of the first target alternative expression z1t and the second target alternative expression z2t approaches the second mixed alternative expression zt mix of the target mixed sound signal.
  • the sum of the first target alternative expression z1t and the second target alternative expression z2t indicating the feature amount is obtained after effect processing is performed by mixing the first sound signal s1 and the second sound signal s2 on the time axis including phase information. It corresponds to the feature quantity of the sound signal.
  • the sum of the first target alternative expression z1t and the second target alternative expression z2t corresponds to the feature quantity of the sound signal obtained by mixing the first sound signal s1 and the second sound signal s2 including phase information.
  • the sound processing method of this embodiment reduces the amount of calculation by using an alternative representation in the acoustic feature space, and also takes into account the phase information and uses sound processing parameters to bring the mixed signal closer to the target characteristics. can be found.
  • the sound signal input to the encoder 50 may be a sound signal on the time axis, but it may also be a feature amount such as power, amplitude spectrum, fundamental frequency, spectral envelope, formant frequency, mel spectrum envelope, mel spectrum, or cepstrum. good.
  • the sound signal input to the encoder 50 of Modification 1 is a mel spectrum envelope.
  • the encoder 50 receives the mel spectral envelope as an audio signal during both the training and execution phases.
  • the mel spectral envelope is an index indicating the feature amount of the sound, and is information with a lower dimension than the sound signal on the time axis.
  • the mel spectral envelope is obtained by convolving the spectral envelope with the mel filter bank.
  • the Mel filter bank is composed of a plurality of bandpass filters in which the lower the frequency, the narrower the bandwidth, and the higher the frequency, the larger the bandwidth. Each bandwidth of the plurality of bandpass filters corresponds to human auditory characteristics. Therefore, the mel spectral envelope is an extracted feature of the sound.
  • the spectral envelope is obtained from the sound signal by, for example, linear predictive coding (LPC) or cepstral analysis.
  • LPC linear predictive coding
  • the CPU 206 converts the mixed sound signal into a frequency axis by short-time Fourier transform, and obtains the amplitude spectrum of the mixed sound signal.
  • the CPU 206 averages the amplitude spectra for a specific period and obtains an average spectrum.
  • the CPU 206 removes a bias (zero-order component of the cepstrum), which is an energy component, from the average spectrum and obtains a spectral envelope of the mixed sound signal. Note that either averaging in the time axis direction or bias removal may be performed first. That is, the CPU 206 may first remove the bias from the amplitude spectrum and then obtain the average spectrum averaged in the time axis direction as the spectrum envelope.
  • the CPU 206 obtains the respective spectral envelopes of the first sound signal s1, the second sound signal s2, and the target second mixed sound signal stmix, and convolves the Mel filter bank to obtain the Mel spectrum envelope.
  • the encoder 50 outputs a first sound signal s1, a second sound signal s2, and a second target mixed sound signal st. Input the mel spectral envelope of each mix. Encoder 50 outputs an alternative representation with lower dimensionality.
  • the sound processing method of Modified Example 1 inputs the mel spectrum envelope, uses an alternative representation with a lower number of dimensions to further reduce the amount of calculation, and also takes phase information into account and converts the mixed signal to the target characteristics. It is possible to find sound processing parameters to approximate the .
  • the target reception unit 85 received the second mixed sound signal st mix having the target characteristics as reference data indicating the reference mixed sound having the target characteristics. Further, in the above embodiment, an example was shown in which the encoder 50 is used to encode the second mixed sound signal st mix into the second mixed alternative representation zt mix.
  • the reference data may be identification information indicating a reference mixed sound signal having the target characteristics.
  • the identification information is, for example, a song title, genre name, or engineer name.
  • the target reception unit 85 may acquire the second mixed alternative expression ztmix corresponding to the identification information from a database storing a plurality of reference mixed alternative expressions.
  • the target reception unit 85 encodes a large number of second mixed sound signals st mix into a second mixed alternative representation zt mix in advance using a certain trained model, and stores the encoded second mixed sound signal st mix in a database (its own device, server, etc.). For example, the target reception unit 85 acquires in advance a large number of audio contents of the same genre for each of the plurality of genres, and causes a predetermined model to machine learn the relationship between each genre and the corresponding second mixed alternative expression zt mix. Build a trained model.
  • the target reception unit 85 acquires a large number of audio contents, such as audio contents with different arrangements or audio contents with different performers even though they are songs of the same genre, and selects corresponding pieces of music from a desired genre and a desired arrangement.
  • a trained model that can estimate the two mixed alternative expressions zt mix or a trained model that can estimate the corresponding second mixed alternative expression zt mix from the desired genre and desired performer may be constructed.
  • the database stores the second mixed alternative expression zt mix corresponding to the identification information such as the genre name or song title.
  • a user of the audio mixer 1 operates the operation unit 202 to input a genre name or song title.
  • the target reception unit 85 receives a genre name or a song title and acquires a corresponding second mixed alternative expression zt mix from the database.
  • the parameter estimation method shown in the above embodiment may be performed by the server instead of the audio mixer 1.
  • the audio mixer 1 transmits the first sound signal s1 and the second sound signal s2 to the server via the network I/F 205.
  • the audio mixer 1 also transmits reference data (a reference mixed sound signal having the target characteristics or identification information indicating the reference mixed sound signal) to the server.
  • the server determines the first parameter P1 and the second parameter P2 based on the first sound signal s1, the second sound signal s2, and the reference data.
  • the audio mixer 1 receives the first parameter P1 and the second parameter P2 determined by the server.
  • the audio mixer 1 uses the received first parameter P1 and second parameter P2 to perform signal processing in the input signal processing section 350 of the first input channel and the input signal processing section 350 of the second input channel.
  • the server performs signal processing on the first sound signal s1 and the second sound signal s2 using the determined first parameter P1 and second parameter P2, and performs signal processing on the first effect signal s1e and the second effect signal after the signal processing.
  • s2e may be sent to the audio mixer 1.
  • Audio mixer 50 Encoder 51: Reception section 55: Target alternative expression selection section 57: Estimation section 59: Target alternative expression database 61: Channel strip 85: Target reception section 171: Bus 172: Waveform bus 201: Display 202: Operation unit 203: Audio I/O 204: Signal processing unit 205: Network I/F 206: CPU 207: Flash memory 208: RAM 301: Input patch 302: Input channel 303: Stereo bus 304 :MIX bus 305 :Output channel 306 :Output patch 350 : Input signal processing section 353 : Send level adjustment circuit 501 : Input layer 502 : Output layer

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Stereophonic System (AREA)

Abstract

パラメータ推定方法は、信号処理され混合される第1音信号と第2音信号を受け取り、エンコーダを用いて前記第1音信号と前記第2音信号を処理して、前記第1音信号の特徴量に対応する第1代替表現と前記第2音信号の特徴量に対応する第2代替表現とを生成し、前記エンコーダは、前記第1代替表現および前記第2代替表現を混合して得られる混合代替表現が、前記第1音信号および前記第2音信号を混合した混合音信号の特徴量に対応するよう訓練されており、目標特性を有する参照混合音を示す参照データを受け付け、前記参照データに対応する参照混合代替表現を用いて、第1目標代替表現と第2目標代替表現とを選択し、前記第1代替表現と前記第1目標代替表現を用いて、前記第1音信号に対する前記信号処理に用いる第1パラメータを推定し、記第2代替表現と前記第2目標代替表現を用いて、前記第2音信号に対する前記信号処理に用いる第2パラメータを推定する。

Description

パラメータ推定方法、音処理装置、および音処理プログラム
 この発明の一実施形態は、パラメータ推定方法、音処理装置、および音処理プログラムに関する。
 非特許文献1には、音信号の振幅スペクトルを目標特性に近づけるためのイコライザのパラメータを調整する構成が開示されている。
Ozone 9 Match EQ,[令和4年4月18日検索],インターネット<URL:https://www.izotope.com/en/products/ozone/features/match-eq.html>
 特許文献1の構成は、複数の音信号を混合した後の振幅スペクトルを目標特性に近づけるように、混合前の複数の音信号のそれぞれの振幅スペクトルを調整するものではない。
 また、仮に混合後の音信号の特性を目標特性に近づけるように、混合前の複数の音信号のそれぞれの振幅スペクトルを調整するとしても、振幅スペクトルには位相情報が欠落している。そのため、複数の音信号を混合した場合の特性と、複数の音信号のそれぞれの振幅スペクトルを求めた後に混合した特性は、必ずしも対応しない。
 以上の事情を考慮して、本開示のひとつの態様は、位相情報も考慮したうえで混合信号を目標の特性に近づけるための音処理のパラメータを求めるパラメータ推定方法を提供することを目的とする。
 パラメータ推定方法は、信号処理され混合される第1音信号と第2音信号を受け取り、エンコーダを用いて前記第1音信号と前記第2音信号を処理して、前記第1音信号の特徴量に対応する第1代替表現と前記第2音信号の特徴量に対応する第2代替表現とを生成し、前記エンコーダは、前記第1代替表現および前記第2代替表現を混合して得られる混合代替表現が、前記第1音信号および前記第2音信号を混合した混合音信号の特徴量に対応するよう訓練されており、目標特性を有する参照混合音を示す参照データを受け付け、前記参照データに対応する参照混合代替表現を用いて、第1目標代替表現と第2目標代替表現とを選択し、前記第1代替表現と前記第1目標代替表現を用いて、前記第1音信号に対する前記信号処理に用いる第1パラメータを推定し、記第2代替表現と前記第2目標代替表現を用いて、前記第2音信号に対する前記信号処理に用いる第2パラメータを推定する。
 音処理装置は、位相情報も考慮したうえで混合信号を目標の特性に近づけるための音処理のパラメータを求めることができる。
オーディオミキサ1の構成を示すブロック図である。 信号処理の機能的な構成を示すブロック図である。 入力チャンネル302、ステレオバス303、およびMIXバス304の機能的な構成を示すブロック図である。 オーディオミキサ1の操作パネルの模式図である。 パラメータの推定処理を行うCPU206の機能的構成を示すブロック図である。 エンコーダ50の訓練段階における機能的構成を示すブロック図である。 実行段階の動作を示す音処理方法のフローチャートである。
 図1は、オーディオミキサ1の構成を示すブロック図である。オーディオミキサ1は、本発明の音処理装置の一例である。オーディオミキサ1は、表示器201、操作部202、オーディオI/O203、信号処理部204、ネットワークI/F205、CPU206、フラッシュメモリ207、およびRAM208を備えている。
 これら構成は、バス171を介して接続されている。また、オーディオI/O203および信号処理部204は、デジタルの音信号を伝送するための波形バス172にも接続されている。
 CPU206は、オーディオミキサ1の動作を制御する制御部である。CPU206は、記憶媒体であるフラッシュメモリ207に記憶された所定のプログラム(音処理プログラム)をRAM208に読み出して実行することにより各種の動作を行なう。なお、プログラムは、サーバに記憶されていてもよい。CPU206は、ネットワークを介してサーバからプログラムをダウンロードし、実行してもよい。
 信号処理部204は、混合処理等の各種の音処理を行なうためのDSPから構成される。信号処理部204は、ネットワークI/F205またはオーディオI/O203を介して受信した音信号に、エフェクト処理、レベル調整処理、および混合処理等の信号処理を施す。信号処理部204は、信号処理後のデジタルの音信号をオーディオI/O203またはネットワークI/F205を介して出力する。
 図2は、信号処理部204、オーディオI/O203(またはネットワークI/F205)、およびCPU206で行われる信号処理の機能的な構成を示すブロック図である。図2に示すように、信号処理は、機能的に、入力パッチ301、入力チャンネル302、ステレオバス303、MIXバス304、出力チャンネル305、および出力パッチ306によって行う。
 入力パッチ301は、マイク、楽器、または楽器用アンプ等から音信号を受け付ける。入力パッチ301は、受け付けた音信号を入力チャンネル302の各チャンネルに供給する。図3は、入力チャンネルの機能的構成を示すブロック図である。入力チャンネル302の各チャンネルは、入力パッチ301から音信号を受け付けて、信号処理を施す。
 図3は、入力チャンネル302、ステレオバス303、およびMIXバス304の機能的な構成を示すブロック図である。例えば、第1入力チャンネルおよび第2入力チャンネルは、それぞれ入力信号処理部350、FADER351、PAN352、およびセンドレベル調整回路353を備えている。図示しない他の入力チャンネルも同じ構成を備えている。
 入力信号処理部350は、イコライザまたはコンプレッサ等のエフェクト処理あるいはレベル調整処理等を施す。FADER351は、各入力チャンネルのゲインを調整する。
 図4は、オーディオミキサ1の操作パネルの模式図である。操作パネルには、入力チャンネル毎に対応するチャンネルストリップ61を有している。チャンネルストリップ61は、チャンネル毎に、スライダおよび摘まみを縦に並べて配置している。スライダは、図3のFADER351に対応する。オーディオミキサ1の利用者は、スライダの位置を変更することで、対応する入力チャンネルのゲインを調整する。
 摘まみは、例えば図3のPAN352に対応する。オーディオミキサ1の利用者は、摘まみを時計回りまたは反時計回りに動かすことで、ステレオの左右のレベルバランスを調整する。PAN352で分配された音信号は、ステレオバス303に送出される。あるいは、摘まみは、例えば図3のセンドレベル調整回路353に対応する。オーディオミキサ1の利用者は、摘まみを時計回りまたは反時計回りに動かすことで、MIXバス304への送り量を調整する。あるいは、スライダは、MIXバス304に対する送り量を調整する操作部として機能することもできる。この場合、スライダは、図3のセンドレベル調整回路353に対応する。
 ステレオバス303は、ホールや会議室におけるメインスピーカに対応するバスである。ステレオバス303は、各入力チャンネルから送出される音信号を混合する。ステレオバス303は、その混合音信号を、出力チャンネル305に出力する。
 MIXバス304は、1または複数の入力チャンネルの音信号の混合音信号をモニタスピーカまたはモニタ用ヘッドフォン等の特定の音響機器に送出するためのバスである。MIXバス304は、混合音信号を、出力チャンネル305に出力する。
 出力チャンネル305は、ステレオバス303およびMIXバス304の出力した音信号にイコライザまたはコンプレッサ等のエフェクト処理、およびレベル調整処理等を施す。出力チャンネル305は、信号処理を施した後の混合音信号を、出力パッチ306に出力する。
 出力パッチ306は、出力チャンネルの各チャンネルを、アナログ出力ポートまたはデジタル出力ポートにおける複数のポートのうちいずれか1つのポートに割り当てる。これにより、信号処理を施された後の音信号が、オーディオI/O203またはネットワークI/F205に供給される。
 本実施形態のオーディオミキサ1は、混合後の音信号が目標特性に近づく様に、複数の入力チャンネルにおけるそれぞれのエフェクト処理およびレベル調整処理等の音処理のパラメータを推定する。
 図5は、パラメータの推定処理を行うCPU206の機能的構成を示すブロック図である。
 CPU206は、図5に示す様に、エンコーダ50、目標代替表現選択部55、推定部57、および目標受付部85を備えている。また、フラッシュメモリ207は、目標代替表現データベース(zt DB)59を有する。
 エンコーダ50は、ニューラルネットワークを用いたデータ圧縮アルゴリズムである。エンコーダ50は、あるデータを入力し、該入力したデータを別の圧縮データ(代替表現)として出力する。
 代替表現は、音信号の特徴量を表す。代替表現は、エンコーダ50の訓練結果によって得られる音響特徴空間における値である。本実施形態における代替表現は、第1代替表現および第2代替表現を含む。エンコーダ50は、第1音信号の第1代替表現および第2音信号の第2代替表現を混合して得られる結果と、第1音信号および第2音信号を混合して得られる結果の特徴量と、が対応するように訓練される。
 本実施形態では、エンコーダ50は、第1入力チャンネルの第1音信号s1を入力し、入力した第1音信号s1の特徴量に対応する第1代替表現z1を出力する。また、エンコーダ50は、第2入力チャンネルの第2音信号s2を入力し、入力した第2音信号s2の特徴量に対応する第2代替表現z2を出力する。エンコーダ50は、第1代替表現z1および第2代替表現z2を混合して得られる第1混合代替表現(z1+z2)が、第1音信号s1および第2音信号s2を混合した第1混合音信号(s1+s2)の特徴量に対応するように訓練される。
 図6は、エンコーダ50の訓練段階における機能的構成を示すブロック図である。エンコーダ50は、訓練段階において入力層501および出力層502を有する。入力層501は、第1音信号s1および第2音信号s2を入力し、第1音信号s1の特徴量に対応する第1代替表現z1および第2音信号s2の特徴量に対応する第2代替表現z2を出力する。出力層502は、第1代替表現z1および第2代替表現z2を入力してデコードし、第1出力音信号out1および第2出力音信号out2を出力する。
 エンコーダ50は、第1の訓練として、第1出力音信号out1および第2出力音信号out2がそれぞれ第1音信号s1および第2音信号s2に近づく様に入力層501および出力層502を訓練する。
 また、出力層502は、第1代替表現z1および第2代替表現z2を混合した第1混合代替表現(z1+z2)を入力してデコードし、混合出力音信号out mixを出力する。エンコーダ50は、第2の訓練として、混合出力音信号out mixが第1音信号s1および第2音信号s2を混合した混合音信号(s1+s2)に近づく様に入力層501および出力層502を訓練する。
 以上の様な第1の訓練および第2の訓練を行うことにより、第1代替表現z1および第2代替表現z2を混合して得られる第1混合代替表現(z1+z2)は、第1音信号s1および第2音信号s2を混合した第1混合音信号(s1+s2)の特徴量を表す代替表現z(s1+s2)に対応する。
 図7は、実行段階の動作を示す音処理方法のフローチャートである。エンコーダ50は、第1音信号s1および第2音信号s2を入力する(S11)。第1音信号s1および第2音信号s2は、それぞれ図3に示す第1入力チャンネルおよび第2入力チャンネルからエンコーダ50に入力される。また、目標受付部85は、目標特性を有する参照混合音を示す参照データとして、目標特性を有する第2混合音信号st mixを受け付け(S12)、エンコーダ50に入力する。第2混合音信号st mixは、本発明の参照混合音信号に対応する。
 目標とする第2混合音信号st mixは、例えば、特定の曲のオーディオコンテンツ(既存の混合音信号)を取得し、取得したオーディオコンテンツから算出できる。また、第2混合音信号st mixは、複数の曲の音信号を蓄積したデータベースから、特定の曲を選択することで取得してもよい。この場合、オーディオミキサ1の利用者は、操作部202を操作して曲名を入力する。目標受付部85は、入力された曲名に基づいてオーディオコンテンツの第2混合音信号を取得できる。また、受付部51は、出力チャンネル305の出力する混合音信号に基づいて曲を特定し、特定した曲に類似する(例えば、同じジャンルの)曲のオーディオコンテンツを取得し、その第2混合音信号を取得してもよい。この場合、音信号と曲名の関係を機械学習した訓練済モデルを用いて、入力した混合音信号から対応する曲名を推定できる。
 なお、目標の第2混合音信号は、オーディオコンテンツの全期間ではなく、そのオーディオコンテンツの一部の、調整したい音源(楽器、歌手など)の音が全て含まれている特定期間(例えば30秒程度)の混合音信号である。利用者は、特定の曲のオーディオコンテンツの任意の区間や、過去のライブイベントのマルチトラック録音データのうち任意の区間を指定する。また、利用者は、リハーサル時に入力された入力音信号の任意の区間や、ライブイベントのその時点までに入力された入力音信号の任意の区間を指定してもよい。
 目標受付部85は、曲毎の第2混合音信号を予め取得してフラッシュメモリ207に記憶してもよい。あるいは、曲毎の第2混合音信号は、サーバに記憶されていてもよい。目標受付部85は、入力した曲名(あるいは音信号から特定した曲名)に対応する第2混合音信号をフラッシュメモリ207またはサーバ等から取得してもよい。
 また、第2混合音信号は、熟練のオーディオミキサ1の利用者(PAエンジニア)が理想的なパラメータ調整を行った場合における、メインスピーカへの出力音信号から予め求めてもよい。また、第2混合音信号は、熟練のレコーディングエンジニアが編集作業を行った後のオーディオコンテンツから予め求めてもよい。オーディオミキサ1の利用者は、操作部202を操作してPAエンジニア名またはレコーディングエンジニア名を入力する。目標受付部85は、PAエンジニア名またはレコーディングエンジニア名を受け付けて、対応する第2混合音信号を取得する。
 また、目標受付部85は、予め複数のオーディオコンテンツを取得し、取得した複数のオーディオコンテンツに基づいて第2混合音信号を求めてもよい。例えば、第2混合音信号は、複数のオーディオコンテンツで求められる複数の第2混合音信号の平均値であってもよい。この様な平均値は、曲毎、ジャンル毎、あるいはエンジニア毎に求めることができる。
 あるいは、目標受付部85は、ある訓練済モデルにより求めてもよい。目標受付部85は、複数のジャンルの各々について、予め同じジャンルの多数のオーディオコンテンツを取得し、所定のモデルに、各ジャンルと対応する第2混合音信号との関係を機械学習させて訓練済モデルを構築する。また、目標受付部85は、同じジャンルの曲であってもアレンジが異なるオーディオコンテンツや演奏者が異なるオーディオコンテンツ等の多数のオーディオコンテンツを取得し、所望のジャンルと所望のアレンジとから対応する第2混合音信号を推定できる訓練済モデルや、所望のジャンルと所望の演奏者から対応する第2混合音信号を推定できる訓練済モデルを構築してもよい。オーディオミキサ1の利用者は、操作部202を操作してジャンル名または曲名を入力する。目標受付部85は、ジャンル名または曲名を受け付けて、対応する第2混合音信号を受け付ける。
 エンコーダ50は、第1音信号s1の特徴量に対応する第1代替表現z1、第2音信号s2の特徴量に対応する第2代替表現z2、および第2混合音信号st mixの特徴量に対応する第2混合代替表現zt mixを求める(S13)。第2混合代替表現zt mixは、本発明の参照混合代替表現に対応する。
 次に、どのような音信号を混合すれば目標特性を有する第2混合音信号st mixになるかを代替表現として求めるために、目標代替表現選択部55は、第2混合代替表現zt mixを用いて第1目標代替表現z1tと第2目標代替表現z2tを選択する(S14)。具体的には、目標代替表現選択部55は、まず、目標代替表現データベース59から、第1代替表現z1および第2代替表現z2に最も近い第1目標代替表現z1tと第2目標代替表現z2tを初期値として選択する。次に、目標代替表現選択部55は、目標代替表現データベース59から、第1目標代替表現z1tと第2目標代替表現z2tの和が第2混合代替表現zt mixに一致する様に、後述する所定の手法を用いて第1目標代替表現z1tと第2目標代替表現z2tの選択を繰り返す。
 第1代替表現z1および第2代替表現z2は、それぞれエフェクト処理が施される前の第1音信号s1および第2音信号s2の特徴量に対応する。また、第2混合代替表現zt
 mixは、第2混合音信号st mixの特徴量に対応する。このとき第2混合代替表現zt mixは、別の表現をすると、第1音信号s1および第2音信号s2にエフェクト処理を施した後に混合する音信号の目標となる特徴量でもある。したがって目標代替表現選択部55が第2混合代替表現zt mixを用いて第1目標代替表現z1tと第2目標代替表現z2tを選択することは、エフェクト処理を施した音信号がそれぞれどのような特徴量を持っていれば良いかという点を考慮して、第1目標代替表現z1tと第2目標代替表現z2tを選択することとなる。
 目標代替表現選択部55は、例えばLMS(Least Mean Square)あるいは再帰的最小二乗法(Recursive Least-Squares)等の適応アルゴリズムを用いて、第1目標代替表現z1tおよび第2目標代替表現z2tの和(z1t+z2t)と、第2混合代替表現zt mixとの差(|z1t+z2t-zt mix|)が最小になるまで、目標代替表現データベース59から、第1目標代替表現z1tと第2目標代替表現z2tの選択を繰り返す(s15:No)。目標代替表現選択部55は、上記の差(|z1t+z2t-zt mix|)が最小となった場合(S15:Yes)、第1目標代替表現z1tと第2目標代替表現z2tを決定する(S16)。
 なお、目標代替表現選択部55は、上記の差(|z1t+z2t-zt mix|)が最小となる第1目標代替表現z1tと第2目標代替表現z2tが複数求められる場合、以下の処理を行ってもよい。
 目標代替表現選択部55は、第1代替表現z1および第1目標代替表現z1tの差(|z1-z1t|)、第2代替表現z2および第2目標代替表現z2tの差(|z2-z2t|)、ならびに第1目標代替表現z1tおよび第2目標代替表現z2tの和(|z1t+z2t|)と第2混合代替表現zt mixとの差(|z1t+z2t-zt mix|)の重み付け和(w1・|z1-z1t|+w2・|z2-z2t|+λ・|z1t+z2t-zt mix|)が最小となるような第1目標代替表現z1tおよび第2目標代替表現z2tを選択する。
 これにより、目標代替表現選択部55は、第1目標代替表現z1tと第2目標代替表現z2tを一意に決定することができる。この場合、例えば第1チャンネルがボーカルである場合に、利用者は、係数w1を大きく設定すればボーカルに重みを付けることができ、ボーカルの音信号に施すエフェクト処理のパラメータを大きく変更することができる。
 なお、目標代替表現選択部55は、予め、上記の差(|z1t+z2t-zt mix|)、または重み付け和(w1・|z1-z1t|+w2・|z2-z2t|+λ・|z1t+z2t-zt mix|)が最小となる様に、第1目標代替表現z1t、第2目標代替表現z2t、および第2混合代替表現zt mixの関係を機械学習した訓練済モデルを用いて第1目標代替表現z1tおよび第2目標代替表現z2tを求めてもよい。
 そして、推定部57は、第1音信号s1に対して音処理を行った後の第1エフェクト信号s1eの特徴量である第1エフェクト代替表現z1eと、第1目標代替表現z1tと、を用いて第1音信号s1に対する音処理の第1パラメータP1を推定する。また、推定部57は、第2音信号s2に対して音処理を行った後の第2エフェクト信号s2eの特徴量である第2エフェクト代替表現z2eと、第2目標代替表現z2tと、を用いて第2音信号s2に対する音処理の第2パラメータP2を推定する。第1パラメータP1は、図3に示す第1入力チャンネルの入力信号処理部350の用いるパラメータである。第2パラメータP2は、図3に示す第2入力チャンネルの入力信号処理部350の用いるパラメータである。
 具体的には、推定部57は、まず、第1パラメータP1の初期値P1 initを決定し(S17)、初期値P1 initを用いて、第1入力チャンネルの入力信号処理部350で第1音信号s1に音処理を行い、第1エフェクト信号s1eを得る(S18)。推定部57は、第1エフェクト信号s1eをエンコーダ50で変換し、第1エフェクト代替表現z1eを求める(S19)。
 そして、推定部57は、例えばLMS(Least Mean Square)あるいは再帰的最小二乗法(Recursive Least-Squares)等の適応アルゴリズムを用いて、第1目標代替表現z1tと第1エフェクト代替表現z1eの差(|z1t-z1e|)が最小になるまで、第1パラメータP1の更新を繰り返す(s20:No→S21)。推定部57は、上記の差(|z1t-z1e|)が最小となった場合(S20:Yes)、第1パラメータP1を決定する(S22)。
 同様に、推定部57は、第2パラメータP2の初期値P2 initを決定し(S23)、初期値P2 initを用いて、第2入力チャンネルの入力信号処理部350で第2音信号s2に音処理を行い、第2エフェクト信号s2eを得る(S24)。推定部57は、第2エフェクト信号s2eをエンコーダ50で変換し、第2エフェクト代替表現z2eを求める(S25)。推定部57は、例えばLMS(Least Mean Square)あるいは再帰的最小二乗法(Recursive Least-Squares)等の適応アルゴリズムを用いて、第2目標代替表現z2tと第2エフェクト代替表現z2eの差(|z2t-z2e|)が最小になるまで、第2パラメータP2の更新を繰り返す(s26:No→S27)。推定部57は、上記の差(|z1t-z1e|)が最小となった場合(S26:Yes)、第2パラメータP2を決定する(s28)。
 第1目標代替表現z1tと第2目標代替表現z2tを加算した結果は、第2混合代替表現(参照混合代替表現)zt mixに近づく。この様に、本実施形態のオーディオミキサ1は、第1代替表現z1が第1目標代替表現z1tに近づく様なエフェクトパラメータ、および第2代替表現z2が第2目標代替表現z2tに近づく様なエフェクトパラメータを推定することで、出力チャンネル305の出力する混合音信号の特徴量を目標の特徴量に近づけるための音処理のパラメータを求めることができる。音処理は、例えばコンプレッサまたはイコライザを含む。特にイコライザは、特徴量の一例である振幅スペクトルを調整する音処理であるため、本実施形態の音処理方法を適用するのに好適である。
 なお、音処理は、単一のエフェクト処理であってもよいし、コンプレッサおよびイコライザを含む複数のエフェクト処理であってもよい。また、音処理は、入力信号処理部350のエフェクト処理だけでなく、FADER351におけるレベル調整処理を含んでもよい。本実施形態の音処理方法は、複数のエフェクト処理、レベル調整処理、および混合処理を含む音処理後の混合音信号の特徴量が目標の第2混合音信号st mixの特徴量に近づく様に、それぞれの処理のパラメータを求めることができる。
 上述の様に、第1目標代替表現z1tと第2目標代替表現z2tとの和(z1t+z2t)は、目標の混合音信号の第2混合代替表現zt mixに近づく様になっている。特徴量を示す第1目標代替表現z1tおよび第2目標代替表現z2tの和は、位相情報を含む時間軸上の第1音信号s1および第2音信号s2を混合してエフェクト処理を行った後の音信号の特徴量に対応している。言い換えると、第1目標代替表現z1tおよび第2目標代替表現z2tの和は、位相情報を含めた第1音信号s1および第2音信号s2を混合した音信号の特徴量に対応している。
 したがって、本実施形態の音処理方法は、音響特徴空間における代替表現を用いることで計算量を低減しながらも、位相情報も考慮したうえで混合信号を目標の特性に近づけるための音処理のパラメータを求めることができる。
 (変形例1) 
 エンコーダ50に入力する音信号は、時間軸上の音信号でもよいが、パワー、振幅スペクトル、基本周波数、スペクトル包絡、フォルマント周波数、メルスペクトル包絡、メルスペクトル、またはケプストラム等の特徴量であってもよい。
 変形例1のエンコーダ50に入力する音信号は、メルスペクトル包絡である。エンコーダ50は、訓練段階および実行段階の両方において、音信号としてメルスペクトル包絡を入力する。
 メルスペクトル包絡は、音の特徴量を示す指標であり、かつ時間軸上の音信号よりも次元の低い情報である。メルスペクトル包絡は、スペクトル包絡にメルフィルタバンクを畳み込むことで求める。メルフィルタバンクは、低周波数ほど帯域幅が狭く、高周波数ほど帯域幅が大きくなる複数のバンドパスフィルタからなる。当該複数のバンドパスフィルタの各帯域幅は、人間の聴覚特性に対応する。したがって、メルスペクトル包絡は、音の特徴量を抽出したものである。
 スペクトル包絡は、例えば、音信号から線形予測法(Linear Predictive Coding:LPC)またはケプストラム分析法等により求める。例えば、CPU206は、短時間フーリエ変換により混合音信号を周波数軸に変換し、混合音信号の振幅スペクトルを取得する。CPU206は、特定期間について振幅スペクトルを平均化し、平均スペクトルを取得する。CPU206は、平均スペクトルからエネルギ成分であるバイアス(ケプストラムの0次成分)を除去し、混合音信号のスペクトル包絡を取得する。なお、時間軸方向への平均化とバイアスの除去は、どちらを先に行ってもよい。すなわち、CPU206は、まず振幅スペクトルからバイアスを除去した後に、時間軸方向に平均化した平均スペクトルをスペクトル包絡として取得してもよい。
 CPU206は、第1音信号s1、第2音信号s2、目標とする第2混合音信号st mixのそれぞれのスペクトル包絡を求めて、メルフィルタバンクを畳み込み、メルスペクトル包絡を得る。
 エンコーダ50は、第1音信号s1、第2音信号s2、目標とする第2混合音信号st
 mixのそれぞれのメルスペクトル包絡を入力する。エンコーダ50は、より次元数の低い代替表現を出力する。
 メルスペクトル包絡は、位相情報が失われているが、第1代替表現z1および第2代替表現z2の和は、位相情報を含む時間軸上の第1音信号s1および第2音信号s2を混合した後の第1混合音信号(s1+s2)の特徴量に対応している。したがって、変形例1の音処理方法は、メルスペクトル包絡を入力し、より次元数の低い代替表現を用いてさらに計算量を低減しながらも、位相情報も考慮したうえで混合信号を目標の特性に近づけるための音処理のパラメータを求めることができる。
 (変形例2) 
 上記実施形態では、目標受付部85は、目標特性を有する参照混合音を示す参照データとして、目標特性を有する第2混合音信号st mixを受け付けた。また、上記実施形態では、エンコーダ50を用いて第2混合音信号st mixを第2混合代替表現zt mixにエンコードする例を示した。
 しかし、参照データは、目標特性を有する参照混合音信号を示す識別情報であってもよい。識別情報とは、例えば曲名、ジャンル名、あるいはエンジニア名等である。目標受付部85は、複数の参照混合代替表現を記憶したデータベースより、識別情報に対応した第2混合代替表現zt mixを獲得してもよい。
例えば、目標受付部85は、ある訓練済モデルにより、予め多数の第2混合音信号st mixを第2混合代替表現zt mixにエンコードしてデータベース(自装置またはサーバ等)に記憶する。目標受付部85は、例えば複数のジャンルの各々について、予め同じジャンルの多数のオーディオコンテンツを取得し、所定のモデルに、各ジャンルと対応する第2混合代替表現zt mixとの関係を機械学習させて訓練済モデルを構築する。また、目標受付部85は、同じジャンルの曲であってもアレンジが異なるオーディオコンテンツや演奏者が異なるオーディオコンテンツ等の多数のオーディオコンテンツを取得し、所望のジャンルと所望のアレンジとから対応する第2混合代替表現zt mixを推定できる訓練済モデルや、所望のジャンルと所望の演奏者から対応する第2混合代替表現zt mixを推定できる訓練済モデルを構築してもよい。これにより、データベースは、ジャンル名または曲名等の識別情報に対応する第2混合代替表現zt mixを記憶する。オーディオミキサ1の利用者は、操作部202を操作してジャンル名または曲名を入力する。目標受付部85は、ジャンル名または曲名を受け付けて、対応する第2混合代替表現zt mixをデータベースから獲得する。
 本実施形態の説明は、すべての点で例示であって、制限的なものではない。本発明の範囲は、上述の実施形態ではなく、請求の範囲によって示される。さらに、本発明の範囲には、請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
 例えば、上述の実施形態で示したパラメータ推定方法は、オーディオミキサ1ではなくサーバで行ってもよい。この場合、オーディオミキサ1は、ネットワークI/F205を介して第1音信号s1および第2音信号s2をサーバに送信する。また、オーディオミキサ1は、参照データ(目標特性を有する参照混合音信号、またはその参照混合音信号を示す識別情報)をサーバに送信する。サーバは、第1音信号s1、第2音信号s2、および参照データに基づいて第1パラメータP1および第2パラメータP2を決定する。オーディオミキサ1は、サーバで決定された第1パラメータP1および第2パラメータP2を受信する。オーディオミキサ1は、受信した第1パラメータP1および第2パラメータP2を用いて第1入力チャンネルの入力信号処理部350および第2入力チャンネルの入力信号処理部350で信号処理を行う。あるいは、サーバは、決定した第1パラメータP1および第2パラメータP2を用いて第1音信号s1および第2音信号s2に信号処理を行い、信号処理後の第1エフェクト信号s1eおよび第2エフェクト信号s2eをオーディオミキサ1に送信してもよい。
1    :オーディオミキサ50   :エンコーダ51   :受付部55   :目標代替表現選択部57   :推定部59   :目標代替表現データベース61   :チャンネルストリップ85   :目標受付部171  :バス172  :波形バス201  :表示器202  :操作部203  :オーディオI/O204  :信号処理部205  :ネットワークI/F206  :CPU207  :フラッシュメモリ208  :RAM301  :入力パッチ302  :入力チャンネル303  :ステレオバス304  :MIXバス305  :出力チャンネル306  :出力パッチ350  :入力信号処理部353  :センドレベル調整回路501  :入力層502  :出力層

Claims (14)

  1.  信号処理され混合される第1音信号と第2音信号を受け取り、
     エンコーダを用いて前記第1音信号と前記第2音信号を処理して、前記第1音信号の特徴量に対応する第1代替表現と前記第2音信号の特徴量に対応する第2代替表現とを生成し、前記エンコーダは、前記第1代替表現および前記第2代替表現を混合して得られる混合代替表現が、前記第1音信号および前記第2音信号を混合した混合音信号の特徴量に対応するよう訓練されており、
     目標特性を有する参照混合音を示す参照データを受け付け、
     前記参照データに対応する参照混合代替表現を用いて、第1目標代替表現と第2目標代替表現とを選択し、
     前記第1代替表現と前記第1目標代替表現を用いて、前記第1音信号に対する前記信号処理に用いる第1パラメータを推定し、
     前記第2代替表現と前記第2目標代替表現を用いて、前記第2音信号に対する前記信号処理に用いる第2パラメータを推定する、
     コンピュータで実現されるパラメータ推定方法。
  2.  前記参照データは、前記目標特性を有する参照混合音信号であり、
     前記選択は、
     前記エンコーダを用いて、前記目標とする参照混合音信号を処理して、前記参照混合代替表現を生成すること、および
     前記生成された参照混合代替表現を用いて、前記第1目標代替表現と前記第2目標代替表現とを選択すること、を含む、
     請求項1に記載のパラメータ推定方法。
  3.  前記参照データは、前記目標特性を有する参照混合音信号を示す識別情報であり、
     前記選択は、
     複数の参照混合代替表現を記憶したデータベースより、前記識別情報に対応した前記参照混合代替表現を獲得すること、および
     前記獲得された参照混合代替表現を用いて、前記第1目標代替表現と前記第2目標代替表現とを選択すること、を含む、
     請求項1に記載のパラメータ推定方法。
  4.  前記推定は、前記第1代替表現と前記第1目標代替表現との差が小さくなるように前記第1パラメータと、前記第2代替表現と前記第2目標代替表現との差が最小となるような前記第2パラメータと、を推定する、
     請求項1乃至請求項3のいずれか1項に記載のパラメータ推定方法。
  5.  前記目標代替表現の選択は、前記第1目標代替表現および前記第2目標代替表現の和と、前記参照混合代替表現との差が小さくなるように前記第1目標代替表現および前記第2目標代替表現を選択する、
     請求項1乃至請求項3のいずれか1項に記載のパラメータ推定方法。
  6.  前記目標代替表現の選択は、前記第1代替表現と前記第1目標代替表現との差、前記第2代替表現と前記第2目標代替表現との差、ならびに前記第1目標代替表現および前記第2目標代替表現の和と前記参照混合代替表現との差、の重み付け和がちいさくなるように前記第1目標代替表現および前記第2目標代替表現を選択する、
     請求項5に記載のパラメータ推定方法。
  7.  前記特徴量はメルスペクトル包絡である、
     請求項1乃至請求項3のいずれか1項に記載のパラメータ推定方法。
  8.  前記信号処理はイコライザを含む、
     請求項1乃至請求項3のいずれか1項に記載のパラメータ推定方法。
  9.  前記信号処理はコンプレッサを含む、
     請求項1乃至請求項3のいずれか1項に記載のパラメータ推定方法。
  10.  前記エンコーダは、エンコードを行う入力層、およびデコードを行う出力層を含み、
     前記エンコーダは、前記出力層で前記混合代替表現をデコードした特徴量が、前記混合音信号の特徴量に対応するように、前記入力層および前記出力層が訓練される、
     請求項1乃至請求項3のいずれか1項に記載のパラメータ推定方法。
  11.  信号処理され混合される第1音信号と第2音信号を受け取り、前記第1音信号と前記第2音信号を処理して、前記第1音信号の特徴量に対応する第1代替表現と前記第2音信号の特徴量に対応する第2代替表現とを生成するエンコーダであって、前記第1代替表現および前記第2代替表現を混合して得られる混合代替表現が、前記第1音信号および前記第2音信号を混合した混合音信号の特徴量に対応するよう訓練されているエンコーダと、
     目標特性を有する参照混合音を示す参照データを受け付ける目標受付部と、
     前記参照データに対応する参照混合代替表現を用いて、第1目標代替表現と第2目標代替表現とを選択する目標代替表現選択部と、
     前記第1代替表現と前記第1目標代替表現を用いて、前記第1音信号に対する前記信号処理に用いる第1パラメータを推定し、前記第2代替表現と前記第2目標代替表現を用いて、前記第2音信号に対する前記信号処理に用いる第2パラメータを推定する、推定部と、
     を備えた音処理装置。
  12.  信号処理され混合される第1音信号と第2音信号を受け取り、
     エンコーダを用いて前記第1音信号と前記第2音信号を処理して、前記第1音信号の特徴量に対応する第1代替表現と前記第2音信号の特徴量に対応する第2代替表現とを生成し、前記エンコーダは、前記第1代替表現および前記第2代替表現を混合して得られる混合代替表現が、前記第1音信号および前記第2音信号を混合した混合音信号の特徴量に対応するよう訓練されており、
     目標特性を有する参照混合音を示す参照データを受け付け、
     前記参照データに対応する参照混合代替表現を用いて、第1目標代替表現と第2目標代替表現とを選択し、
     前記第1代替表現と前記第1目標代替表現を用いて、前記第1音信号に対する前記信号処理に用いる第1パラメータを推定し、前記第2代替表現と前記第2目標代替表現を用いて、前記第2音信号に対する前記信号処理に用いる第2パラメータを推定する、
     処理をコンピュータに実行させる音処理プログラム。
  13.  第1音信号および第2音信号を入力して得られる第1代替表現および第2代替表現を混合して得られる混合代替表現が、前記第1音信号および前記第2音信号を混合した混合音信号の特徴量に対応するエンコーダを用いて、
     目標とする音信号の特徴量に対応する代替表現と前記混合代替表現との差分から、
     前記第1音信号と前記第2音信号それぞれに対するエフェクトのパラメータを推定する、
     コンピュータで実現されるパラメータ推定方法。
  14.  前記推定されたエフェクトのパラメータを用いて、前記第1音信号と前記第2音信号に音処理を行う、請求項13に記載のパラメータ推定方法。
PCT/JP2023/020749 2022-06-16 2023-06-05 パラメータ推定方法、音処理装置、および音処理プログラム WO2023243454A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022-097294 2022-06-16
JP2022097294A JP2023183660A (ja) 2022-06-16 2022-06-16 パラメータ推定方法、音処理装置、および音処理プログラム

Publications (1)

Publication Number Publication Date
WO2023243454A1 true WO2023243454A1 (ja) 2023-12-21

Family

ID=89191092

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/020749 WO2023243454A1 (ja) 2022-06-16 2023-06-05 パラメータ推定方法、音処理装置、および音処理プログラム

Country Status (2)

Country Link
JP (1) JP2023183660A (ja)
WO (1) WO2023243454A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012523579A (ja) * 2009-04-10 2012-10-04 アンスティテュ ポリテク二ック ドゥ グルノーブル 混合信号を形成する方法及び装置、信号を分離する方法及び装置、並びに対応する信号
JP2021125760A (ja) * 2020-02-04 2021-08-30 ヤマハ株式会社 オーディオ信号処理装置、オーディオシステム及びオーディオ信号処理方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012523579A (ja) * 2009-04-10 2012-10-04 アンスティテュ ポリテク二ック ドゥ グルノーブル 混合信号を形成する方法及び装置、信号を分離する方法及び装置、並びに対応する信号
JP2021125760A (ja) * 2020-02-04 2021-08-30 ヤマハ株式会社 オーディオ信号処理装置、オーディオシステム及びオーディオ信号処理方法

Also Published As

Publication number Publication date
JP2023183660A (ja) 2023-12-28

Similar Documents

Publication Publication Date Title
US9640163B2 (en) Automatic multi-channel music mix from multiple audio stems
CN102123341B (zh) 音源的参数联合编码
US11915725B2 (en) Post-processing of audio recordings
Parvaix et al. Informed source separation of linear instantaneous under-determined audio mixtures by source index embedding
JP6377249B2 (ja) オーディオ信号の強化のための装置と方法及び音響強化システム
JP2010507927A (ja) リミキシング性能を持つ改善したオーディオ
JP2010507927A6 (ja) リミキシング性能を持つ改善したオーディオ
US8907196B2 (en) Method of sound analysis and associated sound synthesis
Nagathil et al. Spectral complexity reduction of music signals for mitigating effects of cochlear hearing loss
US20210390938A1 (en) Method, device and software for applying an audio effect
JP2002215195A (ja) 音楽信号処理装置
US6673995B2 (en) Musical signal processing apparatus
JP2022040079A (ja) オーディオエフェクトを適用するための方法、装置、およびソフトウェア
WO2023243454A1 (ja) パラメータ推定方法、音処理装置、および音処理プログラム
WO2023171684A1 (ja) 音信号処理方法、音信号処理装置、および音信号処理プログラム
WO2021175460A1 (en) Method, device and software for applying an audio effect, in particular pitch shifting
Rauhala et al. Dispersion modeling in waveguide piano synthesis using tunable allpass filters
EP4247011A1 (en) Apparatus and method for an automated control of a reverberation level using a perceptional model
JP7179250B1 (ja) 音質生成手段と音響データ生成手段
Weber et al. Automated Control of Reverberation Level Using a Perceptional Model
Blanckensee Automatic mixing of musical compositions using machine learning
JP6003861B2 (ja) 音響データ作成装置、プログラム
Sasaki et al. Manipulating vocal signal in mixed music sounds using small amount of side information
WO2021121563A1 (en) Apparatus for outputting an audio signal in a vehicle cabin
Anderson The amalgamation of acoustic and digital audio techniques for the creation of adaptable sound output for musical theatre

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23823747

Country of ref document: EP

Kind code of ref document: A1