WO2021172054A1 - 信号処理装置および方法、並びにプログラム - Google Patents

信号処理装置および方法、並びにプログラム Download PDF

Info

Publication number
WO2021172054A1
WO2021172054A1 PCT/JP2021/005240 JP2021005240W WO2021172054A1 WO 2021172054 A1 WO2021172054 A1 WO 2021172054A1 JP 2021005240 W JP2021005240 W JP 2021005240W WO 2021172054 A1 WO2021172054 A1 WO 2021172054A1
Authority
WO
WIPO (PCT)
Prior art keywords
signal
channel
sound source
compressed sound
source signal
Prior art date
Application number
PCT/JP2021/005240
Other languages
English (en)
French (fr)
Inventor
福井 隆郎
芳明 及川
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Publication of WO2021172054A1 publication Critical patent/WO2021172054A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders

Definitions

  • the present technology relates to signal processing devices and methods, and programs, and in particular, to signal processing devices, methods, and programs that enable a higher quality signal to be obtained.
  • the high frequency component of the original sound signal is removed or the number of bits of the signal is compressed. Therefore, the sound quality of the compressed sound source signal obtained by further decoding the code information obtained by compressing and coding the original sound signal is deteriorated as compared with the original original sound signal. ..
  • the compressed sound source signal is filtered by a plurality of cascade-connected all-pass filters, the gain of the resulting signal is adjusted, and the gain-adjusted signal and the compressed sound source signal are added to obtain higher sound quality.
  • a technique for generating a signal has been proposed (see, for example, Patent Document 1).
  • the original sound signal which is the signal before the deterioration of sound quality
  • the original sound signal which is the signal before the deterioration of sound quality
  • the gain value at the time of gain adjustment is optimized manually in consideration of the compression coding method (type of compression coding) and the bit rate of the code information obtained by the compression coding. It was converted.
  • the sound of the signal whose sound quality has been improved by using the gain value determined manually and the sound of the original original sound signal are compared by audition, and the gain value is sensuously adjusted by hand after the audition.
  • the process was repeated to determine the final gain value. Therefore, it has been difficult to obtain a signal close to the original sound signal from the compressed sound source signal only by human senses.
  • This technology was made in view of such a situation, and makes it possible to obtain a signal with higher sound quality.
  • the signal processing device of one aspect of the present technology uses the difference signal between the learning compressed sound source signal obtained by compressing and encoding the original sound signal of the first channel and the original sound signal of the first channel as teacher data. , The prediction coefficient obtained by learning based on the difference signal, the learning compressed sound source signal of the first channel, and the learning compressed sound source signal of the second channel, and the input compressed sound source of the first channel.
  • a calculation unit that calculates parameters for generating the difference signal corresponding to the input compressed sound source signal of the first channel based on the signal and the input compressed sound source signal of the second channel, and the calculation unit.
  • a difference signal generation unit that generates the difference signal based on the parameters and the input compressed sound source signal of the first channel, the generated difference signal, and the input compressed sound source signal of the first channel are combined. It is provided with a synthesis unit to be used.
  • the signal processing method or program of one aspect of the present technology supervises the difference signal between the learning compressed sound source signal obtained by compressing and encoding the original sound signal of the first channel and the original sound signal of the first channel.
  • a parameter for generating the difference signal corresponding to the input compressed sound source signal of the first channel is calculated, and the parameter is calculated.
  • the step of generating the difference signal based on the input compressed sound source signal of the first channel, and synthesizing the generated difference signal and the input compressed sound source signal of the first channel.
  • the difference signal obtained by compressing and encoding the original sound signal of the first channel and the difference signal between the compressed sound source signal for learning and the original sound signal of the first channel is used as teacher data.
  • a parameter for generating the difference signal corresponding to the input compressed sound source signal of the first channel is calculated, and the parameter and the first
  • the difference signal is generated based on the input compressed sound source signal of the channel, and the generated difference signal and the input compressed sound source signal of the first channel are combined.
  • an LPCM (Linear Pulse Code Modulation) signal such as music is regarded as the original sound signal.
  • the signal obtained by compressing and coding the original sound signal by a predetermined compression coding method such as AAC (Advanced Audio Coding) and decoding (decompressing) the code information obtained as a result is regarded as a compressed sound source signal.
  • AAC Advanced Audio Coding
  • decoding decompressing
  • a method for improving the sound quality of a compressed sound source signal a method of generating a difference signal between a compressed sound source signal and an original sound signal by prediction from a compressed sound source signal and synthesizing the obtained difference signal into a compressed sound source signal (hereinafter, prediction). (Also called a generation method) can be considered.
  • the prediction unit 11 shown in FIG. 1 is generated by machine learning and used for prediction of a difference signal.
  • the prediction unit 11 includes a convolution processing unit 21, a dense block 22-1 to a dense block 22-4, and a linear prediction unit 23, and the convolution processing unit 21 and the dense block 22-1.
  • the compressed sound source signal is input to.
  • the convolution processing unit 21 performs convolution processing on the input compressed sound source signal, arithmetic processing by an activation function such as Relu or Crelu, and supplies the signal obtained as a result to the linear prediction unit 23.
  • Dense block 22-1 to Dense block 22-4 are Dense Blocks generally used in machine learning, and perform predetermined arithmetic processing such as convolution processing on the input signal.
  • the dense block 22-1 performs a predetermined arithmetic process on the input compressed sound source signal, and supplies the signal obtained as a result to the linear prediction unit 23 and the dense block 22-2.
  • the dense block 22-2 performs predetermined arithmetic processing on the signal supplied from the dense block 22-1, and supplies the signal obtained as a result to the linear prediction unit 23 and the dense block 22-3.
  • the dense block 22-3 performs predetermined arithmetic processing on the signal supplied from the dense block 22-2, and supplies the signal obtained as a result to the linear prediction unit 23 and the dense block 22-4.
  • the dense block 22-4 performs predetermined arithmetic processing on the signal supplied from the dense block 22-3, and supplies the signal obtained as a result to the linear prediction unit 23.
  • the linear prediction unit 23 performs linear prediction processing based on the signal supplied from the convolution processing unit 21 and the signal supplied from the dense block 22-1 to the dense block 22-4, and obtains the difference signal obtained as a result. Output to the latter stage.
  • the difference signal obtained by the linear prediction unit 23 is combined with the compressed sound source signal to generate a high-quality sound signal with higher sound quality. It can be said that such a prediction generation method is a method of bit expansion of an audio signal using machine learning.
  • the compressed sound source signal targeted for high sound quality is not limited to a monaural signal, but may be a stereo signal or a multi-channel signal of 3 or more.
  • some CODECs perform compression coding using stereo correlation, such as Joint Stereo.
  • Joint Stereo is a method of switching between a normal stereo signal and an MS Stereo signal according to the strength of correlation. That is, Joint Stereo is a compression code that compresses and encodes a signal while switching between compression coding using stereo correlation or compression coding without stereo correlation for each frame, etc., in a predetermined time unit. It is a conversion method.
  • stereo sound is composed of two channels of signals, left (left; L) and right (right; R).
  • the sum signal M is a monaural component obtained by the sum (L + R) of the L channel signal and the R channel signal.
  • the difference signal S is a stereo difference component obtained by the difference (L-R) between the L channel signal and the R channel signal.
  • the L channel signal can be obtained by obtaining the sum (M + S) of the sum signal M and the difference signal S at the time of decoding, and the difference (MS) between the sum signal M and the difference signal S can be obtained.
  • the R channel signal can be obtained by obtaining it.
  • the L channel signal and the R channel signal obtained by decoding are amplified twice as much as the original signal.
  • the above-mentioned prediction generation method can predict the difference signal with sufficient accuracy. There are things you can't do. That is, it may not be possible to obtain a high-quality sound signal having sufficiently high sound quality.
  • the sum signal M portion is large and the difference signal S portion is small.
  • the difference signal cannot be sufficiently predicted by the processing of individual channels.
  • both L and R channels are not used, that is, if not only the signal characteristics of one channel but also the signal characteristics of the other channel are considered, the learning and prediction of the difference signal is sufficient. It cannot be done with accuracy.
  • the compressed sound source signal for which the sound quality is to be improved may be a signal of two or more channels, but the compressed sound source signal is composed of L channel and R channel signals for the sake of simplicity.
  • the case of a stereo signal will be described as an example.
  • the channel of L and R that is the target of processing will also be referred to as the target channel, and the channel that is not the target channel will also be referred to as the reverse channel.
  • the L channel is the target channel
  • the R channel is the reverse channel
  • the L channel is the reverse channel
  • a prediction coefficient for predicting the envelope of the frequency characteristic of the difference signal is generated from the compressed sound source signal by machine learning. With the prediction coefficient obtained in this way, a predictor that predicts the envelope of the frequency characteristic of the difference signal is realized. In other words, the prediction coefficients that make up the predictor are generated by machine learning.
  • the original sound signal and the compressed sound source signal of the target channel and the compressed sound source signal of the reverse channel are the learning signals. Many are prepared as.
  • the learning original sound signal and the compressed sound source signal will also be referred to as a learning original sound signal and a learning compressed sound source signal.
  • the learning compressed sound source signal of the target channel and the learning compressed sound source signal of the reverse channel are used as input data, and the learning difference signal of the target channel is used as the teacher data, such as DNN (Deep Neural Network), linear prediction, and nonlinear prediction. Is appropriately combined to generate a prediction coefficient for predicting the envelope of the frequency characteristic of the difference signal by machine learning.
  • DNN Deep Neural Network
  • linear prediction linear prediction
  • nonlinear prediction nonlinear prediction
  • the envelope of the frequency characteristic of the learning difference signal is used as the teacher data
  • the envelope of the frequency characteristic of the learning compressed sound source signal for the target channel and the reverse channel is used as the input data, and the training data and the input.
  • Machine learning is performed based on the data of.
  • FFT Fast Fourier Transform
  • SFB Scale Factor Band
  • the frequency characteristic envelope of the difference signal of the target channel can be obtained by, for example, calculating the difference between the frequency characteristic envelope of the original sound signal of the target channel and the frequency characteristic envelope of the compressed sound source signal of the target channel. ..
  • the method for predicting the difference signal and the method for learning the prediction coefficient for obtaining the difference signal are not limited to the above-mentioned prediction method and machine learning method, and may be any other method.
  • FIG. 2 is a diagram showing a configuration example of an embodiment of a signal processing device to which the present technology is applied.
  • the signal processing device 51 shown in FIG. 2 takes an input compressed sound source signal that is the target of high sound quality as an input, and outputs a high sound quality signal obtained by improving the sound quality of the input compressed sound source signal.
  • the input compressed sound source signal is a stereo signal composed of L channel and R channel signals.
  • the signal processing device 51 includes an FFT processing unit 61-1, an FFT processing unit 61-2, a gain calculation unit 62-1, a gain calculation unit 62-2, a difference signal generation unit 63-1 and a difference signal generation unit 63-2. It has an IFFT (Inverse Fast Fourier Transform) processing unit 64-1, an IFFT processing unit 64-2, a synthesis unit 65-1, and a synthesis unit 65-2.
  • IFFT Inverse Fast Fourier Transform
  • the FFT processing unit 61-1 performs FFT on the input compressed sound source signal of the supplied L channel, and obtains the resulting signal as a gain calculation unit 62-1, a gain calculation unit 62-2, and a difference signal generation. Supply to unit 63-1.
  • the FFT processing unit 61-2 performs FFT on the input compressed sound source signal of the supplied R channel, and obtains the resulting signal as a gain calculation unit 62-1, a gain calculation unit 62-2, and a difference signal generation. Supply to unit 63-2.
  • the FFT processing unit 61 when it is not necessary to distinguish between the FFT processing unit 61-1 and the FFT processing unit 61-2, it is also simply referred to as the FFT processing unit 61.
  • the gain calculation unit 62-1 and the gain calculation unit 62-2 hold prediction coefficients obtained in advance by machine learning, and function as predictors for predicting the envelope of the frequency characteristics of the difference signal of the target channel.
  • the gain calculation unit 62-1 is based on the holding prediction coefficient, the signal supplied from the FFT processing unit 61-1, and the signal supplied from the FFT processing unit 61-2, and the input compressed sound source signal of the L channel.
  • the gain value as a parameter for generating the difference signal corresponding to is calculated and supplied to the difference signal generation unit 63-1. That is, the gain of the frequency envelope of the difference signal is calculated as a parameter for generating the difference signal.
  • the gain calculation unit 62-2 inputs the R channel based on the holding prediction coefficient, the signal supplied from the FFT processing unit 61-1, and the signal supplied from the FFT processing unit 61-2.
  • a gain value as a parameter for generating a difference signal corresponding to the compressed sound source signal is calculated and supplied to the difference signal generation unit 63-2.
  • the gain calculation unit 62-1 when it is not necessary to distinguish between the gain calculation unit 62-1 and the gain calculation unit 62-2, it is also simply referred to as the gain calculation unit 62.
  • the difference signal generation unit 63-1 generates an L channel difference signal based on the signal supplied from the FFT processing unit 61-1 and the gain value supplied from the gain calculation unit 62-1, and the IFFT processing unit 63-1 generates a difference signal of the L channel. Supply to 64-1.
  • the difference signal generation unit 63-2 generates an R channel difference signal based on the signal supplied from the FFT processing unit 61-2 and the gain value supplied from the gain calculation unit 62-2, and generates an R channel difference signal, and is an IFFT processing unit. Supply to 64-2.
  • the difference signal generation unit 63 when it is not necessary to particularly distinguish between the difference signal generation unit 63-1 and the difference signal generation unit 63-2, it is also simply referred to as the difference signal generation unit 63.
  • the IFFT processing unit 64-1 and the IFFT processing unit 64-2 perform IFFT on the difference signal supplied from the difference signal generation unit 63-1 and the difference signal generation unit 63-2, and the time domain obtained as a result.
  • the difference signal of is supplied to the synthesis unit 65-1 and the synthesis unit 65-2.
  • the synthesis unit 65-1 synthesizes the input compressed sound source signal of the supplied L channel and the difference signal of the L channel supplied from the IFFT processing unit 64-1, and improves the sound quality of the L channel obtained as a result.
  • the signal is output to the subsequent stage.
  • the synthesis unit 65-2 synthesizes the input compressed sound quality signal of the supplied R channel and the difference signal of the R channel supplied from the IFFT processing unit 64-2, and the resulting R channel The high-quality sound signal is output to the subsequent stage.
  • the IFFT processing unit 64-1 and the IFFT processing unit 64-2 will be simply referred to as the IFFT processing unit 64.
  • the synthesis unit 65-1 and the synthesis unit 65-2 it will be simply referred to as the synthesis unit 65.
  • gain calculation unit 62 shown in FIG. 2 is configured as shown in FIG. 3, for example.
  • the gain calculation unit 62 includes a convolution processing unit 91, a dense block 92-1 to a dense block 92-4, a convolution processing unit 93, and a linear prediction unit 94.
  • a set of prediction coefficients used for calculation in each block constituting the gain calculation unit 62 is learned (generated) as a prediction coefficient for predicting the envelope of the frequency characteristic of the difference signal. ..
  • the gain calculation unit 62 calculates the frequency characteristic envelope of the input compressed sound source signal of the target channel, that is, the average energy of each frequency band, based on the signal of the target channel supplied from the FFT processing unit 61, and performs convolution processing. It is supplied to the unit 91 and the dense block 92-1.
  • the gain calculation unit 62 calculates the envelope of the frequency characteristics of the input compressed sound source signal of the reverse channel based on the signal of the reverse channel supplied from the FFT processing unit 61, and supplies the envelope to the convolution processing unit 93.
  • the L channel signal supplied from the FFT processing unit 61-1 is the signal of the target channel, and is supplied from the FFT processing unit 61-2.
  • the signal of the R channel is the signal of the reverse channel.
  • the input to the convolution processing unit 91, the dense block 92-1, and the convolution processing unit 93, that is, the input of the predictor is not limited to the envelope of the frequency characteristics of the input compressed sound source signal, but is obtained by FFT for the input compressed sound source signal. It may be the signal or the input compressed sound source signal itself.
  • the convolution processing unit 91 performs convolution processing, arithmetic processing by an activation function such as Relu or Crelu, etc. on the envelope of the supplied target channel based on the prediction coefficient held in advance, and linearly performs the arithmetic processing. It is supplied to the prediction unit 94.
  • the envelope of the target channel is convoluted in the frequency direction and the time direction.
  • the non-linear block 92-1 to the non-linear block 92-4 are Dense Blocks generally used in machine learning, and convolution processing and activation of the input signal are performed based on the prediction coefficient held in advance. Performs predetermined arithmetic processing such as non-linear processing such as arithmetic by a function.
  • the dense block 92-1 performs arithmetic processing such as convolution processing on the envelope of the supplied target channel, and supplies the arithmetic result to the dense block 92-2 and the linear prediction unit 94.
  • the dense block 92-2 performs arithmetic processing such as convolution processing on the arithmetic result (signal) supplied from the dense block 92-1 and supplies the arithmetic result to the linear prediction unit 94 and the dense block 92-3. do.
  • the dense block 92-3 performs arithmetic processing such as convolution processing on the arithmetic result supplied from the dense block 92-2, and supplies the arithmetic result to the linear prediction unit 94 and the dense block 92-4.
  • the dense block 92-4 performs arithmetic processing such as convolution processing on the arithmetic result supplied from the dense block 92-3, and supplies the arithmetic result to the linear prediction unit 94.
  • the dense block 92-1 when it is not necessary to distinguish between the dense block 92-1 and the dense block 92-4, it is also simply referred to as the dense block 92.
  • the convolution processing unit 93 performs convolution processing, arithmetic processing by activation functions such as Relu and Crelu, and the like, as in the case of the convolution processing unit 91.
  • the convolution processing unit 93 performs convolution processing, arithmetic processing by the activation function, etc. on the supplied reverse channel envelope based on the prediction coefficient held in advance, and the arithmetic result is obtained by the linear prediction unit 94. Supply to.
  • the linear prediction unit 94 uses the calculation result supplied from the convolution processing unit 91, the calculation result supplied from each dense block 92, the calculation result supplied from the convolution processing unit 93, and the prediction coefficient held in advance. Performs linear prediction processing based on this.
  • the gain calculation unit 62 calculates a gain value for generating a difference signal of the target channel based on the prediction result obtained by the linear prediction unit 94, and supplies the gain value to the difference signal generation unit 63.
  • the signal processing device 51 When the input compressed sound source signal is supplied, the signal processing device 51 performs signal generation processing to generate a high-quality sound signal.
  • the signal generation process by the signal processing device 51 will be described with reference to the flowchart of FIG.
  • step S11 the FFT processing unit 61 performs FFT on the supplied input compressed sound source signal, and obtains the resulting signals in the gain calculation unit 62-1, the gain calculation unit 62-2, and the difference signal generation unit 63. Supply to.
  • the FFT in the FFT processing unit 61 converts the input compressed sound source signal from the signal in the time domain (time axis) to the signal in the frequency domain (frequency axis).
  • step S12 the gain calculation unit 62 uses a signal of the reverse channel to obtain a gain value based on the prediction coefficient held in advance and the signals supplied from the FFT processing unit 61-1 and the FFT processing unit 61-2. Is calculated and supplied to the difference signal generation unit 63.
  • the gain calculation unit 62 calculates the frequency characteristic envelope of the input compressed sound source signal of the target channel based on the signal of the target channel supplied from the FFT processing unit 61, and the convolution processing unit 91 and the dense block. Supply to 92-1.
  • the gain calculation unit 62 calculates the envelope of the frequency characteristic of the input compressed sound source signal of the reverse channel based on the signal of the reverse channel supplied from the FFT processing unit 61, and supplies the envelope to the convolution processing unit 93.
  • the convolution processing unit 91 performs convolution processing or the like on the envelope of the supplied target channel based on the prediction coefficient held in advance, and supplies the calculation result to the linear prediction unit 94.
  • Each dense block 92 performs arithmetic processing such as convolution processing based on the prediction coefficient on the envelope of the supplied target channel or the arithmetic result supplied from the dense block 92 in the previous stage, and the arithmetic result is a linear prediction unit. Supply to 94. Further, each dense block 92 supplies the calculation result of the arithmetic processing to the subsequent dense block 92 when there is another dense block 92 in the subsequent stage.
  • the convolution processing unit 93 performs convolution processing or the like on the supplied reverse channel envelope based on the prediction coefficient held in advance, and supplies the calculation result to the linear prediction unit 94.
  • the linear prediction unit 94 uses the calculation result supplied from the convolution processing unit 91, the calculation result supplied from each dense block 92, the calculation result supplied from the convolution processing unit 93, and the prediction coefficient held in advance. By performing linear prediction processing based on this, the envelope of the frequency characteristics of the difference signal of the target channel is predicted (generated).
  • the gain calculation unit 62 calculates a gain value for generating a difference signal of the target channel based on the prediction result obtained by the linear prediction unit 94, and supplies the gain value to the difference signal generation unit 63.
  • the gain value is calculated for each frequency band such as SFB of the difference signal of the target channel.
  • the envelope of the frequency characteristics of the input compressed sound source signal for the target channel and the inverse channel may be input, and the prediction coefficient for obtaining the gain value by the prediction calculation may be obtained by machine learning.
  • the output of the linear prediction unit 94 becomes a gain value for generating a difference signal.
  • step S13 the difference signal generation unit 63 generates a difference signal based on the signal supplied from the FFT processing unit 61 and the gain value supplied from the gain calculation unit 62, and supplies the difference signal to the IFFT processing unit 64.
  • the difference signal generation unit 63 multiplies the signal obtained by the FFT by the gain value supplied from the gain calculation unit 62 for each frequency band (SFB) to signal in the frequency domain. Adjust the gain of.
  • the frequency characteristic of the envelope obtained by prediction that is, the frequency characteristic of the difference signal is added to the input compressed sound source signal while maintaining the phase of the input compressed sound source signal, that is, without changing the phase. be able to.
  • the difference signal generation unit 63 supplies the obtained difference signal to the IFFT processing unit 64.
  • step S14 the IFFT processing unit 64 performs IFFT on the difference signal in the frequency domain supplied from the difference signal generation unit 63, and supplies the difference signal in the time domain obtained as a result to the synthesis unit 65.
  • step S15 the synthesis unit 65 synthesizes the supplied input compressed sound source signal by adding the difference signal supplied from the IFFT processing unit 64, and outputs the high-quality sound signal obtained as a result to the subsequent stage.
  • the signal generation process ends.
  • the signal processing device 51 generates a high-quality sound signal by a mathematical method using the prediction coefficient obtained by machine learning. As a result, it is possible to obtain a high-quality sound signal with higher sound quality, which is close to the original sound signal.
  • the signal processing device 51 generates a difference signal of the target channel using not only the input compressed sound source signal of the target channel but also the input compressed sound source signal of the reverse channel, and synthesizes the obtained difference signal and the input compressed sound source signal. By doing so, the sound quality of the input compressed sound source signal is improved.
  • the difference signal of the target channel By generating the difference signal of the target channel using the input compressed sound source signal of the reverse channel in this way, even when the compression coding of the original sound signal is performed using the information of the reverse channel as in Joint Stereo. , The difference signal can be predicted with sufficient accuracy. As a result, it is possible to obtain a high-quality sound signal with even higher sound quality.
  • the signal of the opposite channel is used for predicting the envelope, and due to the influence, the L and R signals are used.
  • the predictions for both channels may be similar. Then, the finally obtained high-quality sound signal approaches the monaural signal.
  • the signal processing device 51 can acquire Joint Stereo information from the decoder.
  • the Joint Stereo information is whether or not the CODEC compressed the original sound signal using MS Stereo, that is, the stereo correlation between the L channel and the R channel is used to compress and encode the original sound signal.
  • This is stereo correlation coding information indicating whether or not the information has been lost.
  • the gain calculation unit 62 is configured as shown in FIG. In FIG. 5, the parts corresponding to the case in FIG. 3 are designated by the same reference numerals, and the description thereof will be omitted as appropriate.
  • the gain calculation unit 62 shown in FIG. 5 includes a convolution processing unit 91, a dense block 92-1 to a dense block 92-4, a switch 121, a convolution processing unit 93, and a linear prediction unit 94.
  • the configuration of the gain calculation unit 62 shown in FIG. 5 is different from the gain calculation unit 62 of FIG. 3 in that a switch 121 is newly provided in front of the convolution processing unit 93, and the gain calculation unit 62 of FIG. 3 is otherwise provided. It has the same configuration as.
  • the switch 121 switches whether or not to use the signal of the reverse channel for the prediction of the envelope based on the Joint Stereo information acquired from the decoder.
  • the switch 121 is turned on when Joint Stereo information indicating that compression coding has been performed using stereo correlation is supplied, and the frequency of the input compressed sound source signal of the reverse channel supplied from the gain calculation unit 62.
  • the characteristic envelope is supplied to the convolution processing unit 93.
  • the switch 121 is turned off when Joint Stereo information indicating that compression coding has been performed without using stereo correlation is supplied.
  • the envelope of the frequency characteristic of the input compressed sound source signal of the reverse channel is not supplied to the convolution processing unit 93. That is, the envelope of the frequency characteristic of the input compressed sound source signal of the reverse channel is not used for predicting the envelope of the frequency characteristic of the difference signal.
  • the gain calculation unit 62 makes a prediction by the linear prediction unit 94 using the frequency characteristic envelope of the input compressed sound source signal of the reverse channel by turning the switch 121 on or off based on the Joint Stereo information. , Or whether to perform prediction by the linear prediction unit 94 without using the frequency characteristic envelope of the input compressed sound source signal of the reverse channel is switched.
  • the prediction coefficient used in the gain calculation unit 62 different ones can be used depending on whether the signal of the reverse channel is used or not.
  • the compression sound source signal for learning of the target channel and the reverse channel is used as the input data, and the learning difference signal of the target channel is used as the teacher. Machine learning as data is performed.
  • machine learning is performed based on the frequency characteristic envelope of the learning difference signal of the target channel as teacher data and the frequency characteristic envelope of the learning compressed sound source signal of the target channel as input data.
  • the prediction coefficient is generated.
  • step S41 is the same as the process of step S11 of FIG. 4, the description thereof will be omitted.
  • step S42 the switch 121 determines whether or not to use the signal of the reverse channel for predicting the envelope of the frequency characteristic of the difference signal based on the Joint Stereo information supplied from the decoder.
  • the decoder decodes the code information and performs a process of generating input compressed sound source signals of both channels L and R based on the sum signal M and the difference signal S.
  • the code information for each of the channels is decoded in the decoder, and as a result of the decoding, the input compressed sound source of each channel of L and R is decoded. A signal is obtained.
  • step S42 If it is determined in step S42 that the signal of the reverse channel is used, then the process proceeds to step S43. In this case, the switch 121 is turned on, and the envelope of the frequency characteristic of the input compressed sound source signal of the reverse channel is supplied to the convolution processing unit 93.
  • step S43 the gain calculation unit 62 calculates the gain value using the signal of the reverse channel based on the prediction coefficient held in advance and the signal supplied from the FFT processing unit 61, and causes the difference signal generation unit 63 to calculate the gain value. Supply.
  • step S43 the same processing as in step S12 of FIG. 4 is performed, and the gain value is calculated.
  • step S43 the same processing as in step S12 of FIG. 4 is performed, and the gain value is calculated.
  • step S42 determines whether the signal of the reverse channel is used. If it is determined in step S42 that the signal of the reverse channel is not used, then the process proceeds to step S44. In this case, the switch 121 is turned off, and the envelope of the frequency characteristic of the input compressed sound source signal of the reverse channel is not supplied to the convolution processing unit 93.
  • step S44 the gain calculation unit 62 calculates the gain value based on the prediction coefficient held in advance and the signal supplied from the FFT processing unit 61 without using the signal of the reverse channel, and the difference signal generation unit 63. Supply to.
  • step S44 basically the same processing as in step S12 of FIG. 4 is performed, but arithmetic processing such as convolution processing in the convolution processing unit 93 is not performed.
  • the linear prediction unit 94 performs linear prediction processing based on the calculation result supplied from the convolution processing unit 91, the calculation result supplied from each dense block 92, and the prediction coefficient held in advance. That is, the envelope is predicted using only the signal of the target channel.
  • the gain calculation unit 62 calculates a gain value for generating a difference signal of the target channel based on the prediction result obtained by the linear prediction unit 94, and supplies the gain value to the difference signal generation unit 63.
  • step S44 When the processing of step S44 is performed and the gain value is calculated, the processing proceeds to step S45.
  • step S43 or step S44 When the processing of step S43 or step S44 is performed, the processing of steps S45 to S47 is performed thereafter to end the signal generation processing, but these processing are the same as the processing of steps S13 to S15 of FIG. Since there is, the description thereof will be omitted.
  • the processing of steps S41 to S47 described above is performed every predetermined time unit such as every frame of the input compressed sound source signal.
  • the gain calculation unit 62 controls the on / off of the switch 121 for each predetermined time unit such as for each frame of the input compressed sound source signal, and switches whether or not the signal of the reverse channel is used for the envelope prediction. Is done.
  • the signal processing device 51 generates a difference signal of each frame of the target channel while switching whether or not to use the signal of the reverse channel for the prediction of the envelope based on the Joint Stereo information.
  • the signal of both the L and R channels may be used instead of using the Joint Stereo information.
  • the gain calculation unit 62 is configured as shown in FIG. 7, for example.
  • the same reference numerals are given to the parts corresponding to the cases in FIG. 5, and the description thereof will be omitted as appropriate.
  • the gain calculation unit 62 shown in FIG. 7 includes a convolution processing unit 91, a dense block 92-1 to a dense block 92-4, a correlation value calculation unit 151, a switch 121, a convolution processing unit 93, and a linear prediction unit 94. There is.
  • the configuration of the gain calculation unit 62 shown in FIG. 7 is different from the gain calculation unit 62 of FIG. 5 in that the correlation value calculation unit 151 is newly provided, and is the same configuration as the gain calculation unit 62 of FIG. 5 in other respects. It has become.
  • the correlation value calculation unit 151 is supplied with the envelope of the frequency characteristics of the input compressed sound source signal of each channel obtained for both the target channel and the inverse channel from the gain calculation unit 62.
  • the correlation value calculation unit 151 compares the frequency characteristic envelopes of the input compressed sound source signals of both supplied channels, calculates the correlation value between the input compressed sound source signal of the L channel and the input compressed sound source signal of the R channel, and calculates the correlation value.
  • a control signal for the switch 121 is generated according to the correlation value.
  • the correlation value calculation unit 151 generates a control signal for turning on the switch 121 when the calculated correlation value is equal to or higher than a predetermined threshold value, that is, when the correlation between both channels is strong (large). Supply to switch 121.
  • the correlation value calculation unit 151 generates a control signal for turning off the switch 121 when the calculated correlation value is less than a predetermined threshold value, that is, when the correlation between the two channels is weak (small), and the switch 121 is generated. Supply to.
  • the linear prediction unit 94 makes a prediction using the envelope of the frequency characteristic of the input compressed sound source signal of the reverse channel based on the correlation value.
  • the switch 121 is turned on or off according to the control signal supplied from the correlation value calculation unit 151, and when it is in the on state, the frequency characteristic of the input compressed sound source signal of the reverse channel supplied from the gain calculation unit 62.
  • the envelope of is supplied to the convolution processing unit 93.
  • the signal of the reverse channel is signaled. Can be used to predict the envelope of the frequency characteristics of the difference signal. That is, the reverse channel signal can be used to predict the envelope only when there is a high possibility that the MS Stereo signal is used and compression coding is performed.
  • the input of the correlation value calculation unit 151 is not limited to the envelope of the frequency characteristics of the input compressed sound source signal, and the input compressed sound source signals of both channels can be obtained as long as the correlation values of both L and R channels can be obtained. Or any signal output from the FFT processing unit 61.
  • step S71 is the same as the process of step S41 of FIG. 6, the description thereof will be omitted.
  • step S72 the correlation value calculation unit 151 calculates the correlation value based on the envelope of the frequency characteristics of the L channel and R channel input compressed sound source signals supplied from the gain calculation unit 62. Further, the correlation value calculation unit 151 generates a control signal according to the calculated correlation value and supplies it to the switch 121.
  • a control signal for turning on the switch 121 when the correlation value is equal to or higher than a predetermined threshold value, a control signal for turning on the switch 121 is generated, and when the correlation value is less than the predetermined threshold value, a control signal for turning off the switch 121 is generated. ..
  • step S73 the switch 121 determines whether or not to use the signal of the reverse channel for predicting the envelope of the frequency characteristic of the difference signal based on the control signal supplied from the correlation value calculation unit 151. For example, in step S73, when a control signal for turning on the switch 121 is supplied, it is determined that the signal of the reverse channel is used.
  • step S73 When the process of step S73 is performed, the processes of steps S74 to S78 are then performed to end the signal generation process, but these processes are the same as the processes of steps S43 to S47 of FIG. The description thereof will be omitted.
  • the signal processing device 51 calculates the correlation value between the L channel and R channel signals, and appropriately generates the difference signal of the target channel using the signal of the reverse channel according to the correlation value. By doing so, it is possible to appropriately predict the envelope of the frequency characteristic of the difference signal according to the strength of the correlation between the L channel and the R channel, and obtain a high-quality sound signal with higher sound quality.
  • the envelope should be predicted with sufficiently high accuracy.
  • the input compressed sound source signal may be data that is not included in the teacher data at the time of machine learning. Further, even if the input compressed sound source signal is used as data at the time of machine learning, since the DNN network for learning and prediction is finite, data having a high frequency of appearance may be preferentially learned. Therefore, it is not always possible to predict the envelope with sufficient accuracy for all data, that is, not all input compressed sound source signals.
  • the gain calculation unit 62 is configured as shown in FIG. 9, for example.
  • the parts corresponding to the case in FIG. 5 are designated by the same reference numerals, and the description thereof will be omitted as appropriate.
  • the gain calculation unit 62 shown in FIG. 9 includes a convolution processing unit 91, a dense block 92-1 to a dense block 92-4, a switch 121, an LPF (Low Pass Filter) 181, a convolution processing unit 93, and a linear prediction unit 94. doing.
  • the configuration of the gain calculation unit 62 shown in FIG. 9 is different from the gain calculation unit 62 of FIG. 5 in that the LPF181 is newly provided between the switch 121 and the convolution processing unit 93, and the gain calculation of FIG. 5 is obtained in other respects. It has the same configuration as the unit 62.
  • the LPF181 is a low-pass filter, extracts a low-frequency component of the envelope of the frequency characteristic of the reverse channel signal supplied from the switch 121, that is, the reverse channel input compressed sound source signal, and supplies the low-pass component to the convolution processing unit 93.
  • the LPF181 filters the signal of the reverse channel supplied from the switch 121, and supplies the low frequency component of the envelope of the frequency characteristic of the input compressed sound source signal of the reverse channel obtained as a result to the convolution processing unit 93. do.
  • a component of 5 kHz or less is extracted as a low frequency component.
  • the sound quality is high even if the prediction is incorrect, that is, even if the prediction cannot be made with high accuracy.
  • the effect of sound quality on the conversion signal can be minimized.
  • the low frequency component of the envelope of the frequency characteristic of the input compressed sound source signal of the reverse channel is used for machine learning of the prediction coefficient. This also applies to the case of the fifth embodiment described later.
  • the signal processing device 51 basically performs the signal generation process described with reference to FIG.
  • step S43 the LPF181 extracts the low frequency component of the envelope supplied from the switch 121 and supplies it to the convolution processing unit 93. Further, the convolution processing unit 93 performs convolution processing or the like on the low frequency component supplied from the LPF181, and supplies the calculation result to the linear prediction unit 94.
  • the gain calculation unit 62 is configured as shown in FIG. 10, for example.
  • the same reference numerals are given to the portions corresponding to the cases in FIGS. 7 or 9, and the description thereof will be omitted as appropriate.
  • the gain calculation unit 62 shown in FIG. 10 includes a convolution processing unit 91, a dense block 92-1 to a dense block 92-4, a correlation value calculation unit 151, a switch 121, an LPF181, a convolution processing unit 93, and a linear prediction unit 94. doing.
  • the configuration of the gain calculation unit 62 shown in FIG. 10 is different from the gain calculation unit 62 of FIG. 7 in that the LPF181 is newly provided between the switch 121 and the convolution processing unit 93, and the gain calculation of FIG. 7 is obtained in other respects. It has the same configuration as the unit 62.
  • the switch 121 when the switch 121 is on, the low frequency component of the envelope of the frequency characteristic of the input compressed sound source signal of the reverse channel extracted by the LPF181 is supplied to the convolution processing unit 93.
  • the signal processing device 51 basically performs the signal generation processing described with reference to FIG.
  • step S74 the LPF181 extracts the low frequency component of the envelope supplied from the switch 121 and supplies it to the convolution processing unit 93. Further, the convolution processing unit 93 performs convolution processing or the like on the low frequency component supplied from the LPF181, and supplies the calculation result to the linear prediction unit 94.
  • the LPF181 may be provided in front of the convolution processing unit 93.
  • a high-quality sound signal which is a bit-extended signal of a compressed sound source signal
  • a signal of the reverse channel is also used. Therefore, even when compression coding is performed using stereo correlation, the signal corresponding to CODEC can be expanded. That is, it is possible to predict the difference signal with sufficient accuracy and obtain a high-quality sound signal.
  • the series of processes described above can be executed by hardware or software.
  • the programs that make up the software are installed on the computer.
  • the computer includes a computer embedded in dedicated hardware and, for example, a general-purpose personal computer capable of executing various functions by installing various programs.
  • FIG. 11 is a block diagram showing a configuration example of computer hardware that executes the above-mentioned series of processes programmatically.
  • the CPU Central Processing Unit
  • the ROM ReadOnly Memory
  • the RAM RandomAccessMemory
  • An input / output interface 505 is further connected to the bus 504.
  • An input unit 506, an output unit 507, a recording unit 508, a communication unit 509, and a drive 510 are connected to the input / output interface 505.
  • the input unit 506 includes a keyboard, a mouse, a microphone, an image sensor, and the like.
  • the output unit 507 includes a display, a speaker, and the like.
  • the recording unit 508 includes a hard disk, a non-volatile memory, and the like.
  • the communication unit 509 includes a network interface and the like.
  • the drive 510 drives a removable recording medium 511 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory.
  • the CPU 501 loads the program recorded in the recording unit 508 into the RAM 503 via the input / output interface 505 and the bus 504 and executes the above-described series. Is processed.
  • the program executed by the computer can be recorded and provided on a removable recording medium 511 as a package medium or the like, for example. Programs can also be provided via wired or wireless transmission media such as local area networks, the Internet, and digital satellite broadcasts.
  • the program can be installed in the recording unit 508 via the input / output interface 505 by mounting the removable recording medium 511 in the drive 510. Further, the program can be received by the communication unit 509 and installed in the recording unit 508 via a wired or wireless transmission medium. In addition, the program can be installed in advance in the ROM 502 or the recording unit 508.
  • the program executed by the computer may be a program that is processed in chronological order according to the order described in this specification, or may be a program that is processed in parallel or at a necessary timing such as when a call is made. It may be a program in which processing is performed.
  • the embodiment of the present technology is not limited to the above-described embodiment, and various changes can be made without departing from the gist of the present technology.
  • this technology can have a cloud computing configuration in which one function is shared by a plurality of devices via a network and jointly processed.
  • each step described in the above flowchart can be executed by one device or shared by a plurality of devices.
  • one step includes a plurality of processes
  • the plurality of processes included in the one step can be executed by one device or shared by a plurality of devices.
  • this technology can also have the following configurations.
  • the difference signal of the first channel the difference signal between the learning compressed sound source signal obtained by compressing and encoding the original sound signal of the first channel and the original sound signal of the first channel as teacher data.
  • the prediction coefficient obtained by learning based on the learning compressed sound source signal and the learning compressed sound source signal of the second channel, the input compressed sound source signal of the first channel, and the input of the second channel.
  • a calculation unit that calculates parameters for generating the difference signal corresponding to the input compressed sound source signal of the first channel based on the compressed sound source signal, and a calculation unit.
  • a difference signal generation unit that generates the difference signal based on the parameter and the input compressed sound source signal of the first channel.
  • a signal processing device including a compositing unit that synthesizes the generated difference signal and the input compressed sound source signal of the first channel.
  • the calculation unit calculates the parameter based on the prediction coefficient, the input compressed sound source signal of the first channel, and the input compressed sound source signal of the second channel, or the prediction coefficient and the first.
  • the signal processing device according to any one of (1) to (3), which switches whether to calculate the parameter based on the input compressed sound source signal of the channel in a predetermined time unit.
  • the calculation unit is based on stereo correlation coding information indicating whether or not the stereo correlation between the first channel and the second channel is used in the compression coding for obtaining the input compressed sound source signal.
  • the signal processing apparatus according to (4), wherein the switching is performed.
  • the calculation unit calculates a correlation value based on the input compressed sound source signal of the first channel and the input compressed sound source signal of the second channel, and performs the switching based on the correlation value (4). ).
  • the signal processing device (7)
  • the calculation unit filters the input compressed sound source signal of the second channel by a low-pass filter, and the low frequency component of the input compressed sound source signal of the second channel obtained by the filtering, the prediction.
  • the signal processing device according to any one of (1) to (6), wherein the parameter is calculated based on the coefficient and the input compressed sound source signal of the first channel.
  • the signal processing device The difference signal of the first channel, which uses the difference signal between the learning compressed sound source signal obtained by compressing and encoding the original sound signal of the first channel and the original sound signal of the first channel as teacher data.
  • the prediction coefficient obtained by learning based on the learning compressed sound source signal and the learning compressed sound source signal of the second channel, the input compressed sound source signal of the first channel, and the input of the second channel. Based on the compressed sound source signal, a parameter for generating the difference signal corresponding to the input compressed sound source signal of the first channel is calculated.
  • the difference signal is generated based on the parameter and the input compressed sound source signal of the first channel.
  • a signal processing method for synthesizing the generated difference signal and the input compressed sound source signal of the first channel. (9) The difference signal of the first channel, which uses the difference signal between the learning compressed sound source signal obtained by compressing and encoding the original sound signal of the first channel and the original sound signal of the first channel as teacher data. The prediction coefficient obtained by learning based on the learning compressed sound source signal and the learning compressed sound source signal of the second channel, the input compressed sound source signal of the first channel, and the input of the second channel. Based on the compressed sound source signal, a parameter for generating the difference signal corresponding to the input compressed sound source signal of the first channel is calculated. The difference signal is generated based on the parameter and the input compressed sound source signal of the first channel.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本技術は、より高音質な信号を得ることができるようにする信号処理装置および方法、並びにプログラムに関する。 信号処理装置は、第1のチャンネルの原音信号を圧縮符号化して得られた学習用圧縮音源信号と第1のチャンネルの原音信号との差分信号を教師データとする、差分信号、第1のチャンネルの学習用圧縮音源信号、および第2のチャンネルの学習用圧縮音源信号に基づく学習により得られた予測係数と、第1のチャンネルの入力圧縮音源信号と、第2のチャンネルの入力圧縮音源信号とに基づいて、第1のチャンネルの入力圧縮音源信号に対応する差分信号を生成するためのパラメータを算出する算出部と、パラメータと、第1のチャンネルの入力圧縮音源信号とに基づいて差分信号を生成する差分信号生成部と、生成された差分信号および第1のチャンネルの入力圧縮音源信号を合成する合成部とを備える。本技術は信号処理装置に適用することができる。

Description

信号処理装置および方法、並びにプログラム
 本技術は、信号処理装置および方法、並びにプログラムに関し、特に、より高音質な信号を得ることができるようにした信号処理装置および方法、並びにプログラムに関する。
 例えば、音楽等の原音信号に対して圧縮符号化を行うと、原音信号の高域成分が除去されたり、信号のビット数が圧縮されたりする。そのため、原音信号を圧縮符号化することで得られた符号情報に対して、さらに復号を行うことで得られる圧縮音源信号は、もとの原音信号と比較すると音質が劣化したものとなってしまう。
 そこで、カスケード接続された複数のオールパスフィルタにより圧縮音源信号をフィルタリングし、その結果得られた信号をゲイン調整して、ゲイン調整後の信号と圧縮音源信号とを加算することで、より高音質な信号を生成する技術が提案されている(例えば、特許文献1参照)。
特開2013-7944号公報
 ところで、圧縮音源信号を高音質化する場合、音質劣化前の信号である原音信号を高音質化の目標とすることが考えられる。すなわち、圧縮音源信号から得られる信号が原音信号に近いほど、より高音質な信号が得られたと考えることができる。
 しかしながら、上述した技術では、圧縮音源信号から原音信号に近い信号を得ることは困難であった。
 具体的には、上述した技術では、圧縮符号化方式(圧縮符号化の種類)や、圧縮符号化で得られる符号情報のビットレートなどが考慮されて、人手によりゲイン調整時のゲイン値が最適化されていた。
 すなわち、人手により決定されたゲイン値が用いられて高音質化された信号の音と、もとの原音信号の音とが試聴により比較され、その試聴後に人手により感覚的にゲイン値が調整される処理が繰り返し行われ、最終的なゲイン値が決定されていた。そのため、人の感覚だけでは、圧縮音源信号から原音信号に近い信号を得ることは困難であった。
 本技術は、このような状況に鑑みてなされたものであり、より高音質な信号を得ることができるようにするものである。
 本技術の一側面の信号処理装置は、第1のチャンネルの原音信号を圧縮符号化して得られた学習用圧縮音源信号と前記第1のチャンネルの前記原音信号との差分信号を教師データとする、前記差分信号、前記第1のチャンネルの前記学習用圧縮音源信号、および第2のチャンネルの前記学習用圧縮音源信号に基づく学習により得られた予測係数と、前記第1のチャンネルの入力圧縮音源信号と、前記第2のチャンネルの前記入力圧縮音源信号とに基づいて、前記第1のチャンネルの前記入力圧縮音源信号に対応する前記差分信号を生成するためのパラメータを算出する算出部と、前記パラメータと、前記第1のチャンネルの前記入力圧縮音源信号とに基づいて前記差分信号を生成する差分信号生成部と、生成された前記差分信号および前記第1のチャンネルの前記入力圧縮音源信号を合成する合成部とを備える。
 本技術の一側面の信号処理方法またはプログラムは、第1のチャンネルの原音信号を圧縮符号化して得られた学習用圧縮音源信号と前記第1のチャンネルの前記原音信号との差分信号を教師データとする、前記差分信号、前記第1のチャンネルの前記学習用圧縮音源信号、および第2のチャンネルの前記学習用圧縮音源信号に基づく学習により得られた予測係数と、前記第1のチャンネルの入力圧縮音源信号と、前記第2のチャンネルの前記入力圧縮音源信号とに基づいて、前記第1のチャンネルの前記入力圧縮音源信号に対応する前記差分信号を生成するためのパラメータを算出し、前記パラメータと、前記第1のチャンネルの前記入力圧縮音源信号とに基づいて前記差分信号を生成し、生成された前記差分信号および前記第1のチャンネルの前記入力圧縮音源信号を合成するステップを含む。
 本技術の一側面においては、第1のチャンネルの原音信号を圧縮符号化して得られた学習用圧縮音源信号と前記第1のチャンネルの前記原音信号との差分信号を教師データとする、前記差分信号、前記第1のチャンネルの前記学習用圧縮音源信号、および第2のチャンネルの前記学習用圧縮音源信号に基づく学習により得られた予測係数と、前記第1のチャンネルの入力圧縮音源信号と、前記第2のチャンネルの前記入力圧縮音源信号とに基づいて、前記第1のチャンネルの前記入力圧縮音源信号に対応する前記差分信号を生成するためのパラメータが算出され、前記パラメータと、前記第1のチャンネルの前記入力圧縮音源信号とに基づいて前記差分信号が生成され、生成された前記差分信号および前記第1のチャンネルの前記入力圧縮音源信号が合成される。
機械学習を用いた差分信号の予測について説明する図である。 信号処理装置の構成例を示す図である。 ゲイン算出部の構成例を示す図である。 信号生成処理を説明するフローチャートである。 ゲイン算出部の構成例を示す図である。 信号生成処理を説明するフローチャートである。 ゲイン算出部の構成例を示す図である。 信号生成処理を説明するフローチャートである。 ゲイン算出部の構成例を示す図である。 ゲイン算出部の構成例を示す図である。 コンピュータの構成例を示す図である。
 以下、図面を参照して、本技術を適用した実施の形態について説明する。
〈第1の実施の形態〉
〈本技術について〉
 本技術は、音楽等の原音信号から得られる圧縮音源信号を高音質化するものである。
 ここでは、例えば音楽等のLPCM(Linear Pulse Code Modulation)信号が原音信号とされる。また、その原音信号をAAC(Advanced Audio Coding)等の所定の圧縮符号化方式で圧縮符号化し、その結果得られた符号情報を復号(伸張)することで得られた信号が圧縮音源信号とされる。
 例えば圧縮音源信号を高音質化する手法として、圧縮音源信号から、圧縮音源信号と原音信号との差分信号を予測により生成し、得られた差分信号を圧縮音源信号に合成する手法(以下、予測生成手法とも称する)が考えられる。
 このような予測生成手法では、例えば図1に示す予測部11が機械学習により生成され、差分信号の予測に用いられる。
 図1に示す例では、予測部11は、畳み込み処理部21、デンスブロック22-1乃至デンスブロック22-4、および線形予測部23を有しており、畳み込み処理部21およびデンスブロック22-1に圧縮音源信号が入力される。
 畳み込み処理部21は、入力された圧縮音源信号に対して畳み込み処理、ReluやCrelu等の活性化関数による演算処理などを行い、その結果得られた信号を線形予測部23へと供給する。
 デンスブロック22-1乃至デンスブロック22-4は、機械学習で一般的に用いられるDense Blockであり、入力された信号に対して畳み込み処理等の所定の演算処理を行う。
 すなわち、デンスブロック22-1は、入力された圧縮音源信号に対して所定の演算処理を行い、その結果得られた信号を線形予測部23およびデンスブロック22-2に供給する。デンスブロック22-2は、デンスブロック22-1から供給された信号に対して所定の演算処理を行い、その結果得られた信号を線形予測部23およびデンスブロック22-3に供給する。
 デンスブロック22-3は、デンスブロック22-2から供給された信号に対して所定の演算処理を行い、その結果得られた信号を線形予測部23およびデンスブロック22-4に供給する。デンスブロック22-4は、デンスブロック22-3から供給された信号に対して所定の演算処理を行い、その結果得られた信号を線形予測部23に供給する。
 線形予測部23は、畳み込み処理部21から供給された信号、およびデンスブロック22-1乃至デンスブロック22-4から供給された信号に基づいて線形予測処理を行い、その結果得られた差分信号を後段に出力する。
 予測生成手法では、線形予測部23で得られた差分信号が圧縮音源信号と合成され、より高音質な高音質化信号が生成される。このような予測生成手法は、機械学習を用いたオーディオ信号のビット拡張の手法であるといえる。
 ところで、高音質化の対象となる圧縮音源信号は、モノラル信号に限らず、ステレオ信号や3以上のマルチチャンネルの信号であることもある。また、CODECによっては、例えばJoint Stereoなどステレオ相関を用いた圧縮符号化を行うものもある。
 Joint Stereoとは、通常のステレオ信号とMS Stereo信号を相関性の強さで切り替える手法である。すなわち、Joint Stereoはステレオ相関を用いて圧縮符号化を行うか、またはステレオ相関を用いずに圧縮符号化を行うかをフレームごとなど、所定の時間単位で切り替えながら信号を圧縮符号化する圧縮符号化方式である。
 一般的にステレオ音声は、左(left;L)と右(right;R)の2チャンネルの信号によって構成される。
 Joint Stereoでは、通常のステレオ信号の場合、つまりステレオ相関が用いられずに圧縮符号化が行われる場合、Lチャンネルの信号と、Rチャンネルの信号とが個別に圧縮符号化される。すなわち、一方のチャンネルの信号の圧縮符号化には、他方のチャンネルの信号は用いられない。
 これに対して、MS Stereo信号の場合、つまりステレオ相関が用いられて圧縮符号化が行われるMS Stereoのモードの場合、和信号Mと差信号Sによって処理が行われる。
 ここで、和信号Mは、Lチャンネルの信号とRチャンネルの信号の和(L+R)により得られるモノラル成分である。一方、差信号Sは、Lチャンネルの信号とRチャンネルの信号の差(L-R)により得られるステレオ差分成分である。
 また、同形のアルゴリズムで、復号時には和信号Mと差信号Sの和(M+S)を求めることでLチャンネルの信号を得ることができ、和信号Mと差信号Sの差(M-S)を求めることでRチャンネルの信号を得ることができる。但し、復号で得られるLチャンネルの信号とRチャンネルの信号は、もとの信号の2倍に増幅される。
 以上のようなJoint Stereoにより原音信号が圧縮符号化される場合など、ステレオ相関を用いて圧縮符号化が行われる場合には、上述の予測生成手法では十分な精度で差分信号を予測することができないことがある。すなわち、十分に高音質な高音質化信号を得ることができないことがある。
 例えばLチャンネルの信号とRチャンネルの信号の相関が強い部分(区間)では、和信号Mの部分が大きく、差信号Sの部分は小さくなる。
 したがって、圧縮符号化時には、大きな情報(ビット)が和信号Mに割り当てられる(与えられる)ことによって、差信号Sは大きく圧縮される。
 そうすると、差信号Sの情報が失われてしまうので、個別のチャンネルの処理では差分信号を十分に予測することができない。換言すれば、LとRの両方のチャンネルを用いなければ、つまり一方のチャンネルの信号の特性だけでなく、他方のチャンネルの信号の特性も考慮しなければ、差分信号の学習および予測を十分な精度で行うことができない。
 そこで、本技術ではLチャンネルやRチャンネルなどの一方のチャンネルの信号だけでなく、他方のチャンネルの信号も差分信号の学習および予測に用いることで、より高精度に差分信号を予測し、高音質な高音質化信号を得ることができるようにした。
 なお、高音質化の対象となる圧縮音源信号は、2以上の複数のチャンネルの信号であればよいが、以下では説明を簡単にするため、圧縮音源信号がLチャンネルとRチャンネルの信号からなるステレオ信号である場合を例として説明を行う。
 また、以下ではLとRのうちの処理の対象とされているチャンネルを対象チャンネルとも称し、対象チャンネルとされていない方のチャンネルを逆チャンネルとも称することとする。例えばLチャンネルが対象チャンネルであれば、Rチャンネルが逆チャンネルであり、Rチャンネルが対象チャンネルであれば、Lチャンネルが逆チャンネルである。
 本技術では、機械学習により、圧縮音源信号から、差分信号の周波数特性のエンベロープを予測するための予測係数が生成される。このようにして得られた予測係数により、差分信号の周波数特性のエンベロープを予測する予測器が実現される。換言すれば、予測器を構成する予測係数が機械学習により生成される。
 ここで、予測係数の機械学習についてさらに説明する。
 例えば機械学習により、対象チャンネルの差分信号の周波数特性のエンベロープを予測するための予測係数を学習する場合、対象チャンネルの原音信号および圧縮音源信号と、逆チャンネルの圧縮音源信号とが学習用の信号として多数用意される。
 なお、以下、学習用の原音信号および圧縮音源信号を、特に学習用原音信号および学習用圧縮音源信号とも称することとする。
 このようにして学習用原音信号と学習用圧縮音源信号のセットが得られると、対象チャンネルの学習用原音信号と学習用圧縮音源信号の差分が求められて、対象チャンネルの学習用差分信号が求められる。
 そして、対象チャンネルの学習用圧縮音源信号および逆チャンネルの学習用圧縮音源信号を入力のデータとし、対象チャンネルの学習用差分信号を教師データとして、DNN(Deep Neural Network)や線形予測、非線形予測等を適宜組み合わせて差分信号の周波数特性のエンベロープを予測するための予測係数が機械学習により生成される。
 なお、より詳細には学習用差分信号の周波数特性のエンベロープが教師データとされ、対象チャンネルと逆チャンネルについての学習用圧縮音源信号の周波数特性のエンベロープが入力のデータとされて、教師データと入力のデータとに基づいて機械学習が行われる。
 例えば圧縮音源信号の周波数特性のエンベロープは、圧縮音源信号に対してFFT(Fast Fourier Transform)を行い、その結果得られた信号の各周波数帯域(例えばSFB(Scale Factor Band))の平均エネルギを計算することで求めることができる。
 また、対象チャンネルの差分信号の周波数特性のエンベロープは、例えば対象チャンネルの原音信号の周波数特性のエンベロープと、対象チャンネルの圧縮音源信号の周波数特性のエンベロープとの差分を計算することで求めることができる。
 なお、差分信号の予測手法や、その差分信号を得るための予測係数の学習手法は、上述した予測手法や機械学習手法に限らず、他のどのような手法であってもよい。
〈信号処理装置の構成例〉
 図2は、本技術を適用した信号処理装置の一実施の形態の構成例を示す図である。
 図2に示す信号処理装置51は、高音質化の対象となる入力圧縮音源信号を入力とし、その入力圧縮音源信号を高音質化して得られた高音質化信号を出力する。
 なお、ここでは説明を簡単にするため、入力圧縮音源信号がLチャンネルとRチャンネルの信号からなるステレオ信号である場合を例として説明を行う。
 信号処理装置51は、FFT処理部61-1、FFT処理部61-2、ゲイン算出部62-1、ゲイン算出部62-2、差分信号生成部63-1、差分信号生成部63-2、IFFT(Inverse Fast Fourier Transform)処理部64-1、IFFT処理部64-2、合成部65-1、および合成部65-2を有している。
 FFT処理部61-1は、供給されたLチャンネルの入力圧縮音源信号に対してFFTを行い、その結果得られた信号をゲイン算出部62-1、ゲイン算出部62-2、および差分信号生成部63-1に供給する。
 FFT処理部61-2は、供給されたRチャンネルの入力圧縮音源信号に対してFFTを行い、その結果得られた信号をゲイン算出部62-1、ゲイン算出部62-2、および差分信号生成部63-2に供給する。
 なお、以下、FFT処理部61-1およびFFT処理部61-2を特に区別する必要のない場合、単にFFT処理部61とも称する。
 ゲイン算出部62-1およびゲイン算出部62-2は、予め機械学習により得られた予測係数を保持しており、対象チャンネルの差分信号の周波数特性のエンベロープを予測する予測器として機能する。
 ゲイン算出部62-1は、保持している予測係数、FFT処理部61-1から供給された信号、およびFFT処理部61-2から供給された信号に基づいて、Lチャンネルの入力圧縮音源信号に対応する差分信号を生成するためのパラメータとしてのゲイン値を算出し、差分信号生成部63-1に供給する。すなわち、差分信号を生成するためのパラメータとして、差分信号の周波数エンベロープのゲインが算出される。
 同様に、ゲイン算出部62-2は、保持している予測係数、FFT処理部61-1から供給された信号、およびFFT処理部61-2から供給された信号に基づいて、Rチャンネルの入力圧縮音源信号に対応する差分信号を生成するためのパラメータとしてのゲイン値を算出し、差分信号生成部63-2に供給する。
 なお、以下、ゲイン算出部62-1およびゲイン算出部62-2を特に区別する必要のない場合、単にゲイン算出部62とも称することとする。
 差分信号生成部63-1は、FFT処理部61-1から供給された信号と、ゲイン算出部62-1から供給されたゲイン値とに基づいてLチャンネルの差分信号を生成し、IFFT処理部64-1に供給する。
 差分信号生成部63-2は、FFT処理部61-2から供給された信号と、ゲイン算出部62-2から供給されたゲイン値とに基づいてRチャンネルの差分信号を生成し、IFFT処理部64-2に供給する。
 なお、以下、差分信号生成部63-1および差分信号生成部63-2を特に区別する必要のない場合、単に差分信号生成部63とも称することとする。
 IFFT処理部64-1およびIFFT処理部64-2は、差分信号生成部63-1および差分信号生成部63-2から供給された差分信号に対してIFFTを行い、その結果得られた時間領域の差分信号を合成部65-1および合成部65-2に供給する。
 合成部65-1は、供給されたLチャンネルの入力圧縮音源信号と、IFFT処理部64-1から供給されたLチャンネルの差分信号とを合成し、その結果得られたLチャンネルの高音質化信号を後段に出力する。
 同様に、合成部65-2は、供給されたRチャンネルの入力圧縮音源信号と、IFFT処理部64-2から供給されたRチャンネルの差分信号とを合成し、その結果得られたRチャンネルの高音質化信号を後段に出力する。
 なお、以下、IFFT処理部64-1およびIFFT処理部64-2を特に区別する必要のない場合、単にIFFT処理部64とも称することとする。また、以下、合成部65-1および合成部65-2を特に区別する必要のない場合、単に合成部65とも称することとする。
〈ゲイン算出部の構成例〉
 また、図2に示したゲイン算出部62は、例えば図3に示すように構成される。
 図3の例では、ゲイン算出部62は、畳み込み処理部91、デンスブロック92-1乃至デンスブロック92-4、畳み込み処理部93、および線形予測部94を有している。
 ここではゲイン算出部62を構成する畳み込み処理部91、デンスブロック92-1乃至デンスブロック92-4、畳み込み処理部93、および線形予測部94が、機械学習により得られた予測係数を保持している。
 換言すれば、機械学習では、ゲイン算出部62を構成する各ブロックでの演算に用いられる予測係数のセットが、差分信号の周波数特性のエンベロープを予測するための予測係数として学習(生成)される。
 また、ゲイン算出部62は、FFT処理部61から供給された対象チャンネルの信号に基づいて、対象チャンネルの入力圧縮音源信号の周波数特性のエンベロープ、すなわち各周波数帯域の平均エネルギを算出し、畳み込み処理部91およびデンスブロック92-1に供給する。
 同様に、ゲイン算出部62は、FFT処理部61から供給された逆チャンネルの信号に基づいて、逆チャンネルの入力圧縮音源信号の周波数特性のエンベロープを算出し、畳み込み処理部93に供給する。
 例えば図3に示すゲイン算出部62がゲイン算出部62-1であれば、FFT処理部61-1から供給されたLチャンネルの信号が対象チャンネルの信号であり、FFT処理部61-2から供給されたRチャンネルの信号が逆チャンネルの信号である。
 なお、畳み込み処理部91やデンスブロック92-1、畳み込み処理部93への入力、すなわち予測器の入力は、入力圧縮音源信号の周波数特性のエンベロープに限らず、入力圧縮音源信号に対するFFTにより得られた信号や、入力圧縮音源信号そのものであってもよい。
 畳み込み処理部91は、予め保持している予測係数に基づいて、供給された対象チャンネルのエンベロープに対して畳み込み処理、ReluやCrelu等の活性化関数による演算処理などを行い、その演算結果を線形予測部94へと供給する。
 例えば畳み込み処理部91で行われる畳み込み処理では、対象チャンネルのエンベロープが周波数方向や時間方向に畳み込まれる。
 デンスブロック92-1乃至デンスブロック92-4は、機械学習で一般的に用いられるDense Blockであり、予め保持している予測係数に基づいて、入力された信号に対して畳み込み処理や、活性化関数による演算等の非線形処理などの所定の演算処理を行う。
 すなわち、デンスブロック92-1は、供給された対象チャンネルのエンベロープに対して畳み込み処理等の演算処理を行い、その演算結果をデンスブロック92-2および線形予測部94に供給する。
 デンスブロック92-2は、デンスブロック92-1から供給された演算結果(信号)に対して、畳み込み処理等の演算処理を行い、その演算結果を線形予測部94およびデンスブロック92-3に供給する。
 デンスブロック92-3は、デンスブロック92-2から供給された演算結果に対して、畳み込み処理等の演算処理を行い、その演算結果を線形予測部94およびデンスブロック92-4に供給する。
 デンスブロック92-4は、デンスブロック92-3から供給された演算結果に対して、畳み込み処理等の演算処理を行い、その演算結果を線形予測部94に供給する。
 なお、以下、デンスブロック92-1乃至デンスブロック92-4を特に区別する必要のない場合、単にデンスブロック92とも称することとする。
 畳み込み処理部93では、畳み込み処理部91における場合と同様に、畳み込み処理、ReluやCrelu等の活性化関数による演算処理などが行われる。
 すなわち、畳み込み処理部93は、予め保持している予測係数に基づいて、供給された逆チャンネルのエンベロープに対して畳み込み処理や活性化関数による演算処理などを行い、その演算結果を線形予測部94へと供給する。
 線形予測部94は、畳み込み処理部91から供給された演算結果、各デンスブロック92から供給された演算結果、および畳み込み処理部93から供給された演算結果と、予め保持している予測係数とに基づいて線形予測処理を行う。
 このような線形予測処理により、対象チャンネルの差分信号の周波数特性のエンベロープの予測結果が得られる。ゲイン算出部62は、線形予測部94で得られた予測結果に基づいて、対象チャンネルの差分信号を生成するためのゲイン値を算出し、差分信号生成部63に供給する。
〈信号生成処理の説明〉
 次に、信号処理装置51の動作について説明する。
 信号処理装置51は、入力圧縮音源信号が供給されると信号生成処理を行い、高音質化信号を生成する。以下、図4のフローチャートを参照して、信号処理装置51による信号生成処理について説明する。
 ステップS11においてFFT処理部61は、供給された入力圧縮音源信号に対してFFTを行い、その結果得られた信号をゲイン算出部62-1、ゲイン算出部62-2、および差分信号生成部63に供給する。FFT処理部61でのFFTにより、入力圧縮音源信号は時間領域(時間軸)の信号から周波数領域(周波数軸)の信号へと変換される。
 ステップS12においてゲイン算出部62は、予め保持している予測係数と、FFT処理部61-1およびFFT処理部61-2から供給された信号とに基づいて、逆チャンネルの信号を用いてゲイン値を算出し、差分信号生成部63に供給する。
 具体的には、ゲイン算出部62は、FFT処理部61から供給された対象チャンネルの信号に基づいて、対象チャンネルの入力圧縮音源信号の周波数特性のエンベロープを算出し、畳み込み処理部91およびデンスブロック92-1に供給する。
 また、ゲイン算出部62は、FFT処理部61から供給された逆チャンネルの信号に基づいて、逆チャンネルの入力圧縮音源信号の周波数特性のエンベロープを算出し、畳み込み処理部93に供給する。
 畳み込み処理部91は、予め保持している予測係数に基づいて、供給された対象チャンネルのエンベロープに対して畳み込み処理等を行い、その演算結果を線形予測部94に供給する。
 各デンスブロック92は、供給された対象チャンネルのエンベロープ、または前段のデンスブロック92から供給された演算結果に対して、予測係数に基づく畳み込み処理等の演算処理を行い、その演算結果を線形予測部94に供給する。また、各デンスブロック92は、自身の後段に他のデンスブロック92があるときには、演算処理の演算結果を、その後段のデンスブロック92にも供給する。
 畳み込み処理部93は、予め保持している予測係数に基づいて、供給された逆チャンネルのエンベロープに対して畳み込み処理等を行い、その演算結果を線形予測部94に供給する。
 線形予測部94は、畳み込み処理部91から供給された演算結果、各デンスブロック92から供給された演算結果、および畳み込み処理部93から供給された演算結果と、予め保持している予測係数とに基づいて線形予測処理を行うことで、対象チャンネルの差分信号の周波数特性のエンベロープを予測(生成)する。
 さらに、ゲイン算出部62は、線形予測部94で得られた予測結果に基づいて、対象チャンネルの差分信号を生成するためのゲイン値を算出し、差分信号生成部63に供給する。この場合、例えば対象チャンネルの差分信号のSFB等の周波数帯域ごとにゲイン値が算出される。
 なお、ここでは差分信号の周波数特性のエンベロープを予測により求めるための予測係数を機械学習しておく例について説明した。
 しかし、その他、例えば対象チャンネルと逆チャンネルについての入力圧縮音源信号の周波数特性のエンベロープを入力とし、予測演算によりゲイン値を求める予測係数を機械学習により求めるようにしてもよい。そのような場合には線形予測部94の出力が、差分信号を生成するためのゲイン値となる。
 ステップS13において差分信号生成部63は、FFT処理部61から供給された信号と、ゲイン算出部62から供給されたゲイン値とに基づいて差分信号を生成し、IFFT処理部64に供給する。
 具体的には、例えば差分信号生成部63は、FFTにより得られた信号に対して、周波数帯域(SFB)ごとにゲイン算出部62から供給されたゲイン値を乗算することで、周波数領域で信号のゲイン調整を行う。
 これにより、入力圧縮音源信号の位相を保持したまま、つまり位相を変化させずに、その入力圧縮音源信号に対して、予測により得られたエンベロープの周波数特性、すなわち差分信号の周波数特性を付加することができる。
 このように周波数領域でゲイン調整を行うと、周波数領域の差分信号が得られる。差分信号生成部63は、得られた差分信号をIFFT処理部64に供給する。
 ステップS14においてIFFT処理部64は、差分信号生成部63から供給された周波数領域の差分信号に対してIFFTを行い、その結果得られた時間領域の差分信号を合成部65に供給する。
 ステップS15において合成部65は、供給された入力圧縮音源信号と、IFFT処理部64から供給された差分信号とを加算することで合成し、その結果得られた高音質化信号を後段に出力して信号生成処理は終了する。
 以上のようにして信号処理装置51は、機械学習により得られた予測係数を用いて数学的な手法で高音質化信号を生成する。これにより、原音信号に近い、より高音質な高音質化信号を得ることができる。
 特に、信号処理装置51では、対象チャンネルの入力圧縮音源信号だけでなく、逆チャンネルの入力圧縮音源信号も用いて対象チャンネルの差分信号を生成し、得られた差分信号と入力圧縮音源信号を合成することで入力圧縮音源信号を高音質化する。
 このように逆チャンネルの入力圧縮音源信号も用いて対象チャンネルの差分信号を生成することで、Joint Stereoのように逆チャンネルの情報も用いられて原音信号の圧縮符号化が行われている場合でも、十分な精度で差分信号を予測することができる。これにより、さらに高音質な高音質化信号を得ることができる。
〈第2の実施の形態〉
〈ゲイン算出部の構成例〉
 ところで、図3に示したゲイン算出部62の構成では、常に逆チャンネルの信号が差分信号の周波数特性のエンベロープの予測に用いられることになる。
 したがって、MS Stereo信号ではなく通常のステレオ信号で、LチャンネルとRチャンネルが個別に圧縮符号化されるときでも、逆チャンネルの信号がエンベロープの予測に用いられてしまい、その影響によりLとRの両チャンネルの予測が似た予測となることがある。そうすると、最終的に得られる高音質化信号がモノラル信号に近づいてしまう。
 そこで、そのようなことを避けるために、MS Stereo信号が用いられているか否かに応じて、差分信号の周波数特性のエンベロープの予測に逆チャンネルの信号を用いるか否かを決定するようにしてもよい。
 例えば信号処理装置51の前段に、符号情報を復号して入力圧縮音源信号を生成するデコーダがある場合、信号処理装置51はデコーダからJoint Stereo情報を取得することができる。
 ここで、Joint Stereo情報とは、CODECがMS Stereoを用いて原音信号を圧縮したか否か、すなわち、LチャンネルとRチャンネルとの間のステレオ相関が用いられて原音信号の圧縮符号化が行われたか否かを示すステレオ相関符号化情報である。
 このようなJoint Stereo情報を用いれば、逆チャンネルの信号をエンベロープの予測に用いるかどうかを適切に決定する(切り替える)ことができる。
 デコーダから取得されたJoint Stereo情報に基づいて、エンベロープの予測に逆チャンネルの信号を用いるか否かが決定される場合、例えばゲイン算出部62は図5に示すように構成される。なお、図5において図3における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
 図5に示すゲイン算出部62は、畳み込み処理部91、デンスブロック92-1乃至デンスブロック92-4、スイッチ121、畳み込み処理部93、および線形予測部94を有している。
 図5に示すゲイン算出部62の構成は、畳み込み処理部93の前段に新たにスイッチ121が設けられた点で図3のゲイン算出部62と異なり、その他の点では図3のゲイン算出部62と同じ構成となっている。
 スイッチ121は、デコーダから取得されたJoint Stereo情報に基づいて、エンベロープの予測に逆チャンネルの信号を用いるか否かを切り替える。
 すなわち、スイッチ121は、ステレオ相関が用いられて圧縮符号化が行われた旨のJoint Stereo情報が供給された場合にオンし、ゲイン算出部62から供給された逆チャンネルの入力圧縮音源信号の周波数特性のエンベロープを畳み込み処理部93に供給する。
 これに対してスイッチ121は、ステレオ相関が用いられずに圧縮符号化が行われた旨のJoint Stereo情報が供給された場合、オフする。
 この場合、逆チャンネルの入力圧縮音源信号の周波数特性のエンベロープは、畳み込み処理部93には供給されない。すなわち、差分信号の周波数特性のエンベロープの予測には、逆チャンネルの入力圧縮音源信号の周波数特性のエンベロープは用いられない。
 このようにゲイン算出部62は、Joint Stereo情報に基づいてスイッチ121をオンまたはオフさせることで、逆チャンネルの入力圧縮音源信号の周波数特性のエンベロープを用いて線形予測部94での予測を行うか、または逆チャンネルの入力圧縮音源信号の周波数特性のエンベロープを用いずに線形予測部94での予測を行うかを切り替える。
 なお、ゲイン算出部62で用いられる予測係数として、逆チャンネルの信号を用いる場合と用いない場合とで異なるものが用いられるようにすることができる。
 そのような場合、逆チャンネルの信号を用いるときの予測係数の学習時には、例えば上述したように対象チャンネルおよび逆チャンネルの学習用圧縮音源信号を入力のデータとし、対象チャンネルの学習用差分信号を教師データとした機械学習が行われる。
 一方、逆チャンネルの信号を用いないときの予測係数の学習時には、例えば対象チャンネルの学習用圧縮音源信号を入力のデータとし、対象チャンネルの学習用差分信号を教師データとした機械学習が行われる。
 より詳細には、教師データとしての対象チャンネルの学習用差分信号の周波数特性のエンベロープと、入力のデータとしての対象チャンネルの学習用圧縮音源信号の周波数特性のエンベロープとに基づいて機械学習が行われ、予測係数が生成される。
 このように逆チャンネルの信号を用いる場合と用いない場合とで異なる予測係数を用意することについては、以下において説明する第3の実施の形態乃至第5の実施の形態においても同様のことがいえる。
〈信号生成処理の説明〉
 次に、ゲイン算出部62が図5に示した構成とされる場合における信号処理装置51の動作について説明する。
 すなわち、以下、図6のフローチャートを参照して、信号処理装置51による信号生成処理について説明する。なお、ステップS41の処理は図4のステップS11の処理と同様であるので、その説明は省略する。
 ステップS42においてスイッチ121は、デコーダから供給されたJoint Stereo情報に基づいて、差分信号の周波数特性のエンベロープの予測に逆チャンネルの信号を用いるか否かを判定する。
 例えばステレオ相関が用いられて圧縮符号化が行われた旨のJoint Stereo情報が供給された場合、逆チャンネルの信号を用いると判定される。
 この場合、デコーダでは符号情報を復号し、和信号Mと差信号Sに基づいてLとRの両チャンネルの入力圧縮音源信号を生成する処理が行われる。
 これに対して、ステレオ相関が用いられずに圧縮符号化が行われた旨のJoint Stereo情報が供給された場合、逆チャンネルの信号を用いないと判定される。
 この場合、エンコーダではLチャンネルとRチャンネルの原音信号が個別に圧縮符号化されるため、デコーダではそれらのチャンネルごとの符号情報が復号され、その復号結果としてLとRの各チャンネルの入力圧縮音源信号が得られる。
 ステップS42において逆チャンネルの信号を用いると判定された場合、その後、処理はステップS43へと進む。この場合、スイッチ121はオンし、逆チャンネルの入力圧縮音源信号の周波数特性のエンベロープが畳み込み処理部93へと供給される。
 ステップS43においてゲイン算出部62は、予め保持している予測係数と、FFT処理部61から供給された信号とに基づき、逆チャンネルの信号を用いてゲイン値を算出し、差分信号生成部63に供給する。
 なお、ステップS43では、図4のステップS12における場合と同様の処理が行われ、ゲイン値が算出される。ステップS43の処理が行われると、その後、処理はステップS45へと進む。
 これに対して、ステップS42において逆チャンネルの信号を用いないと判定された場合、その後、処理はステップS44へと進む。この場合、スイッチ121はオフし、逆チャンネルの入力圧縮音源信号の周波数特性のエンベロープは畳み込み処理部93には供給されない。
 ステップS44においてゲイン算出部62は、予め保持している予測係数と、FFT処理部61から供給された信号とに基づき、逆チャンネルの信号を用いずにゲイン値を算出し、差分信号生成部63に供給する。
 ステップS44では、基本的には図4のステップS12における場合と同様の処理が行われるが、畳み込み処理部93での畳み込み処理等の演算処理は行われない。
 したがって線形予測部94は、畳み込み処理部91から供給された演算結果、および各デンスブロック92から供給された演算結果と、予め保持している予測係数とに基づいて線形予測処理を行う。すなわち、対象チャンネルの信号のみが用いられてエンベロープの予測が行われる。
 ゲイン算出部62は、線形予測部94で得られた予測結果に基づいて、対象チャンネルの差分信号を生成するためのゲイン値を算出し、差分信号生成部63に供給する。
 ステップS44の処理が行われてゲイン値が算出されると、その後、処理はステップS45へと進む。
 ステップS43またはステップS44の処理が行われると、その後、ステップS45乃至ステップS47の処理が行われて信号生成処理は終了するが、これらの処理は図4のステップS13乃至ステップS15の処理と同様であるので、その説明は省略する。
 例えば信号処理装置51では、以上において説明したステップS41乃至ステップS47の処理が入力圧縮音源信号のフレームごとなど、所定の時間単位ごとに行われる。
 すなわち、ゲイン算出部62では、入力圧縮音源信号のフレームごと等の所定の時間単位ごとにスイッチ121のオン、オフの制御が行われ、逆チャンネルの信号をエンベロープの予測に用いるか否かの切り替えが行われる。
 以上のようにして信号処理装置51は、Joint Stereo情報に基づいて逆チャンネルの信号をエンベロープの予測に用いるか否かを切り替えながら、対象チャンネルの各フレームの差分信号を生成する。
 このようにすることで、圧縮符号化時にステレオ相関が用いられたか否かに応じて適切に差分信号の周波数特性のエンベロープを予測し、より高音質な高音質化信号を得ることができる。
〈第3の実施の形態〉
〈ゲイン算出部の構成例〉
 また、エンベロープの予測に逆チャンネルの信号を用いるか否かを選択的に切り替えるにあたり、Joint Stereo情報を利用するのではなく、LとRの両チャンネルの信号を利用するようにしてもよい。
 そのような場合、ゲイン算出部62は、例えば図7に示すように構成される。なお、図7において図5における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
 図7に示すゲイン算出部62は、畳み込み処理部91、デンスブロック92-1乃至デンスブロック92-4、相関値算出部151、スイッチ121、畳み込み処理部93、および線形予測部94を有している。
 図7に示すゲイン算出部62の構成は、新たに相関値算出部151が設けられた点で図5のゲイン算出部62と異なり、その他の点では図5のゲイン算出部62と同じ構成となっている。
 相関値算出部151には、ゲイン算出部62から、対象チャンネルと逆チャンネルの両チャンネルについて求められた、それらの各チャンネルの入力圧縮音源信号の周波数特性のエンベロープが供給される。
 相関値算出部151は、供給された両チャンネルの入力圧縮音源信号の周波数特性のエンベロープを比較して、Lチャンネルの入力圧縮音源信号とRチャンネルの入力圧縮音源信号との相関値を算出し、その相関値に応じたスイッチ121の制御信号を生成する。
 具体的には、例えば相関値算出部151は、算出された相関値が所定の閾値以上である場合、すなわち両チャンネルの相関が強い(大きい)場合、スイッチ121をオンさせる制御信号を生成し、スイッチ121に供給する。
 これに対して相関値算出部151は、算出された相関値が所定の閾値未満である場合、すなわち両チャンネルの相関が弱い(小さい)場合、スイッチ121をオフさせる制御信号を生成し、スイッチ121に供給する。
 このように図7の例では、相関値に基づいて、逆チャンネルの入力圧縮音源信号の周波数特性のエンベロープを用いて線形予測部94での予測を行うか否かが切り替えられる。
 スイッチ121は、相関値算出部151から供給された制御信号に応じてオンまたはオフし、オンした状態である場合には、ゲイン算出部62から供給された逆チャンネルの入力圧縮音源信号の周波数特性のエンベロープを畳み込み処理部93に供給する。
 このようにすることで、Joint Stereo情報がない場合であっても、Joint Stereo情報を用いた場合と同様の制御を行い、LとRの両チャンネルの相関が強い場合にのみ、逆チャンネルの信号を、差分信号の周波数特性のエンベロープの予測に用いることができる。すなわち、MS Stereo信号が用いられて圧縮符号化が行われている可能性が高い場合のみ、逆チャンネルの信号がエンベロープの予測に用いられるようにすることができる。
 なお、相関値算出部151の入力は、入力圧縮音源信号の周波数特性のエンベロープに限らず、LとRの両チャンネルの相関値を求めることができるものであれば、両チャンネルの入力圧縮音源信号やFFT処理部61から出力された信号など、どのようなものであってもよい。
〈信号生成処理の説明〉
 次に、ゲイン算出部62が図7に示した構成とされる場合における信号処理装置51の動作について説明する。
 すなわち、以下、図8のフローチャートを参照して、信号処理装置51による信号生成処理について説明する。なお、ステップS71の処理は図6のステップS41の処理と同様であるので、その説明は省略する。
 ステップS72において相関値算出部151は、ゲイン算出部62から供給されたLチャンネルとRチャンネルの各入力圧縮音源信号の周波数特性のエンベロープに基づいて相関値を算出する。また、相関値算出部151は、算出した相関値に応じた制御信号を生成し、スイッチ121に供給する。
 例えば、上述したように相関値が所定の閾値以上である場合、スイッチ121をオンさせる制御信号が生成され、相関値が所定の閾値未満である場合、スイッチ121をオフさせる制御信号が生成される。
 ステップS73においてスイッチ121は、相関値算出部151から供給された制御信号に基づいて、差分信号の周波数特性のエンベロープの予測に逆チャンネルの信号を用いるか否かを判定する。例えばステップS73では、スイッチ121をオンさせる制御信号が供給された場合、逆チャンネルの信号を用いると判定される。
 ステップS73の処理が行われると、その後、ステップS74乃至ステップS78の処理が行われて信号生成処理は終了するが、これらの処理は図6のステップS43乃至ステップS47の処理と同様であるので、その説明は省略する。
 以上のようにして信号処理装置51は、LチャンネルとRチャンネルの信号の相関値を算出し、その相関値に応じて、適宜、逆チャンネルの信号を用いて対象チャンネルの差分信号を生成する。このようにすることで、LチャンネルとRチャンネルの相関の強さに応じて適切に差分信号の周波数特性のエンベロープを予測し、より高音質な高音質化信号を得ることができる。
〈第4の実施の形態〉
〈ゲイン算出部の構成例〉
 ところで、図5や図7に示した構成のゲイン算出部62では、MS Stereo信号が用いられて圧縮符号化が行われている場合や、LとRの両チャンネルの相関が強い場合にのみ、逆チャンネルの信号が用いられて差分信号の周波数特性のエンベロープが予測される。
 このとき、エンベロープの予測が十分高精度に行われればよい。しかし、入力圧縮音源信号が機械学習時の教師データにないデータであることもある。また、入力圧縮音源信号が機械学習時のデータとしてはあっても、学習や予測のDNNネットワークは有限であるため、出現頻度の高いデータが優先されて学習されてしまうこともある。したがって、全てのデータ、すなわち、あらゆる入力圧縮音源信号に対して、十分な精度でエンベロープを予測できるとは限らない。
 そこで、例えば音楽の定位感や広がり感に重要な高域部分を用いずに、逆チャンネルの信号の低域成分のみを用いることで、高い精度で予測ができない場合でも大きな音質劣化が生じなくなるようにしてもよい。
 そのような場合、ゲイン算出部62は、例えば図9に示すように構成される。なお、図9において図5における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
 図9に示すゲイン算出部62は、畳み込み処理部91、デンスブロック92-1乃至デンスブロック92-4、スイッチ121、LPF(Low Pass Filter)181、畳み込み処理部93、および線形予測部94を有している。
 図9に示すゲイン算出部62の構成は、スイッチ121と畳み込み処理部93の間に新たにLPF181が設けられた点で図5のゲイン算出部62と異なり、その他の点では図5のゲイン算出部62と同じ構成となっている。
 LPF181は、ローパスフィルタであり、スイッチ121から供給された逆チャンネルの信号、すなわち逆チャンネルの入力圧縮音源信号の周波数特性のエンベロープの低域成分を抽出し、畳み込み処理部93に供給する。
 換言すれば、LPF181は、スイッチ121から供給された逆チャンネルの信号に対するフィルタリングを行い、その結果得られた逆チャンネルの入力圧縮音源信号の周波数特性のエンベロープの低域成分を畳み込み処理部93に供給する。ここでは、例えば5kHz以下の成分が低域成分として抽出される。
 このように、逆チャンネルの信号については、低域成分のみを差分信号の周波数特性のエンベロープの予測に用いるようにすることで、予測が外れた場合、すなわち高い精度で予測ができない場合でも高音質化信号に対する音質的な影響を最小限に抑えることができる。
 なお、図9に示す例では、逆チャンネルの入力圧縮音源信号の周波数特性のエンベロープの低域成分が予測係数の機械学習に用いられることになる。これは、後述する第5の実施の形態における場合でも同様である。
 また、ゲイン算出部62が図9の構成とされる場合、信号処理装置51では基本的には図6を参照して説明した信号生成処理が行われる。
 但し、ステップS43では、LPF181はスイッチ121から供給されたエンベロープの低域成分を抽出し、畳み込み処理部93に供給する。また、畳み込み処理部93は、LPF181から供給された低域成分に対して畳み込み処理等を行い、その演算結果を線形予測部94に供給する。
〈第5の実施の形態〉
〈ゲイン算出部の構成例〉
 また、第3の実施の形態で説明したように、相関値に応じて逆チャンネルの信号が予測に用いられるか否かが決定される場合においても、逆チャンネルの信号については低域成分のみが用いられるようにすることもできる。
 そのような場合、ゲイン算出部62は、例えば図10に示すように構成される。なお、図10において図7または図9における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
 図10に示すゲイン算出部62は、畳み込み処理部91、デンスブロック92-1乃至デンスブロック92-4、相関値算出部151、スイッチ121、LPF181、畳み込み処理部93、および線形予測部94を有している。
 図10に示すゲイン算出部62の構成は、スイッチ121と畳み込み処理部93の間に新たにLPF181が設けられた点で図7のゲイン算出部62と異なり、その他の点では図7のゲイン算出部62と同じ構成となっている。
 このような構成においてもスイッチ121がオンの状態のときには、LPF181により抽出された、逆チャンネルの入力圧縮音源信号の周波数特性のエンベロープの低域成分が畳み込み処理部93へと供給される。
 また、ゲイン算出部62が図10に示す構成とされる場合においても、信号処理装置51では基本的には図8を参照して説明した信号生成処理が行われる。
 但し、ステップS74では、LPF181はスイッチ121から供給されたエンベロープの低域成分を抽出し、畳み込み処理部93に供給する。また、畳み込み処理部93は、LPF181から供給された低域成分に対して畳み込み処理等を行い、その演算結果を線形予測部94に供給する。
 その他、例えばゲイン算出部62が図3に示す構成とされる場合においても、畳み込み処理部93の前段にLPF181が設けられるようにしてもよい。
 以上のように、本技術によれば、機械学習を用いて数学的な手法で圧縮音源信号のビット拡張信号である高音質化信号を生成するときに、逆チャンネルの信号も用いるようにすることで、ステレオ相関を用いて圧縮符号化が行われた場合でもCODECに対応した信号の拡張を行うことができる。すなわち、十分な精度で差分信号を予測し、高音質な信号を得ることができる。
 特に、Joint Stereo情報や相関値に応じて、逆チャンネルの信号を差分信号の周波数特性のエンベロープの予測に用いるかを切り替えることで、MS Stereoのモードの部分(信号区間)のみ、逆チャンネルの信号が予測に用いられるようにすることができる。これにより、エンベロープの予測精度を向上させ、さらに高音質な信号を得ることができるようになる。
 さらに、逆チャンネルの信号の低域成分のみをエンベロープの予測に用いるようにすることで、予測の精度が十分でないときでも音質への影響を最小限に抑えることができる。
〈コンピュータの構成例〉
 ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
 図11は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
 コンピュータにおいて、CPU(Central Processing Unit)501,ROM(Read Only Memory)502,RAM(Random Access Memory)503は、バス504により相互に接続されている。
 バス504には、さらに、入出力インターフェース505が接続されている。入出力インターフェース505には、入力部506、出力部507、記録部508、通信部509、及びドライブ510が接続されている。
 入力部506は、キーボード、マウス、マイクロホン、撮像素子などよりなる。出力部507は、ディスプレイ、スピーカなどよりなる。記録部508は、ハードディスクや不揮発性のメモリなどよりなる。通信部509は、ネットワークインターフェースなどよりなる。ドライブ510は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体511を駆動する。
 以上のように構成されるコンピュータでは、CPU501が、例えば、記録部508に記録されているプログラムを、入出力インターフェース505及びバス504を介して、RAM503にロードして実行することにより、上述した一連の処理が行われる。
 コンピュータ(CPU501)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体511に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
 コンピュータでは、プログラムは、リムーバブル記録媒体511をドライブ510に装着することにより、入出力インターフェース505を介して、記録部508にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部509で受信し、記録部508にインストールすることができる。その他、プログラムは、ROM502や記録部508に、あらかじめインストールしておくことができる。
 なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
 また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
 例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
 また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、本技術は、以下の構成とすることも可能である。
(1)
 第1のチャンネルの原音信号を圧縮符号化して得られた学習用圧縮音源信号と前記第1のチャンネルの前記原音信号との差分信号を教師データとする、前記差分信号、前記第1のチャンネルの前記学習用圧縮音源信号、および第2のチャンネルの前記学習用圧縮音源信号に基づく学習により得られた予測係数と、前記第1のチャンネルの入力圧縮音源信号と、前記第2のチャンネルの前記入力圧縮音源信号とに基づいて、前記第1のチャンネルの前記入力圧縮音源信号に対応する前記差分信号を生成するためのパラメータを算出する算出部と、
 前記パラメータと、前記第1のチャンネルの前記入力圧縮音源信号とに基づいて前記差分信号を生成する差分信号生成部と、
 生成された前記差分信号および前記第1のチャンネルの前記入力圧縮音源信号を合成する合成部と
 を備える信号処理装置。
(2)
 前記パラメータは、前記差分信号の周波数エンベロープのゲインである
 (1)に記載の信号処理装置。
(3)
 前記学習は機械学習である
 (1)または(2)に記載の信号処理装置。
(4)
 前記算出部は、前記予測係数、前記第1のチャンネルの前記入力圧縮音源信号、および前記第2のチャンネルの前記入力圧縮音源信号に基づいて前記パラメータを算出するか、または予測係数および前記第1のチャンネルの前記入力圧縮音源信号に基づいて前記パラメータを算出するかの切り替えを所定の時間単位で行う
 (1)乃至(3)の何れか一項に記載の信号処理装置。
(5)
 前記算出部は、前記入力圧縮音源信号を得るための圧縮符号化において、前記第1のチャンネルと前記第2のチャンネルとのステレオ相関が用いられたか否かを示すステレオ相関符号化情報に基づいて前記切り替えを行う
 (4)に記載の信号処理装置。
(6)
 前記算出部は、前記第1のチャンネルの前記入力圧縮音源信号、および前記第2のチャンネルの前記入力圧縮音源信号に基づいて相関値を算出し、前記相関値に基づいて前記切り替えを行う
 (4)に記載の信号処理装置。
(7)
 前記算出部は、前記第2のチャンネルの前記入力圧縮音源信号に対してローパスフィルタによるフィルタリングを行い、前記フィルタリングにより得られた前記第2のチャンネルの前記入力圧縮音源信号の低域成分、前記予測係数、および前記第1のチャンネルの前記入力圧縮音源信号に基づいて前記パラメータを算出する
 (1)乃至(6)の何れか一項に記載の信号処理装置。
(8)
 信号処理装置が、
 第1のチャンネルの原音信号を圧縮符号化して得られた学習用圧縮音源信号と前記第1のチャンネルの前記原音信号との差分信号を教師データとする、前記差分信号、前記第1のチャンネルの前記学習用圧縮音源信号、および第2のチャンネルの前記学習用圧縮音源信号に基づく学習により得られた予測係数と、前記第1のチャンネルの入力圧縮音源信号と、前記第2のチャンネルの前記入力圧縮音源信号とに基づいて、前記第1のチャンネルの前記入力圧縮音源信号に対応する前記差分信号を生成するためのパラメータを算出し、
 前記パラメータと、前記第1のチャンネルの前記入力圧縮音源信号とに基づいて前記差分信号を生成し、
 生成された前記差分信号および前記第1のチャンネルの前記入力圧縮音源信号を合成する
 信号処理方法。
(9)
 第1のチャンネルの原音信号を圧縮符号化して得られた学習用圧縮音源信号と前記第1のチャンネルの前記原音信号との差分信号を教師データとする、前記差分信号、前記第1のチャンネルの前記学習用圧縮音源信号、および第2のチャンネルの前記学習用圧縮音源信号に基づく学習により得られた予測係数と、前記第1のチャンネルの入力圧縮音源信号と、前記第2のチャンネルの前記入力圧縮音源信号とに基づいて、前記第1のチャンネルの前記入力圧縮音源信号に対応する前記差分信号を生成するためのパラメータを算出し、
 前記パラメータと、前記第1のチャンネルの前記入力圧縮音源信号とに基づいて前記差分信号を生成し、
 生成された前記差分信号および前記第1のチャンネルの前記入力圧縮音源信号を合成する
 ステップを含む処理をコンピュータに実行させるプログラム。
 51 信号処理装置, 62-1,62-2,62 ゲイン算出部, 63-1,63-2,63 差分信号生成部, 65-1,65-2,65 合成部, 93 畳み込み処理部, 121 スイッチ, 151 相関値算出部, 181 LPF

Claims (9)

  1.  第1のチャンネルの原音信号を圧縮符号化して得られた学習用圧縮音源信号と前記第1のチャンネルの前記原音信号との差分信号を教師データとする、前記差分信号、前記第1のチャンネルの前記学習用圧縮音源信号、および第2のチャンネルの前記学習用圧縮音源信号に基づく学習により得られた予測係数と、前記第1のチャンネルの入力圧縮音源信号と、前記第2のチャンネルの前記入力圧縮音源信号とに基づいて、前記第1のチャンネルの前記入力圧縮音源信号に対応する前記差分信号を生成するためのパラメータを算出する算出部と、
     前記パラメータと、前記第1のチャンネルの前記入力圧縮音源信号とに基づいて前記差分信号を生成する差分信号生成部と、
     生成された前記差分信号および前記第1のチャンネルの前記入力圧縮音源信号を合成する合成部と
     を備える信号処理装置。
  2.  前記パラメータは、前記差分信号の周波数エンベロープのゲインである
     請求項1に記載の信号処理装置。
  3.  前記学習は機械学習である
     請求項1に記載の信号処理装置。
  4.  前記算出部は、前記予測係数、前記第1のチャンネルの前記入力圧縮音源信号、および前記第2のチャンネルの前記入力圧縮音源信号に基づいて前記パラメータを算出するか、または予測係数および前記第1のチャンネルの前記入力圧縮音源信号に基づいて前記パラメータを算出するかの切り替えを所定の時間単位で行う
     請求項1に記載の信号処理装置。
  5.  前記算出部は、前記入力圧縮音源信号を得るための圧縮符号化において、前記第1のチャンネルと前記第2のチャンネルとのステレオ相関が用いられたか否かを示すステレオ相関符号化情報に基づいて前記切り替えを行う
     請求項4に記載の信号処理装置。
  6.  前記算出部は、前記第1のチャンネルの前記入力圧縮音源信号、および前記第2のチャンネルの前記入力圧縮音源信号に基づいて相関値を算出し、前記相関値に基づいて前記切り替えを行う
     請求項4に記載の信号処理装置。
  7.  前記算出部は、前記第2のチャンネルの前記入力圧縮音源信号に対してローパスフィルタによるフィルタリングを行い、前記フィルタリングにより得られた前記第2のチャンネルの前記入力圧縮音源信号の低域成分、前記予測係数、および前記第1のチャンネルの前記入力圧縮音源信号に基づいて前記パラメータを算出する
     請求項1に記載の信号処理装置。
  8.  信号処理装置が、
     第1のチャンネルの原音信号を圧縮符号化して得られた学習用圧縮音源信号と前記第1のチャンネルの前記原音信号との差分信号を教師データとする、前記差分信号、前記第1のチャンネルの前記学習用圧縮音源信号、および第2のチャンネルの前記学習用圧縮音源信号に基づく学習により得られた予測係数と、前記第1のチャンネルの入力圧縮音源信号と、前記第2のチャンネルの前記入力圧縮音源信号とに基づいて、前記第1のチャンネルの前記入力圧縮音源信号に対応する前記差分信号を生成するためのパラメータを算出し、
     前記パラメータと、前記第1のチャンネルの前記入力圧縮音源信号とに基づいて前記差分信号を生成し、
     生成された前記差分信号および前記第1のチャンネルの前記入力圧縮音源信号を合成する
     信号処理方法。
  9.  第1のチャンネルの原音信号を圧縮符号化して得られた学習用圧縮音源信号と前記第1のチャンネルの前記原音信号との差分信号を教師データとする、前記差分信号、前記第1のチャンネルの前記学習用圧縮音源信号、および第2のチャンネルの前記学習用圧縮音源信号に基づく学習により得られた予測係数と、前記第1のチャンネルの入力圧縮音源信号と、前記第2のチャンネルの前記入力圧縮音源信号とに基づいて、前記第1のチャンネルの前記入力圧縮音源信号に対応する前記差分信号を生成するためのパラメータを算出し、
     前記パラメータと、前記第1のチャンネルの前記入力圧縮音源信号とに基づいて前記差分信号を生成し、
     生成された前記差分信号および前記第1のチャンネルの前記入力圧縮音源信号を合成する
     ステップを含む処理をコンピュータに実行させるプログラム。
PCT/JP2021/005240 2020-02-25 2021-02-12 信号処理装置および方法、並びにプログラム WO2021172054A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020029746 2020-02-25
JP2020-029746 2020-02-25

Publications (1)

Publication Number Publication Date
WO2021172054A1 true WO2021172054A1 (ja) 2021-09-02

Family

ID=77491403

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/005240 WO2021172054A1 (ja) 2020-02-25 2021-02-12 信号処理装置および方法、並びにプログラム

Country Status (1)

Country Link
WO (1) WO2021172054A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008058470A (ja) * 2006-08-30 2008-03-13 Hitachi Maxell Ltd 音声信号処理装置、音声信号再生システム
JP2014052415A (ja) * 2012-09-05 2014-03-20 Nippon Hoso Kyokai <Nhk> 多チャネル音響システム、伝送装置、受信装置、伝送用プログラム、および受信用プログラム
WO2019146398A1 (ja) * 2018-01-23 2019-08-01 ソニー株式会社 ニューラルネットワーク処理装置および方法、並びにプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008058470A (ja) * 2006-08-30 2008-03-13 Hitachi Maxell Ltd 音声信号処理装置、音声信号再生システム
JP2014052415A (ja) * 2012-09-05 2014-03-20 Nippon Hoso Kyokai <Nhk> 多チャネル音響システム、伝送装置、受信装置、伝送用プログラム、および受信用プログラム
WO2019146398A1 (ja) * 2018-01-23 2019-08-01 ソニー株式会社 ニューラルネットワーク処理装置および方法、並びにプログラム

Similar Documents

Publication Publication Date Title
JP6869322B2 (ja) 音場のための高次アンビソニックス表現を圧縮および圧縮解除する方法および装置
JP4950040B2 (ja) マルチチャンネルオーディオ信号を符号化及び復号する方法及び装置
RU2381571C2 (ru) Синтезирование монофонического звукового сигнала на основе кодированного многоканального звукового сигнала
JP4589366B2 (ja) 忠実度最適化可変フレーム長符号化
JP5455647B2 (ja) オーディオデコーダ
RU2667627C1 (ru) Устройство и способ декодирования и программа
KR101650055B1 (ko) 멀티 채널 신호의 부호화/복호화 장치 및 방법
US20090204397A1 (en) Linear predictive coding of an audio signal
KR20100085018A (ko) 신호 처리 방법 및 장치
WO1995021489A1 (fr) Methode et appareil de codage de donnees, methode et appareil de decodage de donnees, support d&#39;enregistrement de donnees et mode de transmission de donnees
JP5208413B2 (ja) 多重チャネル信号の処理方法
JP2021101242A (ja) 相関分離フィルタの適応制御のための方法および装置
US7466245B2 (en) Digital signal processing apparatus, digital signal processing method, digital signal processing program, digital signal reproduction apparatus and digital signal reproduction method
JP4842147B2 (ja) スケーラブル符号化装置およびスケーラブル符号化方法
JP2007187905A (ja) 信号符号化装置及び方法、信号復号装置及び方法、並びにプログラム及び記録媒体
JP2023085339A (ja) ステレオ信号処理方法及び装置
WO2021172054A1 (ja) 信号処理装置および方法、並びにプログラム
WO2004097798A1 (ja) 音声復号化装置、音声復号化方法、プログラム、記録媒体
JP5491194B2 (ja) 音声コード化の方法および装置
JP4649351B2 (ja) デジタルデータ復号化装置
WO2020179472A1 (ja) 信号処理装置および方法、並びにプログラム
JP2007240819A (ja) デジタルデータ復号化装置
JP2006270649A (ja) 音声・音響信号処理装置およびその方法
JP2007178529A (ja) 符号化オーディオ信号再生装置及び符号化オーディオ信号再生方法
JP4024784B2 (ja) オーディオ復号装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21760975

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21760975

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP