WO2021172053A1 - 信号処理装置および方法、並びにプログラム - Google Patents

信号処理装置および方法、並びにプログラム Download PDF

Info

Publication number
WO2021172053A1
WO2021172053A1 PCT/JP2021/005239 JP2021005239W WO2021172053A1 WO 2021172053 A1 WO2021172053 A1 WO 2021172053A1 JP 2021005239 W JP2021005239 W JP 2021005239W WO 2021172053 A1 WO2021172053 A1 WO 2021172053A1
Authority
WO
WIPO (PCT)
Prior art keywords
signal
prediction
unit
difference signal
difference
Prior art date
Application number
PCT/JP2021/005239
Other languages
English (en)
French (fr)
Inventor
福井 隆郎
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Priority to CN202180015240.7A priority Critical patent/CN115136236A/zh
Priority to US17/904,308 priority patent/US20230067510A1/en
Publication of WO2021172053A1 publication Critical patent/WO2021172053A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/007Two-channel systems in which the audio signals are in digital form
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • G10L21/0388Details of processing therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques

Definitions

  • the present technology relates to signal processing devices and methods, and programs, and in particular, to signal processing devices, methods, and programs that enable a higher quality signal to be obtained.
  • bit expansion is performed appropriately for audio signals such as music, a signal with higher sound quality can be obtained.
  • bit expansion can be realized by filtering the DAC (Digital to Analog Converter) or the like.
  • the compressed sound source signal is filtered by a plurality of cascade-connected all-pass filters, the gain of the resulting signal is adjusted, and the gain-adjusted signal and the compressed sound source signal are added. Therefore, a technique for generating a signal having higher sound quality has been proposed (see, for example, Patent Document 1).
  • This technology was made in view of such a situation, and makes it possible to obtain a signal with higher sound quality.
  • the signal processing device of one aspect of the present technology is a prediction coefficient obtained by learning using the difference signal between the learning requantized signal obtained by requantizing the original sound signal and the original sound signal as teacher data, and an input.
  • a difference signal generation unit that generates the difference signal corresponding to the input signal based on the signal, and a synthesis unit that synthesizes the generated difference signal and the input signal are provided.
  • the signal processing method or program of one aspect of the present technology is a prediction coefficient obtained by learning using the difference signal between the learning requantized signal obtained by requantizing the original sound signal and the original sound signal as teacher data. And, based on the input signal, the difference signal corresponding to the input signal is generated, and the step of synthesizing the generated difference signal and the input signal is included.
  • One aspect of the present technology is based on the prediction coefficient obtained by learning using the difference signal between the learning requantization signal obtained by requantizing the original sound signal and the original sound signal as training data, and the input signal. Therefore, the difference signal corresponding to the input signal is generated, and the generated difference signal and the input signal are combined.
  • the difference signal which is the difference between the newly recorded high-resolution original sound signal PCM (Pulse Code Modulation) signal and the low-quality requantization signal generated from the original sound signal.
  • PCM Pulse Code Modulation
  • a general 16-bit signal such as a CD without a high-resolution master sound source can be converted to high resolution, and a 24-bit high-quality sound signal can be obtained, for example.
  • machine learning using a network that considers the characteristics of audio signals is performed as learning of difference signals.
  • a 24-bit signal for example, a 24-bit PCM signal such as music is used as the original sound signal, and a 16-bit signal (16-bit PCM signal) obtained by requantizing the 24-bit signal is used as a requantization signal for machine learning.
  • a 24-bit signal for example, a 24-bit PCM signal such as music is used as the original sound signal
  • a 16-bit signal (16-bit PCM signal) obtained by requantizing the 24-bit signal is used as a requantization signal for machine learning.
  • the learning 24-bit signal (original sound signal) used for machine learning is also referred to as a learning 24-bit signal (learning original sound signal), and similarly, a 16-bit signal (requantized signal) obtained from the learning original sound signal. ) Is also referred to as a learning 16-bit signal (learning requantization signal).
  • the difference signal obtained from the learning original sound signal and the learning requantization signal and used as the teacher data will be referred to as a learning difference signal in particular.
  • a 16-bit signal such as a general CD is used as an input signal, and the input signal is made high-quality to obtain a high-quality signal that is a 24-bit signal. Can be done.
  • the 16-bit signal and the 24-bit signal are audio signals in which the number of quantization bits, that is, the number of bits for one sample is 16 bits or 24 bits.
  • a 24-bit signal is prepared as a high-quality learning original sound signal.
  • the 24-bit signal is requantized by, for example, simple truncation, dither rounding, noise shaping by various noise shapers, etc., and the 16-bit signal, which is a requantized signal for learning with lower sound quality than the 24-bit signal, is produced. Will be generated. That is, the 24-bit signal is requantized, and a 16-bit signal having a smaller number of quantization bits than the 24-bit signal is generated as a learning requantization signal.
  • an 8-bit signal as a learning difference signal is generated by obtaining the difference between the 24-bit signal and the 16-bit signal, and the obtained learning difference signal is used as training data to predict (generate) the difference signal from the 16-bit signal.
  • the prediction coefficient (predictor) for this is generated by machine learning.
  • DNN Deep Neural Network
  • a DNN Deep Neural Network
  • the prediction coefficient used for the prediction calculation of the difference signal in DNN or the like is learned as a parameter.
  • an arbitrary 16-bit audio signal (16-bit signal) can be used as an input signal, and a difference signal with respect to the input signal can be obtained by prediction based on the input signal and the prediction coefficient. Can be done.
  • Figure 2 shows examples of the above 24-bit signal, 16-bit signal, and difference signal.
  • the horizontal axis represents time and the vertical axis represents signal level.
  • FIG. 2 the time waveforms of the 24-bit signal, the 16-bit signal, and the difference signal of each of the stereo L and R channels in a relatively short time interval are shown on the left side of the figure.
  • the L channel 24 bit signal, the R channel 24 bit signal, the L channel 16 bit signal, the R channel 16 bit signal, the L channel difference signal, and the R channel difference signal are arranged in order from the upper side to the lower side. Has been done.
  • the time waveform of each signal of the 24-bit signal, the 16-bit signal, and the difference signal shown on the left side of the figure is shown in a relatively long time interval.
  • the difference signal is enlarged by 90 dB and displayed.
  • a 16-bit signal can be obtained by requantizing a 24-bit signal, and a difference signal which is an 8-bit signal can be obtained by calculating the difference between the 16-bit signal and the 24-bit signal. Then, using the difference signal as training data, a prediction coefficient for predicting the difference signal of an arbitrary 16-bit signal can be obtained by machine learning based on the difference signal and the 16-bit signal.
  • a prediction coefficient for predicting a difference signal is generated by machine learning, and the difference signal is predicted based on the prediction coefficient to perform bit expansion by a mathematical method. It is possible to generate a high-quality signal.
  • a difference signal is mathematically generated (determined) by a prediction calculation using a prediction coefficient obtained by machine learning. No adjustment is required.
  • the variation in the obtained effect can be suppressed, and the sound quality can be improved equally for any input signal. That is, it is possible to obtain a high-quality sound signal with higher sound quality.
  • the difference signal prediction method and the prediction coefficient learning method are not limited to the above-mentioned prediction method and machine learning method, and may be any other method.
  • FIG. 3 is a diagram showing a configuration example of an embodiment of a signal processing device to which the present technology is applied.
  • the signal processing device 11 shown in FIG. 3 has a difference signal generation unit 21 and a synthesis unit 22.
  • a time domain signal that is, a time signal is supplied to the signal processing device 11 as an input signal.
  • the input signal is a 16-bit signal, particularly a 16-bit PCM signal such as music.
  • the input signal is a signal having the same number of bits (quantization bit number) and sampling frequency as the learning requantization signal used for learning the prediction coefficient.
  • the difference signal generation unit 21 holds a prediction coefficient obtained by machine learning in advance as a parameter, and functions as a predictor that predicts a difference signal corresponding to the supplied input signal.
  • the difference signal generation unit 21 generates a difference signal corresponding to the input signal by prediction by performing a prediction calculation based on the holding prediction coefficient and the supplied input signal, and the obtained difference.
  • the signal is supplied to the synthesis unit 22.
  • the synthesis unit 22 generates a high-quality sound signal by combining (adding) the difference signal supplied from the difference signal generation unit 21 and the supplied input signal, and outputs the high-quality sound signal to the subsequent stage.
  • a higher sound quality 24-bit signal having a larger number of bits (quantization bit number) of the sample value of one sample than the 16-bit signal which is the input signal can be obtained as the high-quality sound signal.
  • the difference signal generation unit 21 is configured as shown in FIG. 4, for example.
  • the difference signal generation unit 21 is composed of a DNN 51 that performs a prediction calculation based on a prediction coefficient obtained by machine learning.
  • the 16-bit signal which is an input signal, is processed in frame units such as 1024 samples.
  • signals of consecutive M 10 frames including the current frame of a 16-bit signal such as a frame in the past or a future frame in time from the current frame are input to the DNN 51. That is, 10 frames of 16-bit signals are added (combined) into one signal, which is used as an input to the DNN 51.
  • the current frame and the nine past frames immediately before the current frame are input to the DNN 51, and the future frame is not used. You can also do it.
  • the DNN 51 functions as a prediction unit that predicts the difference signal in the time domain based on the 16-bit signal and the prediction coefficient.
  • the prediction unit is composed of DNN51.
  • the DNN 51 performs a prediction calculation based on the input 16-bit signal for the M frame and the prediction coefficient held in advance, and supplies the resulting difference signal in the time domain of the current frame to the synthesis unit 22. More specifically, the time signal for one frame corresponding to the difference signal of the input 16-bit signal obtained by the prediction based on the prediction coefficient is supplied to the synthesis unit 22.
  • non-linear processing such as convolution processing for a 16-bit signal and calculation processing by an activation function is performed.
  • step S11 the difference signal generation unit 21 generates a difference signal based on the 16-bit signal as the supplied input signal and the prediction coefficient held in advance.
  • the DNN 51 as the difference signal generation unit 21 predicts the difference signal of the current frame by a prediction calculation based on the 16-bit signal for the supplied M frame and the prediction coefficient held in advance. , The difference signal obtained as a result is supplied to the synthesis unit 22.
  • step S12 the synthesizing unit 22 synthesizes (adds) the difference signal of the current frame supplied from the difference signal generation unit 21, that is, the DNN 51, and the 16-bit signal of the current frame as the supplied input signal, and obtains the result.
  • the high-quality sound signal of the current frame is output to the subsequent stage.
  • the above-mentioned processing is performed for each frame of the 16-bit signal, and a 24-bit signal as a high-quality sound signal is generated.
  • the signal generation process ends.
  • the signal processing device 11 generates a difference signal using the prediction coefficient obtained in advance by machine learning, and combines the difference signal and the input signal to obtain a high-quality sound signal. By doing so, it is possible to perform bit expansion (high-quality sound) on the input signal by a mathematical method and obtain a high-quality sound signal with higher sound quality.
  • the difference signal may be predicted by using the frequency characteristic whose characteristics are easy to understand.
  • the difference signal generation unit 21 is configured as shown in FIG. 6, for example.
  • the difference signal generation unit 21 shown in FIG. 6 includes a complex FFT (Fast Fourier Transform) processing unit 81-1 to a complex FFT processing unit 81-N, DNN82, and a complex IFFT (Inverse Fast Fourier Transform) processing unit 83. There is.
  • a complex FFT Fast Fourier Transform
  • IFFT Inverse Fast Fourier Transform
  • the signals of N frames of the 16-bit signal are supplied to the complex FFT processing unit 81-1 to the complex FFT processing unit 81-N.
  • the N consecutive frames may include the future frame and the past frame, or may not include the future frame. , Only the current frame and the past frame may be included.
  • the complex FFT processing unit 81-1 to the complex FFT processing unit 81-N perform complex FFT on the supplied 16-bit signal for one frame, and supply the signal obtained as a result to DNN82.
  • the frequency axis data of the 16-bit signal that is, the signal in the frequency domain can be obtained.
  • the complex FFT processing unit 81-1 it is also simply referred to as the complex FFT processing unit 81.
  • the DNN82 functions as a prediction unit that predicts the difference signal in the frequency domain based on the frequency axis data which is a 16-bit signal in the frequency domain and the prediction coefficient.
  • the DNN 82 performs a prediction calculation based on the frequency axis data for N frames of the 16-bit signal supplied from the complex FFT processing unit 81 and the prediction coefficient held in advance, and the current frame obtained as a result.
  • the difference signal in the frequency domain is supplied to the complex IFFT processing unit 83. More specifically, the signal in the frequency domain for one frame corresponding to the difference signal of the input 16-bit signal obtained by the prediction based on the prediction coefficient is supplied to the complex IFFT processing unit 83.
  • the prediction coefficient held by the DNN 82 is a prediction coefficient for predicting the difference signal in the frequency domain from the signal in the frequency domain of the 16-bit signal obtained by machine learning using the difference signal in the frequency domain as teacher data. Is.
  • non-linear processing such as convolution processing and arithmetic processing by the activation function is performed as the prediction calculation.
  • the complex IFFT processing unit 83 performs complex IFFT on the difference signal in the frequency domain supplied from the DNN 82, and supplies the difference signal in the time domain obtained as a result to the synthesis unit 22.
  • the signal processing device 11 basically performs the signal generation processing described with reference to FIG.
  • step S11 the complex FFT processing unit 81, the DNN 82, and the complex IFFT processing unit 83 generate a difference signal.
  • each of the N complex FFT processing units 81 performs complex FFT on the signal for one frame of the supplied 16-bit signal, and supplies the resulting signal to the DNN 82.
  • the DNN 82 performs a prediction calculation based on the signals of a total of N frames supplied from the N complex FFT processing units 81 and the prediction coefficients held in advance, and obtains the signals obtained as a result. It is supplied to the complex IFFT processing unit 83.
  • the complex IFFT processing unit 83 performs complex IFFT on the signal supplied from the DNN 82, and supplies the difference signal obtained as a result to the synthesis unit 22. Therefore, in step S12, the synthesis unit 22 synthesizes the difference signal supplied from the complex IFFT processing unit 83 and the 16-bit signal as the supplied input signal to generate a high-quality sound signal.
  • the difference signal generation unit 21 is configured as shown in FIG. 7, for example.
  • the same reference numerals are given to the parts corresponding to the cases in FIGS. 4 or 6, and the description thereof will be omitted as appropriate.
  • the difference signal generation unit 21 shown in FIG. 7 includes a DNN 51, a complex FFT processing unit 81-1 to a complex FFT processing unit 81-N, a DNN 82, a complex IFFT processing unit 83, and a DNN 111.
  • the difference signal generation unit 21 is configured to supply the output of the DNN 51 and the output of the complex IFFT processing unit 83 to the DNN 111.
  • DNN111 functions as a prediction unit that predicts the final difference signal in the time domain based on the prediction coefficient, the prediction result by DNN51, and the prediction result by DNN82.
  • the DNN 111 is a prediction coefficient for predicting the time domain difference signal by inputting the output of the DNN 51 and the output of the complex IFFT processing unit 83 generated by machine learning using the time domain learning difference signal as teacher data. Is held in advance. For example, the prediction coefficient held by DNN51, the prediction coefficient held by DNN82, and the prediction coefficient held by DNN111 are simultaneously generated by machine learning.
  • the DNN 111 predicts based on the prediction coefficient held in advance, the signal for one frame (difference signal) supplied from the DNN 51, and the signal for one frame (difference signal) supplied from the complex IFFT processing unit 83. The calculation is performed, and the signal obtained as a result is supplied to the synthesis unit 22 as a prediction result of the final difference signal. That is, the signal in the time domain for one frame corresponding to the difference signal of the input 16-bit signal obtained by the prediction based on the prediction coefficient is output from the DNN 111 to the synthesis unit 22.
  • the signal processing device 11 basically performs the signal generation processing described with reference to FIG.
  • step S11 the difference signal is generated by the DNN 51, the complex FFT processing unit 81-1 to the complex FFT processing unit 81-N, the DNN 82, the complex IFFT processing unit 83, and the DNN 111.
  • the DNN 51 performs a prediction calculation based on the 16-bit signal for the supplied M frame and the prediction coefficient held in advance, and supplies the signal obtained as a result to the DNN 111.
  • each complex FFT processing unit 81 performs complex FFT on the signal for one frame of the supplied 16-bit signal, and supplies the signal obtained as a result to the DNN 82.
  • the DNN 82 performs a prediction calculation based on the signals of a total of N frames supplied from the complex FFT processing unit 81 and the prediction coefficients held in advance, and the resulting signal is obtained by the complex IFFT processing unit 83. Supply to.
  • the complex IFFT processing unit 83 performs complex IFFT on the signal supplied from the DNN 82, and supplies the signal obtained as a result to the DNN 111.
  • the DNN 111 performs a prediction calculation based on the prediction coefficient held in advance, the signal supplied from the DNN 51, and the signal supplied from the complex IFFT processing unit 83, and the time domain of the current frame obtained as a result is obtained.
  • the difference signal of is supplied to the synthesis unit 22. Therefore, in step S12, the synthesis unit 22 synthesizes the difference signal supplied from the DNN 111 and the 16-bit signal as the supplied input signal to generate a high-quality sound signal.
  • the feature amount on the time axis and the feature amount on the frequency axis are once separated, converted into a variable (feature amount) of another dimension, input to the DNN, and one frame corresponding to the difference signal of the input 16-bit signal. You may try to predict the signal of the minute. As a result, the difference signal can be predicted more stably and with sufficient accuracy.
  • the difference signal generation unit 21 When converting to a feature quantity of another dimension in this way, the difference signal generation unit 21 is configured as shown in FIG. 8, for example.
  • the parts corresponding to the case in FIG. 7 are designated by the same reference numerals, and the description thereof will be omitted as appropriate.
  • the difference signal generation unit 21 shown in FIG. 8 includes a DNN 51, a feature amount extraction unit 141, a conversion unit 142, a complex FFT processing unit 81-1 to a complex FFT processing unit 81-N, DNN82, a feature amount extraction unit 143, and a conversion unit 144. , And DNN145.
  • a feature amount extraction unit 141, a conversion unit 142, a feature amount extraction unit 143, a conversion unit 144, and a DNN 145 are newly provided. It differs from the difference signal generation unit 21 of FIG. 7 in that it has the same configuration as the difference signal generation unit 21 of FIG. 7 in other respects.
  • the feature amount extraction unit 141 extracts the feature amount on the time axis from the signal supplied from the DNN 51 (prediction result of the difference signal in the time domain) and supplies the feature amount to the conversion unit 142.
  • the output itself of the DNN 51 that is, the feature of the error between the 24-bit signal to be predicted and the input 16-bit signal arranged in chronological order, such as 0.01 bit, -0.02 bit, 0.2 bit, ...
  • the value obtained by summarizing the above may be used as it is as the feature amount on the time axis.
  • the conversion unit 142 converts the feature amount on the time axis supplied from the feature amount extraction unit 141 into a variable having a different dimension from the time axis, that is, another feature amount having a dimension different from the feature amount on the time axis. Supply to DNN145.
  • the feature amount extraction unit 143 extracts the feature amount of the frequency axis from the signal supplied from the DNN 82 (prediction result of the difference signal in the frequency domain) and supplies it to the conversion unit 144.
  • the output itself of the DNN 82 that is, the amplitude (dB) and the phase (deg) of each frequency bin such as 0.01 dB / 0.03 deg, -0.011 dB / -0.2 deg, ...
  • the value summarizing the features of the FFT error between the 24-bit signal to be predicted and the input 16-bit signal obtained side by side may be used as the feature amount of the frequency axis as it is.
  • the conversion unit 144 converts the feature amount of the frequency axis supplied from the feature amount extraction unit 143 into a variable having a different dimension from the frequency axis, that is, another feature amount having a dimension different from the feature amount of the frequency axis. Supply to DNN145.
  • the supplied feature amount is converted into a feature amount of another dimension different from the time (time axis) and the frequency (frequency axis), for example, a second sequence of 1024 ⁇ 1024.
  • the features on the time axis and frequency axis are projected onto regions of other dimensions.
  • the feature amount may be converted so that the feature amount obtained by the conversion unit 142 and the feature amount obtained by the conversion unit 144 have the same dimension feature amount, or the feature amount having different dimensions from each other.
  • the feature quantity may be converted so as to be.
  • Such a conversion to a feature quantity of another dimension is called a Dimension transform or the like.
  • the DNN 145 functions as a prediction unit that predicts the difference signal in the final time domain based on the prediction coefficient, the feature amount obtained by the conversion unit 142, and the feature amount obtained by the conversion unit 144.
  • the DNN 145 is a prediction coefficient for predicting the time domain difference signal by inputting the output of the conversion unit 142 and the output of the conversion unit 144 generated by machine learning using the time domain learning difference signal as teacher data. Is held in advance.
  • the prediction coefficient held by DNN51, the prediction coefficient held by DNN82, and the prediction coefficient held by DNN145 are simultaneously generated by machine learning.
  • the DNN 145 performs a prediction calculation based on the prediction coefficient held in advance, the feature amount supplied from the conversion unit 142, and the feature amount supplied from the conversion unit 144, and finally obtains the signal obtained as a result. It is supplied to the synthesis unit 22 as a prediction result of a typical difference signal. That is, a signal in the time domain for one frame corresponding to the difference signal of the input 16-bit signal obtained by the prediction based on the prediction coefficient is supplied from the DNN 145 to the synthesis unit 22.
  • the signal processing device 11 basically performs the signal generation processing described with reference to FIG.
  • step S11 the DNN 51, the feature amount extraction unit 141, the conversion unit 142, the complex FFT processing unit 81-1 to the complex FFT processing unit 81-N, DNN82, the feature amount extraction unit 143, the conversion unit 144, and the DNN 145 A difference signal is generated.
  • the DNN 51 performs a prediction calculation based on the 16-bit signal for the supplied M frame and the prediction coefficient held in advance, and supplies the signal obtained as a result to the feature amount extraction unit 141.
  • the feature amount extraction unit 141 extracts the feature amount on the time axis from the signal supplied from the DNN 51 and supplies it to the conversion unit 142.
  • the conversion unit 142 converts the feature amount on the time axis supplied from the feature amount extraction unit 141 into a feature amount having a different dimension from the time axis, and supplies the feature amount to the DNN 145.
  • each complex FFT processing unit 81 performs complex FFT on the signal for one frame of the supplied 16-bit signal, and supplies the signal obtained as a result to the DNN 82.
  • the DNN 82 performs a prediction calculation based on the signals of a total of N frames supplied from the complex FFT processing unit 81 and the prediction coefficients held in advance, and obtains the resulting signal as the feature extraction unit 143. Supply to.
  • the feature amount extraction unit 143 extracts the feature amount of the frequency axis from the signal supplied from the DNN 82 and supplies it to the conversion unit 144.
  • the conversion unit 144 converts the feature amount of the frequency axis supplied from the feature amount extraction unit 143 into a feature amount having a different dimension from the frequency axis, and supplies the feature amount to the DNN 145.
  • the DNN 145 performs a prediction calculation based on the prediction coefficient held in advance, the feature amount supplied from the conversion unit 142, and the feature amount supplied from the conversion unit 144, and the result of the current frame is obtained.
  • the difference signal in the time domain is supplied to the synthesis unit 22. Therefore, in step S12, the synthesis unit 22 synthesizes the difference signal supplied from the DNN 145 and the 16-bit signal as the supplied input signal to generate a high-quality sound signal.
  • the series of processes described above can be executed by hardware or software.
  • the programs that make up the software are installed on the computer.
  • the computer includes a computer embedded in dedicated hardware and, for example, a general-purpose personal computer capable of executing various functions by installing various programs.
  • FIG. 9 is a block diagram showing a configuration example of computer hardware that executes the above-mentioned series of processes programmatically.
  • the CPU Central Processing Unit
  • the ROM ReadOnly Memory
  • the RAM RandomAccessMemory
  • An input / output interface 505 is further connected to the bus 504.
  • An input unit 506, an output unit 507, a recording unit 508, a communication unit 509, and a drive 510 are connected to the input / output interface 505.
  • the input unit 506 includes a keyboard, a mouse, a microphone, an image sensor, and the like.
  • the output unit 507 includes a display, a speaker, and the like.
  • the recording unit 508 includes a hard disk, a non-volatile memory, and the like.
  • the communication unit 509 includes a network interface and the like.
  • the drive 510 drives a removable recording medium 511 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory.
  • the CPU 501 loads the program recorded in the recording unit 508 into the RAM 503 via the input / output interface 505 and the bus 504 and executes the above-described series. Is processed.
  • the program executed by the computer can be recorded and provided on a removable recording medium 511 as a package medium or the like, for example. Programs can also be provided via wired or wireless transmission media such as local area networks, the Internet, and digital satellite broadcasts.
  • the program can be installed in the recording unit 508 via the input / output interface 505 by mounting the removable recording medium 511 in the drive 510. Further, the program can be received by the communication unit 509 and installed in the recording unit 508 via a wired or wireless transmission medium. In addition, the program can be installed in advance in the ROM 502 or the recording unit 508.
  • the program executed by the computer may be a program that is processed in chronological order according to the order described in this specification, or may be a program that is processed in parallel or at a necessary timing such as when a call is made. It may be a program in which processing is performed.
  • the embodiment of the present technology is not limited to the above-described embodiment, and various changes can be made without departing from the gist of the present technology.
  • this technology can have a cloud computing configuration in which one function is shared by a plurality of devices via a network and jointly processed.
  • each step described in the above flowchart can be executed by one device or shared by a plurality of devices.
  • one step includes a plurality of processes
  • the plurality of processes included in the one step can be executed by one device or shared by a plurality of devices.
  • this technology can also have the following configurations.
  • (1) Corresponds to the input signal based on the prediction coefficient obtained by learning using the difference signal between the learning requantization signal obtained by requantizing the original sound signal and the original sound signal as teacher data, and the input signal.
  • the difference signal generation unit that generates the difference signal and
  • (2) The signal processing device according to (1), wherein the learning is machine learning.
  • (3) The signal processing device according to (1) or (2), wherein the input signal is a signal having the same number of quantization bits as the learning requantization signal.
  • the signal processing device has a prediction unit that predicts the difference signal in the time domain based on the prediction coefficient and the input signal. .. (5) The signal processing device according to (4), wherein the prediction unit is composed of a DNN. (6) The difference signal generation unit A complex FFT processing unit that performs a complex FFT on the input signal, The signal processing apparatus according to any one of (1) to (3), which has a prediction unit for predicting the difference signal in the frequency domain based on the prediction coefficient and the signal obtained by the complex FFT. .. (7) The signal processing device according to (6), wherein the prediction unit is composed of a DNN.
  • the difference signal generation unit A first prediction unit that predicts the difference signal in the time domain based on the prediction coefficient and the input signal, and A complex FFT processing unit that performs a complex FFT on the input signal, A second prediction unit that predicts the difference signal in the frequency domain based on the prediction coefficient and the signal obtained by the complex FFT. It has a prediction coefficient, a prediction result by the first prediction unit, and a third prediction unit that predicts the final difference signal based on the prediction result by the second prediction unit (1) to (1).
  • the signal processing device according to any one of 3).
  • the difference signal generation unit further includes a complex IFFT processing unit that performs a complex IFFT on the prediction result by the second prediction unit.
  • the final prediction unit predicts the final difference signal based on the prediction coefficient, the prediction result by the first prediction unit, and the signal obtained by the complex IFFT.
  • Signal processing device. (10)
  • the difference signal generation unit A first conversion unit that converts the first feature amount obtained from the prediction result by the first prediction unit into a second feature amount having a dimension different from that of the first feature amount, and It further has a second conversion unit that converts the third feature amount obtained from the prediction result by the second prediction unit into a fourth feature amount having a dimension different from that of the third feature amount.
  • the signal processing device according to (8), wherein the third prediction unit predicts the final difference signal based on the prediction coefficient, the second feature amount, and the fourth feature amount.
  • the signal processing device corresponds to any one of (8) to (10), wherein the first prediction unit, the second prediction unit, and the third prediction unit are composed of a DNN.
  • the signal processing device Corresponds to the input signal based on the prediction coefficient obtained by learning using the difference signal between the learning requantization signal obtained by requantizing the original sound signal and the original sound signal as teacher data, and the input signal. Generate the difference signal A signal processing method for synthesizing the generated difference signal and the input signal.
  • (13) Corresponds to the input signal based on the prediction coefficient obtained by learning using the difference signal between the learning requantization signal obtained by requantizing the original sound signal and the original sound signal as teacher data, and the input signal.
  • Generate the difference signal A program that causes a computer to perform a process including a step of synthesizing the generated difference signal and the input signal.

Abstract

本技術は、より高音質な信号を得ることができるようにする信号処理装置および方法、並びにプログラムに関する。 信号処理装置は、原音信号を再量子化して得られた学習用再量子化信号と原音信号との差分信号を教師データとした学習により得られた予測係数、および入力信号に基づいて、入力信号に対応する差分信号を生成する差分信号生成部と、生成された差分信号および入力信号を合成する合成部とを備える。本技術は信号処理装置に適用することができる。

Description

信号処理装置および方法、並びにプログラム
 本技術は、信号処理装置および方法、並びにプログラムに関し、特に、より高音質な信号を得ることができるようにした信号処理装置および方法、並びにプログラムに関する。
 音楽等のオーディオ信号に対して適切にビット拡張を行うと、より高音質な信号を得ることができる。例えば正弦波の信号であれば、DAC(Digital to Analog Converter)のフィルタリング等によりビット拡張を実現することができる。
 また、高音質化に関する技術として、カスケード接続された複数のオールパスフィルタにより圧縮音源信号をフィルタリングし、その結果得られた信号をゲイン調整して、ゲイン調整後の信号と圧縮音源信号とを加算することで、より高音質な信号を生成する技術が提案されている(例えば、特許文献1参照)。
特開2013-7944号公報
 しかしながら、音楽信号一般において、数学的に根拠のあるビット拡張を実現する技術は提案されておらず、より高音質な信号を得ることは困難であった。
 例えば特許文献1に記載の技術では、人間が試聴とゲイン値の調整を繰り返し行うことで、ビット拡張したかのような聴覚効果を付加できる最終的なゲイン値が決定されるため、ゲイン値の決定に数学的な根拠はなく、高音質な信号が得られない場合があった。
 本技術は、このような状況に鑑みてなされたものであり、より高音質な信号を得ることができるようにするものである。
 本技術の一側面の信号処理装置は、原音信号を再量子化して得られた学習用再量子化信号と前記原音信号との差分信号を教師データとした学習により得られた予測係数、および入力信号に基づいて、前記入力信号に対応する前記差分信号を生成する差分信号生成部と、生成された前記差分信号および前記入力信号を合成する合成部とを備える。
 本技術の一側面の信号処理方法またはプログラムは、原音信号を再量子化して得られた学習用再量子化信号と前記原音信号との差分信号を教師データとした学習により得られた予測係数、および入力信号に基づいて、前記入力信号に対応する前記差分信号を生成し、生成された前記差分信号および前記入力信号を合成するステップを含む。
 本技術の一側面においては、原音信号を再量子化して得られた学習用再量子化信号と前記原音信号との差分信号を教師データとした学習により得られた予測係数、および入力信号に基づいて、前記入力信号に対応する前記差分信号が生成され、生成された前記差分信号および前記入力信号が合成される。
差分信号の生成について説明する図である。 24bit信号、16bit信号、および差分信号の例を示す図である。 信号処理装置の構成例を示す図である。 差分信号生成部の構成例を示す図である。 信号生成処理を説明するフローチャートである。 差分信号生成部の構成例を示す図である。 差分信号生成部の構成例を示す図である。 差分信号生成部の構成例を示す図である。 コンピュータの構成例を示す図である。
 以下、図面を参照して、本技術を適用した実施の形態について説明する。
〈第1の実施の形態〉
〈本技術について〉
 音楽のハイレゾリューション(以下、ハイレゾと称する)のコンテンツの配信が行われて数年がたつ。しかしながら、ハイレゾのコンテンツは60年代の様な昔の音源や新しく録音された音源が多く、音楽が一番売れた80年代等のCD(Compact Disc)全盛期のコンテンツはほとんど存在しない。
 その理由は、当時のCDは16bit/44.1kHzのCDマスタリングの機械で制作されており、マスタ音源もCDと同じ16bit/44.1kHzのフォーマットのものしか存在していないからである。
 したがって、当時のCDのコンテンツをハイレゾで聞いてみたいと思っても、聞く術がなく、ハイレゾのコンテンツであるかのように聞こえる聴覚効果が施されたものを聞くことしかできなかった。
 そこで、本技術では、例えば新規に録音されたハイレゾの原音信号であるPCM(Pulse Code Modulation)信号と、その原音信号から生成された低音質な再量子化信号との差分である差分信号を教師データとし、再量子化信号から差分信号を学習することで、一般的な音楽等のオーディオ信号を高音質化(ハイレゾ化)できるようにした。
 このようにすることで、例えばハイレゾマスタ音源のない、CD等の一般的な16bitの信号をハイレゾ化し、例えば24bitの高音質な信号を得ることができる。
 特に、本技術では差分信号の学習として、例えばオーディオ信号の特徴を考慮したネットワークが用いられた機械学習が行われる。
 なお、以下では24bit信号、例えば音楽等の24bitのPCM信号を原音信号とし、その24bit信号を再量子化して得られた16bit信号(16bitのPCM信号)を再量子化信号として機械学習を行う場合を例として説明する。
 特に、以下では、機械学習に用いられる学習用の24bit信号(原音信号)を学習用24bit信号(学習用原音信号)とも称し、同様に学習用原音信号から得られた16bit信号(再量子化信号)を学習用16bit信号(学習用再量子化信号)とも称することとする。さらに、以下では、学習用原音信号と学習用再量子化信号から得られ、教師データとして用いられる差分信号を、特に学習用差分信号とも称することとする。
 学習用16bit信号と学習用差分信号に基づき機械学習を行った場合、一般的なCD等の16bit信号を入力信号とし、その入力信号を高音質化して24bit信号である高音質化信号を得ることができる。なお、16bit信号や24bit信号は量子化ビット数、つまり1サンプル分のビット数が16bitや24bitであるオーディオ信号である。
 まず、学習用の差分信号の生成について説明する。
 例えば図1に示すように、高音質な学習用原音信号として24bit信号が用意される。
 そして、その24bit信号に対して、例えば単純切り捨てや、ディザ丸め、各種のノイズシェイパによるノイズシェイピングなどにより再量子化が行われ、24bit信号よりも低音質な学習用再量子化信号である16bit信号が生成される。すなわち、24bit信号に対して再量子化が行われ、その24bit信号よりも量子化ビット数が小さい16bit信号が、学習用再量子化信号として生成される。
 さらに、24bit信号と16bit信号との差分を求めることで学習用差分信号としての8bit信号が生成され、得られた学習用差分信号が教師データとされて、16bit信号から差分信号を予測(生成)するための予測係数(予測器)が機械学習により生成される。
 例えば機械学習時には、数100msの相関がある、スペクトルにハーモニクス構造がある、リズムがあるなどといったオーディオ信号の特徴を考慮した構成を持つDNN(Deep Neural Network)で学習が行われる。すなわち、DNN等における差分信号の予測演算に用いられる予測係数がパラメータとして学習される。
 このような機械学習により得られた予測係数を用いれば、任意の16bitのオーディオ信号(16bit信号)を入力信号として、その入力信号と予測係数とに基づいて入力信号に対する差分信号を予測により得ることができる。
 したがって、その入力信号に対して、予測により得られた差分信号を加算(合成)すれば、入力信号よりも、より高音質な24bit信号が高音質化信号として得られる。
 以上のような24bit信号、16bit信号、および差分信号の例を図2に示す。なお、図2において横軸は時間を示しており、縦軸は信号レベルを示している。
 図2では、図中、左側には比較的短い時間区間における、ステレオのLとRの各チャンネルの24bit信号、16bit信号、および差分信号の時間波形が示されている。
 特に、図中、上側から下側まで順番に、Lチャンネルの24bit信号、Rチャンネルの24bit信号、Lチャンネルの16bit信号、Rチャンネルの16bit信号、Lチャンネルの差分信号、Rチャンネルの差分信号が並べられている。
 また、図中、右側には、図中、左側に示した24bit信号、16bit信号、および差分信号の各信号の比較的長い時間区間の時間波形が示されている。なお、図2では、差分信号については90dBの拡大が行われて表示されている。
 上述したように、24bit信号を再量子化することで16bit信号を得ることができ、その16bit信号と24bit信号の差分を計算することで、8bit信号である差分信号を得ることができる。そして、その差分信号を教師データとし、差分信号と16bit信号とに基づく機械学習により、任意の16bit信号の差分信号を予測するための予測係数を得ることができる。
 以上のように、本技術によれば、機械学習により差分信号を予測するための予測係数を生成し、その予測係数に基づいて差分信号を予測することで、数学的手法によりビット拡張を行い、高音質化信号を生成することができる。
 特に、本技術では、機械学習により得られた予測係数を用いた予測演算によって、数学的に差分信号が生成(決定)されるため、従来行われていた繰り返しの試聴によるゲイン値等のパラメータの調整が不要である。
 そのため、人手でパラメータを調整する場合と比較して、得られる効果のばらつきを抑制し、どのような入力信号に対しても等しく音質を向上させることができる。すなわち、より高音質な高音質化信号を得ることができる。
 なお、差分信号の予測手法や予測係数の学習手法は、上述した予測手法や機械学習手法に限らず、他のどのような手法であってもよい。
〈信号処理装置の構成例〉
 図3は、本技術を適用した信号処理装置の一実施の形態の構成例を示す図である。
 図3に示す信号処理装置11は、差分信号生成部21および合成部22を有している。
 この信号処理装置11には、時間領域の信号、すなわち時間信号が入力信号として供給される。例えば入力信号は、16bit信号、特に音楽等の16bitのPCM信号とされる。例えば入力信号は、予測係数の学習に用いられた学習用再量子化信号と同じビット数(量子化ビット数)およびサンプリング周波数の信号である。
 差分信号生成部21は、予め機械学習により得られた予測係数をパラメータとして保持しており、供給された入力信号に対応する差分信号を予測する予測器として機能する。
 すなわち、差分信号生成部21は、保持している予測係数と、供給された入力信号とに基づいて予測演算を行うことで、入力信号に対応する差分信号を予測により生成し、得られた差分信号を合成部22に供給する。
 合成部22は、差分信号生成部21から供給された差分信号と、供給された入力信号とを合成(加算)することで高音質化信号を生成し、後段に出力する。
 特に合成部22では、入力信号である16bit信号よりも1サンプルのサンプル値のビット数(量子化ビット数)が多い、より高音質な24bit信号が高音質化信号として得られる。
〈差分信号生成部の構成例〉
 また、差分信号生成部21は、例えば図4に示すように構成される。
 図4に示す例では、差分信号生成部21は、機械学習により得られた予測係数に基づいて予測演算を行うDNN51により構成される。
 この例では、入力信号である16bit信号に対して、例えば1024サンプルなどのフレーム単位で処理が行われる。
 すなわち、この例では16bit信号の処理対象となる現フレームを含むM個(例えば、M=10)の連続するフレームがDNN51に対して入力される。
 例えば、ここでは現フレームよりも時間的に過去のフレームや未来のフレームなど、16bit信号の現フレームを含む、連続するM=10個のフレームの信号がDNN51に対して入力される。すなわち、16bit信号の10フレーム分の信号が足されて(結合されて)1つの信号とされ、DNN51に対する入力とされる。
 なお、信号処理装置11において、時間的な遅延が許容されない場合には、例えば現フレームと、その現フレームの直前の9個の過去フレームとがDNN51の入力とされ、未来のフレームは用いられないようにすることもできる。
 DNN51は、16bit信号と予測係数とに基づいて時間領域の差分信号を予測する予測部として機能する。換言すれば、この例では予測部がDNN51により構成される。
 DNN51は入力されたMフレーム分の16bit信号と、予め保持している予測係数とに基づいて予測演算を行い、その結果得られた現フレームの時間領域の差分信号を合成部22に供給する。より詳細には、予測係数に基づく予測により得られた、入力の16bit信号の差分信号に相当する1フレーム分の時間信号が合成部22へと供給される。
 例えばDNN51における予測演算では、16bit信号に対する畳み込み処理や、活性化関数による演算処理などの非線形処理等が行われる。
〈信号生成処理の説明〉
 続いて、信号処理装置11の動作について説明する。
 すなわち、以下、図5のフローチャートを参照して、信号処理装置11により行われる信号生成処理について説明する。
 ステップS11において差分信号生成部21は、供給された入力信号としての16bit信号と、予め保持している予測係数とに基づいて差分信号を生成する。
 具体的には、例えば差分信号生成部21としてのDNN51は、供給されたMフレーム分の16bit信号と、予め保持している予測係数とに基づいて、予測演算により現フレームの差分信号を予測し、その結果得られた差分信号を合成部22に供給する。
 ステップS12において合成部22は、差分信号生成部21、すなわちDNN51から供給された現フレームの差分信号と、供給された入力信号としての現フレームの16bit信号とを合成(加算)し、その結果得られた現フレームの高音質化信号を後段に出力する。
 信号処理装置11では、16bit信号の各フレームに対して上述した処理が行われ、高音質化信号としての24bit信号が生成される。このようにして高音質化信号が生成されると、信号生成処理は終了する。
 以上のようにして信号処理装置11は、予め機械学習により得られた予測係数を用いて差分信号を生成し、その差分信号と入力信号とを合成して高音質化信号とする。このようにすることで、数学的手法で入力信号に対するビット拡張(高音質化)を行い、より高音質な高音質化信号を得ることができる。
〈第2の実施の形態〉
〈差分信号生成部の構成例〉
 ところで、図4に示した差分信号生成部21の構成では、差分信号の時間特性のランダム性が強く、差分信号の特徴を十分に学習することができずに予測誤差が大きくなってしまうことがある。換言すれば、時間領域(時間波形)では適切な特徴量の抽出が困難である場合があり、そのような場合には差分信号の予測精度が低下してしまうことがある。
 そこで、オーディオ信号では特徴が分かり易い周波数特性を用いて差分信号の予測を行うようにしてもよい。
 そのような場合、差分信号生成部21は、例えば図6に示すように構成される。
 図6に示す差分信号生成部21は、複素FFT(Fast Fourier Transform)処理部81-1乃至複素FFT処理部81-N、DNN82、および複素IFFT(Inverse Fast Fourier Transform)処理部83を有している。
 この例では、入力信号である時間領域の16bit信号の処理対象となる現フレームを含むN個(例えばN=10)の連続するフレームが差分信号生成部21への入力とされる。
 すなわち、図6に示す例では、16bit信号のN個の各フレームの信号が複素FFT処理部81-1乃至複素FFT処理部81-Nに供給される。なお、この場合においても図4に示した例と同様に、N個の連続するフレームには、未来のフレームと過去のフレームが含まれているようにしてもよいし、未来のフレームは含まれず、現フレームと過去のフレームのみが含まれるようにしてもよい。
 複素FFT処理部81-1乃至複素FFT処理部81-Nは、供給された1フレーム分の16bit信号に対して複素FFTを行い、その結果得られた信号をDNN82に供給する。
 このような16bit信号に対する複素FFTにより、16bit信号の周波数軸データ、つまり周波数領域の信号が得られる。なお、以下、複素FFT処理部81-1乃至複素FFT処理部81-Nを特に区別する必要のない場合、単に複素FFT処理部81とも称する。
 DNN82は、周波数領域の16bit信号である周波数軸データと予測係数とに基づいて周波数領域の差分信号を予測する予測部として機能する。
 すなわち、DNN82は、複素FFT処理部81から供給された16bit信号のNフレーム分の周波数軸データと、予め保持している予測係数とに基づいて予測演算を行い、その結果得られた現フレームの周波数領域の差分信号を複素IFFT処理部83に供給する。より詳細には、予測係数に基づく予測により得られた、入力の16bit信号の差分信号に相当する1フレーム分の周波数領域の信号が複素IFFT処理部83へと供給される。
 この場合、DNN82で保持される予測係数は、周波数領域の差分信号を教師データとした機械学習により得られた、16bit信号の周波数領域の信号から、周波数領域の差分信号を予測するための予測係数である。この場合においてもDNN82では、DNN51における場合と同様に、畳み込み処理や、活性化関数による演算処理などの非線形処理等が予測演算として行われる。
 複素IFFT処理部83は、DNN82から供給された周波数領域の差分信号に対して複素IFFTを行い、その結果得られた時間領域の差分信号を合成部22に供給する。
 図6に示す差分信号生成部21では、16bit信号に対して複素FFTが行われ、周波数領域で差分信号の予測が行われる。
 このように複素FFTを行うようにすれば、オーディオ信号では特徴の抽出が容易な周波数領域で予測を行うことができる。しかも、信号の振幅だけでなく位相も考慮されるので、時間波形、すなわち時間領域においても十分な効果を得ることができる。すなわち、時間領域の差分信号として十分な精度の信号を得ることができる。
 差分信号生成部21が図6に示す構成とされる場合においても、信号処理装置11では、基本的には図5を参照して説明した信号生成処理が行われる。
 但し、ステップS11においては、複素FFT処理部81、DNN82、および複素IFFT処理部83により差分信号が生成される。
 すなわち、N個の各複素FFT処理部81は、供給された16bit信号の1フレーム分の信号に対して複素FFTを行い、その結果得られた信号をDNN82に供給する。
 また、DNN82は、N個の複素FFT処理部81から供給された、合計N個のフレームの信号と、予め保持している予測係数とに基づいて予測演算を行い、その結果得られた信号を複素IFFT処理部83に供給する。
 さらに、複素IFFT処理部83は、DNN82から供給された信号に対して複素IFFTを行い、その結果得られた差分信号を合成部22に供給する。したがってステップS12では、合成部22は、複素IFFT処理部83から供給された差分信号と、供給された入力信号としての16bit信号とを合成し、高音質化信号を生成する。
 以上のように周波数領域において差分信号の予測を行う場合でも、より高音質な信号を得ることができる。
〈第3の実施の形態〉
〈差分信号生成部の構成例〉
 第2の実施の形態では、周波数領域で処理が行われるため、第1の実施の形態における場合よりも比較的容易に差分信号の予測を行うことができる。しかし、複素FFTを用いているため、入力信号が非周期性の信号である場合には十分な精度で差分信号を予測することができないこともある。
 そこで、第1の実施の形態のような時間領域での予測と、第2の実施の形態のような周波数領域での予測とを組み合わせ、最終的に1つの差分信号が得られるようにしてもよい。
 そのような場合、差分信号生成部21は、例えば図7に示すように構成される。なお、図7において図4または図6における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
 図7に示す差分信号生成部21は、DNN51、複素FFT処理部81-1乃至複素FFT処理部81-N、DNN82、複素IFFT処理部83、およびDNN111を有している。
 この例では、差分信号生成部21は、DNN51の出力、および複素IFFT処理部83の出力がDNN111へと供給される構成となっている。
 DNN111は、予測係数と、DNN51による予測結果と、DNN82による予測結果とに基づいて、最終的な時間領域の差分信号を予測する予測部として機能する。
 DNN111には、時間領域の学習用差分信号を教師データとした機械学習により生成された、DNN51の出力および複素IFFT処理部83の出力を入力として、時間領域の差分信号を予測するための予測係数が予め保持されている。なお、例えばDNN51で保持される予測係数、DNN82で保持される予測係数、およびDNN111で保持される予測係数は機械学習により同時に生成される。
 DNN111は、予め保持している予測係数と、DNN51から供給された1フレーム分の信号(差分信号)と、複素IFFT処理部83から供給された1フレーム分の信号(差分信号)に基づいて予測演算を行い、その結果得られた信号を、最終的な差分信号の予測結果として合成部22に供給する。すなわち、予測係数に基づく予測により得られた、入力の16bit信号の差分信号に相当する1フレーム分の時間領域の信号がDNN111から合成部22へと出力される。
 なお、DNN51にはMフレーム分の信号が入力され、DNN82にはNフレーム分の信号が入力されるが、これらのDNN51とDNN82に入力される信号のフレーム数は同じ(M=N)であってもよいし、異なっていてもよい。
 差分信号生成部21が図7に示す構成とされる場合においても、信号処理装置11では、基本的には図5を参照して説明した信号生成処理が行われる。
 但し、ステップS11においては、DNN51、複素FFT処理部81-1乃至複素FFT処理部81-N、DNN82、複素IFFT処理部83、およびDNN111により差分信号が生成される。
 すなわち、DNN51は、供給されたMフレーム分の16bit信号と、予め保持している予測係数とに基づいて予測演算を行い、その結果得られた信号をDNN111に供給する。
 また、各複素FFT処理部81は、供給された16bit信号の1フレーム分の信号に対して複素FFTを行い、その結果得られた信号をDNN82に供給する。DNN82は、複素FFT処理部81から供給された、合計N個のフレームの信号と、予め保持している予測係数とに基づいて予測演算を行い、その結果得られた信号を複素IFFT処理部83に供給する。
 複素IFFT処理部83は、DNN82から供給された信号に対して複素IFFTを行い、その結果得られた信号をDNN111に供給する。
 さらにDNN111は、予め保持している予測係数と、DNN51から供給された信号と、複素IFFT処理部83から供給された信号とに基づいて予測演算を行い、その結果得られた現フレームの時間領域の差分信号を合成部22に供給する。したがってステップS12では、合成部22は、DNN111から供給された差分信号と、供給された入力信号としての16bit信号とを合成し、高音質化信号を生成する。
 以上のように時間領域での予測と周波数領域での予測とを組み合わせることで、さらに高音質な高音質化信号を得ることができる。
〈第4の実施の形態〉
〈差分信号生成部の構成例〉
 また、図7に示した差分信号生成部21の構成では、時間領域での予測と周波数領域での予測が行われるため、それらの双方の予測での弱点をカバーすることができるが、時間軸の特徴量、すなわちDNN51での予測結果と、周波数軸の特徴量、すなわちDNN82での予測結果とが同等に扱われる。そのため、最終的な予測結果では、どちらかのウェイトが強く出過ぎることがある。すなわち、最終的な差分信号の予測結果では、時間領域での予測と周波数領域での予測のうちのどちらかの影響が強くなってしまうことがある。
 そこで、時間軸の特徴量と周波数軸の特徴量を一旦分離して、別次元の変数(特徴量)に変換した後、DNNへと入力し、入力の16bit信号の差分信号に相当する1フレーム分の信号を予測するようにしてもよい。これにより、より安定して十分な精度で差分信号を予測することができる。
 このように別次元の特徴量への変換を行う場合、差分信号生成部21は、例えば図8に示すように構成される。なお、図8において図7における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
 図8に示す差分信号生成部21は、DNN51、特徴量抽出部141、変換部142、複素FFT処理部81-1乃至複素FFT処理部81-N、DNN82、特徴量抽出部143、変換部144、およびDNN145を有している。
 図8に示す差分信号生成部21の構成は、複素IFFT処理部83およびDNN111に代えて、新たに特徴量抽出部141、変換部142、特徴量抽出部143、変換部144、およびDNN145を設けた点で図7の差分信号生成部21と異なり、その他の点では図7の差分信号生成部21と同じ構成となっている。
 図8の例では、特徴量抽出部141は、DNN51から供給された信号(時間領域の差分信号の予測結果)から時間軸の特徴量を抽出し、変換部142に供給する。
 なお、特徴量抽出部141では、DNN51の出力そのもの、すなわち例えば0.01bit,-0.02bit,0.2bit,…などといったような、時系列に並ぶ予測したい24bit信号と入力の16bit信号との誤差の特徴をまとめた値をそのまま時間軸の特徴量としてもよい。
 変換部142は、特徴量抽出部141から供給された時間軸の特徴量を、時間軸とは異なる別次元の変数、すなわち時間軸の特徴量とは次元の異なる他の特徴量に変換し、DNN145へと供給する。
 特徴量抽出部143は、DNN82から供給された信号(周波数領域の差分信号の予測結果)から周波数軸の特徴量を抽出し、変換部144に供給する。
 なお、特徴量抽出部143では、DNN82の出力そのもの、すなわち例えば0.01dB/0.03deg,-0.011dB/-0.2deg,…などといったような、各周波数ビンの振幅(dB)と位相(deg)を並べて得られる予測したい24bit信号と入力の16bit信号とのFFT誤差の特徴をまとめた値をそのまま周波数軸の特徴量としてもよい。
 変換部144は、特徴量抽出部143から供給された周波数軸の特徴量を、周波数軸とは異なる別次元の変数、すなわち周波数軸の特徴量とは次元の異なる他の特徴量に変換し、DNN145へと供給する。
 変換部142および変換部144では、供給された特徴量が、例えば1024×1024の秒列など、時間(時間軸)とも周波数(周波数軸)とも異なる他の次元の特徴量に変換される。換言すれば、時間軸や周波数軸の特徴量が他の次元の領域へと射影される。
 このとき、変換部142で得られる特徴量と、変換部144で得られる特徴量とが同じ次元の特徴量となるように特徴量の変換が行われてもよいし、互いに異なる次元の特徴量となるように特徴量の変換が行われてもよい。このような別次元の特徴量への変換はDimension transformなどと呼ばれている。
 DNN145は、予測係数と、変換部142で得られた特徴量と、変換部144で得られた特徴量とに基づいて、最終的な時間領域の差分信号を予測する予測部として機能する。
 DNN145には、時間領域の学習用差分信号を教師データとした機械学習により生成された、変換部142の出力および変換部144の出力を入力として、時間領域の差分信号を予測するための予測係数が予め保持されている。
 なお、例えばDNN51で保持される予測係数、DNN82で保持される予測係数、およびDNN145で保持される予測係数は機械学習により同時に生成される。
 DNN145は、予め保持している予測係数と、変換部142から供給された特徴量と、変換部144から供給された特徴量とに基づいて予測演算を行い、その結果得られた信号を、最終的な差分信号の予測結果として合成部22に供給する。すなわち、予測係数に基づく予測により得られた、入力の16bit信号の差分信号に相当する1フレーム分の時間領域の信号がDNN145から合成部22へと供給される。
 差分信号生成部21が図8に示す構成とされる場合においても、信号処理装置11では、基本的には図5を参照して説明した信号生成処理が行われる。
 但し、ステップS11においては、DNN51、特徴量抽出部141、変換部142、複素FFT処理部81-1乃至複素FFT処理部81-N、DNN82、特徴量抽出部143、変換部144、およびDNN145により差分信号が生成される。
 すなわち、DNN51は、供給されたMフレーム分の16bit信号と、予め保持している予測係数とに基づいて予測演算を行い、その結果得られた信号を特徴量抽出部141に供給する。
 特徴量抽出部141は、DNN51から供給された信号から時間軸の特徴量を抽出し、変換部142に供給する。変換部142は、特徴量抽出部141から供給された時間軸の特徴量を時間軸とは異なる別次元の特徴量へと変換し、DNN145に供給する。
 また、各複素FFT処理部81は、供給された16bit信号の1フレーム分の信号に対して複素FFTを行い、その結果得られた信号をDNN82に供給する。DNN82は、複素FFT処理部81から供給された、合計N個のフレームの信号と、予め保持している予測係数とに基づいて予測演算を行い、その結果得られた信号を特徴量抽出部143へと供給する。
 特徴量抽出部143は、DNN82から供給された信号から周波数軸の特徴量を抽出し、変換部144に供給する。変換部144は、特徴量抽出部143から供給された周波数軸の特徴量を周波数軸とは異なる別次元の特徴量へと変換し、DNN145に供給する。
 さらにDNN145は、予め保持している予測係数と、変換部142から供給された特徴量と、変換部144から供給された特徴量とに基づいて予測演算を行い、その結果得られた現フレームの時間領域の差分信号を合成部22に供給する。したがってステップS12では、合成部22は、DNN145から供給された差分信号と、供給された入力信号としての16bit信号とを合成し、高音質化信号を生成する。
 以上のように時間軸の特徴量と周波数軸の特徴量とを別次元の特徴量に変換し、それらの特徴量に基づいて最終的な差分信号を予測することで、より安定して十分な精度の差分信号を得ることができ、その結果、より高音質な高音質化信号を得ることができる。
〈コンピュータの構成例〉
 ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
 図9は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
 コンピュータにおいて、CPU(Central Processing Unit)501,ROM(Read Only Memory)502,RAM(Random Access Memory)503は、バス504により相互に接続されている。
 バス504には、さらに、入出力インターフェース505が接続されている。入出力インターフェース505には、入力部506、出力部507、記録部508、通信部509、及びドライブ510が接続されている。
 入力部506は、キーボード、マウス、マイクロホン、撮像素子などよりなる。出力部507は、ディスプレイ、スピーカなどよりなる。記録部508は、ハードディスクや不揮発性のメモリなどよりなる。通信部509は、ネットワークインターフェースなどよりなる。ドライブ510は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体511を駆動する。
 以上のように構成されるコンピュータでは、CPU501が、例えば、記録部508に記録されているプログラムを、入出力インターフェース505及びバス504を介して、RAM503にロードして実行することにより、上述した一連の処理が行われる。
 コンピュータ(CPU501)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体511に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
 コンピュータでは、プログラムは、リムーバブル記録媒体511をドライブ510に装着することにより、入出力インターフェース505を介して、記録部508にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部509で受信し、記録部508にインストールすることができる。その他、プログラムは、ROM502や記録部508に、あらかじめインストールしておくことができる。
 なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
 また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
 例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
 また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、本技術は、以下の構成とすることも可能である。
(1)
 原音信号を再量子化して得られた学習用再量子化信号と前記原音信号との差分信号を教師データとした学習により得られた予測係数、および入力信号に基づいて、前記入力信号に対応する前記差分信号を生成する差分信号生成部と、
 生成された前記差分信号および前記入力信号を合成する合成部と
 を備える信号処理装置。
(2)
 前記学習は機械学習である
 (1)に記載の信号処理装置。
(3)
 前記入力信号は、前記学習用再量子化信号と同じ量子化ビット数の信号である
 (1)または(2)に記載の信号処理装置。
(4)
 前記差分信号生成部は、前記予測係数と前記入力信号とに基づいて、時間領域の前記差分信号を予測する予測部を有する
 (1)乃至(3)の何れか一項に記載の信号処理装置。
(5)
 前記予測部はDNNにより構成される
 (4)に記載の信号処理装置。
(6)
 前記差分信号生成部は、
  前記入力信号に対して複素FFTを行う複素FFT処理部と、
  前記予測係数と、前記複素FFTにより得られた信号とに基づいて、周波数領域の前記差分信号を予測する予測部と
 を有する
 (1)乃至(3)の何れか一項に記載の信号処理装置。
(7)
 前記予測部はDNNにより構成される
 (6)に記載の信号処理装置。
(8)
 前記差分信号生成部は、
  前記予測係数と前記入力信号とに基づいて、時間領域の前記差分信号を予測する第1の予測部と、
  前記入力信号に対して複素FFTを行う複素FFT処理部と、
  前記予測係数と、前記複素FFTにより得られた信号とに基づいて、周波数領域の前記差分信号を予測する第2の予測部と、
 前記予測係数、前記第1の予測部による予測結果、および前記第2の予測部による予測結果に基づいて、最終的な前記差分信号を予測する第3の予測部と
 を有する
 (1)乃至(3)の何れか一項に記載の信号処理装置。
(9)
 前記差分信号生成部は、前記第2の予測部による予測結果に対して複素IFFTを行う複素IFFT処理部をさらに有し、
 前記第3の予測部は、前記予測係数、前記第1の予測部による予測結果、および前記複素IFFTにより得られた信号に基づいて、前記最終的な前記差分信号を予測する
 (8)に記載の信号処理装置。
(10)
 前記差分信号生成部は、
  前記第1の予測部による予測結果から得られた第1の特徴量を、前記第1の特徴量とは次元の異なる第2の特徴量へと変換する第1の変換部と、
  前記第2の予測部による予測結果から得られた第3の特徴量を、前記第3の特徴量とは次元の異なる第4の特徴量へと変換する第2の変換部と
 をさらに有し、
 前記第3の予測部は、前記予測係数、前記第2の特徴量、および前記第4の特徴量に基づいて、前記最終的な前記差分信号を予測する
 (8)に記載の信号処理装置。
(11)
 前記第1の予測部、前記第2の予測部、および前記第3の予測部はDNNにより構成される
 (8)乃至(10)の何れか一項に記載の信号処理装置。
(12)
 信号処理装置が、
 原音信号を再量子化して得られた学習用再量子化信号と前記原音信号との差分信号を教師データとした学習により得られた予測係数、および入力信号に基づいて、前記入力信号に対応する前記差分信号を生成し、
 生成された前記差分信号および前記入力信号を合成する
 信号処理方法。
(13)
 原音信号を再量子化して得られた学習用再量子化信号と前記原音信号との差分信号を教師データとした学習により得られた予測係数、および入力信号に基づいて、前記入力信号に対応する前記差分信号を生成し、
 生成された前記差分信号および前記入力信号を合成する
 ステップを含む処理をコンピュータに実行させるプログラム。
 11 信号処理装置, 21 差分信号生成部, 22 合成部, 51 DNN, 81-1乃至81-N,81 複素FFT処理部, 82 DNN, 83 複素IFFT処理部, 111 DNN, 141 特徴量抽出部, 142 変換部, 143 特徴量抽出部, 144 変換部, 145 DNN

Claims (13)

  1.  原音信号を再量子化して得られた学習用再量子化信号と前記原音信号との差分信号を教師データとした学習により得られた予測係数、および入力信号に基づいて、前記入力信号に対応する前記差分信号を生成する差分信号生成部と、
     生成された前記差分信号および前記入力信号を合成する合成部と
     を備える信号処理装置。
  2.  前記学習は機械学習である
     請求項1に記載の信号処理装置。
  3.  前記入力信号は、前記学習用再量子化信号と同じ量子化ビット数の信号である
     請求項1に記載の信号処理装置。
  4.  前記差分信号生成部は、前記予測係数と前記入力信号とに基づいて、時間領域の前記差分信号を予測する予測部を有する
     請求項1に記載の信号処理装置。
  5.  前記予測部はDNNにより構成される
     請求項4に記載の信号処理装置。
  6.  前記差分信号生成部は、
      前記入力信号に対して複素FFTを行う複素FFT処理部と、
      前記予測係数と、前記複素FFTにより得られた信号とに基づいて、周波数領域の前記差分信号を予測する予測部と
     を有する
     請求項1に記載の信号処理装置。
  7.  前記予測部はDNNにより構成される
     請求項6に記載の信号処理装置。
  8.  前記差分信号生成部は、
      前記予測係数と前記入力信号とに基づいて、時間領域の前記差分信号を予測する第1の予測部と、
      前記入力信号に対して複素FFTを行う複素FFT処理部と、
      前記予測係数と、前記複素FFTにより得られた信号とに基づいて、周波数領域の前記差分信号を予測する第2の予測部と、
     前記予測係数、前記第1の予測部による予測結果、および前記第2の予測部による予測結果に基づいて、最終的な前記差分信号を予測する第3の予測部と
     を有する
     請求項1に記載の信号処理装置。
  9.  前記差分信号生成部は、前記第2の予測部による予測結果に対して複素IFFTを行う複素IFFT処理部をさらに有し、
     前記第3の予測部は、前記予測係数、前記第1の予測部による予測結果、および前記複素IFFTにより得られた信号に基づいて、前記最終的な前記差分信号を予測する
     請求項8に記載の信号処理装置。
  10.  前記差分信号生成部は、
      前記第1の予測部による予測結果から得られた第1の特徴量を、前記第1の特徴量とは次元の異なる第2の特徴量へと変換する第1の変換部と、
      前記第2の予測部による予測結果から得られた第3の特徴量を、前記第3の特徴量とは次元の異なる第4の特徴量へと変換する第2の変換部と
     をさらに有し、
     前記第3の予測部は、前記予測係数、前記第2の特徴量、および前記第4の特徴量に基づいて、前記最終的な前記差分信号を予測する
     請求項8に記載の信号処理装置。
  11.  前記第1の予測部、前記第2の予測部、および前記第3の予測部はDNNにより構成される
     請求項8に記載の信号処理装置。
  12.  信号処理装置が、
     原音信号を再量子化して得られた学習用再量子化信号と前記原音信号との差分信号を教師データとした学習により得られた予測係数、および入力信号に基づいて、前記入力信号に対応する前記差分信号を生成し、
     生成された前記差分信号および前記入力信号を合成する
     信号処理方法。
  13.  原音信号を再量子化して得られた学習用再量子化信号と前記原音信号との差分信号を教師データとした学習により得られた予測係数、および入力信号に基づいて、前記入力信号に対応する前記差分信号を生成し、
     生成された前記差分信号および前記入力信号を合成する
     ステップを含む処理をコンピュータに実行させるプログラム。
PCT/JP2021/005239 2020-02-25 2021-02-12 信号処理装置および方法、並びにプログラム WO2021172053A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202180015240.7A CN115136236A (zh) 2020-02-25 2021-02-12 信号处理装置、信号处理方法和程序
US17/904,308 US20230067510A1 (en) 2020-02-25 2021-02-12 Signal processing apparatus, signal processing method, and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020029745 2020-02-25
JP2020-029745 2020-02-25

Publications (1)

Publication Number Publication Date
WO2021172053A1 true WO2021172053A1 (ja) 2021-09-02

Family

ID=77491470

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/005239 WO2021172053A1 (ja) 2020-02-25 2021-02-12 信号処理装置および方法、並びにプログラム

Country Status (3)

Country Link
US (1) US20230067510A1 (ja)
CN (1) CN115136236A (ja)
WO (1) WO2021172053A1 (ja)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003264466A (ja) * 2002-03-07 2003-09-19 Sony Corp 復号装置および復号方法、学習装置および学習方法、並びにプログラムおよび記録媒体
JP2013528836A (ja) * 2010-06-01 2013-07-11 クゥアルコム・インコーポレイテッド 広帯域音声コーディングのためのシステム、方法、装置、およびコンピュータプログラム製品
JP2014508322A (ja) * 2011-02-08 2014-04-03 エルジー エレクトロニクス インコーポレイティド 帯域拡張方法及び装置
JP2016528539A (ja) * 2013-07-12 2016-09-15 オランジュ 音声周波数信号復号器における周波数帯域拡張のための最適化スケール因子
US20180040336A1 (en) * 2016-08-03 2018-02-08 Dolby Laboratories Licensing Corporation Blind Bandwidth Extension using K-Means and a Support Vector Machine
WO2019083055A1 (ko) * 2017-10-24 2019-05-02 삼성전자 주식회사 기계학습을 이용한 오디오 복원 방법 및 장치
WO2020179472A1 (ja) * 2019-03-05 2020-09-10 ソニー株式会社 信号処理装置および方法、並びにプログラム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003264466A (ja) * 2002-03-07 2003-09-19 Sony Corp 復号装置および復号方法、学習装置および学習方法、並びにプログラムおよび記録媒体
JP2013528836A (ja) * 2010-06-01 2013-07-11 クゥアルコム・インコーポレイテッド 広帯域音声コーディングのためのシステム、方法、装置、およびコンピュータプログラム製品
JP2014508322A (ja) * 2011-02-08 2014-04-03 エルジー エレクトロニクス インコーポレイティド 帯域拡張方法及び装置
JP2016528539A (ja) * 2013-07-12 2016-09-15 オランジュ 音声周波数信号復号器における周波数帯域拡張のための最適化スケール因子
US20180040336A1 (en) * 2016-08-03 2018-02-08 Dolby Laboratories Licensing Corporation Blind Bandwidth Extension using K-Means and a Support Vector Machine
WO2019083055A1 (ko) * 2017-10-24 2019-05-02 삼성전자 주식회사 기계학습을 이용한 오디오 복원 방법 및 장치
WO2020179472A1 (ja) * 2019-03-05 2020-09-10 ソニー株式会社 信号処理装置および方法、並びにプログラム

Also Published As

Publication number Publication date
CN115136236A (zh) 2022-09-30
US20230067510A1 (en) 2023-03-02

Similar Documents

Publication Publication Date Title
Farina Simultaneous measurement of impulse response and distortion with a swept-sine technique
JP4650662B2 (ja) 信号処理装置および信号処理方法、プログラム、並びに記録媒体
EP1741313A2 (en) A method and system for sound source separation
JP3810257B2 (ja) 音声帯域拡張装置及び音声帯域拡張方法
CN101740034A (zh) 一种实现声音变速不变调方法及变速变调系统
JPH07326140A (ja) 信号処理方法、信号処理装置、及び信号記録媒体
WO2002050814A1 (fr) Systeme et procede d'interpolation de signaux
US7680665B2 (en) Device and method for interpolating frequency components of signal adaptively
JP5545976B2 (ja) デジタルデータ処理装置
WO2021172053A1 (ja) 信号処理装置および方法、並びにプログラム
JP2002189498A (ja) デジタル音声処理装置及びコンピュータプログラム記録媒体
CN114424146A (zh) 振动控制装置、振动控制程序以及振动控制方法
US10587983B1 (en) Methods and systems for adjusting clarity of digitized audio signals
JP2015161774A (ja) 音合成方法及び音合成装置
JP2008072600A (ja) 音響信号処理装置、音響信号処理プログラム、音響信号処理方法
JP4224807B2 (ja) 音声信号処理装置及び音声信号処理コンピュータプログラム
WO2020179472A1 (ja) 信号処理装置および方法、並びにプログラム
JP4645869B2 (ja) ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体
CN113348508A (zh) 电子设备、方法和计算机程序
JP4538705B2 (ja) ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体
JP6409417B2 (ja) 音響処理装置
JP6232710B2 (ja) 録音音声の明瞭化装置
JPH07193502A (ja) データー変換装置
Babu Reduction of impulsive noise from speech and audio signals by using sd-rom algorithm
KR950012362B1 (ko) 위상잡음 첨가에 의한 고음질 음성합성장치

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21759652

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21759652

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP