WO2023286326A1 - 情報処理装置、情報処理方法およびプログラム - Google Patents

情報処理装置、情報処理方法およびプログラム Download PDF

Info

Publication number
WO2023286326A1
WO2023286326A1 PCT/JP2022/008820 JP2022008820W WO2023286326A1 WO 2023286326 A1 WO2023286326 A1 WO 2023286326A1 JP 2022008820 W JP2022008820 W JP 2022008820W WO 2023286326 A1 WO2023286326 A1 WO 2023286326A1
Authority
WO
WIPO (PCT)
Prior art keywords
information processing
filtering
input signal
sound source
filter
Prior art date
Application number
PCT/JP2022/008820
Other languages
English (en)
French (fr)
Inventor
慶一 大迫
丈 松井
寛晃 林
隆郎 福井
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Priority to EP22841676.4A priority Critical patent/EP4373134A1/en
Priority to CN202280048095.7A priority patent/CN117652159A/zh
Publication of WO2023286326A1 publication Critical patent/WO2023286326A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/04Circuits for transducers, loudspeakers or microphones for correcting frequency response
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G5/00Tone control or bandwidth control in amplifiers
    • H03G5/16Automatic control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/307Frequency adjustment, e.g. tone control

Definitions

  • the present disclosure relates to an information processing device, an information processing method, and a program.
  • the gunshot sounds can be emphasized and made easier to hear.
  • noise other than the desired sound such as air-conditioning sound or electrical noise may interfere with listening to the desired sound.
  • the noise can be removed by attenuating the frequency band of the noise, making it easier to hear.
  • a sound control function such as an equalizer is appropriately adjusted manually or by presetting according to the sound that the user wants to hear or does not want to hear.
  • this adjustment is complicated, and it is difficult to operate without a sense of pitch.
  • Patent Document 1 proposes a technique for automatically controlling sound (specifically, a technique for enhancing ambient sound and acoustic noise cancellation based on context).
  • the technique disclosed in Patent Document 1 adds an amplified or attenuated ambient signal to an acoustic noise canceling signal, and is intended for noise canceling headphones.
  • this processing is realized by a combination of acoustic noise cancellation technology and a filter that modulates the frequency of the ambient sound.
  • Patent Literature 1 requires a microphone to acquire ambient sounds, and has the problem of increasing the scale and cost of hardware.
  • signal processing such as a predetermined equalizer on input (playback) signals of games, voice calls, and the like. Therefore, the sound cannot be controlled according to the input signal.
  • One object of the present disclosure is to propose an information processing apparatus, an information processing method, and a program capable of performing processing according to an input signal while suppressing an increase in hardware scale and cost.
  • the present disclosure for example, a filtering unit for filtering an input signal; a filter setting unit for setting the filtering, which controls the sound of the target sound source type in the input signal and is determined using an estimation result obtained from the input signal by an estimation algorithm. It is an information processing device.
  • the filtering settings of the filter processing unit for filtering the input signal, which control the sound of the target sound source type in the input signal, are determined using estimation results obtained from the input signal by an estimation algorithm. It is an information processing method for performing processing.
  • the filtering settings of the filter processing unit for filtering the input signal are determined using estimation results obtained from the input signal by an estimation algorithm. It is a program that causes a computer to execute a process.
  • FIG. 1 is a diagram showing a configuration example of a commonly used equalizer.
  • FIG. 2 is a diagram showing a display example of a sound quality adjustment setting instruction screen.
  • FIG. 3 is a diagram showing a display example of the updated equalizer.
  • FIG. 4 is a diagram illustrating a configuration example of functional blocks of the information processing apparatus.
  • FIG. 5 is a diagram showing an example of sound source separation by a neural network.
  • FIG. 6 is a diagram illustrating a hardware configuration example of an information processing apparatus.
  • FIG. 7 is a flowchart illustrating an example of processing by the information processing device.
  • FIG. 8 is a flowchart illustrating an example of processing for calculating filter coefficients.
  • FIG. 9 is a diagram showing a configuration example of another functional block of the information processing apparatus.
  • FIG. 10 is a diagram showing an example of filter coefficient calculation by a neural network.
  • FIG. 11 is a diagram showing a configuration example of another functional block of the information processing apparatus.
  • FIG. 12
  • FIG. 1 shows a configuration example of a commonly used equalizer.
  • the user can adjust the gain (specifically, the gain value) of each frequency band of the equalizer by operating a knob or the like depending on the sound that the user wants to hear or does not want to hear.
  • IIR Infinite Impulse Response
  • FIR Finite Impulse Response
  • Non-Patent Document 1 there is known a technique of learning and constructing a neural network that separates a predetermined target sound, and realizing sound source separation using the trained neural network. Using this technology, any and all sounds can be separated from the input signal, so that the desired sound can be heard directly.
  • AI Artificial Intelligence
  • Non-Patent Document 1 Stefan Uhlich others. “Improving music source separation based on deep neural networks through data augmentation and network blending.” 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2017). 2017.
  • Non-Patent Document 1 requires buffering of the input signal for several tens of milliseconds to several hundred milliseconds due to the structure of the neural network, which causes a delay in the output signal. means to Therefore, for applications such as those described above in which real-time performance is important, this delay poses a problem, making it impossible to use the sound source separation technique using a neural network.
  • FIG. 2 shows a display example of a sound quality adjustment setting instruction screen.
  • the sound quality adjustment function is incorporated into the screen during the game. This makes it possible to adjust the sound quality during the game, for example.
  • the game screen 2 is displayed on the left side of the display screen 1, and the equalizer 3 is displayed on the right side.
  • the equalizer 3 is the commonly used one mentioned above.
  • the user can adjust the sound quality of the game output signal by operating the equalizer 3 .
  • the user adjusts the gain (Gain value) of each frequency band of the equalizer 3 according to the sound that the user wants to hear or does not want to hear by operating a knob (operation to move the position of the knob). can be done.
  • a user instruction input unit 4 (a portion labeled "Auto Equalizer") for automatically adjusting the equalizer 3 (specifically, the internal frequency modulation filter) is displayed.
  • the part indicated as “Gain” is the gain setting section 41 that instructs the user to set the gain.
  • the gain setting unit 41 allows the user to specify whether to amplify or attenuate the sound of the target sound source type specified by "Sound type” to be described later. For example, in “Sound type", the user selects “Up (amplification)” when specifying the sound that the user wants to hear, and selects “Down (attenuation)” when specifying the sound that the user does not want to hear.
  • the gain setting unit 41 is not limited to allowing the user to simply select amplification or attenuation, but allows the user to set the level of amplification or attenuation, such as + ⁇ dB or ⁇ dB (" ⁇ " is a predetermined numerical value). may be
  • the part labeled "Sound type” is the target sound source specifying section 42 that allows the user to specify the target sound source type.
  • the target sound source type here is, for example, the type of sound that the user wants to control.
  • the target sound source designation unit 42 allows the user to select the type of sound that the user wants to hear or that he or she does not want to hear. For example, if you want to amplify the sound of "Footstep” or "Gunshot” in the game, or if you want to attenuate "Wind noise", various categories can be targeted. can be prepared as One or more of "Sound types" can be selected.
  • the part labeled "Update timing” is the coefficient update setting section 43 that allows the user to specify the coefficient update settings.
  • the coefficient update setting unit 43 allows the user to specify the timing (time, interval, etc.) for automatically adjusting the sound quality. For example, when the "Auto" mode is selected, the equalizer 3 is adjusted during a period in which no sound is produced in the game or at the moment when the scene changes. As a result, the equalizer 3 can be changed without discomfort for the game sound that the user concentrates on listening to, so that the sense of immersion is not lost.
  • the equalizer 3 is updated immediately after specifying the above-mentioned "Gain” or “Sound type” (after changing the setting). That is, it is possible to immediately change the sound quality according to the user's operation. Also, when the "Manual" mode is selected, the equalizer 3 is periodically updated according to the designated interval time. This makes it possible to meet the user's desire to keep updating the equalizer 3 at all times. For example, a numerical value such as every 0.5 seconds or every 2 seconds can be set.
  • Various setting information specified by the user instruction input unit 4 is stored in a storage area in a readable manner, for example.
  • an audio signal of a game playback sound is used as an input signal, and signal processing (specifically, filtering) is performed on the input signal according to settings specified by the user instruction input unit 4. and make its output signal audible to the user.
  • signal processing specifically, filtering
  • an image showing the difference before and after the update is displayed on the display device.
  • the gains and knob positions that have changed for each frequency band are displayed in different colors so that they can be discriminated.
  • the difference in color is represented by the shade.
  • light-colored knobs represent the knob positions before updating
  • dark-colored knobs represent the current knob positions after updating. This allows the user to easily grasp that the equalizer has changed (including the content of the change). It should be noted that a notation indicating the setting such as "amplify footsteps" may be added so that the current equalizer setting can be understood at a glance.
  • FIG. 4 shows a configuration example of functional blocks of an information processing apparatus (information processing apparatus 10) according to the first embodiment.
  • the information processing apparatus 10 is, for example, a signal processing circuit (specifically, a reproduction signal) that can be applied to the applications described above.
  • the information processing device 10 performs signal processing on an input signal (specifically, an audio signal) to control sound.
  • the audio signal may be obtained, for example, from applications such as games, voice calls (eg, web conferencing systems), etc., as described above.
  • the information processing device 10 handles audio signals from personal computers, smartphones, tablet terminals, game machines, speaker devices, headphones, earphones, smart home appliances, televisions, players, recorders, telephones, in-vehicle devices, monitoring devices, medical devices, and the like. It can be configured with various electronic devices (specifically, computer devices).
  • the information processing device 10 includes a filter processing unit 11, a sound source separation coefficient selection unit 12, a sound source separation unit 13, a frequency characteristic estimation unit 14, a filter coefficient calculation unit 15, a coefficient update unit 16, and a screen display update unit 17. , performs signal processing according to the settings described above.
  • the filter processing unit 11 filters and outputs an input signal (specifically, an input audio signal). Thereby, for example, the frequency characteristic of the output signal (specifically, the audio signal after filtering) is changed.
  • the filter processing unit 11 has a filter circuit (frequency modulation filter), and filtering is performed using this filter circuit.
  • this filter circuit can be implemented with an IIR filter or an FIR filter as described above. That is, filtering can be done using IIR filters or FIR filters.
  • the filter circuit that performs filtering is not limited to this, and for example, performs FFT (Fast Fourier Transform), amplifies or attenuates the gain of the amplitude spectrum of the signal converted to the frequency domain, and performs IFFT (Inverse Fast Fourier Transform). It is also possible to perform processing to return to the time domain waveform.
  • FFT Fast Fourier Transform
  • IFFT Inverse Fast Fourier Transform
  • an IIR filter is assumed to perform low-delay processing.
  • filtering can be performed in real time, and can be applied without problems to applications where real-time performance is important, that is, real-time processing.
  • real-time processing is possible with filters other than the IIR filter as long as low-delay processing that the user cannot experience is possible.
  • the initial value of the filtering setting (specifically, the filter coefficient) may have a flat frequency characteristic, that is, have the property of outputting the input signal as it is.
  • the coefficients used last time may be held and used again with the same settings. In this way, an appropriately determined initial value can be used for the filtering setting.
  • the output signal output from the filter processing unit 11 is output to other signal processing modules connected in the subsequent stage, output (reproduction) devices such as speakers and headphones, and the like.
  • the sound source separation coefficient selection unit 12 and the sound source separation unit 13 perform processing related to sound source separation.
  • the sound source separation coefficient selection unit 12 selects a sound source separation coefficient based on the set target sound source type.
  • the target sound source type is, for example, the one specified as described above (sound category such as “Footstep” or “Gunshot”), and is input to the sound source separation coefficient selection unit 12 as character information or numerical parameters. .
  • the sound source separation coefficient selection unit 12 stores a group of coefficients necessary for sound source separation processing in the sound source separation unit 13 in advance in a storage area such as a HDD (Hard Disk Drive), and selects a specified A corresponding coefficient is loaded based on the target sound source type and sent to the sound source separation unit 13 .
  • this coefficient group must be prepared for the number of categories of sounds that are desired to be separated and controlled by sound source separation. In other words, if only this sound source separation coefficient is prepared, all kinds of sounds can be separated and controlled. Therefore, when a new sound category appears, its coefficient can be added and recorded here.
  • the sound source separation unit 13 executes sound source separation processing.
  • An estimation algorithm for sound source separation is used for this sound source separation processing. Specifically, this estimation algorithm estimates and separates a sound of a designated target sound source type from an input signal (specifically, an input audio signal), and outputs the separated sound as an estimation result.
  • an estimation algorithm for example, a technique based on a neural network (specifically, the technique disclosed in Non-Patent Document 1 mentioned above) can be adopted. For example, when learning the target sound source type "Footstep" by a neural network, a large number of input signals (for example, 100,000 to 1,000,000) for learning "Footstep" are used, and from each of the input signals, "Footstep” Learn to separate sounds.
  • the parameters of the neural network after learning are stored as coefficients (coefficients loaded by the sound source separation coefficient selection unit 12) necessary for the sound source separation unit 13 to separate the sound source of "Footstep".
  • Fig. 5 shows an example of sound source separation based on a neural network.
  • an input signal including a signal to be separated is frequency-converted, and its amplitude spectrum is used as an input signal vector.
  • This vector size depends on the transform length of the frequency transform, so it is 1024 or 2048, for example.
  • This vector is input to the neural network, and an output signal vector is obtained as an estimation result through internal processing using coefficients sent from the sound source separation coefficient selector 12 .
  • This output signal vector is the amplitude spectrum of the signal after separation.
  • the amplitude spectrum of the separated signal is obtained for each frame.
  • the amplitude spectrum of this separated signal that is, the estimation result by the estimation algorithm is output to the frequency characteristic estimating section 14 shown in FIG.
  • sound source separation based on neural networks can separate the desired sound with high accuracy, although there is a delay of several tens to hundreds of milliseconds.
  • the sound of the target sound source type included in the input signal may have variable frequency characteristics. In other words, it is possible to accurately separate the sound of the target sound source type that can change according to the input signal. For example, when "Footstep" is specified as the target sound source type, footsteps can be appropriately separated even when footsteps on asphalt are changed to footsteps on grass.
  • the estimation algorithm is not limited to one using a method based on a neural network as shown in Non-Patent Document 1. Any technique for extracting the sound of the target sound source type may be used, for example, non-negative matrix factorization (NMF) may be used. Although a delay may similarly occur when using other estimation algorithms as described above, the desired sound can be separated with high accuracy.
  • NMF non-negative matrix factorization
  • the frequency characteristic estimation unit 14 shown in FIG. 4 estimates frequency characteristics. For this estimation, the amplitude spectrum of the separated signal input from the sound source separation unit 13, that is, the amplitude spectrum of the sound of the category specified in advance by the user is used. Specifically, since the amplitude spectrum is sequentially input for each frame, the frequency characteristics of the desired sound can be estimated by, for example, averaging them or calculating a weighted sum with a time constant. Here, there may be both a section where the desired sound is sounding and a silent section, such as "Footstep". In that case, if silent intervals are included in the average calculation, an error may occur in the estimated frequency. Therefore, it is possible to determine that intervals below a certain threshold are silent intervals and exclude them from the average calculation. Note that the frequency characteristic estimator 14 is not limited to this, and may estimate the frequency characteristic by other methods.
  • the filter coefficient calculation unit 15 calculates filter coefficients used by the filter processing unit 11 . Specifically, the filter coefficient calculator 15 first reads the gain setting set by the user. As described above, this can be set by setting whether to amplify or attenuate the sound of the specified target sound source type, or by setting a specific numerical value such as + ⁇ dB or - ⁇ dB. In this manner, the filter coefficient calculator 15 controls the filter coefficients of the sound of the target sound source type included in the input signal. Specifically, the filter coefficient calculator 15 determines a target filter characteristic based on the frequency characteristic estimated by the frequency characteristic estimator 14 and the gain setting.
  • coefficients may be calculated in accordance with the format used in the filter processing unit 11 (for example, IIR filter, FIR filter, etc.). This calculation may use any algorithm, such as a classical technique derived from a transfer function or a technique based on numerical optimization. Specifically, the filter coefficients calculated in this way appropriately amplify or attenuate each frequency band of the input signal so that the sound of the target sound source type is amplified or attenuated. The calculated coefficients are output to the coefficient updating unit 16 and the screen display updating unit 17 .
  • the format used in the filter processing unit 11 for example, IIR filter, FIR filter, etc.
  • the coefficient update unit 16 is a filter setting unit that sets filtering in the filter processing unit 11 . Specifically, the coefficient update unit 16 sets the filter coefficients in the filter processing unit 11 to the coefficients input from the filter coefficient calculation unit 15 . That is, as described above, it is assumed that the sound of the target sound source type in the input signal is controlled and determined using the estimation result obtained from the input signal by the estimation algorithm.
  • the coefficient update unit 16 controls the timing of updating the filter coefficients based on the coefficient update settings set by the user.
  • the coefficient updating unit 16 detects timing based on, for example, an input signal (specifically, an input audio signal).
  • an input signal specifically, an input audio signal.
  • the filter processing unit 11 continues to filter and output the input signal at any time with a low delay of several hundred microseconds to several milliseconds. That is, the filtering in the filter processing unit 11 is at least processing with a lower delay than the estimation algorithm (specifically, real-time processing). In other words, the user does not perceive any delay and hears the output sound of the equalizer as in the conventional case. In this way, by updating only the filter coefficients, it is possible to obtain high-precision filtering that controls (specifically, amplifies or attenuates frequency characteristics) the sound specified by the target sound source type while maintaining low delay. can.
  • the coefficient update unit 16 when the coefficient update setting is "None", the coefficient update unit 16 allows the user to set the coefficient (specifically, the above-described "Gain” or “Sound type” setting) is changed and the filter coefficient is updated at the timing when a new filtering instruction is received. Further, when the coefficient update setting is “Manual”, the coefficient update unit 16 updates the filter coefficients at regular intervals according to user settings or the like. Further, when the coefficient update setting is "Auto”, the coefficient update unit 16 updates the filter coefficients at a timing that does not make the user feel uncomfortable.
  • Whether or not it is a timing that does not cause discomfort is determined using predetermined determination information (for example, audio signal, video signal, etc.) that indicates the sound switching timing.
  • predetermined determination information for example, audio signal, video signal, etc.
  • an input signal can be monitored as determination information, and can be changed when the volume (amplitude value) of the input signal becomes smaller than a certain threshold.
  • it if it is a game or music, it can be changed at the change of sound when the scene changes. This makes it possible to avoid sudden changes in sound due to changes in filter coefficients.
  • the coefficient update unit 16 outputs information indicating the update to the screen display update unit 17 .
  • the screen display updating unit 17 updates the parameters such as the equalizer 3 and filter setting that are already displayed to the latest ones. Specifically, when the filter coefficient is updated by the coefficient updating unit 16, that is, when information indicating the update is input from the coefficient updating unit 16, the screen display updating unit 17 updates the difference before and after the update. Output the information to be displayed to the display device. Specifically, the screen display update unit 17 causes the display device to display an image of the user-operable equalizer 3 including information representing the difference, as shown in FIG. Note that the information representing this difference is not limited to that shown in FIG. 3, and may be output to a reproduction device other than the display device (specifically, output as sound to a speaker or the like), for example.
  • FIG. 6 shows a hardware configuration example of the information processing device 10 .
  • the information processing apparatus 10 has a control section 101, a storage section 102, an input section 103, a communication section 104 and an output section 105 interconnected by a bus.
  • the control unit 101 is composed of, for example, a CPU (Central Processing Unit), RAM (Random Access Memory) and ROM (Read Only Memory).
  • the ROM stores programs and the like that are read and operated by the CPU.
  • the RAM is used as work memory for the CPU.
  • the CPU controls the entire information processing apparatus 10 by executing various processes and issuing commands according to programs stored in the ROM.
  • the storage unit 102 is, for example, a storage medium configured by an HDD, an SSD (Solid State Drive), a semiconductor memory, or the like, and stores content data such as image data, video data, audio data, and text data, as well as programs (for example, application) and other data.
  • content data such as image data, video data, audio data, and text data, as well as programs (for example, application) and other data.
  • the input unit 103 is a device for inputting various types of information to the information processing device 10 .
  • the control unit 101 performs various processes corresponding to the input information.
  • the input unit 103 may be a mouse and keyboard, a microphone, various sensors, a touch panel, a touch screen integrated with a monitor, physical buttons, and the like.
  • Various types of information may be input to the information processing apparatus 10 via the communication unit 104, which will be described later.
  • the communication unit 104 is a communication module that communicates with other devices and the Internet according to a predetermined communication standard.
  • Communication methods include wireless LAN (Local Area Network) such as Wi-Fi (Wireless Fidelity), LTE (Long Term Evolution), 5G (5th generation mobile communication system), broadband, Bluetooth (registered trademark), etc. .
  • Wi-Fi Wireless Fidelity
  • LTE Long Term Evolution
  • 5G Fifth Generation mobile communication system
  • Bluetooth registered trademark
  • the output unit 105 is a device for outputting various information from the information processing device 10 .
  • the output unit 105 includes, for example, a display (display device) for displaying images and videos, and an output device for outputting sound, such as a speaker.
  • Various types of information may be output from the information processing apparatus 10 via the communication unit 104 .
  • the control unit 101 performs various processes by reading and executing programs (eg, applications) stored in the storage unit 102, for example. That is, the information processing device 10 has functions as a computer.
  • programs eg, applications
  • the program does not have to be stored in the storage unit 102.
  • the information processing apparatus 10 may read and execute a program stored in a readable storage medium.
  • the storage medium include optical discs, magnetic discs, semiconductor memories, HDDs, etc. that can be detachably attached to the information processing apparatus 10 .
  • programs (eg, applications) and data are stored in a device (eg, cloud storage) connected to a network such as the Internet, and the information processing device 10 reads out the programs and data from there and executes them. good too.
  • the program may be, for example, a plug-in program that adds part or all of the processing to an existing application.
  • the program may be one that executes all of the applications described above, or it may be a plug-in program that adds the above-described sound control functions to the application.
  • FIG. 7 is a flowchart showing the series of processes (sound quality adjustment process) described above. Note that, in this example, each setting of the target sound source type, gain, and coefficient update that are input by the user's operation described above is described as being set only once at the beginning in order to make the flow easier to understand. However, it is also possible to change this setting at any time.
  • the information processing device 10 When the sound quality adjustment process is started, the information processing device 10 first initializes the settings of the filter processing section 11 (step S10). Specifically, the coefficient updating unit 16 sets initial values to the filter coefficients.
  • the information processing apparatus 10 sets the target sound source type, gain, and coefficient update (step S20). Specifically, the target sound source type, gain, and coefficient update are stored in the storage area by setting instructions on the setting instruction screen shown in FIG.
  • the information processing device 10 inputs an audio signal after these settings are made (step S30).
  • the audio signal (input signal) is input to the filter processor 11 , the sound source separator 13 , and the coefficient updater 16 .
  • the information processing device 10 determines whether or not it is time to update the filter coefficients (step S40). Specifically, this determination is made by the coefficient update unit 16 based on the above-described coefficient update settings. If it is determined that it is time to update (YES) in step S40, the information processing apparatus 10 updates the filter coefficients (step S50). Specifically, the coefficient update unit 16 updates the filter coefficient using the calculation result of the filter coefficient calculation process (described later).
  • the information processing device 10 updates the screen display according to the update of the filter coefficient (step S60).
  • the screen display updating unit 17 causes the display device to output information representing the difference between before and after updating (for example, the image of the equalizer 3 as shown in FIG. 3).
  • the information processing apparatus 10 After updating the screen display in step S60, or when it is determined that it is not time to update the filter coefficients (NO) in step S40, the information processing apparatus 10 performs low-delay filtering (step S70), and after filtering audio signal is output (step S80). Specifically, the filter processor 11 filters the audio signal and outputs the filtered audio signal. Then, the output audio signal is sent to an output device such as a speaker or headphone for output.
  • step S90 determines whether or not the signal is continuing (step S90), and if it is determined that the signal is continuing (YES), the process returns to step S30. On the other hand, if it is determined that the process is not ongoing (NO), the sound quality adjustment process is terminated.
  • FIG. 8 is a flow chart showing the flow of filter coefficient calculation processing by the information processing device 10 .
  • the filter coefficient calculation process starts when an audio signal is input to the sound source separation unit 13, for example.
  • the information processing device 10 buffers the audio signal (step S110).
  • the information processing device 10 selects a sound source separation coefficient (step S120).
  • the sound source separation coefficient selection unit 12 selects a sound source separation coefficient based on the set target sound source type, and outputs the selected sound source separation coefficient to the sound source separation unit 13 .
  • the information processing device 10 performs sound source separation on the audio signal (step S130). Specifically, the sound source separation unit 13 separates the sound of the target sound source type from the audio signal based on the sound source separation coefficient, and outputs the sound to the frequency characteristic estimation unit 14 .
  • the information processing device 10 estimates frequency characteristics (step S140). Specifically, the frequency characteristic estimating unit 14 estimates the frequency characteristic of the separated target sound source type, and outputs the frequency characteristic to the filter coefficient calculating unit.
  • the information processing apparatus 10 calculates filter coefficients (step S150), and ends the filter coefficient calculation process. Specifically, the filter coefficient calculator 15 calculates the filter coefficient using the estimated frequency characteristic, and outputs the calculated filter coefficient to the coefficient updater 16 . This filter coefficient is used in updating the filter coefficient (step S50) described above.
  • the coefficient updating unit 16 sets the filtering setting of the filter processing unit 11 for filtering the input signal to control the sound of the target sound source type in the input signal. is determined using the estimation result obtained by the estimation algorithm from This makes it possible to generate an optimal filter according to the input signal without requiring additional hardware such as a microphone. More specifically, it is possible to generate a filter that is optimal for the sound characteristics of the target sound source type contained in the input signal. As a result, it is possible to reproduce a signal having optimal acoustic characteristics for the user.
  • the filtering in the filter processing unit 11 has a lower delay (specifically, real-time processing) than the processing of the estimation algorithm, the output signal filtered by the filter processing unit 11 has a low delay (for example, several hundred microseconds). can be output with a delay of up to several milliseconds).
  • the filtering settings are automatically updated according to the coefficient update settings, the user does not have to finely adjust the filtering settings (specifically, the equalizer, etc.).
  • the filtering settings are updated at regular intervals, and can be updated at the timing when an instruction to change the filtering settings is received (user's arbitrary timing) or at a timing that does not make the user feel uncomfortable. As a result, it is possible to make the change in sound quality more natural when updating the filter coefficients, so that the feeling of being immersed in the content is not hindered.
  • the display device when the filter coefficients are updated by the coefficient update unit 16, the display device outputs an image of the equalizer that can be operated by the user so that the difference between before and after the update can be understood. can be grasped.
  • the information processing apparatus according to the second embodiment differs from the information processing apparatus 10 according to the first embodiment in that the filter coefficient itself is estimated by an estimation algorithm.
  • Other points (specific examples of applications, hardware configuration examples, etc.) are basically the same as those of the information processing apparatus 10 . Differences from the information processing apparatus 10 described above will be described below.
  • FIG. 9 shows a configuration example of functional blocks of an information processing device (information processing device 10A) according to this embodiment.
  • the information processing device 10A has a filter processing unit 11, a sound source separation coefficient selection unit 12, a sound source separation unit 13A, a coefficient update unit 16, and a screen display update unit 17.
  • the sound source separation unit 13A performs filter coefficient output type sound source separation processing. To put it simply, the sound source separation unit 13A does not output an amplitude spectrum value, but directly estimates the filtering settings (specifically, filter coefficients) in the filter processing unit 11 itself.
  • An estimation algorithm for sound source separation is used for this sound source separation processing. Specifically, this estimation algorithm estimates a filter coefficient from an input signal using a coefficient input from the sound source separation coefficient selection unit 12 and a set gain setting, and outputs the result as an estimation result.
  • a neural network can be used as the estimation algorithm. Note that the estimation algorithm may be other than this as long as it can perform similar processing.
  • FIG. 10 shows an example of filter coefficient calculation by a neural network.
  • this neural network uses, as the input signal vector, an amplitude spectrum obtained by transforming the input signal into the frequency domain.
  • the value of the gain setting eg + ⁇ dB, - ⁇ dB, etc.
  • the output of the neural network is assumed to be the filter coefficients used in the filter processor 11 . Since a neural network can learn by preparing a set of input data and output data in advance, such irregular input/output can be realized.
  • the filter coefficients thus obtained are output to the coefficient updating unit 16 and screen display updating unit 17 .
  • the coefficient update unit 16 updates the filter coefficients of the filter processing unit 11 using the filter coefficients input from the sound source separation unit 13A.
  • the screen display update unit 17 updates the display of the display device using the filter coefficients input from the sound source separation unit 13A.
  • Others are the same as those of the first embodiment. As described above, in the present embodiment, the processing from sound source separation (step S130) to filter coefficient calculation (step S150) in the filter coefficient calculation processing (see FIG. 8) of the information processing apparatus 10 in the first embodiment is performed by sound source separation. This is collectively done in the section 13A. Others are as described with reference to FIGS.
  • the present embodiment has the following effects.
  • the filter coefficient itself By directly outputting the filter coefficient itself from the sound source separation unit 13A, the frequency characteristic estimation unit 14 and the filter coefficient calculation unit 15 (see FIG. 4) included in the information processing apparatus 10 of the first embodiment can be omitted. . That is, it is possible to simplify the processing by reducing the configuration of functional blocks.
  • the computation of the neural network itself can also reduce the number of dimensions of the output vector. Specifically, in the case of the amplitude spectrum output, a size of 1024 or 2048 is required, whereas in the case of the IIR filter coefficient output, the size is about several to several tens. Therefore, it is possible to reduce the multiplication/addition operations in the latter part of the neural network. Therefore, compared to the case shown in FIG. 5 (where separated sounds are output), the amount of calculation can be reduced, that is, the power consumption can be reduced.
  • the information processing apparatus differs from the first embodiment in that the filter coefficients are calculated by correcting the frequency characteristics according to the output device. Other points are the same as those of the first embodiment.
  • FIG. 11 shows a configuration example of functional blocks of an information processing device (information processing device 10B) according to this embodiment. Similar to the information processing device 10 of the first embodiment, the information processing device 10B includes a filter processing unit 11, a sound source separation coefficient selection unit 12, a sound source separation unit 13, a frequency characteristic estimation unit 14, a filter coefficient calculation unit 15, and a coefficient update unit. 16 and a screen display updating unit 17 .
  • the information processing device 10B has a frequency characteristic corrector 18 that performs the above-described correction between the frequency characteristic estimator 14 and the filter coefficient calculator 15 . That is, in the present embodiment, the frequency characteristics estimated by the frequency characteristics estimation section 14 are output to the frequency characteristics correction section 18 .
  • the frequency characteristic correction unit 18 corrects the frequency characteristic estimated from the sound source separation output using the output device frequency characteristic.
  • the output device frequency characteristics are hardware-specific frequency characteristics of output devices (for example, playback devices such as headphones and speakers) that output filtered output signals.
  • the output device frequency characteristic is, for example, measured in advance and stored in a storage area in a readable manner. For example, if the model of the output device to be used is decided, the characteristics of that model are stored. Remember. Then, the model is determined (regardless of whether it is automatic or manual) as necessary, and the characteristics corresponding to the determination result are used.
  • the frequency characteristic correction unit 18 performs correction by multiplying the frequency characteristic of the sound source separation output by its negative characteristic, considering that the characteristic of the output device is applied during reproduction. For example, depending on the model of the output device, it may be difficult to produce a low-pitched sound. This makes it possible to obtain optimum filter coefficients for the output device.
  • the frequency characteristic corrector 18 corrects the frequency characteristic input from the frequency characteristic estimator 14 and outputs the corrected frequency characteristic to the filter coefficient calculator 15.
  • the frequency characteristic estimator 14 may read the output device frequency characteristic and directly estimate the corrected frequency characteristic.
  • the present embodiment has the following effects in addition to the effects described in the first embodiment.
  • a more optimal filter can be generated according to the input signal and output device frequency characteristics. In other words, since the sound quality is adjusted in consideration of both the content and the playback device, it is possible to provide higher quality sound.
  • the information processing apparatus differs from the first embodiment in that part of the processing is executed on the server side. Other points are the same as those of the first embodiment.
  • FIG. 12 shows a configuration example of functional blocks of an information processing device (information processing device 10C) according to this embodiment.
  • the information processing device 10 ⁇ /b>C on the client side has a filter processing section 11 , a coefficient update section 16 and a screen display update section 17 .
  • the information processing device 10C also has a communication function capable of communicating with another information processing device 10D on the server side via a network such as the Internet.
  • the other information processing device 10D has a sound source separation coefficient selection unit 12, a sound source separation unit 13, a frequency characteristic estimation unit 14, and a filter coefficient calculation unit 15. Further, another information processing device 10D has a communication function capable of communicating with the information processing device 10C via a network.
  • the processing of the sound source separation coefficient selection unit 12, the sound source separation unit 13, the frequency characteristic estimation unit 14, and the filter coefficient calculation unit 15 (specifically, the filter coefficient calculation processing shown in FIG. 8). on the server side.
  • the hardware configuration of another information processing device 10D is the same as that of the information processing device 10C (see FIG. 6).
  • the information processing device 10C transmits the input signal and the designated target sound source type and gain settings to the other information processing device 10D.
  • the other information processing device 10D uses these to calculate filter coefficients using a sound source separation coefficient selection unit 12, a sound source separation unit 13, a frequency characteristic estimation unit 14, and a filter coefficient calculation unit 15, and the calculated filter coefficients are sent to the information processing device. 10C.
  • the information processing device 10C receives the filter coefficients transmitted from the other information processing device 10D. Specifically, the coefficient updating unit 16 and the screen display updating unit 17 perform the above-described processes using the received filter coefficients. Thus, the information processing device 10C acquires the filter coefficients determined by the other information processing device 10D via the network.
  • the information processing device 10C on the client side sends the input signal and various settings used for sound quality adjustment to the other information processing device 10D on the server side, and receives the filter coefficients from the other information processing device 10D. ⁇ It is possible to obtain high-performance filter coefficients with a low computational complexity. In other words, by executing processing (specifically, sound source separation) that requires a relatively large amount of calculation on the server side, the calculation load on the client side can be significantly reduced.
  • the setting instruction screen shown in FIG. 2 was used to set the target sound source type, gain, and coefficient update, but the setting instruction is not limited to this.
  • the setting instruction screen may have another screen configuration.
  • the user instruction input section 4 may be displayed separately from the game screen 2 .
  • the instruction for each setting is not limited to using the setting instruction screen, and may be performed by voice input, for example.
  • each setting is not limited to being appropriately set by the user, and a predetermined setting may be used.
  • the equalizer 3 shown in FIG. 2 was exemplified as an equalizer used for sound quality adjustment, but the applicable equalizer is not limited to this, and any equalizer (for example, type, function, etc.) can be used. can be selected.
  • any equalizer for example, type, function, etc.
  • setting items to be set by the user, the configuration of the filter processing section 11, and the like may be changed as necessary according to the equalizer to be used.
  • the equalizer 3 may be a graphic equalizer or a parametric equalizer, and the setting items may appropriately set the parameters of the used equalizer.
  • the sound of the target sound source type is amplified or attenuated, but sound control is not limited to this.
  • it may extract or remove the sound of the target sound source type, or change the frequency characteristics (for example, pitch) of the sound of the target sound source type.
  • the target sound source type by setting the sound of a specific person, the sound of a specific musical instrument, noise, etc. as the target sound source type, it is possible to apply enhancement, modification, extraction or removal of these sounds.
  • a game was exemplified as a specific example of an application to which the sound quality adjustment function of the information processing device 10 can be applied. can be applied to other applications of
  • the information processing apparatus 10B having the sound source separation unit 13 described in the first embodiment is provided with a function of correcting the frequency characteristics of the output device (frequency characteristic correction unit 18).
  • the function may be provided to the device having the sound source separation section 13A described in the second embodiment.
  • the output device frequency characteristic may be input to the sound source separation section 13A in the same manner as the gain setting shown in FIG. 5 to obtain the estimation result.
  • the processing of the sound source separation coefficient selection unit 12, the sound source separation unit 13, the frequency characteristic estimation unit 14, and the filter coefficient calculation unit 15 described in the first embodiment is performed on the server side.
  • the processing performed on the server side is not limited to this.
  • the processing of the sound source separation coefficient selection unit 12 and the sound source separation unit 13A may be performed on the server side. Also, for example, a part of these processes may be performed on the server side.
  • the present disclosure can also adopt the following configuration.
  • a filtering unit for filtering an input signal a filter setting unit for setting the filtering, which controls the sound of the target sound source type in the input signal and is determined using an estimation result obtained from the input signal by an estimation algorithm.
  • Information processing equipment (2) The information processing device according to (1), wherein the filtering is a process with a lower delay than the estimation algorithm.
  • the estimation algorithm estimates and separates the sound of the target sound source type from the input signal, The information processing apparatus according to any one of (1) to (3), wherein the filtering setting is determined based on the frequency characteristics of the sound of the target sound source type separated by the estimation algorithm.
  • the information processing apparatus estimates the filtering setting itself.
  • the filtering settings appropriately amplify or attenuate each frequency band of the input signal so that the sound of the target sound source type is amplified or attenuated.
  • (1) to (5) The information processing device described.
  • the filtering is performed using an IIR (Infinite impulse response) filter,
  • the information processing apparatus according to any one of (1) to (6), wherein the filtering setting is a filter coefficient of the filter.
  • the estimation algorithm uses a neural network trained to obtain the estimation result by inputting an input signal for learning. Device.
  • the information processing apparatus according to any one of (1) to (11), wherein the filtering settings are corrected according to frequency characteristics of an output device that outputs the filtered output signal.
  • the information processing apparatus according to any one of (1) to (12), wherein the filtering setting is determined by another information processing apparatus and obtained via a network.
  • the filtering settings of the filter processing unit for filtering the input signal, which control the sound of the target sound source type in the input signal, are determined using estimation results obtained from the input signal by an estimation algorithm.
  • An information processing method that performs processing.
  • the filtering settings of the filter processing unit for filtering the input signal, which control the sound of the target sound source type in the input signal are determined using estimation results obtained from the input signal by an estimation algorithm.
  • Equalizer 10A, 10B, 10C Information processing device 11 Filter processing unit 13, 13A Sound source separation unit 14 Frequency characteristic estimation unit 15 Filter coefficient calculation unit 16 Coefficient update unit 17 Screen display update unit 18 Frequency characteristic correction unit

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

例えば、ハードウェアの規模およびコストの増加を抑えて入力信号に応じた信号処理を行うことができるようにする。 入力信号をフィルタリングするフィルタ処理部と、前記フィルタリングの設定を、前記入力信号中の対象音源種類の音を制御するものであって前記入力信号から推定アルゴリズムによって得られた推定結果を用いて決定されたものとするフィルタ設定部とを有する情報処理装置である。

Description

情報処理装置、情報処理方法およびプログラム
 本開示は、情報処理装置、情報処理方法およびプログラムに関する。
 音楽、ゲーム、音声通話などのオーディオ信号をユーザに聴取させる際、イコライザや雑音除去などの信号処理を導入することで、聴取させる音を制御することができる。
 例えば、ゲームプレイ時においては、ゲーム再生音中に含まれる銃声や足音などのゲーム操作に必要な音を聞きやすくしたい場合がある。この場合、対象とする音の特定の周波数帯域を増幅または減衰させることで、聞きたい音を聴取しやすくすることができる。例えば、銃声音が含まれる周波数帯域を増幅させたり、銃声音が含まれない周波数帯域を減衰させたりすることで、銃声音を強調させて聞きやすくすることができる。
 また例えば、音声通話においては、空調音や電気ノイズなどの所望の音(例えば、対話音)以外の雑音が混入し、所望の音の聴取を妨げる場合がある。この場合、例えば、雑音の周波数帯域を減衰させることで雑音を除去して聞きやすくすることができる。
 このような音の制御を実現するために、現状においては、例えば、ユーザが聞きたい音または聞きたくない音に応じて、イコライザなどの音の制御機能を適宜、手動やプリセットなどにより調整している。しかしながら、この調整は煩雑であったり、音感がないと操作が難しかったりする。
 これに対し、下記の特許文献1には、音を自動的に制御する技術(具体的には、コンテキストに基づく周囲音の増強および音響ノイズキャンセル技術)について提案されている。特許文献1に開示されている技術は、音響ノイズキャンセリングの信号に、増幅または減衰させた周囲の信号を足し込むものであり、ノイズキャンセリングヘッドホンを想定としたものである。この処理は、具体的には、音響ノイズキャンセル技術と周囲音の周波数を変調させるフィルタの組み合わせで実現されている。
特開2020-197712号公報
 しかしながら、特許文献1に開示されている技術は、周囲音を取得するためにマイクロホンを必要としており、ハードウェアの規模およびコストが増加する問題がある。また、根本的に、ユーザ周囲の音の制御しかできず、例えば、ゲームや音声通話などの入力(再生)信号に対しては予め決められたイコライザなどの信号処理を施すのみである。したがって、入力信号に応じて音を制御することはできない。
 本開示は、ハードウェアの規模およびコストの増加を抑えて入力信号に応じた処理を行うことができる情報処理装置、情報処理方法およびプログラムを提案することを目的の一つとする。
 本開示は、例えば、
 入力信号をフィルタリングするフィルタ処理部と、
 前記フィルタリングの設定を、前記入力信号中の対象音源種類の音を制御するものであって前記入力信号から推定アルゴリズムによって得られた推定結果を用いて決定されたものとするフィルタ設定部と
 を有する情報処理装置である。
 本開示は、例えば、
 入力信号をフィルタリングするフィルタ処理部の前記フィルタリングの設定を、前記入力信号中の対象音源種類の音を制御するものであって前記入力信号から推定アルゴリズムによって得られた推定結果を用いて決定されたものとする
 処理を行う情報処理方法である。
 本開示は、例えば、
 入力信号をフィルタリングするフィルタ処理部の前記フィルタリングの設定を、前記入力信号中の対象音源種類の音を制御するものであって前記入力信号から推定アルゴリズムによって得られた推定結果を用いて決定されたものとする
 処理をコンピュータに実行させるプログラムである。
図1は、一般的に使用されているイコライザの構成例を示す図である。 図2は、音質調整の設定指示画面の表示例を示す図である。 図3は、更新後のイコライザの表示例を示す図である。 図4は、情報処理装置の機能ブロックの構成例を示す図である。 図5は、ニューラルネットワークによる音源分離例を示す図である。 図6は、情報処理装置のハードウェアの構成例を示す図である。 図7は、情報処理装置による処理例を示すフローチャートである。 図8は、フィルタ係数の算出処理例を示すフローチャートである。 図9は、情報処理装置の他の機能ブロックの構成例を示す図である。 図10は、ニューラルネットワークによるフィルタ係数算出例を示す図である。 図11は、情報処理装置の他の機能ブロックの構成例を示す図である。 図12は、情報処理装置の他の機能ブロックの構成例を示す図である。
 以下、本開示の実施形態等について図面を参照しながら説明する。なお、説明は以下の順序で行う。
<1.背景>
<2.第1実施形態>
<3.第2実施形態>
<4.第3実施形態>
<5.第4実施形態>
<6.変形例>
 以下に説明する実施形態等は本開示の好適な具体例であり、本開示の内容がこれらの実施形態等に限定されるものではない。なお、以下の説明において、実質的に同一の機能構成を有するものについては同一の符号を付し、重複説明を適宜省略する。
<1.背景>
 始めに、本開示の背景について説明する。図1は、一般的に使用されているイコライザの構成例を示している。例えば、ユーザは、自身が聞きたい音または聞きたくない音に応じてイコライザの各周波数帯域の利得(具体的には、Gain値)をツマミ操作などにより調整することができる。内部の信号処理としては、IIR(Infinite Impulse Response)フィルタやFIR(Finite Impulse Response)フィルタが一般的には用いられている。特に、IIRフィルタを使用した場合、入力から出力を得るまでの遅延時間が数百マイクロ秒~数ミリ秒程度であるため、体感的な音の遅れは全く感じられない。したがって、リアルタイムで音質調整が行えるため、ゲームや音声通話などのリアルタイム性が重要なアプリケーションで広く用いられている。
 しかしながら、このイコライザによる音質調整は、周波数帯域毎の利得値の微調整が煩雑であったり、さらには音感がないと操作が難しかったりするのが現状である。それに対して効果的な従来技術とその問題点については、先ほどの背景技術で説明した通りである。
 ところで、近年は、AI(Artificial Intelligence)技術を用いてオーディオ信号に含まれる特定の音の除去や抽出が可能となっている。例えば、下記の非特許文献1のように、予め定めた対象音を分離するニューラルネットワークを学習して構築し、その学習済みのニューラルネットワークを用いて音源分離を実現する技術が知られている。この技術を使用すると、ありとあらゆる音を入力信号から分離できるため、所望の音をダイレクトに聞くことができる。
 [非特許文献1]
 Stefan Uhlich others. "Improving music source separation based on deep neural networks through data augmentation and network blending." 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2017). 2017.
 しかしながら、非特許文献1に開示されている技術は、ニューラルネットワークの構造上、入力信号を数十ミリ秒~数百ミリ秒バッファリングすることが必要であり、これはすなわち出力信号に遅延が発生することを意味する。したがって、例えば、上述したようなリアルタイム性が重要なアプリケーションでは、この遅延が問題となるため、ニューラルネットワークによる音源分離技術を使用することができなかった。
 そこで、本開示では、これらの問題を解決し、自動で最適な音の制御が行われるようにすることでユーザによるイコライザの細かな調整などを不要とし、さらに、その出力を低遅延で行うことができるようにする。
<2.第1実施形態>
[2-1.アプリケーションの具体例]
 まず、第1実施形態に係るアプリケーションの具体例について説明する。なお、本実施形態では、ゲーム再生音の音質調整を行う場合を例にして説明する。図2は、音質調整の設定指示画面の表示例を示している。図示した例では、ゲーム中の画面に音質調整機能を取り入れたものとなっている。これにより、例えば、ゲーム中に音質調整が可能になっている。
 表示画面1において、具体的には、左側にゲーム画面2が表示され、右側にイコライザ3が表示されている。イコライザ3は、上述した一般的に使用されているものである。ユーザは、イコライザ3を操作することでゲームの出力信号の音質を調整することができる。具体的には、ユーザは、自身が聞きたい音または聞きたくない音に応じてイコライザ3の各周波数帯域の利得(Gain値)の調整をツマミ操作(ツマミ位置を移動させる操作)などによって行うことができる。
 また、イコライザ3の下側には、イコライザ3(詳しくは、内部の周波数変調フィルタ)を自動調整するためのユーザ指示入力部4(「Auto Equalizer」と表示されている部分)が表示されている。図中、「Gain」と表示されている箇所は、ユーザに利得設定を指示させる利得設定部41である。利得設定部41は、具体的には、後述する「Sound type」で指定されている対象音源種類の音を増幅させるのか減衰させるのかをユーザに指定させるものである。例えば、「Sound type」でユーザが聞きたい音を指定する場合には「Up(増幅)」を選択し、聞きたくない音を指定する場合には「Down(減衰)」を選択する。なお、利得設定部41は、単に増幅または減衰をユーザに選択させるものに限らず、+○dB、-○dB(「○」は、所定の数値)など、増幅または減衰させるレベルを設定させるものであってもよい。
 「Sound type」と表示されている箇所は、ユーザに対象音源種類を指定させる対象音源指定部42である。ここでいう対象音源種類とは、例えば、ユーザが制御したい音の種類のことである。具体的には、対象音源指定部42は、聞きたい音または聞きたくない音の種別をユーザに選択させるものである。例えば、ゲーム中の「Footstep(足音)」や「Gunshot(銃声)」の音を増幅して聞きたい場合や、「Windnoise(風雑音)」を減衰させたい場合など、様々なカテゴリを対象音源種類として用意しておくことができる。「Sound type」は、1つまたは2つ以上選択することが可能である。
 ここで、「Sound type」に対する「Gain」の組み合わせは、本例では1組で記載しており、増幅および減衰のうちの何れか一方のみを選択するようになっている。ユーザによっては、足音増幅および風雑音減衰というような組み合わせも起こり得るため、これらの設定が可能となるように2組以上の設定項目を実装していてもよい。
 「Update timing」と表示されている箇所は、ユーザに係数更新設定を指定させる係数更新設定部43である。係数更新設定部43は、具体的には、音質の自動調整を行うタイミング(時刻や間隔など)をユーザに指定させるものである。例えば、「Auto」モードを選択すると、ゲームの音が鳴ってない区間や場面の切り替わる瞬間などにイコライザ3の調整を行う。これにより、ユーザが集中して聞いているゲーム音に対して違和感なくイコライザ3を変更することができるので、没入感を損なうことがない。
 また、「None」モードを指定すると、上述した「Gain」または「Sound type」を指定した後(設定を変えた後)、直ちにイコライザ3のアップデートを行う。すなわち、ユーザ操作に応じて、すぐさま音質を変更することが可能となる。また、「Manual」モードを選択すると、指定間隔時間に応じて定期的なイコライザ3のアップデートを行う。これにより、常にイコライザ3のアップデートをかけ続けていたいというユーザの希望に応えることができる。例えば、0.5秒毎や2秒毎といった数値を設定することができる。ユーザ指示入力部4で指定された各種設定情報は、例えば、記憶領域に読み込み可能に記憶される。
 本アプリケーションでは、具体的には、ゲーム再生音のオーディオ信号を入力信号とし、その入力信号に対してユーザ指示入力部4で指定された設定に応じた信号処理(具体的には、フィルタリング)を行い、その出力信号をユーザが聴取できるようにする。また、信号処理の設定が更新された場合には、更新前後の違いを表す画像を表示デバイスに表示させる。例えば、図3に示すように、周波数帯域毎に変化した利得およびツマミ位置が判別できるように色分けして表示する。なお、図3に示す例では、色の違いを濃淡で表現している。具体的には、薄い色のツマミが更新前のツマミ位置を表し、濃い色のツマミが更新後、つまり現在のツマミ位置を表している。これにより、ユーザはイコライザが変化したということ(変化内容も含む)を簡単に把握することができる。なお、現在、どのような設定のイコライザか一目でわかるように、「足音を増幅」などの設定を示す表記を付してもよい。
[2-2.情報処理装置の構成例]
 図4は、第1実施形態に係る情報処理装置(情報処理装置10)の機能ブロックの構成例を示している。情報処理装置10は、例えば、上述したアプリケーションに適用可能な信号処理回路を実装するもの(具体的には、再生信号)である。情報処理装置10は、入力信号(具体的には、オーディオ信号)に信号処理を施して音を制御する。オーディオ信号は、例えば、上述したゲーム、音声通話(例えば、ウェブ会議システム)などのアプリケーションから得られるものである。情報処理装置10は、パーソナルコンピュータ、スマートフォン、タブレット端末、ゲーム機、スピーカ装置、ヘッドホン、イヤホン、スマート家電、テレビジョン、プレーヤ、レコーダ、電話機、車載器、監視装置または医療機器などのオーディオ信号を扱う種々の電子機器(具体的には、コンピュータ機器)で構成することができる。
 情報処理装置10は、フィルタ処理部11、音源分離係数選択部12、音源分離部13、周波数特性推定部14、フィルタ係数算出部15、係数更新部16および画面表示更新部17を有しており、上述した設定に応じた信号処理を行う。
 フィルタ処理部11は、入力信号(具体的には、入力オーディオ信号)をフィルタリングして出力する。これにより、例えば、出力信号(具体的には、フィルタリング後のオーディオ信号)の周波数特性が変更される。フィルタ処理部11は、具体的には、フィルタ回路(周波数変調フィルタ)を有しており、フィルタリングは、このフィルタ回路を用いて行われる。例えば、このフィルタ回路は、上述したIIRフィルタまたはFIRフィルタで実装することができる。つまり、フィルタリングは、IIRフィルタまたはFIRフィルタを用いて行うことができる。なお、フィルタリングを行うフィルタ回路は、これに限らず、例えば、FFT(Fast Fourier Transform)を行い、周波数領域に変換した信号の振幅スペクトルの利得を増幅または減衰し、IFFT(Inverse Fast Fourier Transform)して時間領域波形に戻す処理を行うものであってもよい。
 本実施形態では、具体的には、低遅延処理を行うためにIIRフィルタを想定する。これにより、フィルタリングをリアルタイム処理とすることができ、上述したようなリアルタイム性が重要なアプリケーション、つまり、リアルタイム処理に問題なく適用することができる。なお、ユーザが体感し得ない低遅延処理が可能であれば、IIRフィルタ以外であってもリアルタイム処理が可能である。
 フィルタリングの設定(具体的には、フィルタ係数)の初期値は、周波数特性がフラットのもの、すなわち、入力信号がそのまま出力される性質を持つものでよい。または、前回使用した係数を保持しておき、再び同じ設定で使用してもよい。このように、フィルタリングの設定の初期値は、適宜、決めたものを用いることができる。フィルタ処理部11から出力される出力信号は、後段に接続された他の信号処理モジュールや、スピーカ・ヘッドホンなどの出力(再生)デバイスなどに出力される。
 音源分離係数選択部12および音源分離部13は、音源分離に関する処理を行う。音源分離係数選択部12は、設定されている対象音源種類に基づいて音源分離係数を選択する。対象音源種類は、例えば、上述したようにして指定されたもの(「Footstep」や「Gunshot」などの音のカテゴリ)であり、文字による情報や数値パラメータとして音源分離係数選択部12に入力される。
 音源分離係数選択部12は、具体的には、音源分離部13での音源分離処理に必要な係数群を、予めHDD(Hard Disk Drive)などの記憶領域に保存しておき、指定されている対象音源種類に基づき該当する係数をロードし、音源分離部13に送る。この係数群は、具体的には、音源分離で分離し制御したい音のカテゴリ数分用意される必要がある。言い換えると、この音源分離係数さえ準備できれば、ありとあらゆる音を分離して制御することができるようになる。そのため、新たな音のカテゴリが現れた場合には、その係数をここに追加記録して対応することができる。
 音源分離部13は、音源分離処理を実行する。この音源分離処理には、音源分離に関する推定アルゴリズムが用いられる。この推定アルゴリズムは、具体的には、入力信号(具体的には、入力オーディオ信号)から、指定されている対象音源種類の音を推定分離し、分離した音を推定結果として出力する。推定アルゴリズムとしては、例えば、ニューラルネットワークに基づく手法(具体的には、上述した非特許文献1に示されている手法)を採用することができる。例えば、対象音源種類の「Footstep」をニューラルネットワークにより学習する場合、「Footstep」の学習用の入力信号を大量(例えば、10万~100万)に用いて、その各入力信号から「Footstep」の音を分離する学習を行う。この場合、学習後のニューラルネットワークのパラメータが、音源分離部13で「Footstep」の音源を分離するのに必要な係数(音源分離係数選択部12がロードする係数)として保存されることになる。
 図5は、ニューラルネットワークに基づく音源分離例を示す。本処理では、まず、分離したい信号を含む入力信号を周波数変換し、その振幅スペクトルを入力信号ベクトルとする。このベクトルサイズは、周波数変換の変換長に依存しているため、例えば1024や2048などである。このベクトルをニューラルネットワークに入力し、音源分離係数選択部12から送られる係数を用いた内部処理を経て推定結果としての出力信号ベクトルを得る。この出力信号ベクトルは、分離後の信号の振幅スペクトルである。この処理を入力信号データに対して一定間隔で施すことにより(フレーミング処理)、各フレームで分離後の信号の振幅スペクトルを得る。この分離信号の振幅スペクトル、つまり、推定アルゴリズムによる推定結果は、図4に示す周波数特性推定部14に出力される。
 ニューラルネットワークに基づく音源分離は、上述したように、数十ミリ秒~数百ミリ秒の遅延が発生するものの、所望の音を高精度に分離することができる。入力信号に含まれている対象音源種類の音は、周波数特性が変化し得るものである。つまり、入力信号に応じて変化し得る対象音源種類の音を精度よく分離することができる。例えば、対象音源種類に「Footstep」が指定されている場合、アスファルトを歩く足音から草むらを歩く足音に変わった場合などにおいても、適切に足音を分離することができる。
 なお、推定アルゴリズムは、非特許文献1に示されているようなニューラルネットワークに基づく手法を用いたものに限らない。対象音源種類の音を抽出する手法であれば何を使ってもよく、例えば、非負値行列因子分解(Non-negative Matrix Factorization;NMF)を使用するものであってもよい。このように他の推定アルゴリズムを用いる場合においても同様に遅延が発生し得るが、所望の音を精度よく分離することができる。
 図4に示す周波数特性推定部14は、周波数特性の推定を行う。この推定には、音源分離部13から入力される分離信号の振幅スペクトル、すなわち、ユーザが事前に指定したカテゴリの音の振幅スペクトルを使用する。具体的には、フレーム毎に順次振幅スペクトルが入力されてくるので、例えば、その平均や、時定数をつけて重み付き加重和を計算することで所望音の周波数特性を推定することができる。ここで、所望音が「Footstep」のように音が鳴っている区間と無音区間の両者が存在する場合がある。その場合は、無音区間を平均計算に加えてしまうと推定周波数に誤差が出ることがあるため、一定のしきい値以下は無音区間と判定し、平均計算から除外することもできる。なお、周波数特性推定部14は、これに限らず、他の手法により周波数特性を推定するものであってもよい。
 フィルタ係数算出部15は、フィルタ処理部11で使用するフィルタ係数を算出する。具体的には、フィルタ係数算出部15は、まず、ユーザが設定した利得設定を読み込む。これは、上述したように、指定されている対象音源種類の音を増幅させるか減衰させるかの設定または+○dBまたは-○dBといった具体的数値で設定可能である。このようにして、フィルタ係数算出部15は、フィルタ係数を、入力信号に含まれている対象音源種類の音を制御するものとする。具体的には、フィルタ係数算出部15は、周波数特性推定部14で推定された周波数特性および利得設定によって、ターゲットとなるフィルタ特性を決定する。この特性が決まった後、フィルタ処理部11で使用する形式(例えば、IIRフィルタ、FIRフィルタなど)に沿った係数を算出すればよい。この計算は、伝達関数から求める古典的な手法、数値最適化に基づく手法など任意のアルゴリズムを使用してよい。このようにして算出されたフィルタ係数は、具体的には、対象音源種類の音が増幅または減衰されるように入力信号の各周波数帯域を適宜、増幅または減衰させるものである。算出された係数は、係数更新部16および画面表示更新部17に出力される。
 係数更新部16は、フィルタ処理部11におけるフィルタリングの設定を行うフィルタ設定部である。係数更新部16は、具体的には、フィルタ処理部11におけるフィルタ係数の設定を、フィルタ係数算出部15から入力される係数とする。つまり、上述したように、入力信号中の対象音源種類の音を制御するものであって入力信号から推定アルゴリズムによって得られた推定結果を用いて決定されたものとする。
 ここで、係数更新部16は、ユーザが設定した係数更新設定に基づき、フィルタ係数更新のタイミングを制御する。係数更新部16は、例えば、入力信号(具体的には、入力オーディオ信号)に基づいてタイミングを検知する。ここで注意するべきは、フィルタ処理部11は、具体的には、数百マイクロ秒~数ミリ秒の低遅延により入力信号を随時フィルタリングして出力し続けていることである。つまり、フィルタ処理部11におけるフィルタリングは、少なくとも推定アルゴリズムよりも低遅延の処理(具体的には、リアルタイム処理)である。すなわち、ユーザにとっては遅延を感じず、従来と同じようにイコライザの出力音を聞いているような状態である。このように、フィルタ係数のみを更新することで、低遅延を維持しながら対象音源種類で指定した音を制御(具体的には、周波数特性の増幅または減衰)する高精度なフィルタリングを得ることができる。
 係数更新部16は、具体的には、図2を参照して説明したように、係数更新設定が「None」の場合には、ユーザが係数設定(具体的には、上述した「Gain」または「Sound type」の設定)を変更してフィルタリングの指示を新たに受け付けたタイミングでフィルタ係数を更新する。また、係数更新部16は、係数更新設定が「Manual」の場合には、ユーザ設定などによる定期的な間隔でフィルタ係数を更新する。さらに、係数更新部16は、係数更新設定が「Auto」の場合には、ユーザが違和感を抱かないタイミングでフィルタ係数を更新する。
 違和感を抱かないタイミングであるか否かは、音の切り替わりタイミングが分かる所定の判定情報(例えば、オーディオ信号、ビデオ信号など)を用いて判定する。例えば、入力信号を判定情報として監視しておき、その音量(振幅値)がある閾値よりも小さくなったタイミングで変更することができる。または、ゲームや音楽であれば、場面が変更した際の、音の転換部分で変更することができる。これにより、フィルタ係数の変更による急な音の変化を避けることができる。なお、係数更新部16は、フィルタ係数を更新した場合、更新した旨を表す情報を画面表示更新部17に出力する。
 画面表示更新部17は、既に表示されているイコライザ3やフィルタ設定のパラメータなどを最新のものに更新する。具体的には、画面表示更新部17は、係数更新部16によりフィルタ係数が更新された場合、つまり、係数更新部16から更新した旨を表す情報が入力された場合に、更新前後の違いを表す情報を表示デバイスに出力させる。画面表示更新部17は、具体的には、図3に示したように、違いを表す情報を含むユーザ操作可能なイコライザ3の画像を表示デバイスに表示させる。なお、この違いを表す情報は、図3に示したものに限らず、例えば、表示デバイス以外の再生デバイスに出力(具体的には、スピーカなどに音で出力)させてもよい。
[2-3.情報処理装置のハードウェア構成例]
 図6は、情報処理装置10のハードウェア構成例を示している。情報処理装置10は、バスにより相互接続されている制御部101、記憶部102、入力部103、通信部104および出力部105を有している。
 制御部101は、例えば、CPU(Central Processing Unit)、RAM(Random Access Memory)およびROM(Read Only Memory)などで構成されている。ROMには、CPUにより読み込まれ動作されるプログラムなどが記憶されている。RAMは、CPUのワークメモリとして用いられる。CPUは、ROMに記憶されたプログラムにしたがい様々な処理を実行してコマンドの発行を行うことによって情報処理装置10全体の制御を行う。
 記憶部102は、例えば、HDD、SSD(Solid State Drive)、半導体メモリなどにより構成された記憶媒体であり、画像データ、動画データ、音声データ、テキストデータなどのコンテンツデータの他、プログラム(例えば、アプリケーション)などのデータを保存するものである。
 入力部103は、情報処理装置10に対して各種情報を入力するための装置である。入力部103により情報が入力されると、制御部101は、その入力情報に対応した各種処理を行う。入力部103は、マウスおよびキーボードの他、マイクロホン、各種センサ、タッチパネル、モニタと一体に構成されたタッチスクリーン、物理ボタンなどでもよい。なお、情報処理装置10への各種情報の入力は、後述する通信部104を介して行われる構成であってもよい。
 通信部104は、所定の通信規格により他の装置やインターネットと通信する通信モジュールである。通信方法としては、Wi-Fi(Wireless Fidelity)などの無線LAN(Local Area Network)、LTE(Long Term Evolution)、5G(第5世代移動通信システム)、ブロードバンド、Bluetooth(登録商標)などがあげられる。
 出力部105は、情報処理装置10から各種情報を出力するための装置である。出力部105は、例えば、画像や映像を表示するディスプレイ(表示デバイス)、スピーカなどの音を出力する出力デバイスで構成されている。なお、情報処理装置10からの各種情報の出力は、通信部104を介して行われる構成であってもよい。
 制御部101は、例えば、記憶部102に記憶されているプログラム(例えば、アプリケーション)を読み出し実行することで各種処理を行う。つまり、情報処理装置10は、コンピュータとしての機能を有している。
 なお、プログラム(例えば、アプリケーション)は、記憶部102に記憶されていなくてもよい。例えば、情報処理装置10が読み取り可能な記憶媒体に記憶されているプログラムを読み出して実行するようにしてもよい。この記憶媒体としては、例えば、情報処理装置10に対して着脱自在な光ディスク、磁気ディスク、半導体メモリ、HDDなどがあげられる。また、インターネットなどのネットワークに接続された装置(例えば、クラウドストレージ)にプログラム(例えば、アプリケーション)やデータを記憶させておき、情報処理装置10がそこからプログラムやデータを読み出して実行するようにしてもよい。また、プログラムは、例えば、既存のアプリケーションに、処理の一部または全てを追加するプラグインプログラムであってもよい。例えば、プログラムは、上述したようなアプリケーションを全て実行するものであってもよいし、アプリケーションに上述した音の制御機能を追加するプラグインプログラムであってもよい。
[2-4.情報処理装置による処理例]
 図7は、上述した一連の処理(音質調整処理)をフローチャートとして示したものである。なお、本例では、上述したユーザ操作による入力となる対象音源種類、利得および係数更新の各設定については、フローをわかりやすくするために最初の1回だけ設定する旨で記載している。しかしながら、この設定変更は随時行うことも可能である。
 情報処理装置10は、音質調整処理が開始されると、まず、フィルタ処理部11の設定の初期化を行う(ステップS10)。具体的には、係数更新部16がフィルタ係数に初期値を設定する。そして、情報処理装置10は、ユーザ操作によって音質調整の設定がなされると、対象音源種類、利得および係数更新を設定する(ステップS20)。具体的には、図2に示した設定指示画面により設定が指示されることで記憶領域に対象音源種類、利得および係数更新を保存する。
 そして、情報処理装置10は、これらの設定がなされた後にオーディオ信号を入力する(ステップS30)。これにより、フィルタ処理部11および音源分離部13、係数更新部16にオーディオ信号(入力信号)が入力される。次に、情報処理装置10は、フィルタ係数の更新時期であるか否かを判定する(ステップS40)。この判定は、具体的には、係数更新部16が上述した係数更新設定に基づいて行う。ステップS40にて更新時期である(YES)と判定された場合には、情報処理装置10は、フィルタ係数の更新を行う(ステップS50)。具体的には、係数更新部16がフィルタ係数算出処理(後述)の算出結果を用いてフィルタ係数を更新する。
 次に、情報処理装置10は、フィルタ係数の更新に応じて画面表示を更新する(ステップS60)。具体的には、画面表示更新部17が更新前後の違いを表す情報(例えば、図3に示したようなイコライザ3の画像)を表示デバイスに出力させる。
 ステップS60による画面表示の更新後、または、ステップS40にてフィルタ係数の更新時期でない(NO)と判定された場合には、情報処理装置10は、低遅延フィルタリングを行い(ステップS70)、フィルタリング後のオーディオ信号を出力する(ステップS80)。具体的には、フィルタ処理部11がオーディオ信号にフィルタリングを施し、フィルタリング後のオーディオ信号を出力する。そして、出力されたオーディオ信号がスピーカ・ヘッドホンなどの出力デバイスに送られて出力される。
 次に、情報処理装置10は、信号が継続中であるか否かを判定し(ステップS90)、継続中である(YES)と判定された場合には、処理がステップS30に戻される。一方、継続中でない(NO)と判定された場合には、音質調整処理を終了する。
 図8は、情報処理装置10によるフィルタ係数算出処理の流れを示すフローチャートである。フィルタ係数算出処理は、例えば、オーディオ信号が音源分離部13に入力されることで処理を開始する。まず、情報処理装置10は、オーディオ信号の信号バッファリングを行う(ステップS110)。次に、情報処理装置10は、音源分離係数を選択する(ステップS120)。具体的には、音源分離係数選択部12が設定されている対象音源種類に基づいて音源分離係数を選択し、音源分離部13に出力する。
 続いて、情報処理装置10は、オーディオ信号に対して音源分離を行う(ステップS130)。具体的には、音源分離部13が音源分離係数に基づいてオーディオ信号から対象音源種類の音を分離し、周波数特性推定部14に出力する。次に、情報処理装置10は、周波数特性を推定する(ステップS140)。具体的には、周波数特性推定部14が分離された対象音源種類の音の周波数特性を推定し、フィルタ係数算出部に出力する。最後に、情報処理装置10は、フィルタ係数を算出し(ステップS150)、フィルタ係数算出処理を終了する。具体的には、フィルタ係数算出部15が推定された周波数特性を用いてフィルタ係数を算出し、係数更新部16に出力する。このフィルタ係数は、上述したフィルタ係数の更新(ステップS50)にて使用される。
[2-5.まとめ]
 本実施形態に係る情報処理装置10では、係数更新部16が、入力信号をフィルタリングするフィルタ処理部11のフィルタリングの設定を、入力信号中の対象音源種類の音を制御するものであって入力信号から推定アルゴリズムによって得られた推定結果を用いて決定されたものとする。これにより、マイクロホンなどの追加のハードウェアを必要とせずに、入力信号に応じた最適なフィルタを生成することができる。詳述すると、入力信号中に含まれる対象音源種類の音の特性に最適なフィルタを生成することができる。これにより、ユーザに対して最適な音響特性を有する信号の再生を行うことができる。
 また、フィルタ処理部11におけるフィルタリングは、推定アルゴリズムの処理よりも低遅延(具体的には、リアルタイム処理)であるため、フィルタ処理部11でフィルタリングした出力信号を低遅延(例えば、数百マイクロ秒~数ミリ秒程度の遅延)で出力することができる。また、係数更新設定に応じてフィルタリングの設定が自動的に更新されるため、ユーザがフィルタリングの設定(具体的には、イコライザなど)を細かく調整する必要がなくなる。
 さらに、フィルタリングの設定は、定期的な間隔で更新される他、フィルタリングの設定の変更の指示を受け付けたタイミング(ユーザ任意のタイミング)やユーザに違和感を抱かせないタイミングでも更新可能である。これにより、フィルタ係数更新時の音質変化をより自然なものとすることができ、コンテンツへの没入感を阻害しないようにすることができる。
 また、係数更新部16によりフィルタ係数が更新された場合に、更新前後の違いが分かるように、ユーザ操作可能なイコライザの画像を表示デバイスに出力させているため、フィルタの状況をユーザに直感的に把握させることができる。
<3.第2実施形態>
 第2実施形態に係る情報処理装置は、推定アルゴリズムによってフィルタ係数そのものを推定する点が第1実施形態の情報処理装置10とは相違する。他の点(アプリケーションの具体例、ハードウェアの構成例など)は、基本的に情報処理装置10と同じである。以下、上述した情報処理装置10との相違点について説明する。
 図9は、本実施形態に係る情報処理装置(情報処理装置10A)の機能ブロックの構成例を示している。情報処理装置10Aは、フィルタ処理部11、音源分離係数選択部12、音源分離部13A、係数更新部16および画面表示更新部17を有している。
 音源分離部13Aは、フィルタ係数出力型の音源分離処理を行う。分かりやすく言うと、音源分離部13Aは、出力を振幅スペクトル値とはせず、フィルタ処理部11におけるフィルタリングの設定(具体的には、フィルタ係数)そのものを直接推定する。この音源分離処理には、音源分離に関する推定アルゴリズムが用いられる。この推定アルゴリズムは、具体的には、音源分離係数選択部12から入力される係数と、設定されている利得設定とを用いて入力信号からフィルタ係数を推定し推定結果として出力する。例えば、推定アルゴリズムとしては、ニューラルネットワークを使用することができる。なお、推定アルゴリズムは、同様の処理を行えるものであれば、これ以外であってもよい。
 図10は、ニューラルネットワークによるフィルタ係数算出例を示す。このニューラルネットワークは、第1実施形態で既に説明した図5の音源分離例の場合と同様、入力信号ベクトルとしては、入力信号を周波数領域に変換した振幅スペクトルを用いる。これに加えて、利得設定の値(例えば+○dB、-○dBなど)を入力として与える。ニューラルネットワークの出力は、フィルタ処理部11で使用するフィルタ係数とする。ニューラルネットワークは、事前に入力データと出力データのセットを用意すれば学習を行えるので、このような変則的な入出力も実現することができる。このようにして得られたフィルタ係数は、係数更新部16および画面表示更新部17に出力される。
 係数更新部16は、音源分離部13Aから入力されたフィルタ係数を用いてフィルタ処理部11のフィルタ係数を更新する。画面表示更新部17は、音源分離部13Aから入力されたフィルタ係数を用いて、表示デバイスの表示を更新する。他は、第1実施形態と同様である。このように、本実施形態では、第1実施形態における情報処理装置10のフィルタ係数算出処理(図8参照)における音源分離(ステップS130)~フィルタ係数算出(ステップS150)までの処理を、音源分離部13Aにおいて纏めて行っている。他は、図7および図8を参照して説明した通りである。
 したがって、本実施形態では、第1実施形態で説明した効果に加えて、以下の効果を奏する。音源分離部13Aでフィルタ係数そのものを直接出力することによって、第1実施形態の情報処理装置10が有していた周波数特性推定部14およびフィルタ係数算出部15(図4参照)を省くことができる。つまり、機能ブロックの構成を減らして処理を簡略化することができる。
 また、ニューラルネットワークそのものの演算も、出力ベクトルの次元数を少なくすることができる。具体的には、振幅スペクトルの出力の場合、1024や2048のサイズが必要だったのに対し、IIRフィルタ係数の出力では、数個から数十個程度のサイズになる。そのため、ニューラルネットワークの後段部分の乗算・加算演算を削減することができる。したがって、図5に示した場合(分離した音を出力する場合)と比較して、計算量の削減、すなわち低消費電力化につなげることができる。
<4.第3実施形態>
 第3実施形態に係る情報処理装置は、出力デバイスに応じた周波数特性の補正を加えてフィルタ係数を算出する点が、第1実施形態とは相違する。他の点は、第1実施形態と同様である。
 図11は、本実施形態に係る情報処理装置(情報処理装置10B)の機能ブロックの構成例を示している。情報処理装置10Bは、第1実施形態の情報処理装置10と同様、フィルタ処理部11、音源分離係数選択部12、音源分離部13、周波数特性推定部14、フィルタ係数算出部15、係数更新部16および画面表示更新部17を有している。
 また、情報処理装置10Bは、周波数特性推定部14およびフィルタ係数算出部15間に、上述した補正を行う周波数特性補正部18を有している。つまり、本実施形態では、周波数特性推定部14で推定された周波数特性は、周波数特性補正部18に出力される。
 周波数特性補正部18は、出力デバイス周波数特性を用いて、音源分離出力から推定された周波数特性を補正する。出力デバイス周波数特性は、フィルタリング後の出力信号を出力する出力デバイス(例えば、ヘッドホン、スピーカなどの再生デバイス)が持つハードウェア固有の周波数特性である。出力デバイス周波数特性は、例えば、予め計測して記憶領域に読み出し可能に記憶しておいたものである。例えば、出力デバイスの使用機種が決まっている場合には、その機種の特性を記憶しておき、決まっていない場合には、機種(例えば、スマートフォンAのスピーカ、ヘッドホンBなど)毎の周波数特性を記憶しておく。そして、必要に応じて機種を判定(自動、手動を問わない)し、判定結果に応じた特性を使用するようにする。
 周波数特性補正部18は、具体的には、出力デバイスの特性が再生時にかかることを鑑み、その負の特性を音源分離出力の周波数特性にかけることで補正を行う。例えば、出力デバイスの機種によっては、低音が出にくいものがあるが、その場合、低音が出やすくなる補正をかけるようにする。これにより、出力デバイスに最適なフィルタ係数を得ることができる。
 なお、図示した例では、周波数特性補正部18は、周波数特性推定部14から入力される周波数特性に対して補正を行い、補正後の周波数特性をフィルタ係数算出部15に出力しているが、周波数特性推定部14が出力デバイス周波数特性を読み込んで直接的に補正された周波数特性を推定してもよい。
 以上説明したように、本実施形態では、第1実施形態で説明した効果に加えて、以下の効果を奏する。入力信号と出力デバイス周波数特性に応じた、より最適なフィルタを生成することができる。つまり、コンテンツと再生デバイスの両面を考慮して音質の調整を行うため、より高音質な音を提供することができる。
<5.第4実施形態>
 第4実施形態に係る情報処理装置は、処理の一部をサーバ側で実行する点が、第1実施形態とは相違する。他の点は、第1実施形態と同様である。
 図12は、本実施形態に係る情報処理装置(情報処理装置10C)の機能ブロックの構成例を示している。クライアント側となる情報処理装置10Cは、フィルタ処理部11、係数更新部16および画面表示更新部17を有している。また、情報処理装置10Cは、インターネットなどのネットワークを介して、サーバ側となる他の情報処理装置10Dと通信可能な通信機能を有している。
 一方、他の情報処理装置10Dは、音源分離係数選択部12、音源分離部13、周波数特性推定部14およびフィルタ係数算出部15を有している。また、他の情報処理装置10Dは、ネットワークを介して、情報処理装置10Cと通信可能な通信機能を有している。このように、本実施形態では、音源分離係数選択部12、音源分離部13、周波数特性推定部14およびフィルタ係数算出部15の処理(具体的には、図8で示したフィルタ係数算出処理)をサーバ側で行う。なお、他の情報処理装置10Dのハードウェアの構成は、情報処理装置10Cと同様(図6を参照)である。
 具体的には、情報処理装置10Cは、入力信号と、指定されている対象音源種類および利得の設定とを、他の情報処理装置10Dに送信する。他の情報処理装置10Dは、これらを用いて音源分離係数選択部12、音源分離部13、周波数特性推定部14およびフィルタ係数算出部15によりフィルタ係数を算出し、算出したフィルタ係数を情報処理装置10Cに送信する。
 情報処理装置10Cは、他の情報処理装置10Dから送信されたフィルタ係数を受信する。具体的には、係数更新部16および画面表示更新部17が、この受信したフィルタ係数を用いて各々上述した処理を行う。このように、情報処理装置10Cは、他の情報処理装置10Dで決定されたフィルタ係数を、ネットワークを介して取得する。
 したがって、本実施形態では、第1実施形態で説明した効果に加えて、以下の効果を奏する。クライアント側である情報処理装置10Cは、入力信号および音質調整に用いる各種設定をサーバ側である、他の情報処理装置10Dに送り、他の情報処理装置10Dからフィルタ係数を受け取ることで、低遅延・低演算量かつ高性能なフィルタ係数を得ることができる。つまり、サーバ側で比較的計算量が大きい処理(具体的には、音源分離)を実行することで、クライアント側にかかる計算負荷を著しく抑えることができる。
<6.変形例>
 以上、本開示の実施形態について具体的に説明したが、本開示は、上述した実施形態に限定されるものではなく、本開示の技術的思想に基づく各種の変形が可能である。例えば、次に述べるような各種の変形が可能である。また、次に述べる変形の態様は、任意に選択された一又は複数を、適宜に組み合わせることもできる。また、上述した実施形態の構成、方法、工程、形状、材料および数値等は、本開示の主旨を逸脱しない限り、互いに組み合わせることや入れ替えることが可能である。また、1つのものを2つ以上に分けることも可能であり、一部を省略することも可能である。
 例えば、上述した第1実施形態では、図2に示した設定指示画面を用いて、対象音源種類、利得および係数更新の各設定を行うものについて例示したが、設定の指示は、これに限らない。例えば、設定指示画面は、他の画面構成であってもよい。具体的には、ゲーム画面2とは別個にユーザ指示入力部4が表示されるものであってもよい。また、各設定の指示は、設定指示画面を用いるものに限らず、例えば、音声入力で行うものなどであってもよい。さらに、各設定は、ユーザが適宜設定するものに限らず、決まった設定を用いてもよい。
 また例えば、第1実施形態では、音質調整に用いるイコライザとして、図2に示すイコライザ3を例示したが、適用可能なイコライザは、これに限らず、任意のもの(例えば、種類、機能など)を選択することができる。この場合、使用するイコライザに合わせて必要に応じてユーザが設定する設定項目やフィルタ処理部11の構成などを変えればよい。例えば、イコライザ3は、グラフィックイコライザであっても、パラメトリックイコライザであってもよく、設定項目は、使用イコライザのパラメータを適宜、設定するものであってもよい。
 また例えば、第1実施形態では、対象音源種類の音を増幅または減衰させるものを例示したが、音の制御は、これに限らない。例えば、対象音源種類の音を抽出または除去するもの、対象音源種類の音の周波数特性(例えば、高低)を変化させるものなどであってもよい。例えば、対象音源種類として、特定の人物の音、特定の楽器の音、雑音などを設定しておくことで、これらの音の強調、変更、抽出または除去などに適用することができる。
 また例えば、第1実施形態では、情報処理装置10による音質調整機能を適用可能なアプリケーションの具体例としてゲームを例示したが、これに限らず、例えば、ウェブ会議システム、ライブ配信システム、通話アプリケーションなどの他のアプリケーションに適用することができる。
 また例えば、上述した第3実施形態では、第1実施形態で説明した音源分離部13を有する情報処理装置10Bに、出力デバイスの周波数特性を補正する(周波数特性補正部18)機能を持たせたが、当該機能を第2実施形態で説明した音源分離部13Aを有するものに持たせてもよい。この場合、例えば、音源分離部13Aに、図5に示した利得設定と同様にして出力デバイス周波数特性を入力して推定結果を得るようにすればよい。
 また例えば、上述した第4実施形態では、第1実施形態で説明した音源分離係数選択部12、音源分離部13、周波数特性推定部14およびフィルタ係数算出部15の処理をサーバ側で行うものについて説明したが、サーバ側で行う処理は、これに限らない。例えば、第2実施形態の情報処理装置10Aにおいて、音源分離係数選択部12および音源分離部13Aの処理をサーバ側で行うようにしてもよい。また、例えば、これらの処理の一部をサーバ側で行うものであってもよい。
 なお、本開示は、以下のような構成も採ることができる。
(1)
 入力信号をフィルタリングするフィルタ処理部と、
 前記フィルタリングの設定を、前記入力信号中の対象音源種類の音を制御するものであって前記入力信号から推定アルゴリズムによって得られた推定結果を用いて決定されたものとするフィルタ設定部と
 を有する情報処理装置。
(2)
 前記フィルタリングは、前記推定アルゴリズムよりも低遅延の処理である
 (1)に記載の情報処理装置。
(3)
 前記フィルタリングは、リアルタイム処理である
 (1)または(2)に記載の情報処理装置。
(4)
 前記推定アルゴリズムは、前記入力信号から前記対象音源種類の音を推定分離するものであり、
 前記フィルタリングの設定は、前記推定アルゴリズムによって分離された前記対象音源種類の音の周波数特性に基づき決定されたものである
 (1)から(3)のうちの何れかに記載の情報処理装置。
(5)
 前記推定アルゴリズムは、前記フィルタリングの設定そのものを推定するものである
 (1)から(3)のうちの何れかに記載の情報処理装置。
(6)
 前記フィルタリングの設定は、前記対象音源種類の音が増幅または減衰されるように前記入力信号の各周波数帯域を適宜、増幅または減衰させるものである
 (1)から(5)のうちの何れかに記載の情報処理装置。
(7)
 前記フィルタリングは、IIR(Infinite impulse response)フィルタを用いて行われ、
 前記フィルタリングの設定は、前記フィルタのフィルタ係数である
 (1)から(6)のうちの何れかに記載の情報処理装置。
(8)
 前記推定アルゴリズムは、学習用の入力信号を入力して前記推定結果が得られるように学習されたニューラルネットワークを用いたものである
 (1)から(7)のうちの何れかに記載の情報処理装置。
(9)
 前記フィルタリングの指示を受け付けたタイミング、定期的な間隔または所定の判定情報に基づき違和感なしと判定されたタイミングで、前記フィルタリングの設定を更新する
 (1)から(8)のうちの何れかに記載の情報処理装置。
(10)
 前記フィルタリングの設定が更新された場合に、更新前後の違いを表す情報を出力デバイスに出力させる
 (1)から(9)のうちの何れかに記載の情報処理装置。
(11)
 前記出力デバイスは、表示デバイスであり、
 前記表示デバイスに前記違いを表す情報を含むユーザ操作可能なイコライザの画像を表示させる
 (1)から(10)のうちの何れかに記載の情報処理装置。
(12)
 前記フィルタリングの設定は、前記フィルタリング後の出力信号を出力する出力デバイスの周波数特性に応じた補正がなされたものである
 (1)から(11)のうちの何れかに記載の情報処理装置。
(13)
 前記フィルタリングの設定は、他の情報処理装置で決定されたものを、ネットワークを介して取得したものである
 (1)から(12)のうちの何れかに記載の情報処理装置。
(14)
 入力信号をフィルタリングするフィルタ処理部の前記フィルタリングの設定を、前記入力信号中の対象音源種類の音を制御するものであって前記入力信号から推定アルゴリズムによって得られた推定結果を用いて決定されたものとする
 処理を行う情報処理方法。
(15)
 入力信号をフィルタリングするフィルタ処理部の前記フィルタリングの設定を、前記入力信号中の対象音源種類の音を制御するものであって前記入力信号から推定アルゴリズムによって得られた推定結果を用いて決定されたものとする
 処理をコンピュータに実行させるプログラム。
 3・・・イコライザ、10,10A,10B,10C・・・情報処理装置、11・・・フィルタ処理部、13,13A・・・音源分離部、14・・・周波数特性推定部、15・・・フィルタ係数算出部、16・・・係数更新部、17・・・画面表示更新部、18・・・周波数特性補正部

Claims (15)

  1.  入力信号をフィルタリングするフィルタ処理部と、
     前記フィルタリングの設定を、前記入力信号中の対象音源種類の音を制御するものであって前記入力信号から推定アルゴリズムによって得られた推定結果を用いて決定されたものとするフィルタ設定部と
     を有する情報処理装置。
  2.  前記フィルタリングは、前記推定アルゴリズムよりも低遅延の処理である
     請求項1に記載の情報処理装置。
  3.  前記フィルタリングは、リアルタイム処理である
     請求項1に記載の情報処理装置。
  4.  前記推定アルゴリズムは、前記入力信号から前記対象音源種類の音を推定分離するものであり、
     前記フィルタリングの設定は、前記推定アルゴリズムによって分離された前記対象音源種類の音の周波数特性に基づき決定されたものである
     請求項1に記載の情報処理装置。
  5.  前記推定アルゴリズムは、前記フィルタリングの設定そのものを推定するものである
     請求項1に記載の情報処理装置。
  6.  前記フィルタリングの設定は、前記対象音源種類の音が増幅または減衰されるように前記入力信号の各周波数帯域を適宜、増幅または減衰させるものである
     請求項1に記載の情報処理装置。
  7.  前記フィルタリングは、IIR(Infinite impulse response)フィルタを用いて行われ、
     前記フィルタリングの設定は、前記フィルタのフィルタ係数である
     請求項1に記載の情報処理装置。
  8.  前記推定アルゴリズムは、学習用の入力信号を入力して前記推定結果が得られるように学習されたニューラルネットワークを用いたものである
     請求項1に記載の情報処理装置。
  9.  前記フィルタリングの指示を受け付けたタイミング、定期的な間隔または所定の判定情報に基づき違和感なしと判定されたタイミングで、前記フィルタリングの設定を更新する
     請求項1に記載の情報処理装置。
  10.  前記フィルタリングの設定が更新された場合に、更新前後の違いを表す情報を出力デバイスに出力させる
     請求項1に記載の情報処理装置。
  11.  前記出力デバイスは、表示デバイスであり、
     前記表示デバイスに前記違いを表す情報を含むユーザ操作可能なイコライザの画像を表示させる
     請求項10に記載の情報処理装置。
  12.  前記フィルタリングの設定は、前記フィルタリング後の出力信号を出力する出力デバイスの周波数特性に応じた補正がなされたものである
     請求項1に記載の情報処理装置。
  13.  前記フィルタリングの設定は、他の情報処理装置で決定されたものを、ネットワークを介して取得したものである
     請求項1に記載の情報処理装置。
  14.  入力信号をフィルタリングするフィルタ処理部の前記フィルタリングの設定を、前記入力信号中の対象音源種類の音を制御するものであって前記入力信号から推定アルゴリズムによって得られた推定結果を用いて決定されたものとする
     処理を行う情報処理方法。
  15.  入力信号をフィルタリングするフィルタ処理部の前記フィルタリングの設定を、前記入力信号中の対象音源種類の音を制御するものであって前記入力信号から推定アルゴリズムによって得られた推定結果を用いて決定されたものとする
     処理をコンピュータに実行させるプログラム。
PCT/JP2022/008820 2021-07-15 2022-03-02 情報処理装置、情報処理方法およびプログラム WO2023286326A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
EP22841676.4A EP4373134A1 (en) 2021-07-15 2022-03-02 Information processing device, information processing method, and program
CN202280048095.7A CN117652159A (zh) 2021-07-15 2022-03-02 信息处理装置、信息处理方法和程序

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021116815 2021-07-15
JP2021-116815 2021-07-15

Publications (1)

Publication Number Publication Date
WO2023286326A1 true WO2023286326A1 (ja) 2023-01-19

Family

ID=84918824

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/008820 WO2023286326A1 (ja) 2021-07-15 2022-03-02 情報処理装置、情報処理方法およびプログラム

Country Status (3)

Country Link
EP (1) EP4373134A1 (ja)
CN (1) CN117652159A (ja)
WO (1) WO2023286326A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013009198A (ja) * 2011-06-24 2013-01-10 Toshiba Corp 音響制御装置、音響補正装置、及び音響補正方法
JP2020197712A (ja) 2019-05-31 2020-12-10 アップル インコーポレイテッドApple Inc. コンテキストに基づく周囲音の増強及び音響ノイズキャンセル
JP2021509552A (ja) * 2017-12-29 2021-03-25 ハーマン インターナショナル インダストリーズ, インコーポレイテッド 高度なオーディオ処理システム
JP2021076831A (ja) * 2019-10-21 2021-05-20 ソニーグループ株式会社 電子機器、方法およびコンピュータプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013009198A (ja) * 2011-06-24 2013-01-10 Toshiba Corp 音響制御装置、音響補正装置、及び音響補正方法
JP2021509552A (ja) * 2017-12-29 2021-03-25 ハーマン インターナショナル インダストリーズ, インコーポレイテッド 高度なオーディオ処理システム
JP2020197712A (ja) 2019-05-31 2020-12-10 アップル インコーポレイテッドApple Inc. コンテキストに基づく周囲音の増強及び音響ノイズキャンセル
JP2021076831A (ja) * 2019-10-21 2021-05-20 ソニーグループ株式会社 電子機器、方法およびコンピュータプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
STEFAN UHLICH: "Improving music source separation based on deep neural networks through data augmentation and network blending", IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING, 2017

Also Published As

Publication number Publication date
EP4373134A1 (en) 2024-05-22
CN117652159A (zh) 2024-03-05

Similar Documents

Publication Publication Date Title
CN113676803B (zh) 一种主动降噪方法及装置
CN107615651B (zh) 用于改善的音频感知的系统和方法
CN106664473B (zh) 信息处理装置、信息处理方法和程序
US9413322B2 (en) Audio loudness control system
US20170223471A1 (en) Remotely updating a hearing aid profile
US9531338B2 (en) Signal processing apparatus, signal processing method, program, signal processing system, and communication terminal
JP4262597B2 (ja) サウンドシステム
US9577596B2 (en) System and method for personalization of an audio equalizer
CN104685563B (zh) 用于嘈杂环境噪里的回放的音频信号整形
US20110002467A1 (en) Dynamic enhancement of audio signals
JP2005537702A (ja) 補聴器および音声の明瞭さを高める方法
JP5085769B1 (ja) 音響制御装置、音響補正装置、及び音響補正方法
EP3038255B1 (en) An intelligent volume control interface
WO2023286326A1 (ja) 情報処理装置、情報処理方法およびプログラム
WO2024001463A1 (zh) 音频信号的处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品
GB2490092A (en) Reducing howling by applying a noise attenuation factor to a frequency which has above average gain
CN110740404B (zh) 一种音频相关性的处理方法及音频处理装置
JP5695896B2 (ja) 音質制御装置、音質制御方法及び音質制御用プログラム
CN116349252A (zh) 用于处理双耳录音的方法和设备
US10902864B2 (en) Mixed-reality audio intelligibility control
JPWO2009008068A1 (ja) 自動音場補正装置
JP6954905B2 (ja) オーディオ信号を出力するためのシステム及びそれぞれの方法と設定装置
CN114125625B (zh) 降噪调整方法、耳机及计算机可读存储介质
US20240064487A1 (en) Customized selective attenuation of game audio
JP2019091971A (ja) オーディオプロセッサおよびオーディオ再生装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22841676

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 202280048095.7

Country of ref document: CN

WWE Wipo information: entry into national phase

Ref document number: 18577560

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 2022841676

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2022841676

Country of ref document: EP

Effective date: 20240215