WO2022014326A1 - 信号処理装置および方法、並びにプログラム - Google Patents

信号処理装置および方法、並びにプログラム Download PDF

Info

Publication number
WO2022014326A1
WO2022014326A1 PCT/JP2021/024670 JP2021024670W WO2022014326A1 WO 2022014326 A1 WO2022014326 A1 WO 2022014326A1 JP 2021024670 W JP2021024670 W JP 2021024670W WO 2022014326 A1 WO2022014326 A1 WO 2022014326A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound source
position information
signal
sound
signal processing
Prior art date
Application number
PCT/JP2021/024670
Other languages
English (en)
French (fr)
Inventor
優樹 山本
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Priority to US18/004,507 priority Critical patent/US20230254655A1/en
Priority to KR1020227045592A priority patent/KR20230038426A/ko
Publication of WO2022014326A1 publication Critical patent/WO2022014326A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/007Two-channel systems in which the audio signals are in digital form
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/305Electronic adaptation of stereophonic audio signals to reverberation of the listening space
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field

Definitions

  • the present technology relates to signal processing devices and methods, and programs, and in particular, to signal processing devices and methods that enable realistic audio reproduction, and programs.
  • Non-Patent Document 1 the MPEG (Moving Picture Experts Group) -H3D Audio standard is known (see, for example, Non-Patent Document 1 and Non-Patent Document 2).
  • 3D Audio which is handled by the MPEG-H 3D Audio standard, can reproduce three-dimensional sound directions, distances, spreads, etc., enabling more realistic audio playback compared to conventional stereo playback. Become.
  • audio signals that are not separated for each object such as stereo sound sources that the user already owns, and audio signals that do not have location information could not be played back by 3D Audio. That is, it was not possible to reproduce audio with a sense of reality.
  • This technology was made in view of such a situation, and makes it possible to perform audio reproduction with a sense of reality.
  • the signal processing device of one aspect of the present technology is based on a sound source separation unit that extracts one or more of the sound source signals by sound source separation from an input audio signal including a plurality of sound source signals, and the result of the sound source separation. It includes a position information generation unit that generates the position information of the extracted sound source signal, and an output unit that outputs the extracted sound source signal and the position information as data of an audio object.
  • the signal processing method or program of one aspect of the present technology extracts one or more of the sound source signals by sound source separation from an input audio signal including a plurality of sound source signals, and based on the result of the sound source separation, It includes a step of generating the position information of the extracted sound source signal and outputting the extracted sound source signal and the position information as data of an audio object.
  • one or a plurality of the sound source signals are extracted from an input audio signal including a plurality of sound source signals by sound source separation, and the extracted sound source is extracted based on the result of the sound source separation.
  • the position information of the signal is generated, and the extracted sound source signal and the position information are output as data of an audio object.
  • Sound source separation technology is a technology that separates an audio signal, which is a mixture of multiple sound sources, into an audio signal for each sound source. Further, the three-dimensional automatic placement technique is a technique for automatically adding position information to an audio signal for each sound source.
  • the present invention is not limited to this, and the input audio signal may be a monaural audio signal or a multi-channel audio signal of 3 or more.
  • FIG. 1 is a diagram showing a configuration example of an embodiment of a signal processing device to which the present technology is applied.
  • the signal processing device 11 shown in FIG. 1 has a sound source separation processing unit 21, a position information generation unit 22, and an output unit 23.
  • the sound source separation processing unit 21 is supplied with the sound of one or a plurality of sound sources, that is, an audio signal such as a stereo in which the audio signals of the one or a plurality of sound sources are mixed, as an input audio signal.
  • This input audio signal is a signal for reproducing a predetermined audio content or the like.
  • the sound source separation processing unit 21 separates the sound source from the supplied input audio signal, and supplies the sound source separation result to the position information generation unit 22.
  • audio signals for each of a plurality of sound sources are extracted (separated) from the input audio signals, and instrument information indicating the sound source type of the sound contained in those audio signals and the channel of the audio signal are separated.
  • the indicated channel information is obtained.
  • the sound source separation processing unit 21 supplies the audio signal, musical instrument information, and channel information for each sound source thus obtained to the position information generation unit 22 as the sound source separation result.
  • the audio signal for each sound source obtained by sound source separation is also referred to as a sound source signal.
  • the position information generation unit 22 adds position information to each sound source signal based on the sound source separation result supplied from the sound source separation processing unit 21, and supplies the sound source signal and the position information to the output unit 23.
  • the musical instrument information and channel information of each sound source signal may also be supplied from the position information generation unit 22 to the output unit 23.
  • the position information generation unit 22 uses a three-dimensional automatic placement technology to generate position information of each sound source signal from the sound source signal, musical instrument information, and channel information as a result of sound source separation.
  • the position information of the sound source signal is information indicating the position of the sound source in the three-dimensional space, that is, the sound image localization position of the sound of the sound source.
  • This position information includes, for example, a radius indicating the distance from the reference position to the sound source, a horizontal angle indicating the horizontal position of the sound source, and a vertical angle indicating the vertical position of the sound source.
  • the output unit 23 generates and outputs object data, which is audio object data, based on the sound source signal and position information supplied from the position information generation unit 22.
  • the output unit 23 uses one sound source signal as an audio signal of one object (audio object), and generates at least data including position information of the sound source signal as metadata.
  • the output unit 23 outputs the data consisting of the sound source signal and the metadata obtained for each object in this way as object data.
  • the sound source signal and metadata of each object are output as object data.
  • the metadata may include not only position information but also musical instrument information and channel information.
  • a stereo sound source that is, an audio signal of two channels of L channel and R channel
  • a plurality of two channels of audio signals separated for each sound source can be obtained as an output.
  • the sound source type and number of sound source signals extracted by sound source separation vary depending on the sound source separation technology, but here, there are four types of sound source types, and for each sound source type, there are two channels (stereo) of L and R. It shall be extracted.
  • the sound source type "others” is a sound source other than “vocal”, “drums", and “bass", for example, a sound source such as "guitar” or “piano".
  • the sound source signal to which the instrument information indicating the sound source type "others" is given includes sound components of one or more sound sources other than “vocal”, “drums", and "bass".
  • a two-channel (stereo) input audio signal in which components of a plurality of sound sources are mixed is supplied to the sound source separation processing unit 21, and the input audio signal is supplied with the input audio signal. Sound source separation is performed.
  • sound source separation is performed based on a neural network generated in advance by learning, that is, parameters such as coefficients that realize the neural network.
  • the sound source separation processing unit 21 performs a predetermined calculation based on the parameters of the neural network and the input audio signal, and from the input audio signal, predetermined "vocal”, “drums”, and “bass”. , And the audio signals of each channel of the four types of sound source types of "others" are extracted as sound source signals.
  • the L-channel and R-channel sound source signals of the sound source type "vocal”, the L-channel and R-channel sound source signals of the sound source type "drums”, the L-channel and R-channel sound source signals of the sound source type "bass”, And the sound source signals of the L channel and the R channel of the sound source type "others" are obtained.
  • the input audio signal is restored by adding all the sound source signals after the sound source separation, that is, the exact same signal as the input audio signal is obtained.
  • the present invention is not limited to this, and even if a monaural or multi-channel input audio signal is used as a sound source separation input and a sound source signal having an arbitrary channel configuration such as monaural, stereo, or multi-channel is output as a sound source separation. good.
  • sound source signals of two channels of a plurality of sound source types can be obtained by sound source separation, and the position information generation unit 22 regards each of the sound source signals of each channel of each of these sound source types as a signal of one object and is three-dimensional. Automatic placement technology is applied.
  • musical instrument information indicating a sound source type "vocal” or “drums” and channel information indicating a channel such as L or R are obtained by sound source separation in the sound source separation processing unit 21. And are given.
  • a radius having a predetermined value may be given as a radius indicating the position of the object, or a different radius may be given to each object.
  • the position information of each object is constructed horizontally by the decision tree model obtained by learning in advance based on the musical instrument information and the channel information obtained as the sound source separation result. The angle and vertical angle are determined.
  • the instrument information input to the decision tree model is limited to four types, "vocal”, “drums”, “bass”, and “others”.
  • the instrument information and channel information for each object collected in advance for multiple 3D Audio contents, and the horizontal and vertical angles as position information are used as learning data (learning data).
  • the instrument information and channel information do not change in the entire sound source signal, so the position information determined for each sound source (object) does not change in the entire sound source signal.
  • reverberation information can be considered as information related to sound sources (objects) other than musical instrument information and channel information.
  • objects other than musical instrument information and channel information.
  • the reverberation information is information indicating the reverberation effect as an acoustic effect such as "dry” or “short reverb” among the acoustic effects such as the effects applied to the sound source signal, that is, the reverberation characteristics.
  • the acoustic information is information indicating acoustic effects other than the reverberation effect, such as "natural” and “dist", among the acoustic effects such as the effects applied to the sound source signal.
  • the priority information is information indicating the priority of the object.
  • Various methods can be considered as a method of predicting these reverberation information, acoustic information, and priority information for each object (sound source signal).
  • a neural network that takes a sound source signal as an input and outputs a discrimination result of reverberation information, acoustic information, and priority information about the sound source signal is generated in advance by learning, and the neural network is used. ..
  • a decision tree model that inputs the reverberation information, acoustic information, and priority information that are the outputs of the neural network, and the instrument information and channel information, and outputs the horizontal and vertical angles as the position information is also learned in advance. Ru.
  • the input of the decision tree model may be limited to reverberation information, acoustic information, and priority information.
  • reverberation information, acoustic information, and priority information are determined for a sound source signal that is an input of a neural network in a time interval unit such as 1024 samples of the sound source signal, that is, in a frame unit. Ru.
  • each object (sound source) is arranged in a three-dimensional space, for example, as shown in FIG.
  • FIG. 3 shows an example in which the above-mentioned sound source separation and position information prediction are performed on the input audio signal shown in FIG. 2, and the object is placed at the position indicated by the position information obtained as a result.
  • the depth direction indicates the front direction of the listener (user) who listens to the sound based on the input audio signal
  • the up / down / left / right directions in the figure are the up / down / left / right directions as seen from the listener.
  • the left direction when viewed from the listener that is, the left direction in the figure indicates the positive direction of the horizontal angle
  • the right direction when viewed from the listener indicates the negative direction of the horizontal angle
  • the upward direction from the listener's point of view indicates the positive direction of the vertical angle
  • the downward direction from the listener's point of view indicates the negative direction of the vertical angle.
  • objects OB11 to object OB18 of eight sound source signals are arranged in a three-dimensional space.
  • the sound source signal of one channel of each musical instrument information is treated as a signal of one object.
  • the object OB11 and the object OB12 represent the L-channel and R-channel objects of the musical instrument information "drums", and the object OB13 and the object OB14 represent the L-channel and R-channel objects of the musical instrument information "vocal”.
  • the objects OB15 and the object OB16 represent the objects of the L channel and the R channel of the musical instrument information "others"
  • the objects OB17 and the object OB18 represent the objects of the L channel and the R channel of the musical instrument information "bass”.
  • the L channel object is arranged on the left side when viewed from the listener, and the R channel object is arranged on the right side when viewed from the listener. It can also be seen that the objects with the same musical instrument information are arranged symmetrically from the listener's point of view at the same vertical angle.
  • musical instrument information For objects (sound sources) to which the musical instrument information "others" is attached, more detailed musical instrument information may be obtained by prediction, and the musical instrument information may be used as an input of a decision tree model.
  • a neural network or the like that inputs a sound source signal and outputs musical instrument information (sound source type) may be learned in advance. Further, in this case, the reverberation information, the acoustic information, the priority information, and the like obtained by the prediction may also be used for the prediction of the musical instrument information.
  • a decision is made to input a sound source signal as an input and output a neural network that outputs the identification result of reverberation information, acoustic information, and priority information, or input reverberation information and output a horizontal angle and a vertical angle as position information.
  • the tree model may be learned for each sound source type of the sound source signal, that is, for each instrument information.
  • the position information may be generated by a different method for each sound source type.
  • the application method M1 and the application method M2 described above may be switched according to the musical instrument information or the like.
  • the position information is determined by the application method M1.
  • the position information may be generated by the application method M2.
  • a neural network that inputs the sound source signal itself or the sound source signal and instrument information or channel information and outputs the horizontal and vertical angles of the sound source (object) corresponding to the sound source signal to generate position information. You may do it.
  • 3D Audio playback can be performed even with a stereo sound source already owned by the user or the like, and more realistic audio playback can be realized.
  • the input audio signal is not limited to that of a stereo sound source, but may be a multi-channel sound source such as 5.1ch or 7.1ch, or an audio signal such as a mono sound source.
  • step S11 the sound source separation processing unit 21 separates the sound source from the supplied input audio signal, and supplies the sound source separation result to the position information generation unit 22.
  • step S11 an input audio signal is input to a neural network obtained by learning in advance and an operation is performed, and as a result of sound source separation, a sound source signal, musical instrument information, and channel information for each sound source (object) are obtained.
  • step S12 the position information generation unit 22 performs automatic placement processing based on the sound source separation result supplied from the sound source separation processing unit 21.
  • step S12 as the automatic placement process, the above-mentioned application method M1 and application method M2 are processed by using a decision tree or a neural network obtained in advance by learning, and the position information of each object (sound source signal) is performed. Is generated.
  • the position information generation unit 22 obtains reverberation information, acoustic information, and priority information about the sound source signal by prediction based on the sound source signal and the neural network obtained by learning in advance. Then, the position information generation unit 22 of the sound source (object) is based on the musical instrument information, the channel information, the reverberation information, the acoustic information, and the priority information obtained for the sound source signal, and the decision tree model obtained by learning in advance. Get location information.
  • the position information generation unit 22 supplies the sound source signal and the position information obtained by the automatic arrangement process to the output unit 23. At this time, the position information generation unit 22 also supplies musical instrument information, channel information, and the like to the output unit 23 as needed.
  • step S13 the output unit 23 generates and outputs object data based on the sound source signal and the position information supplied from the position information generation unit 22.
  • the output unit 23 uses one sound source signal such as the sound source signal of the L channel of the instrument information "vocal" as the signal of one object, the sound source signal of each object, and the metadata of each object including at least the position information. Generates data consisting of objects as object data. At this time, for example, the metadata may include not only position information but also channel information, musical instrument information, and the like.
  • the output unit 23 outputs the object data in the subsequent stage, and the object data generation process ends.
  • the signal processing device 11 generates object data capable of 3D Audio reproduction from an audio signal that cannot be reproduced as it is, such as a stereo sound source, by performing sound source separation and automatic placement processing in combination. And output. By doing so, it is possible to perform audio reproduction with a more realistic feeling.
  • the technology (processing) for improving such sound quality is, for example, artificial noise reduction processing and processing for expanding the sound image.
  • This artificial noise reduction processing is a technique for making it difficult to perceive artificial noise generated by sound source separation by three-dimensional automatic arrangement of objects (sound sources).
  • artificial noise such as musical noise (hereinafter, also referred to as artificial noise) may be generated in the audio signal obtained as a result, and the following two types of noise may be generated.
  • artificial noise has the feature F1 because the smaller the number of sound sources, the easier it is for humans to perceive noise.
  • the sound pressure level (i obj ) of each of a plurality of separated sound source signals after separation is calculated by the following equation (1).
  • i obj shows the index of the sound source after the sound source is separated
  • i sample shows the index of the sample of the sound source signal
  • pcm (i obj , i sample ) indicates the sample value of the i sample th sample of the sound source signal of the sound source whose index is i obj.
  • n sample indicates the total number of samples of the sound source signal.
  • the sound pressure level (i obj ) of each sound source signal is subjected to threshold processing based on a predetermined threshold threshold 1, and the number of sound sources (sound source signals) whose sound pressure level (i obj ) is equal to or higher than the threshold value thre1. (Hereinafter, also referred to as the number of effective sound sources) is counted.
  • the threshold value thre1 is set to, for example, -70 dB.
  • the sound source signal whose sound pressure level (i obj ) is equal to or higher than the threshold value thre1 is considered to be a signal that substantially contains a sound source component, and is a sound source that is substantially contained in the input audio signal. The number of effective sound sources indicating the number of components is obtained.
  • the number of effective sound sources is obtained in this way, the number of effective sound sources is divided by the total number of sound sources, and the value of the division result is obtained as the sound source ratio ratio.
  • the total number of sound sources is the number of sound sources that are considered to be included in the input audio signal when the sound sources are separated.
  • the sound source signal for each stereo channel is extracted from the input audio signal by sound source separation. Therefore, in such an example, the total number of sound sources is eight.
  • the sound source ratio ratio is the ratio of the number of effective sound sources to the total number of sound sources, the larger the number of effective sound sources, the more sound source components are contained in the input sound source signal.
  • the sound source ratio ratio thus obtained is compared with a predetermined threshold value thre2.
  • the threshold value thre2 is set to 0.5.
  • the sound source ratio ratio is larger than the threshold value thre2
  • the number of sound sources included in the input audio signal is sufficiently large, and the artificial noise of the sound source signal is considered to be inconspicuous. Is not processed.
  • the following equations (2) to equations (2) to the following equations (2) to the following equations (2) 5) corrects the horizontal and vertical angles of all the sound sources after the sound sources are separated.
  • the horizontal angle azimuth (i obj ) indicated by the position information of the sound source (sound source signal) whose index is i obj is 0 degrees or more the horizontal angle is corrected as shown in the equation (2). If the horizontal angle azimuth (i obj ) is less than 0 degrees, the horizontal angle is corrected as shown in the equation (3).
  • the azimuth (i obj ) is generated by the three-dimensional automatic placement technique in the horizontal angle before modification of the sound source whose index is i obj, that is, in the position information generation unit 22. Shows the horizontal angles that make up the position information.
  • azimuth new (i obj ) shows the corrected horizontal angle of the sound source whose index is i obj , that is, the horizontal angle obtained by correcting the horizontal angle azimuth (i obj).
  • the azimuth ref is a predetermined horizontal angle, for example, 30 degrees.
  • the vertical angle elevation (i obj ) indicated by the position information of the sound source (sound source signal) whose index is i obj is 0 degrees or more the vertical angle is corrected as shown in equation (4). Will be done.
  • the vertical angle elevation (i obj ) is less than 0 degrees, the vertical angle is corrected as shown in the equation (5).
  • elevation (i obj ) is generated by the three-dimensional automatic placement technique in the vertical angle before modification of the sound source whose index is i obj, that is, in the position information generation unit 22. Shows the vertical angles that make up the position information.
  • elevation new (i obj ) shows the corrected vertical angle of the sound source whose index is i obj , that is, the vertical angle obtained by modifying the vertical angle elevation (i obj).
  • the elevation ref is a predetermined vertical angle, for example, 0 degrees.
  • the smaller the value of the sound source ratio ratio the smaller the number of sound source components contained in the input audio signal. From the above-mentioned feature F1, the smaller the sound source ratio ratio, the smaller the sound source signal. The artificial noise contained in is noticeable.
  • the feature F2 is used, and the smaller the sound source ratio ratio, the more the horizontal angles of all the sound sources (objects) after the sound source are separated are azimuth ref. Or modified to be closer to -azimuth ref.
  • ratio / thre2 which is the ratio of the sound source ratio ratio to the threshold threshold 2 brings the position of the sound source closer to the azimuth ref , -azimuth ref , elevation ref , and -elevation ref. Is shown.
  • each sound source after the sound source is separated will be arranged at a closer position in the three-dimensional space. This makes it difficult to perceive artificial noise generated by sound source separation. In other words, artificial noise will be reduced.
  • each sound source is arranged at the position shown in FIG. 3 as a result of generating position information by the three-dimensional automatic arrangement technique in the position information generation unit 22 for eight sound source signals obtained by sound source separation.
  • the objects OB11 to the object OB18 of the eight sound source signals are arranged in the three-dimensional space as in the case of FIG.
  • an object located on the right side of the listener that is, an object having a horizontal angle of less than 0 degrees constituting the position information, has a horizontal angle and a vertical angle (-azimuth ref , elevation ref ).
  • the signal processing device 11 that is, in the processing of converting the input audio signal of a stereo sound source into the sound source signal of each sound source for 3D Audio reproduction, the sound of each sound source is reproduced based on those sound source signals. Even so, the sound of each sound source can only be heard from the direction in which those sound sources are placed. That is, the listener can only hear the direct sound of each sound source, and cannot hear the reverberation sound (reflected sound).
  • a process of expanding the sound image is performed for the purpose of suppressing such deterioration of sound quality.
  • two processes will be described as an example of the process of expanding the sound image.
  • a measurement signal such as an impulse or a TSP (Time Stretched Pulse) signal is reproduced from a plurality of predetermined reproduction positions in a predetermined three-dimensional space, and the measurement signal is used as a plurality of impulse response measurement positions.
  • Impulse response is required by recording (sound collection) with.
  • the three-dimensional space where the impulse response is measured is the space where each sound source in the content is assumed to exist.
  • impulse responses can be obtained in one three-dimensional space.
  • the impulse response may be prepared for one three-dimensional space, or the impulse response may be prepared for each of a plurality of three-dimensional spaces.
  • the placement position of the sound source (object) is at a predetermined reproduction position
  • the impulse response measurement position is regarded as the position of the virtual speaker corresponding to the reflection position of the sound from the sound source, and is based on the impulse response and the sound source signal. If the filtering process is performed, a pseudo reverb (reverberation) component signal can be obtained.
  • the reproduction position closest to the position indicated by the position information of the sound source signal to be processed is searched from among the M reproduction positions.
  • N impulse responses prepared for the reproduction position obtained as a search result are read out, and filtering processing is performed based on the sound source signal to be processed and the filter coefficient using those impulse responses as filter coefficients.
  • N audio signals can be obtained as the processing result.
  • Each of the N audio signals thus obtained is regarded as a sound source signal of a reverb object corresponding to a reverb component, and as position information of those sound source signals, information indicating an impulse response measurement position of the corresponding impulse response is provided. Generated.
  • the sound source signals of N reverb objects and their position information are newly generated for the sound source signal of one object (sound source).
  • the above processing is performed for each sound source (sound source signal). Then, not only the sound source signals of those original sound sources but also the sound source signals of the reverb objects generated for each of those sound sources are output to the subsequent stage as the sound source signals of the additionally generated objects.
  • the surround reverb processing basically obtains a total of eight (N + 1) object sound source signals and position information. become.
  • the sound source signal of the reverb object generated by the surround reverb processing is gain-adjusted (gain correction) according to a predetermined gain value and is used as the final sound source signal of the reverb object.
  • gain correction gain correction
  • the sound source signals of those multiple reverb objects are added together to form one reverb object. It is said to be the sound source signal of.
  • the listener can hear that the sound is coming from a plurality of different directions for one sound source, and the above-mentioned unnatural sound is eliminated and the sound quality is improved. Can be improved. In other words, you can get a higher sense of reality.
  • the above-mentioned artificial noise becomes inconspicuous, and the sound quality can be further improved.
  • the memory size required to hold the impulse response increases.
  • the number N of the impulse response measurement positions increases, the number of reverb objects increases by that amount, so that the surround reverb processing and the processing amount in the subsequent stage increase.
  • This gain value may be a fixed value for all objects (sound sources), such as 0.05, or may be a different value for each object.
  • the sound quality can be improved as a whole and the amount of processing can be suppressed to a small amount.
  • object OB21 to object OB24 which are reverb objects, are further generated.
  • objects OB21 to object OB24 which are reverb objects, are generated for the L channel object OB13 of the musical instrument information "vocal" and the R channel object OB14 of the musical instrument information "vocal".
  • each of the object OB21 to the object OB24 contains a sound source signal component corresponding to the object OB13 and a sound source signal component corresponding to the object OB14.
  • object OB21 and object OB22 which are reverb objects, are generated for one object such as object OB13 and object OB14.
  • the surround reverb processing is a processing for expanding the sound image.
  • the sound image of the original sound source can be expanded and the sound quality can be improved.
  • the spread processing described below can improve the sound quality with a smaller amount of processing than the surround reverb processing.
  • the position information of the spread component is generated using a parameter (information) called spread, and rendering processing such as VBAP (Vector Base Amplitude Panning) is performed so that the sound image is localized at the position indicated by the position information. By doing this, it is a process that expands the sound image.
  • VBAP Vector Base Amplitude Panning
  • the sound image of each sound source can be expanded, the above-mentioned unnatural sound can be heard, and the sound quality can be improved. In other words, you can get a higher sense of reality. Moreover, the above-mentioned artificial noise can be made inconspicuous, and the sound quality can be further improved.
  • the spread indicating the degree of spread of the sound image is, for example, angle information indicating an arbitrary angle from 0 degree to 180 degrees, and the rendering process is performed using such a spread.
  • a region such as a circle or an ellipse centered on the position indicated by the position information of the sound source signal (hereinafter, also referred to as a sound image region) is determined.
  • the angle formed by the vector from the position of the listener to the center of the sound image region and the vector from the position of the listener to the edge of the sound image region is set to be the angle indicated by the spread.
  • the vector from the position of the listener to each of a plurality of predetermined positions in the sound image region is defined as the spread vector.
  • the gain value of each of the plurality of speakers such that the sound image is localized at the position indicated by the spread vector, that is, the VBAP gain is calculated by VBAP.
  • the VBAP gain for each position indicated by multiple spread vectors calculated for the same speaker is added, and the added VBAP gain is normalized to obtain the final VBAP gain.
  • the VBAP gain obtained for the speaker is multiplied by the audio signal of the object, that is, the sound source signal of the object (source) in this case, and the resulting audio signal is the channel corresponding to the speaker. It is considered to be the audio signal of.
  • the sound of the object is reproduced so that the sound of the object (sound source) is localized in the entire sound image region described above. .. That is, the sound of the object spreads over the entire sound image area and is localized.
  • the signal processing device 11 may automatically add a spread.
  • the spread value given to each object may be a fixed value for all objects, for example, 30 degrees, or may be a different value for each object.
  • the spread value is a predetermined value for the sound source type indicated by the musical instrument information, such as musical instrument information, sound pressure of the sound source signal, priority information, and the like. It may be determined based on reverberation information, acoustic information, and the like.
  • the spread processing is not limited to the processing described above, and may be a processing such as simply copying (duplicate) an object and adding it.
  • the sound source signal of the object (sound source) is used as it is as the sound source signal of one or more new objects, and for those new objects. Location information is given.
  • the position information of the new object is obtained by adding a predetermined value to the horizontal angle or vertical angle of the position information of the object of the original musical instrument information "others", for example.
  • the newly generated sound source signal of the object for expanding the sound image may be the sound source signal itself of the object of the original musical instrument information "others", or the sound source of the object of the musical instrument information "others".
  • the signal may be gain-adjusted.
  • the object OB31 is generated for the object OB15 of the L channel of the musical instrument information "others"
  • the object OB32 is similarly generated for the object OB16 of the R channel of the musical instrument information "others”.
  • the object OB31 is arranged in the vicinity of the object OB15, and the listener can hear the sound of the object OB15 from the arrangement position of the object OB15 and the arrangement position of the object OB31. In other words, the sound image of the sound of the object OB15 is spread and heard.
  • object OB32 is also placed in the vicinity of object OB16, which makes the sound image of object OB16 spread and heard.
  • a sound source with a large surface area or a sound source of a musical instrument such as a violin if the sound image is expanded, a higher sense of presence can be obtained, so that the sound source signal of such a specific sound source is selectively selected.
  • the sound quality can be improved while suppressing the amount of processing as a whole.
  • any two or more of artificial noise reduction processing, surround reverb processing, and spread processing can be performed in combination.
  • the signal processing device 11 is configured as shown in FIG. 8, for example.
  • the parts corresponding to the case in FIG. 1 are designated by the same reference numerals, and the description thereof will be omitted as appropriate.
  • the signal processing device 11 shown in FIG. 8 has a sound source separation processing unit 21, a position information generation unit 22, a position information correction unit 51, a signal processing unit 52, and an output unit 23.
  • the configuration of the signal processing device 11 shown in FIG. 8 is the signal processing device of FIG. 1 in that a position information correction unit 51 and a signal processing unit 52 are newly provided between the position information generation unit 22 and the output unit 23. Unlike 11, it has the same configuration as the signal processing device 11 of FIG. 1 in other respects.
  • the position information correction unit 51 performs the above-mentioned artificial noise reduction processing based on the sound source signal and the position information of each sound source (object) supplied from the position information generation unit 22, and the position information of each sound source is necessary. To fix.
  • the position information correction unit 51 supplies the position information of each sound source corrected as necessary and the sound source signal to the signal processing unit 52.
  • the signal processing unit 52 performs a process of expanding the above-mentioned sound image based on the sound source signal and position information of each sound source supplied from the position information correction unit 51, and outputs the sound source signal and position information of each sound source obtained as a result. Supply to unit 23.
  • At least one of the above-mentioned surround reverb processing and the processing for generating a spread for the spread processing is performed as the processing for expanding the sound image.
  • the sound source signal and position information of a new object (sound source) corresponding to the reverb object are generated, and when processing to generate spread is performed, the position information of each sound source is used. The generated spread is added.
  • the output unit 23 generates and outputs object data based on the sound source signal and position information supplied from the signal processing unit 52.
  • step S51 and step S52 Since the processing of step S51 and step S52 is the same as the processing of step S11 and step S12 of FIG. 4, the description thereof will be omitted. However, in step S52, the position information generation unit 22 supplies the sound source signal and the position information of each sound source obtained by the automatic arrangement process to the position information correction unit 51.
  • step S53 the position information correction unit 51 performs artificial noise reduction processing based on the sound source signal and position information of each sound source supplied from the position information generation unit 22.
  • the position information correction unit 51 calculates the sound pressure level (i obj ) of each sound source signal by calculating the above equation (1), and also sets the sound pressure level (i obj ) and the threshold value thre1 of each sound source signal. Is compared, and the sound source ratio ratio is obtained based on the comparison result.
  • the position information correction unit 51 does not correct the position information when the sound source ratio ratio is larger than the threshold value thre2, and when the sound source ratio ratio is equal to or less than the threshold value thre2, the above-mentioned equations (2) to (1). According to 5), the horizontal angle and the vertical angle in the position information of each sound source are corrected.
  • the position information correction unit 51 corrects the position information of each sound source as necessary, the sound source signal and position information of each sound source are supplied to the signal processing unit 52.
  • step S54 the signal processing unit 52 performs a process of expanding the sound image based on the sound source signal and position information of each sound source supplied from the position information correction unit 51, and obtains the sound source signal and position information of each sound source obtained as a result. It is supplied to the output unit 23.
  • the signal processing unit 52 sequentially selects each sound source as a sound source to be processed.
  • the signal processing unit 52 searches for the reproduction position closest to the position indicated by the position information of the sound source to be processed from among the M reproduction positions based on the position information of the sound source to be processed, and as the search result. N impulse responses related to the obtained reproduction position are read from the memory.
  • the signal processing unit 52 performs filtering processing and gain adjustment for each of N impulse responses based on the sound source signal of the sound source to be processed and the read N impulse responses, thereby performing N impulse responses. Generates the sound source signal and position information of a new sound source.
  • the signal processing unit 52 uses all sound sources as sound sources to be processed and generates sound source signals and position information of new sound sources, the signal processing unit 52 adds the sound source signals of those new sound sources having the same position information. It is a sound source signal of one sound source.
  • the sound source signal and position information of a new sound source corresponding to the reverb object can be obtained.
  • the signal processing unit 52 when a process of generating a spread is performed as a process of expanding the sound image, the signal processing unit 52 generates a spread of each sound source by using the sound source signal and the position information as necessary, and the generated spread is used as a sound source signal. And supply to the output unit 23 together with the position information.
  • step S55 the output unit 23 generates and outputs object data based on the sound source signal and position information supplied from the signal processing unit 52.
  • step S55 the same processing as in step S13 of FIG. 4 is performed.
  • the output unit 23 When the spread of each sound source is supplied from the signal processing unit 52, the output unit 23 generates metadata including the spread of each sound source and the position information. Further, the metadata may include musical instrument information, channel information, and the like.
  • the output unit 23 When the output unit 23 generates the object data in this way, the generated object data is output to the subsequent stage, and the object data generation process ends.
  • the signal processing device 11 appropriately performs processing for reducing artificial noise and processing for expanding the sound image when generating object data. By doing so, it is possible to reduce artificial noise, widen the sound image, and further improve the sound quality.
  • the signal processing device 11 described above may be a device on the coding side such as a server functioning as a coding device, or a device on the decoding side such as headphones, a personal computer, a portable player, or a smart phone. There may be.
  • the signal processing device 11 when the signal processing device 11 is a device on the coding side, the signal processing device 11 has the configuration shown in FIG. In FIG. 10, the same reference numerals are given to the portions corresponding to those in FIG. 8, and the description thereof will be omitted as appropriate.
  • the signal processing device 11 shown in FIG. 10 has a sound source separation processing unit 21, a position information generation unit 22, a position information correction unit 51, a signal processing unit 52, an output unit 23, and a coding unit 81.
  • the configuration of the signal processing device 11 shown in FIG. 10 is different from the signal processing device 11 of FIG. 8 in that a coding unit 81 is newly provided after the output unit 23, and the signal processing of FIG. 8 is otherwise provided. It has the same configuration as the device 11.
  • the coding unit 81 encodes the object data supplied from the output unit 23 to generate a coded bit stream, and transmits the coded bit stream to a device such as a client.
  • the coded audio data obtained by encoding the sound source signal of each object constituting the object data and the coding obtained by encoding the metadata of each object constituting the object data are encoded. Contains metadata.
  • the signal processing device 11 when the signal processing device 11 is a device on the decoding side, the signal processing device 11 has, for example, the configuration shown in FIG. In FIG. 11, the parts corresponding to the case in FIG. 8 are designated by the same reference numerals, and the description thereof will be omitted as appropriate.
  • the signal processing device 11 shown in FIG. 11 has a sound source separation processing unit 21, a position information generation unit 22, a position information correction unit 51, a signal processing unit 52, an output unit 23, and a rendering processing unit 111.
  • the configuration of the signal processing device 11 shown in FIG. 11 is different from the signal processing device 11 of FIG. 8 in that a rendering processing unit 111 is newly provided after the output unit 23, and the signal processing of FIG. 8 is otherwise provided. It has the same configuration as the device 11.
  • the rendering processing unit 111 performs rendering processing such as VBAP based on the sound source signal and metadata of each object as object data supplied from the output unit 23, and reproduces the sound of the content, that is, the sound of each object. Generates stereo or multi-channel playback audio signals.
  • the rendering processing unit 111 when spread is included in the metadata of the object, the rendering processing unit 111 performs the above-mentioned spread processing as rendering processing to generate a reproduced audio signal.
  • the series of processes described above can be executed by hardware or software.
  • the programs constituting the software are installed on the computer.
  • the computer includes a computer embedded in dedicated hardware and, for example, a general-purpose personal computer capable of executing various functions by installing various programs.
  • FIG. 12 is a block diagram showing a configuration example of computer hardware that executes the above-mentioned series of processes programmatically.
  • a CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • An input / output interface 505 is further connected to the bus 504.
  • An input unit 506, an output unit 507, a recording unit 508, a communication unit 509, and a drive 510 are connected to the input / output interface 505.
  • the input unit 506 includes a keyboard, a mouse, a microphone, an image pickup device, and the like.
  • the output unit 507 includes a display, a speaker, and the like.
  • the recording unit 508 includes a hard disk, a non-volatile memory, and the like.
  • the communication unit 509 includes a network interface and the like.
  • the drive 510 drives a removable recording medium 511 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory.
  • the CPU 501 loads the program recorded in the recording unit 508 into the RAM 503 via the input / output interface 505 and the bus 504 and executes the above-mentioned series. Is processed.
  • the program executed by the computer (CPU501) can be recorded and provided on a removable recording medium 511 as a package medium or the like, for example.
  • the program can also be provided via a wired or wireless transmission medium such as a local area network, the Internet, or digital satellite broadcasting.
  • the program can be installed in the recording unit 508 via the input / output interface 505 by mounting the removable recording medium 511 in the drive 510. Further, the program can be received by the communication unit 509 and installed in the recording unit 508 via a wired or wireless transmission medium. In addition, the program can be pre-installed in the ROM 502 or the recording unit 508.
  • the program executed by the computer may be a program in which processing is performed in chronological order according to the order described in the present specification, in parallel, or at a necessary timing such as when a call is made. It may be a program in which processing is performed.
  • the embodiment of the present technology is not limited to the above-described embodiment, and various changes can be made without departing from the gist of the present technology.
  • this technology can take a cloud computing configuration in which one function is shared by multiple devices via a network and processed jointly.
  • each step described in the above flowchart can be executed by one device or shared by a plurality of devices.
  • the plurality of processes included in the one step can be executed by one device or shared by a plurality of devices.
  • this technology can also have the following configurations.
  • a sound source separation unit that extracts one or more of the sound source signals by sound source separation from an input audio signal containing a plurality of sound source signals.
  • a position information generation unit that generates position information of the extracted sound source signal based on the result of the sound source separation,
  • the position information generation unit generates the position information based on the sound source type of the sound source signal obtained by the sound source separation.
  • the position information generation unit generates the position information based on the channel information of the sound source signal obtained by the sound source separation.
  • Signal processing device The signal processing apparatus according to any one of (1) to (8), further comprising a signal processing unit that generates parameters for spread processing with respect to the sound source signal obtained by the sound source separation.
  • the sound source signal is a stereo audio signal.
  • the output unit uses any of the sound source signal of the stereo L channel and the sound source signal of the R channel obtained by the sound source separation as the sound source signal of one object (1) to (9).
  • the signal processing apparatus according to any one of (1) to (10), further comprising a coding unit for encoding the data.
  • the signal processing device wherein the position information generation unit generates the position information by a method different for each sound source type.
  • the signal processing device From an input audio signal containing a plurality of sound source signals, one or more of the sound source signals are extracted by sound source separation, and the sound source signals are extracted. Based on the result of the sound source separation, the position information of the extracted sound source signal is generated. A signal processing method that outputs the extracted sound source signal and the position information as audio object data.
  • a program that causes a computer to execute a process including a step of outputting the extracted sound source signal and the position information as data of an audio object.
  • 11 signal processing device 21 sound source separation processing unit, 22 position information generation unit, 23 output unit, 51 position information correction unit, 52 signal processing unit, 81 coding unit, 111 rendering processing unit.

Abstract

本技術は、臨場感のあるオーディオ再生を行うことができるようにする信号処理装置および方法、並びにプログラムに関する。 信号処理装置は、複数の音源信号が含まれている入力オーディオ信号から、音源分離により1または複数の音源信号を抽出する音源分離部と、音源分離の結果に基づいて、抽出された音源信号の位置情報を生成する位置情報生成部と、抽出された音源信号と位置情報をオーディオオブジェクトのデータとして出力する出力部とを備える。本技術は信号処理装置に適用することができる。

Description

信号処理装置および方法、並びにプログラム
 本技術は、信号処理装置および方法、並びにプログラムに関し、特に、臨場感のあるオーディオ再生を行うことができるようにした信号処理装置および方法、並びにプログラムに関する。
 従来、MPEG(Moving Picture Experts Group)-H 3D Audio規格が知られている(例えば、非特許文献1および非特許文献2参照)。
 MPEG-H 3D Audio規格等で扱われる3D Audioでは、3次元的な音の方向や距離、拡がりなどを再現することができ、従来のステレオ再生に比べ、より臨場感のあるオーディオ再生が可能となる。
ISO/IEC 23008-3, MPEG-H 3D Audio ISO/IEC 23008-3:2015/AMENDMENT3, MPEG-H 3D Audio Phase 2
 しかしながら3D Audioでの再生においては、音源ごと、すなわちオブジェクトごとにオーディオ信号が分離されており、かつそれらのオブジェクトに対して位置情報が付与されている必要があった。
 そのため、例えばユーザが既に所有しているステレオ音源など、オブジェクトごとに分離されていないオーディオ信号や、位置情報のないオーディオ信号は3D Audioで再生することができなかった。すなわち、臨場感のあるオーディオ再生を行うことができなかった。
 本技術は、このような状況に鑑みてなされたものであり、臨場感のあるオーディオ再生を行うことができるようにするものである。
 本技術の一側面の信号処理装置は、複数の音源信号が含まれている入力オーディオ信号から、音源分離により1または複数の前記音源信号を抽出する音源分離部と、前記音源分離の結果に基づいて、抽出された前記音源信号の位置情報を生成する位置情報生成部と、抽出された前記音源信号と前記位置情報をオーディオオブジェクトのデータとして出力する出力部とを備える。
 本技術の一側面の信号処理方法またはプログラムは、複数の音源信号が含まれている入力オーディオ信号から、音源分離により1または複数の前記音源信号を抽出し、前記音源分離の結果に基づいて、抽出された前記音源信号の位置情報を生成し、抽出された前記音源信号と前記位置情報をオーディオオブジェクトのデータとして出力するステップを含む。
 本技術の一側面においては、複数の音源信号が含まれている入力オーディオ信号から、音源分離により1または複数の前記音源信号が抽出され、前記音源分離の結果に基づいて、抽出された前記音源信号の位置情報が生成され、抽出された前記音源信号と前記位置情報がオーディオオブジェクトのデータとして出力される。
信号処理装置の構成例を示す図である。 音源分離について説明する図である。 3次元空間における音源配置例を示す図である。 オブジェクトデータ生成処理を説明するフローチャートである。 3次元空間における音源配置例を示す図である。 3次元空間における音源配置例を示す図である。 3次元空間における音源配置例を示す図である。 信号処理装置の構成例を示す図である。 オブジェクトデータ生成処理を説明するフローチャートである。 信号処理装置の構成例を示す図である。 信号処理装置の構成例を示す図である。 コンピュータの構成例を示す図である。
 以下、図面を参照して、本技術を適用した実施の形態について説明する。
〈第1の実施の形態〉
〈信号処理装置の構成例〉
 本技術は、1または複数の音源が混合したオーディオ信号を音源分離により音源(オブジェクト)ごとのオーディオ信号に分離させ、音源分離結果に基づいて位置情報を付与することで3D Audioでの再生を行うことができるようにするものである。これにより、より臨場感のあるオーディオ再生を行うことができる。
 特に本技術では、音源分離技術と3次元自動配置技術とを組み合わせて用いることで、臨場感のあるオーディオ再生を実現できるようにした。
 音源分離技術とは、複数の音源が混合されたオーディオ信号を、音源ごとのオーディオ信号に分離する技術である。また、3次元自動配置技術とは、音源ごとのオーディオ信号に対して自動的に位置情報を付与する技術である。
 以下では、ユーザが既に所有しているステレオ音源、つまり左右の2チャネルのオーディオ信号を入力とする場合について具体的に説明する。しかし、これに限らず、入力とするオーディオ信号は、モノラルのオーディオ信号であってもよいし、3以上のマルチチャネルのオーディオ信号であってもよい。
 図1は、本技術を適用した信号処理装置の一実施の形態の構成例を示す図である。
 図1に示す信号処理装置11は、音源分離処理部21、位置情報生成部22、および出力部23を有している。
 音源分離処理部21には、1または複数の音源の音、すなわち1または複数の音源のオーディオ信号が混合されたステレオ等のオーディオ信号が入力オーディオ信号として供給される。この入力オーディオ信号は、所定のオーディオのコンテンツ等を再生するための信号である。
 音源分離処理部21は、供給された入力オーディオ信号に対して音源分離を行い、その音源分離結果を位置情報生成部22に供給する。
 例えば音源分離を行うことで、入力オーディオ信号から複数の音源ごとのオーディオ信号が抽出(分離)されるとともに、それらのオーディオ信号に含まれる音の音源種別を示す楽器情報と、オーディオ信号のチャネルを示すチャネル情報が得られる。
 音源分離処理部21は、このようにして得られた音源ごとのオーディオ信号、楽器情報、およびチャネル情報を音源分離結果として位置情報生成部22に供給する。なお、以下、音源分離により得られた音源ごとのオーディオ信号を音源信号とも称する。
 位置情報生成部22は、音源分離処理部21から供給された音源分離結果に基づいて、各音源信号に対して位置情報を付与し、音源信号および位置情報を出力部23に供給する。なお、各音源信号の楽器情報やチャネル情報も位置情報生成部22から出力部23に供給されるようにしてもよい。
 位置情報生成部22では、3次元自動配置技術が用いられて、音源分離結果としての音源信号や楽器情報、チャネル情報から各音源信号の位置情報が生成される。
 ここで、音源信号の位置情報は、3次元空間における音源の位置、すなわち音源の音の音像定位位置を示す情報である。この位置情報は、例えば基準となる位置から音源までの距離を示す半径、音源の水平方向の位置を示す水平角度、および音源の垂直方向の位置を示す垂直角度からなる。
 出力部23は、位置情報生成部22から供給された音源信号および位置情報に基づいて、オーディオオブジェクトのデータであるオブジェクトデータを生成し、出力する。
 例えば出力部23は、1つの音源信号を、1つのオブジェクト(オーディオオブジェクト)のオーディオ信号とするとともに、少なくとも音源信号の位置情報を含むデータをメタデータとして生成する。
 出力部23は、このようにしてオブジェクトごとに得られた音源信号とメタデータとからなるデータをオブジェクトデータとして出力する。換言すれば、各オブジェクトの音源信号とメタデータがオブジェクトデータとして出力される。
 なお、メタデータには、位置情報だけでなく、楽器情報やチャネル情報が含まれるようにしてもよい。
(音源分離技術について)
 次に、音源分離処理部21で用いられる音源分離技術と、位置情報生成部22で用いられる3次元自動配置技術について説明する。
 まず、音源分離技術について説明する。
 例えばステレオ音源、すなわちLチャネルとRチャネルの2チャネルのオーディオ信号に音源分離技術を適用すると、音源ごとに分離された複数の2チャネルのオーディオ信号を出力として得ることができる。
 音源分離により抽出される音源信号の音源種別と数は、音源分離技術によってさまざまであるが、ここでは4種類の音源種別で、各音源種別についてLとRの2チャネル(ステレオ)の音源信号が抽出されるものとする。
 具体的には、以下では、例えば図2に示すように、音源分離によって「vocal」、「drums」、「bass」、および「others」の4種類の音源種別の音の音源信号への分離が行われるとする。
 なお、音源種別「others」とは、「vocal」、「drums」、および「bass」以外の音源であり、例えば「guitar」や「piano」などの音源である。音源種別「others」を示す楽器情報が付与される音源信号には、「vocal」、「drums」、および「bass」以外の1または複数の音源の音の成分が含まれている。
 図2に示す例では、図中、左側に示すように音源分離処理部21には、複数の音源の成分が混合した2チャネル(ステレオ)の入力オーディオ信号が供給され、その入力オーディオ信号に対して音源分離が行われる。
 例えば音源分離は、予め学習により生成されたニューラルネットワーク、すなわちニューラルネットワークを実現する係数等のパラメータなどに基づいて行われる。
 具体的には、音源分離処理部21はニューラルネットワークのパラメータと入力オーディオ信号に基づいて所定の演算を行うことで、入力オーディオ信号から、予め定められた「vocal」、「drums」、「bass」、および「others」の4種類の音源種別の各チャネルのオーディオ信号を音源信号として抽出する。
 これにより、例えば図2中、右側に示すように8個の音源信号が得られる。
 具体的には、音源種別「vocal」のLチャネルとRチャネルの音源信号、音源種別「drums」のLチャネルとRチャネルの音源信号、音源種別「bass」のLチャネルとRチャネルの音源信号、および音源種別「others」のLチャネルとRチャネルの音源信号が得られている。
 ここで、音源分離処理部21における音源分離では、音源分離後の全ての音源信号を加算すると、入力オーディオ信号が復元される、つまり入力オーディオ信号と全く同じ信号が得られるものとする。
 また、ここではステレオの入力オーディオ信号を音源分離の入力とし、各音源のステレオの音源信号が出力として得られる場合について説明した。
 しかし、これに限らず、モノラルやマルチチャネルの入力オーディオ信号を音源分離の入力とし、モノラルやステレオ、マルチチャネル等の任意のチャネル構成の音源信号を出力とする音源分離が行われるようにしてもよい。
(3次元自動配置技術について)
 次に、3次元自動配置技術について説明する。
 例えば音源分離により複数の音源種別の2チャネルの音源信号が得られるが、位置情報生成部22では、これらの各音源種別のチャネルごとの音源信号のそれぞれを1つのオブジェクトの信号とみなし、3次元自動配置技術が適用される。
 ここで、オブジェクトとみなされる各音源信号には、音源分離処理部21での音源分離によって、音源種別「vocal」や「drums」などを示す楽器情報と、LやRなどのチャネルを示すチャネル情報とが付与されている。
 このように楽器情報とチャネル情報が付与されたオブジェクト(音源信号)に対して、3次元自動配置技術を適用すると、3次元空間における各オブジェクトの位置を示す水平角度と垂直角度が自動的に決定(付与)される。
 なお、3次元自動配置技術では、オブジェクトの位置を示す半径として、予め定められた値の半径が付与されるようにしてもよいし、オブジェクトごとに異なる半径が付与されるようにしてもよい。
 3次元自動配置技術の適用方法として、主に2つの適用方法が考えられる。以下、それらの適用方法について説明する。
(3次元自動配置技術の適用方法M1)
 まず、1つ目の適用方法M1では、音源分離結果として得られる楽器情報とチャネル情報に基づいて、予め学習により得られた決定木モデルにより、各オブジェクト(音源信号)の位置情報を構成する水平角度と垂直角度が決定される。
 特に、ここでは決定木モデルの入力とされる楽器情報は「vocal」、「drums」、「bass」、および「others」の4種類に限定して学習が行われる。
 決定木モデルの学習時には、予め複数の3D Audioコンテンツについて収集した、オブジェクトごとの楽器情報およびチャネル情報と、位置情報としての水平角度および垂直角度とが学習用のデータ(学習データ)とされる。
 そして楽器情報およびチャネル情報を入力とし、位置情報としての水平角度および垂直角度を出力とする決定木モデルの学習が行われる。
 このようにして得られた決定木モデルを用いれば、各音源(オブジェクト)の位置情報を簡単に決定(予測)することができる。
 例えば決定木モデルによる位置情報の決定時には、楽器情報が「vocal」であるかなど、楽器情報やチャネル情報といった各情報に基づく判定処理の結果に応じて、その決定木の終端まで連続的に判定が行われていき、最終的な水平角度と垂直角度が決定される。
 このような決定木モデルを用いれば、楽器情報やチャネル情報などの音源(オブジェクト)ごとに付与される情報から、音源ごとにメタデータを構成する水平角度と垂直角度を決定することが可能である。
 なお、適用方法M1では、音源信号全体で楽器情報やチャネル情報は変化しないので、各音源(オブジェクト)について決定される位置情報は、音源信号の全体で変化しない。
(3次元自動配置技術の適用方法M2)
 また、3次元自動配置技術の適用方法M1とは異なる適用方法M2では、音源分離で付与された楽器情報やチャネル情報以外の情報を予測によって求め、それらの情報も入力として用いられて水平角度と垂直角度が決定される。
 例えば楽器情報やチャネル情報以外の音源(オブジェクト)に関する情報として、残響情報や音響情報、優先度情報などが考えられる。
 残響情報とは、音源信号に施されたエフェクト等の音響効果のうち、「dry」や「short reverb」などといった音響効果としての残響効果、すなわち残響特性を示す情報である。
 また、音響情報とは、音源信号に施されたエフェクト等の音響効果のうち、「natural」や「dist」などといった、残響効果以外の音響効果を示す情報である。
 さらに、優先度情報とはオブジェクトの優先度を示す情報である。
 これらの残響情報や音響情報、優先度情報をオブジェクト(音源信号)ごとに予測する方法としてはさまざまな方法が考えられる。
 ここでは一例として、音源信号を入力とし、その音源信号についての残響情報、音響情報、および優先度情報の識別結果を出力するニューラルネットワークが予め学習により生成され、そのニューラルネットワークが用いられるものとする。
 また、ニューラルネットワークの出力である残響情報、音響情報、および優先度情報と、楽器情報およびチャネル情報とを入力とし、位置情報としての水平角度および垂直角度を出力とする決定木モデルも予め学習される。
 なお、決定木モデルの入力は、残響情報、音響情報、および優先度情報だけとされてもよい。
 このような適用方法M2では、ニューラルネットワークの入力となる音源信号に対して、その音源信号の1024サンプルなどの時間区間の単位、つまりフレーム単位で残響情報、音響情報、および優先度情報が決定される。
 そのため、フレーム単位で変化する残響情報や音響情報を入力として、決定木モデルによりフレーム単位で位置情報を得ることができる。すなわち、決定木モデルから出力される水平角度や垂直角度からなる位置情報が時間とともに変化し得るので、動的なオブジェクトのオブジェクトデータを得ることができる。
 以上のような適用方法M1や適用方法M2により位置情報を生成すると、例えば図3に示すように3次元空間上に各オブジェクト(音源)が配置される。
 図3は、図2に示した入力オーディオ信号に対して、上述した音源分離および位置情報の予測を行い、その結果得られた位置情報により示される位置にオブジェクトを配置した例を示している。
 特に、図3において奥行き方向は入力オーディオ信号に基づく音を受聴する受聴者(ユーザ)の正面方向を示しており、図中の上下左右方向は受聴者から見た上下左右方向となっている。
 特に、ここでは受聴者から見て左方向、つまり図中、左方向が水平角度の正の方向を示しており、受聴者から見て右方向が水平角度の負の方向を示している。また、受聴者から見て上方向が垂直角度の正の方向を示しており、受聴者から見て下方向が垂直角度の負の方向を示している。
 この例では、例えば8個の音源信号のオブジェクトOB11乃至オブジェクトOB18が3次元空間上に配置されている。特に、ここでは各楽器情報の1つのチャネルの音源信号が1つのオブジェクトの信号として扱われている。
 オブジェクトOB11およびオブジェクトOB12は、楽器情報「drums」のLチャネルおよびRチャネルのオブジェクトを表しており、オブジェクトOB13およびオブジェクトOB14は、楽器情報「vocal」のLチャネルおよびRチャネルのオブジェクトを表している。
 また、オブジェクトOB15およびオブジェクトOB16は、楽器情報「others」のLチャネルおよびRチャネルのオブジェクトを表しており、オブジェクトOB17およびオブジェクトOB18は、楽器情報「bass」のLチャネルおよびRチャネルのオブジェクトを表している。
 これらのオブジェクトOB11乃至オブジェクトOB18のうち、Lチャネルのオブジェクトは受聴者から見て左側に配置されており、Rチャネルのオブジェクトは受聴者から見て右側に配置されている。また、同じ楽器情報のオブジェクトは、同じ垂直角度で受聴者から見て左右対称に配置されていることが分かる。
 以上のように適用方法M2では、適用方法M1と比較して音源信号の変化に応じた適切な水平角度と垂直角度の決定が可能となる。
 なお、楽器情報「others」が付与されたオブジェクト(音源)については、より詳細な楽器情報を予測によって求め、その楽器情報を決定木モデルの入力として用いるようにしてもよい。
 この場合、例えば音源信号を入力とし、楽器情報(音源種別)を出力とするニューラルネットワーク等を予め学習しておけばよい。また、この場合、予測により得られた残響情報、音響情報、優先度情報なども楽器情報の予測に用いてもよい。
 このように楽器情報が「others」であるオブジェクトについて、より詳細な楽器情報を予測する方が、楽器情報「others」をそのまま用いる場合と比較して、音源信号の特徴に応じた適切な水平角度と垂直角度を決定することができる。
 また、例えば音源信号を入力とし、残響情報、音響情報、および優先度情報の識別結果を出力するニューラルネットワークや、残響情報等を入力とし、位置情報としての水平角度および垂直角度を出力とする決定木モデルは、音源信号の音源種別ごと、すなわち楽器情報ごとに学習されるようにしてもよい。
 さらに、音源種別ごとに異なる方法で位置情報を生成するようにしてもよい。例えば、楽器情報等に応じて、以上において説明した適用方法M1と適用方法M2を切り替えるようにしてもよい。
 例えば一般的なコンテンツの主な音源成分であり、音源位置が移動しない方が安定すると考えられる楽器情報が「vocal」や「drums」、「bass」である音源信号については適用方法M1により位置情報を生成し、楽器情報「others」の音源信号については適用方法M2により位置情報を生成するようにしてもよい。
 その他、音源信号自体、または音源信号と楽器情報やチャネル情報を入力とし、音源信号に対応する音源(オブジェクト)の水平角度と垂直角度を出力とするニューラルネットワークなどを、位置情報の生成に用いるようにしてもよい。
 以上のように、音源分離技術と3次元自動配置技術を組み合わせて用いることで、ステレオ音源などの入力オーディオ信号から、3D Audioで再生可能なオブジェクトデータを得ることができる。換言すれば、ユーザ等が既に有しているステレオ音源でも3D Audio再生を行い、より臨場感のあるオーディオ再生を実現することができる。
 上述したように、入力オーディオ信号は、ステレオ音源のものに限らず、5.1chや7.1ch等のマルチチャネル音源、モノ音源などのオーディオ信号であってもよい。
〈オブジェクトデータ生成処理の説明〉
 続いて、図1に示した信号処理装置11の動作について説明する。すなわち、以下、図4のフローチャートを参照して、信号処理装置11によるオブジェクトデータ生成処理について説明する。
 ステップS11において音源分離処理部21は、供給された入力オーディオ信号に対して音源分離を行い、その音源分離結果を位置情報生成部22に供給する。
 例えばステップS11では、予め学習により得られたニューラルネットワークに入力オーディオ信号が入力されて演算が行われ、音源分離の結果として音源(オブジェクト)ごとの音源信号、楽器情報、およびチャネル情報が得られる。
 ステップS12において位置情報生成部22は、音源分離処理部21から供給された音源分離結果に基づいて自動配置処理を行う。
 例えばステップS12では、自動配置処理として、予め学習により得られている決定木やニューラルネットワークが用いられて上述した適用方法M1や適用方法M2の処理が行われ、各オブジェクト(音源信号)の位置情報が生成される。
 具体的には、例えば位置情報生成部22は、音源信号と、予め学習により得られたニューラルネットワークとに基づいて、音源信号についての残響情報、音響情報、および優先度情報を予測により求める。そして位置情報生成部22は、音源信号について得られた楽器情報、チャネル情報、残響情報、音響情報、および優先度情報と、予め学習により得られた決定木モデルとに基づいて音源(オブジェクト)の位置情報を得る。
 位置情報生成部22は、自動配置処理により得られた音源信号および位置情報を出力部23に供給する。このとき、位置情報生成部22は、必要に応じて楽器情報やチャネル情報なども出力部23に供給する。
 ステップS13において出力部23は、位置情報生成部22から供給された音源信号および位置情報に基づいてオブジェクトデータを生成し、出力する。
 例えば出力部23は、楽器情報「vocal」のLチャネルの音源信号など、1つの音源信号を1つのオブジェクトの信号とし、各オブジェクトの音源信号と、少なくとも位置情報が含まれる各オブジェクトのメタデータとからなるデータをオブジェクトデータとして生成する。このとき、例えばメタデータに位置情報だけでなくチャネル情報や楽器情報などが含まれるようにしてもよい。
 このようにしてオブジェクトデータが生成されると、出力部23は後段にオブジェクトデータを出力し、オブジェクトデータ生成処理は終了する。
 以上のようにして信号処理装置11は、音源分離と自動配置処理を組み合わせて行うことで、ステレオ音源等のそのままでは3D Audio再生ができないオーディオ信号から、3D Audio再生が可能なオブジェクトデータを生成して出力する。このようにすることで、より臨場感のあるオーディオ再生を行うことができる。
〈第2の実施の形態〉
〈その他の技術の適用〉
 ところで、第1の実施の形態において説明したように、音源分離技術と3次元自動配置技術とを適用することで、ステレオ音源等の入力オーディオ信号を3D Audioで再生することが可能となる。
 これに加えて、以下において説明する技術(処理)を適用すれば、3D Audio再生時における音質を向上させることができる。
 そのような音質を向上させるための技術(処理)は、例えば人工的なノイズの低減処理と、音像を広げる処理である。
(人工的なノイズの低減処理)
 まず、これらの処理のうち、人工的なノイズの低減処理について説明する。この人工的なノイズの低減処理は、オブジェクト(音源)の3次元自動配置によって、音源分離により生じる人工的なノイズを知覚させにくくする技術である。
 音源分離を行うと、その結果として得られるオーディオ信号には、ミュージカルノイズなどの人工的なノイズ(以下、人工ノイズとも称する)が発生することがあり、このノイズには、以下のような2つの特徴F1および特徴F2がある。
 (特徴F1)
 入力されるオーディオ信号に含まれる音源の数が少ないほど、分離後のノイズが目立つ
 (特徴F2)
 分離された全ての音源の配置位置を近づけるほどノイズが目立たなくなる
 例えば人工ノイズが特徴F1を有するのは、音源の数が少ないほど人間はノイズを知覚しやすいためである。
 また、本技術の音源分離では、音源分離後の複数のオーディオ信号を全て加算すると、音源分離の入力となったもとのオーディオ信号が復元されるため、人工ノイズは特徴F2を有している。
 そこで、これらの特徴を利用して、以下において説明する処理を人工ノイズの低減処理として行うことで、人工的なノイズを知覚させにくくすることができる。
 人工ノイズの低減処理では、まず、以下の式(1)により分離後の複数の各音源信号の音圧level(iobj)が計算される。
Figure JPOXMLDOC01-appb-M000001
 式(1)においてiobjは音源分離後の音源のインデックスを示しており、isampleは音源信号のサンプルのインデックスを示している。
 また、pcm(iobj, isample)は、インデックスがiobjである音源の音源信号のisample番目のサンプルのサンプル値を示している。さらに、nsampleは、音源信号の全サンプル数を示している。
 次に、各音源信号の音圧level(iobj)に対して、所定の閾値thre1に基づく閾値処理が行われ、音圧level(iobj)が閾値thre1以上である音源(音源信号)の数(以下、有効音源数とも称する)がカウントされる。
 ここでは、閾値thre1は例えば-70dBなどとされる。この例においては、音圧level(iobj)が閾値thre1以上である音源信号が、実質的に音源成分が含まれている信号であるとされ、入力オーディオ信号に実質的に含まれている音源成分の数を示す有効音源数が求められる。
 このようにして有効音源数が得られると、その有効音源数が全音源数で除算され、その除算結果の値が音源比ratioとして求められる。
 ここで、全音源数とは、音源分離を行うにあたり、入力オーディオ信号に含まれているとされる音源の数である。
 具体的には、上述の例では、入力オーディオ信号から「vocal」、「drums」、「bass」、および「others」の各音源種別について、ステレオのチャネルごとの音源信号が音源分離により抽出されるため、そのような例では全音源数は8となる。
 音源比ratioは、有効音源数と全音源数の比であるから、有効音源数が多いほど、入力音源信号には、より多くの音源成分が含まれていることになる。
 人工ノイズの低減処理では、このようにして求めた音源比ratioと、予め定められた所定の閾値thre2とが比較される。ここでは、例えば閾値thre2は0.5などとされる。
 そして、音源比ratioが閾値thre2より大きい場合には、入力オーディオ信号に含まれている音源数は十分に多いため、音源信号の人工ノイズは目立たないと考えられるので、特に人工ノイズを低減させるための処理は行われない。
 これに対して、例えば音源比ratioが閾値thre2以下である場合には、上述の特徴F2を利用して人工ノイズを低減させるために、音源比ratioに応じて以下の式(2)乃至式(5)により、音源分離後の全ての音源の水平角度と垂直角度が修正される。
 すなわち、インデックスがiobjである音源(音源信号)の位置情報により示される水平角度azimuth(iobj)が0度以上である場合、式(2)に示すように水平角度が修正される。また、水平角度azimuth(iobj)が0度未満である場合には、式(3)に示すように水平角度が修正される。
Figure JPOXMLDOC01-appb-M000002
Figure JPOXMLDOC01-appb-M000003
 なお、式(2)および式(3)において、azimuth(iobj)は、インデックスがiobjである音源の修正前の水平角度、つまり位置情報生成部22において3次元自動配置技術により生成された位置情報を構成する水平角度を示している。
 また、azimuthnew(iobj)は、インデックスがiobjである音源の修正後の水平角度、つまり水平角度azimuth(iobj)を修正することにより得られた水平角度を示している。
 さらに、式(2)および式(3)において、azimuthrefは、例えば30度などの予め定められた水平角度である。
 水平角度と同様に、インデックスがiobjである音源(音源信号)の位置情報により示される垂直角度elevation(iobj)が0度以上である場合、式(4)に示すように垂直角度が修正される。また、垂直角度elevation(iobj)が0度未満である場合には、式(5)に示すように垂直角度が修正される。
Figure JPOXMLDOC01-appb-M000004
Figure JPOXMLDOC01-appb-M000005
 なお、式(4)および式(5)において、elevation(iobj)は、インデックスがiobjである音源の修正前の垂直角度、つまり位置情報生成部22において3次元自動配置技術により生成された位置情報を構成する垂直角度を示している。
 また、elevationnew(iobj)は、インデックスがiobjである音源の修正後の垂直角度、つまり垂直角度elevation(iobj)を修正することにより得られた垂直角度を示している。
 さらに、式(4)および式(5)において、elevationrefは、例えば0度などの予め定められた垂直角度である。
 音源比ratioについては、その音源比ratioの値が小さいほど、入力オーディオ信号に含まれる音源成分の数が少ないことを意味しており、上述の特徴F1から、音源比ratioが小さいほど、音源信号に含まれる人工ノイズが目立ってしまう。
 そこで式(2)や式(3)に示す位置情報の水平角度の修正では、特徴F2が利用されて、音源比ratioが小さいほど音源分離後の全ての音源(オブジェクト)の水平角度がazimuthrefまたは-azimuthrefに近くなるように修正される。
 同様に、式(4)や式(5)に示す位置情報の垂直角度の修正では、音源比ratioが小さいほど音源分離後の全ての音源(オブジェクト)の垂直角度がelevationrefまたは-elevationrefに近くなるように修正される。
 特に、式(2)乃至式(5)においては、音源比ratioと閾値thre2の比であるratio/thre2は、音源の位置をどれだけazimuthrefや-azimuthref、elevationref、-elevationrefに近づけるかを示している。
 このようにして各音源(オブジェクト)の位置情報を修正すれば、結果として音源分離後の各音源が3次元空間上のより近い位置に配置されるようになる。これにより、音源分離により生じてしまう人工的なノイズが知覚されにくくなる。換言すれば、人工的なノイズが低減されることになる。
 例えば音源分離により得られた8個の音源信号について、位置情報生成部22において3次元自動配置技術により位置情報を生成した結果、各音源が図3に示した位置に配置されたとする。
 そして、それらの8個の音源信号の位置情報に対して、式(2)乃至式(5)による修正を行うと、例えば図5に示すように各音源(オブジェクト)の配置位置が修正される。なお、図5において図3における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
 図5に示す例では、図3における場合と同様に、8個の音源信号のオブジェクトOB11乃至オブジェクトOB18が3次元空間上に配置されている。
 図3における例と、図5における例とを比較すると、図5における例では、各オブジェクト間の距離が図3における場合よりも短く、人工的なノイズが知覚されにくくなっていることが分かる。
 具体的には、図3において受聴者から見て左側に位置しているオブジェクト、つまり位置情報を構成する水平角度が0度以上であるオブジェクトは、水平角度および垂直角度が(azimuthref,elevationref)=(30,0)である位置に近づくように位置の修正が行われる。
 その結果、図5ではオブジェクトOB11、オブジェクトOB13、オブジェクトOB15、およびオブジェクトOB17は、所定の基準となる位置(azimuthref,elevationref)=(30,0)に寄せられており、人工的なノイズが低減されることが分かる。
 同様に、図3において受聴者から見て右側に位置しているオブジェクト、つまり位置情報を構成する水平角度が0度未満であるオブジェクトは、水平角度および垂直角度が(-azimuthref,elevationref)=(-30,0)である位置に近づくように位置の修正が行われる。
 その結果、図5ではオブジェクトOB12、オブジェクトOB14、オブジェクトOB16、およびオブジェクトOB18は、所定の基準となる位置(-azimuthref,elevationref)=(-30,0)に寄せられており、人工的なノイズが低減されることが分かる。
(音像を広げる処理)
 続いて、音質を向上させるための処理である音像を広げる処理について説明する。
 通常、同じ空間で複数の音源が鳴る場合、すなわち複数の音源から音が出力される場合、それらの音源からの音は空間内に存在する壁や天井で反射するため、その空間内にいる人間(受聴者)は前後左右上下の様々な方向から到来する音を知覚する。
 一方で、信号処理装置11での処理、すなわち例えばステレオ音源の入力オーディオ信号を3D Audio再生のための各音源の音源信号へと変換する処理では、それらの音源信号に基づき各音源の音を再生しても、各音源の音はそれらの音源が配置された方向からしか聞こえない。つまり、受聴者には各音源の直接音しか聞こえず、残響音(反射音)は聞こえないことになる。
 したがって、各音源信号に基づきコンテンツを再生しても、受聴者には同じ空間で音源からの音が出力されているようには聞こえず、臨場感のない不自然な聞こえ方になってしまうことがある。すなわち、場合によっては十分な臨場感を得ることができず、音質が劣化してしまうことがある。
 そこで、このような音質の劣化を抑制することを目的として音像を広げる処理が行われる。特に、ここでは音像を広げる処理の例として、2つの処理について説明する。
(サラウンドリバーブ処理)
 まず、音像を広げる処理の1つ目の例としてサラウンドリバーブ処理を説明する。
 サラウンドリバーブ処理を行うにあたっては、予めインパルス応答を準備しておく必要がある。
 例えば予め定められた所定の3次元空間で、予め定められた複数の再生位置からインパルスやTSP(Time Stretched Pulse)信号等の測定用信号を再生し、その測定用信号を複数のインパルス応答測定位置で録音(収音)することでインパルス応答が求められる。
 この場合、インパルス応答の測定が行われる3次元空間は、コンテンツにおける各音源が存在していると想定される空間である。
 例えばインパルス応答測定時の測定用信号の再生位置がM箇所であり、インパルス応答測定位置がN箇所であるとすると、1つの3次元空間について(M×N)個のインパルス応答が得られることになる。なお、インパルス応答を準備する3次元空間は1つであってもよいし、複数の3次元空間ごとにインパルス応答を準備するようにしてもよい。
 ここで、音源(オブジェクト)の配置位置が所定の再生位置にあり、インパルス応答測定位置を音源からの音の反射位置に対応する仮想スピーカの位置であるとみなして、インパルス応答と音源信号に基づいてフィルタリング処理を行えば、疑似的なリバーブ(残響)成分の信号を得ることができる。
 3次元空間ごとに(M×N)個のインパルス応答が用意されると、それらのインパルス応答が用いられてサラウンドリバーブ処理が行われる。
 すなわち、例えば処理対象となる1つの音源信号が選択されると、M個の再生位置のなかから、処理対象の音源信号の位置情報により示される位置に最も近い再生位置が探索される。
 そして、探索結果として得られた再生位置について準備されたN個のインパルス応答が読み出され、それらのインパルス応答をフィルタ係数として、処理対象の音源信号とフィルタ係数とに基づきフィルタリング処理が行われる。
 フィルタリング処理は、N個のインパルス応答ごとに行われるため、その処理結果として、N個のオーディオ信号が得られることになる。
 このようにして得られたN個の各オーディオ信号は、リバーブ成分に対応するリバーブオブジェクトの音源信号とされ、それらの音源信号の位置情報として、対応するインパルス応答のインパルス応答測定位置を示す情報が生成される。
 これにより、1つのオブジェクト(音源)の音源信号に対して、N個のリバーブオブジェクトの音源信号とその位置情報が新たに生成されたことになる。
 サラウンドリバーブ処理では、以上の処理が音源(音源信号)ごとに行われる。そして、それらのもとの音源の音源信号だけでなく、それらの音源ごとに生成されたリバーブオブジェクトの音源信号も追加で生成されたオブジェクトの音源信号として後段に出力される。
 したがって、例えばもとの音源(オブジェクト)の音源信号が8個であったとすると、サラウンドリバーブ処理により、基本的には合計8(N+1)個のオブジェクトの音源信号と位置情報が得られることになる。
 なお、より詳細にはサラウンドリバーブ処理で生成されたリバーブオブジェクトの音源信号は、所定のゲイン値によりゲイン調整(ゲイン補正)が行われて最終的なリバーブオブジェクトの音源信号とされる。これは、リバーブオブジェクトの音源信号に基づく音を、もとの音源の音源信号に基づく音よりも小さくすることで、より自然な音の聞こえ方になるためである。
 また、もとの音源は異なるが位置情報により示される位置、つまりインパルス応答測定位置が同じであるリバーブオブジェクトが複数ある場合、それらの複数のリバーブオブジェクトの音源信号が足し合わせられて1つのリバーブオブジェクトの音源信号とされる。
 以上のようなサラウンドリバーブ処理を行うことで、受聴者には、1つの音源について複数の異なる方向から音が到来しているように聞こえ、上述の不自然な音の聞こえ方を解消し、音質を向上させることができる。換言すれば、より高い臨場感を得ることができる。
 しかも、このようなサラウンドリバーブ処理を行ってコンテンツの音にリバーブ成分を付加することで、上述した人工的なノイズも目立たなくなり、さらに音質を向上させることができる。
 なお、サラウンドリバーブ処理を行うためには、3次元空間について予め用意した(M×N)個のインパルス応答をメモリに保持しておく必要があるが、再生位置の数Mやインパルス応答測定位置の数Nは、どのようにして定めてもよい。
 例えば再生位置の数Mやインパルス応答測定位置の数Nが多くなると、インパルス応答を保持しておくために必要となるメモリサイズが大きくなる。また、例えばインパルス応答測定位置の数Nが多くなると、その分だけリバーブオブジェクトの数が増えるので、サラウンドリバーブ処理やその後段での処理量が多くなる。
 また、リバーブオブジェクトの音源信号のゲイン値は、大きいほどリバーブ効果は高くなる。このゲイン値は、例えば0.05など、全てのオブジェクト(音源)で固定の値としてもよいし、オブジェクトごとに異なる値としてもよい。
 さらに、オブジェクト(音源)の楽器情報に応じて、サラウンドリバーブ処理を行うか否かを切り替えることができるようにしてもよい。
 例えば、コンテンツの主たる音源成分である楽器情報「vocal」の音源の音源信号に対してのみサラウンドリバーブ処理を行うようにすれば、全体として音質を向上させつつ処理量も少なく抑えることができる。
 この場合、例えば図3に示した音源配置の各音源信号のうち、楽器情報「vocal」の音源信号に対してのみサラウンドリバーブ処理を行うと、例えば図6に示すように新たなリバーブオブジェクトが生成される。なお、図6において図3における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
 図6の例では、もとからあるオブジェクトOB11乃至オブジェクトOB18の配置位置は、図3に示した例と同じとなっている。
 図6では、これらのもとからあるオブジェクトに加えて、リバーブオブジェクトであるオブジェクトOB21乃至オブジェクトOB24がさらに生成されている。
 すなわち、楽器情報「vocal」のLチャネルのオブジェクトOB13、および楽器情報「vocal」のRチャネルのオブジェクトOB14に対して、リバーブオブジェクトであるオブジェクトOB21乃至オブジェクトOB24が生成されている。
 特に、オブジェクトOB21乃至オブジェクトOB24のそれぞれには、オブジェクトOB13に対応する音源信号の成分と、オブジェクトOB14に対応する音源信号の成分とが含まれている。
 このように、オブジェクトOB13やオブジェクトOB14といった1つのオブジェクトに対して、リバーブオブジェクトであるオブジェクトOB21やオブジェクトOB22などが生成される。
 このようにすれば、もとの音源からの音が複数方向から受聴者に到来することになり、結果として音源からの音の音像が広がったことになる。すなわち、サラウンドリバーブ処理は音像を広げる処理であるということができる。
 以上のようなサラウンドリバーブ処理により、もとの音源の音像を広げ、音質を向上させることができる。
(スプレッド処理)
 次に、音像を広げる処理の2つ目の例として、スプレッド処理について説明する。
 以下において説明するスプレッド処理は、サラウンドリバーブ処理を行う場合よりも、より少ない処理量で音質を向上させることができる。
 スプレッド処理は、spreadと呼ばれるパラメータ(情報)を用いてスプレッド成分の位置情報を生成し、その位置情報により示される位置にも音像が定位するようにVBAP(Vector Base Amplitude Panning)等のレンダリング処理を行うことで、音像を広げる処理である。
 なお、スプレッド処理については、例えば「ISO/IEC 23008-3, MPEG-H 3D Audio」や「ISO/IEC 23008-3:2015/AMENDMENT3, MPEG-H 3D Audio Phase 2」などに詳細に記載されている。
 このようなスプレッド処理を行えば、各音源の音像を広げることができ、上述の不自然な音の聞こえ方を解消し、音質を向上させることができる。換言すれば、より高い臨場感を得ることができる。しかも、上述した人工的なノイズを目立たなくすることができ、さらに音質を向上させることができる。
 ここで、スプレッド処理について説明する。
 音像の広がり度合いを示すspreadは、例えば0度から180度までの任意の角度を示す角度情報とされ、このようなspreadが用いられてレンダリング処理が行われる。
 例えば、1つの音源信号に対してspreadが与えられると、その音源信号の位置情報により示される位置を中心とする円や楕円などの領域(以下、音像領域とも称する)が定まる。ここで、受聴者の位置から音像領域の中心までのベクトルと、受聴者の位置から音像領域の端までのベクトルとのなす角度がspreadにより示される角度となるようにされる。
 次に、受聴者の位置から音像領域の中心までのベクトルを含む、受聴者の位置から音像領域内の所定の複数の各位置までのベクトルがspreadベクトルとされる。
 また、このようにして得られた複数の各spreadベクトルについて、spreadベクトルにより示される位置に音像が定位するような複数の各スピーカのゲイン値、すなわちVBAPゲインがVBAPにより算出される。
 そして、同じスピーカについて算出された、複数のspreadベクトルにより示される位置ごとのVBAPゲインが加算され、加算後のVBAPゲインが正規化されて、最終的なVBAPゲインとされる。
 スピーカごとにVBAPゲインが求められると、スピーカについて求められたVBAPゲインがオブジェクトのオーディオ信号、すなわちここではオブジェクト(音源)の音源信号に乗算され、その結果得られたオーディオ信号がスピーカに対応するチャネルのオーディオ信号とされる。
 このようにして得られた各スピーカのオーディオ信号に基づき、それらのスピーカから音を出力すれば、オブジェクト(音源)の音が上述の音像領域全体に定位するように、オブジェクトの音が再生される。つまり、オブジェクトの音が音像領域全体に広がって定位する。
 以上のようなスプレッド処理では、spreadの値が大きいほど、スプレッド効果、つまり音像の広がり度合いは大きくなる。
 信号処理装置11の後段でスプレッド処理を行う場合には、例えば信号処理装置11において自動的にspreadを付与すればよい。
 この場合、各オブジェクト(音源信号)に対して付与されるspreadの値は、例えば30度など、全オブジェクトで固定の値としてもよいし、オブジェクトごとに異なる値とされてもよい。
 例えばオブジェクトごとに異なるspreadが付与される場合、spreadの値は、楽器情報により示される音源種別に対して予め定められた値とされるなど、楽器情報や音源信号の音圧、優先度情報、残響情報、音響情報などに基づいて決定されてもよい。
 また、楽器情報などに基づいて、オブジェクト(音源)ごとにスプレッド処理を行うか否かを切り替えられるようにしてもよい。
 さらに、スプレッド処理は、以上において説明した処理に限らず、単純にオブジェクトをコピー(複製)して追加する処理などであってもよい。
 ここで、一例として楽器情報「others」のオブジェクト(音源)について、そのオブジェクトをコピーして音像を広げる処理について説明する。
 そのような場合、楽器情報が「others」以外であるオブジェクトに対しては、音像を広げるための新たなオブジェクトは生成されない。
 これに対して、楽器情報が「others」であるオブジェクトについては、そのオブジェクト(音源)の音源信号を、そのまま1または複数の新たなオブジェクトの音源信号とするとともに、それらの新たなオブジェクトに対して位置情報が付与される。
 このとき、新たなオブジェクトの位置情報は、例えばもとの楽器情報「others」のオブジェクトの位置情報の水平角度や垂直角度に対して、所定値を加算して得られるものなどとされる。
 なお、新たに生成された、音像を広げるためのオブジェクトの音源信号は、もとの楽器情報「others」のオブジェクトの音源信号そのものであってもよいし、その楽器情報「others」のオブジェクトの音源信号をゲイン調整したものであってもよい。
 また、図3に示した音源配置の各音源信号のうち、楽器情報「others」の音源信号に対してのみオブジェクトをコピーして音像を広げる処理を行った場合、例えば図7に示すように新たな追加のオブジェクトが生成される。なお、図7において図3における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
 図7の例では、もとからあるオブジェクトOB11乃至オブジェクトOB18の配置位置は、図3に示した例と同じとなっている。
 図7では、これらのもとからあるオブジェクトに加えて、音像を広げるための新たなオブジェクトOB31およびオブジェクトOB32がさらに生成されている。
 すなわち、楽器情報「others」のLチャネルのオブジェクトOB15に対してオブジェクトOB31が生成されており、同様に楽器情報「others」のRチャネルのオブジェクトOB16に対してオブジェクトOB32が生成されている。
 この例では、オブジェクトOB31はオブジェクトOB15の近傍に配置されており、受聴者にとっては、オブジェクトOB15の音が、オブジェクトOB15の配置位置およびオブジェクトOB31の配置位置から聞こえてくることになる。つまり、オブジェクトOB15の音の音像が広がって聞こえることになる。
 オブジェクトOB31における場合と同様に、オブジェクトOB32もオブジェクトOB16の近傍に配置されており、これによりオブジェクトOB16の音の音像が広がって聞こえることになる。
 例えば表面積が広い音源やバイオリンなどの楽器の音源に対しては、音像を広げる処理を行うと、より高い臨場感を得ることができるので、そのような特定の音源の音源信号に対して選択的に音像を広げる処理を行うと、全体として処理量を抑えつつ音質を向上させることができる。
〈信号処理装置の構成例〉
 なお、以上において説明した人工ノイズの低減処理や、サラウンドリバーブ処理、スプレッド処理を組み合わせて行うようにしてもよい。
 例えば人工ノイズの低減処理、サラウンドリバーブ処理、およびスプレッド処理のうちの任意の2以上の処理を組み合わせて行うようにすることができる。
 ここで、人工ノイズの低減処理と音像を広げる処理を信号処理装置11において組み合わせて行う場合について、具体的に説明する。
 そのような場合、信号処理装置11は、例えば図8に示すように構成される。なお、図8において図1における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
 図8に示す信号処理装置11は、音源分離処理部21、位置情報生成部22、位置情報修正部51、信号処理部52、および出力部23を有している。
 図8に示す信号処理装置11の構成は、位置情報生成部22と出力部23の間に、新たに位置情報修正部51および信号処理部52が設けられている点で図1の信号処理装置11と異なり、その他の点では図1の信号処理装置11と同じ構成となっている。
 位置情報修正部51は、位置情報生成部22から供給された各音源(オブジェクト)についての音源信号および位置情報に基づいて上述の人工ノイズの低減処理を行い、必要に応じて各音源の位置情報を修正する。
 位置情報修正部51は、必要に応じて修正した各音源の位置情報と、音源信号とを信号処理部52に供給する。
 信号処理部52は、位置情報修正部51から供給された各音源の音源信号および位置情報に基づいて上述の音像を広げる処理を行い、その結果得られた各音源の音源信号および位置情報を出力部23に供給する。
 例えば信号処理部52では、音像を広げる処理として上述したサラウンドリバーブ処理とスプレッド処理のためのspreadを生成する処理の少なくとも何れかが行われる。
 例えばサラウンドリバーブ処理が行われる場合には、リバーブオブジェクトに対応する新たなオブジェクト(音源)の音源信号および位置情報が生成され、spreadを生成する処理が行われる場合には、各音源の位置情報に生成されたspreadが付加される。
 出力部23は、信号処理部52から供給された音源信号および位置情報に基づいてオブジェクトデータを生成し、出力する。
〈オブジェクトデータ生成処理の説明〉
 次に、信号処理装置11が図8に示した構成とされる場合におけるオブジェクトデータ生成処理について説明する。
 すなわち、以下、図9のフローチャートを参照して、図8に示した信号処理装置11によるオブジェクトデータ生成処理について説明する。
 なお、ステップS51およびステップS52の処理は図4のステップS11およびステップS12の処理と同様であるので、その説明は省略する。但し、ステップS52では、位置情報生成部22は、自動配置処理により得られた各音源の音源信号および位置情報を位置情報修正部51に供給する。
 ステップS53において位置情報修正部51は、位置情報生成部22から供給された各音源の音源信号および位置情報に基づいて、人工ノイズの低減処理を行う。
 すなわち、位置情報修正部51は、上述の式(1)を計算して各音源信号の音圧level(iobj)を算出するとともに、各音源信号の音圧level(iobj)と閾値thre1とを比較し、その比較結果に基づいて音源比ratioを求める。
 そして、位置情報修正部51は、音源比ratioが閾値thre2より大きい場合には位置情報の修正を行わず、音源比ratioが閾値thre2以下である場合には、上述の式(2)乃至式(5)により、各音源の位置情報における水平角度と垂直角度を修正する。
 位置情報修正部51は、必要に応じて各音源の位置情報を修正すると、それらの各音源の音源信号と位置情報を信号処理部52に供給する。
 ステップS54において信号処理部52は、位置情報修正部51から供給された各音源の音源信号および位置情報に基づいて音像を広げる処理を行い、その結果得られた各音源の音源信号および位置情報を出力部23に供給する。
 例えば音像を広げる処理としてサラウンドリバーブ処理を行う場合、信号処理部52は各音源を順番に処理対象の音源として選択する。
 そして、信号処理部52は処理対象の音源の位置情報に基づいてM個の再生位置のなかから、処理対象の音源の位置情報により示される位置に最も近い再生位置を探索し、その探索結果として得られた再生位置に関するN個のインパルス応答をメモリから読み出す。
 さらに信号処理部52は、処理対象の音源の音源信号と、読み出したN個のインパルス応答とのそれぞれに基づいて、N個のインパルス応答ごとにフィルタリング処理とゲイン調整を行うことで、N個の新たな音源の音源信号と位置情報を生成する。
 信号処理部52は、全ての音源を処理対象の音源とし、新たな音源の音源信号と位置情報を生成すると、それらの新たな音源のうち、位置情報が同じであるものの音源信号を加算して1つの音源の音源信号とする。
 このようなサラウンドリバーブ処理により、もとの音源の音源信号と位置情報に加えて、リバーブオブジェクトに対応する新たな音源の音源信号と位置情報が得られる。
 また、音像を広げる処理としてspreadを生成する処理が行われる場合、信号処理部52は、必要に応じて音源信号や位置情報を用いて、各音源のspreadを生成し、生成したspreadを音源信号や位置情報とともに出力部23に供給する。
 ステップS55において出力部23は、信号処理部52から供給された音源信号および位置情報に基づいてオブジェクトデータを生成し、出力する。ステップS55では、図4のステップS13と同様の処理が行われる。
 なお、出力部23は信号処理部52から各音源のspreadが供給されたときには、各音源のspreadと位置情報を含むメタデータを生成する。また、メタデータには楽器情報やチャネル情報などが含まれるようにしてもよい。
 出力部23は、このようにしてオブジェクトデータを生成すると、生成したオブジェクトデータを後段に出力し、オブジェクトデータ生成処理は終了する。
 以上のようにして信号処理装置11は、オブジェクトデータを生成する場合に、適宜、人工ノイズの低減処理や音像を広げる処理を行う。このようにすることで、人工的なノイズを低減させたり、音像を広げたりして、さらに音質を向上させることができる。
〈第2の実施の形態の変形例〉
〈信号処理装置の構成例〉
 さらに、以上において説明した信号処理装置11は、符号化装置として機能するサーバなどの符号化側の装置であってもよいし、ヘッドホンやパーソナルコンピュータ、ポータブルプレーヤ、スマートホンなどの復号側の装置であってもよい。
 例えば信号処理装置11が符号化側の装置である場合、信号処理装置11は図10に示す構成とされる。なお、図10において図8における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
 図10に示す信号処理装置11は、音源分離処理部21、位置情報生成部22、位置情報修正部51、信号処理部52、出力部23、および符号化部81を有している。
 図10に示す信号処理装置11の構成は、出力部23の後段に新たに符号化部81が設けられている点で図8の信号処理装置11と異なり、その他の点では図8の信号処理装置11と同じ構成となっている。
 符号化部81は、出力部23から供給されたオブジェクトデータを符号化して符号化ビットストリームを生成し、クライアント等の装置に符号化ビットストリームを送信する。
 例えば符号化ビットストリームには、オブジェクトデータを構成する各オブジェクトの音源信号を符号化して得られた符号化オーディオデータと、オブジェクトデータを構成する各オブジェクトのメタデータを符号化して得られた符号化メタデータとが含まれている。
 また、信号処理装置11が復号側の装置である場合、信号処理装置11は、例えば図11に示す構成とされる。なお、図11において図8における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
 図11に示す信号処理装置11は、音源分離処理部21、位置情報生成部22、位置情報修正部51、信号処理部52、出力部23、およびレンダリング処理部111を有している。
 図11に示す信号処理装置11の構成は、出力部23の後段に新たにレンダリング処理部111が設けられている点で図8の信号処理装置11と異なり、その他の点では図8の信号処理装置11と同じ構成となっている。
 レンダリング処理部111は、出力部23から供給されたオブジェクトデータとしての各オブジェクトの音源信号とメタデータとに基づいてVBAP等のレンダリング処理を行い、コンテンツの音、すなわち各オブジェクトの音を再生するためのステレオまたはマルチチャネルの再生オーディオ信号を生成する。
 ここで、例えばオブジェクトのメタデータにspreadが含まれている場合には、レンダリング処理部111は、レンダリング処理として上述のスプレッド処理を行い、再生オーディオ信号を生成する。
〈コンピュータの構成例〉
 ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
 図12は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
 コンピュータにおいて、CPU(Central Processing Unit)501,ROM(Read Only Memory)502,RAM(Random Access Memory)503は、バス504により相互に接続されている。
 バス504には、さらに、入出力インターフェース505が接続されている。入出力インターフェース505には、入力部506、出力部507、記録部508、通信部509、及びドライブ510が接続されている。
 入力部506は、キーボード、マウス、マイクロホン、撮像素子などよりなる。出力部507は、ディスプレイ、スピーカなどよりなる。記録部508は、ハードディスクや不揮発性のメモリなどよりなる。通信部509は、ネットワークインターフェースなどよりなる。ドライブ510は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体511を駆動する。
 以上のように構成されるコンピュータでは、CPU501が、例えば、記録部508に記録されているプログラムを、入出力インターフェース505及びバス504を介して、RAM503にロードして実行することにより、上述した一連の処理が行われる。
 コンピュータ(CPU501)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体511に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
 コンピュータでは、プログラムは、リムーバブル記録媒体511をドライブ510に装着することにより、入出力インターフェース505を介して、記録部508にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部509で受信し、記録部508にインストールすることができる。その他、プログラムは、ROM502や記録部508に、あらかじめインストールしておくことができる。
 なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
 また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
 例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
 また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、本技術は、以下の構成とすることも可能である。
(1)
 複数の音源信号が含まれている入力オーディオ信号から、音源分離により1または複数の前記音源信号を抽出する音源分離部と、
 前記音源分離の結果に基づいて、抽出された前記音源信号の位置情報を生成する位置情報生成部と、
 抽出された前記音源信号と前記位置情報をオーディオオブジェクトのデータとして出力する出力部と
 を備える信号処理装置。
(2)
 前記位置情報生成部は、前記音源分離により得られた前記音源信号の音源種別に基づいて、前記位置情報を生成する
 (1)に記載の信号処理装置。
(3)
 前記位置情報生成部は、前記音源分離により得られた前記音源信号のチャネル情報に基づいて、前記位置情報を生成する
 (1)または(2)に記載の信号処理装置。
(4)
 前記位置情報生成部は、前記音源分離により得られた前記音源信号に基づいて前記位置情報を生成する
 (1)乃至(3)の何れか一項に記載の信号処理装置。
(5)
 前記位置情報生成部は、決定木モデルまたはニューラルネットワークに基づいて前記位置情報を生成する
 (1)乃至(4)の何れか一項に記載の信号処理装置。
(6)
 前記位置情報生成部は、音源種別ごとに学習された前記決定木モデルまたは前記ニューラルネットワークに基づいて前記位置情報を生成する
 (5)に記載の信号処理装置。
(7)
 前記入力オーディオ信号から抽出された前記音源信号の数、および前記音源信号の音圧に基づいて、前記位置情報を修正する位置情報修正部をさらに備える
 (1)乃至(6)の何れか一項に記載の信号処理装置。
(8)
 前記音源信号および前記位置情報に基づいてサラウンドリバーブ処理を行うことで、新たな前記音源信号および前記位置情報を生成する信号処理部をさらに備える
 (1)乃至(7)の何れか一項に記載の信号処理装置。
(9)
 前記音源分離により得られた前記音源信号に対して、スプレッド処理のためのパラメータを生成する信号処理部をさらに備える
 (1)乃至(8)の何れか一項に記載の信号処理装置。
(10)
 前記音源信号は、ステレオのオーディオ信号であり、
 前記出力部は、前記音源分離により得られたステレオのLチャネルの前記音源信号およびRチャネルの前記音源信号のそれぞれを、1つのオブジェクトの前記音源信号とする
 (1)乃至(9)の何れか一項に記載の信号処理装置。
(11)
 前記データを符号化する符号化部をさらに備える
 (1)乃至(10)の何れか一項に記載の信号処理装置。
(12)
 前記データに基づいてレンダリング処理を行うレンダリング処理部をさらに備える
 (1)乃至(10)の何れか一項に記載の信号処理装置。
(13)
 前記位置情報生成部は、音源種別ごとに異なる方法で前記位置情報を生成する
 (1)乃至(12)の何れか一項に記載の信号処理装置。
(14)
 信号処理装置が、
 複数の音源信号が含まれている入力オーディオ信号から、音源分離により1または複数の前記音源信号を抽出し、
 前記音源分離の結果に基づいて、抽出された前記音源信号の位置情報を生成し、
 抽出された前記音源信号と前記位置情報をオーディオオブジェクトのデータとして出力する
 信号処理方法。
(15)
 複数の音源信号が含まれている入力オーディオ信号から、音源分離により1または複数の前記音源信号を抽出し、
 前記音源分離の結果に基づいて、抽出された前記音源信号の位置情報を生成し、
 抽出された前記音源信号と前記位置情報をオーディオオブジェクトのデータとして出力する
 ステップを含む処理をコンピュータに実行させるプログラム。
 11 信号処理装置, 21 音源分離処理部, 22 位置情報生成部, 23 出力部, 51 位置情報修正部, 52 信号処理部, 81 符号化部, 111 レンダリング処理部

Claims (15)

  1.  複数の音源信号が含まれている入力オーディオ信号から、音源分離により1または複数の前記音源信号を抽出する音源分離部と、
     前記音源分離の結果に基づいて、抽出された前記音源信号の位置情報を生成する位置情報生成部と、
     抽出された前記音源信号と前記位置情報をオーディオオブジェクトのデータとして出力する出力部と
     を備える信号処理装置。
  2.  前記位置情報生成部は、前記音源分離により得られた前記音源信号の音源種別に基づいて、前記位置情報を生成する
     請求項1に記載の信号処理装置。
  3.  前記位置情報生成部は、前記音源分離により得られた前記音源信号のチャネル情報に基づいて、前記位置情報を生成する
     請求項1に記載の信号処理装置。
  4.  前記位置情報生成部は、前記音源分離により得られた前記音源信号に基づいて前記位置情報を生成する
     請求項1に記載の信号処理装置。
  5.  前記位置情報生成部は、決定木モデルまたはニューラルネットワークに基づいて前記位置情報を生成する
     請求項1に記載の信号処理装置。
  6.  前記位置情報生成部は、音源種別ごとに学習された前記決定木モデルまたは前記ニューラルネットワークに基づいて前記位置情報を生成する
     請求項5に記載の信号処理装置。
  7.  前記入力オーディオ信号から抽出された前記音源信号の数、および前記音源信号の音圧に基づいて、前記位置情報を修正する位置情報修正部をさらに備える
     請求項1に記載の信号処理装置。
  8.  前記音源信号および前記位置情報に基づいてサラウンドリバーブ処理を行うことで、新たな前記音源信号および前記位置情報を生成する信号処理部をさらに備える
     請求項1に記載の信号処理装置。
  9.  前記音源分離により得られた前記音源信号に対して、スプレッド処理のためのパラメータを生成する信号処理部をさらに備える
     請求項1に記載の信号処理装置。
  10.  前記音源信号は、ステレオのオーディオ信号であり、
     前記出力部は、前記音源分離により得られたステレオのLチャネルの前記音源信号およびRチャネルの前記音源信号のそれぞれを、1つのオブジェクトの前記音源信号とする
     請求項1に記載の信号処理装置。
  11.  前記データを符号化する符号化部をさらに備える
     請求項1に記載の信号処理装置。
  12.  前記データに基づいてレンダリング処理を行うレンダリング処理部をさらに備える
     請求項1に記載の信号処理装置。
  13.  前記位置情報生成部は、音源種別ごとに異なる方法で前記位置情報を生成する
     請求項1に記載の信号処理装置。
  14.  信号処理装置が、
     複数の音源信号が含まれている入力オーディオ信号から、音源分離により1または複数の前記音源信号を抽出し、
     前記音源分離の結果に基づいて、抽出された前記音源信号の位置情報を生成し、
     抽出された前記音源信号と前記位置情報をオーディオオブジェクトのデータとして出力する
     信号処理方法。
  15.  複数の音源信号が含まれている入力オーディオ信号から、音源分離により1または複数の前記音源信号を抽出し、
     前記音源分離の結果に基づいて、抽出された前記音源信号の位置情報を生成し、
     抽出された前記音源信号と前記位置情報をオーディオオブジェクトのデータとして出力する
     ステップを含む処理をコンピュータに実行させるプログラム。
PCT/JP2021/024670 2020-07-14 2021-06-30 信号処理装置および方法、並びにプログラム WO2022014326A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US18/004,507 US20230254655A1 (en) 2020-07-14 2021-06-30 Signal processing apparatus and method, and program
KR1020227045592A KR20230038426A (ko) 2020-07-14 2021-06-30 신호 처리 장치 및 방법, 그리고 프로그램

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020-120707 2020-07-14
JP2020120707A JP2022017880A (ja) 2020-07-14 2020-07-14 信号処理装置および方法、並びにプログラム

Publications (1)

Publication Number Publication Date
WO2022014326A1 true WO2022014326A1 (ja) 2022-01-20

Family

ID=79555461

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/024670 WO2022014326A1 (ja) 2020-07-14 2021-06-30 信号処理装置および方法、並びにプログラム

Country Status (4)

Country Link
US (1) US20230254655A1 (ja)
JP (1) JP2022017880A (ja)
KR (1) KR20230038426A (ja)
WO (1) WO2022014326A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023225589A1 (en) * 2022-05-20 2023-11-23 Shure Acquisition Holdings, Inc. Audio signal isolation related to audio sources within an audio environment

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023199746A1 (ja) * 2022-04-14 2023-10-19 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 音響再生方法、コンピュータプログラム及び音響再生装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070101249A1 (en) * 2005-11-01 2007-05-03 Tae-Jin Lee System and method for transmitting/receiving object-based audio
JP2011250100A (ja) * 2010-05-26 2011-12-08 Sony Corp 画像処理装置および方法、並びにプログラム
JP2012073088A (ja) * 2010-09-28 2012-04-12 Sony Corp 位置情報提供装置、位置情報提供方法、位置情報提供システム、及びプログラム
JP2017055149A (ja) * 2015-09-07 2017-03-16 ソニー株式会社 音声処理装置および方法、符号化装置、並びにプログラム
WO2017098949A1 (ja) * 2015-12-10 2017-06-15 ソニー株式会社 音声処理装置および方法、並びにプログラム
JP2017531213A (ja) * 2015-08-11 2017-10-19 シャオミ・インコーポレイテッド オブジェクトオーディオ録音方法及び装置、電子機器、プログラム及び記録媒体
US20190057715A1 (en) * 2017-08-15 2019-02-21 Pointr Data Inc. Deep neural network of multiple audio streams for location determination and environment monitoring
WO2019078035A1 (ja) * 2017-10-20 2019-04-25 ソニー株式会社 信号処理装置および方法、並びにプログラム

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070101249A1 (en) * 2005-11-01 2007-05-03 Tae-Jin Lee System and method for transmitting/receiving object-based audio
JP2011250100A (ja) * 2010-05-26 2011-12-08 Sony Corp 画像処理装置および方法、並びにプログラム
JP2012073088A (ja) * 2010-09-28 2012-04-12 Sony Corp 位置情報提供装置、位置情報提供方法、位置情報提供システム、及びプログラム
JP2017531213A (ja) * 2015-08-11 2017-10-19 シャオミ・インコーポレイテッド オブジェクトオーディオ録音方法及び装置、電子機器、プログラム及び記録媒体
JP2017055149A (ja) * 2015-09-07 2017-03-16 ソニー株式会社 音声処理装置および方法、符号化装置、並びにプログラム
WO2017098949A1 (ja) * 2015-12-10 2017-06-15 ソニー株式会社 音声処理装置および方法、並びにプログラム
US20190057715A1 (en) * 2017-08-15 2019-02-21 Pointr Data Inc. Deep neural network of multiple audio streams for location determination and environment monitoring
WO2019078035A1 (ja) * 2017-10-20 2019-04-25 ソニー株式会社 信号処理装置および方法、並びにプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023225589A1 (en) * 2022-05-20 2023-11-23 Shure Acquisition Holdings, Inc. Audio signal isolation related to audio sources within an audio environment

Also Published As

Publication number Publication date
US20230254655A1 (en) 2023-08-10
KR20230038426A (ko) 2023-03-20
JP2022017880A (ja) 2022-01-26

Similar Documents

Publication Publication Date Title
JP6637014B2 (ja) 音声信号処理のためのマルチチャネル直接・環境分解のための装置及び方法
CN109313907B (zh) 合并音频信号与空间元数据
JP5149968B2 (ja) スピーチ信号処理を含むマルチチャンネル信号を生成するための装置および方法
RU2625953C2 (ru) Посегментная настройка пространственного аудиосигнала к другой установке громкоговорителя для воспроизведения
US7257231B1 (en) Stream segregation for stereo signals
JP5379838B2 (ja) 空間出力マルチチャネルオーディオ信号を決定する装置
JP5957446B2 (ja) 音響処理システム及び方法
KR101572894B1 (ko) 오디오 신호의 디코딩 방법 및 장치
EP2974010B1 (en) Automatic multi-channel music mix from multiple audio stems
US7567845B1 (en) Ambience generation for stereo signals
JP5973058B2 (ja) レイアウト及びフォーマットに依存しない3dオーディオ再生のための方法及び装置
JP6820613B2 (ja) 没入型オーディオ再生のための信号合成
WO2022014326A1 (ja) 信号処理装置および方法、並びにプログラム
GB2582991A (en) Audio generation system and method
WO2022248729A1 (en) Stereophonic audio rearrangement based on decomposed tracks
JP5338053B2 (ja) 波面合成信号変換装置および波面合成信号変換方法
CN114067827A (zh) 一种音频处理方法、装置及存储介质
CN114631142A (zh) 电子设备、方法和计算机程序
US8767969B1 (en) Process for removing voice from stereo recordings
JP2011239036A (ja) 音声信号変換装置、方法、プログラム、及び記録媒体
JP6774912B2 (ja) 音像生成装置
JP2001236084A (ja) 音響信号処理装置及びそれに用いられる信号分離装置
CN116847272A (zh) 音频处理方法及相关设备
CN116643712A (zh) 电子设备、音频处理的系统及方法、计算机可读存储介质
KR20110102719A (ko) 오디오 업믹싱 장치 및 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21841960

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21841960

Country of ref document: EP

Kind code of ref document: A1