WO2023074009A1 - 情報処理装置および方法、並びにプログラム - Google Patents

情報処理装置および方法、並びにプログラム Download PDF

Info

Publication number
WO2023074009A1
WO2023074009A1 PCT/JP2022/000355 JP2022000355W WO2023074009A1 WO 2023074009 A1 WO2023074009 A1 WO 2023074009A1 JP 2022000355 W JP2022000355 W JP 2022000355W WO 2023074009 A1 WO2023074009 A1 WO 2023074009A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
directivity
model
modeling
unit
Prior art date
Application number
PCT/JP2022/000355
Other languages
English (en)
French (fr)
Inventor
隆一 難波
徹 知念
実 辻
光行 畠中
弘幸 本間
康裕 戸栗
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Priority to PCT/JP2022/024014 priority Critical patent/WO2023074039A1/ja
Priority to PCT/JP2022/040170 priority patent/WO2023074800A1/ja
Priority to AU2022375400A priority patent/AU2022375400A1/en
Priority to TW111141214A priority patent/TW202325040A/zh
Publication of WO2023074009A1 publication Critical patent/WO2023074009A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control

Definitions

  • the present technology relates to an information processing device, method, and program, and more particularly to an information processing device, method, and program capable of reducing the transmission amount of directional data.
  • directivity data representing the directivity of sound from the object together with the audio data of the object
  • the user can arbitrarily select a directivity direction during recording, and during playback, the user can select a desired directivity direction other than the directivity direction at the time of recording.
  • a technique of playing back by using the sound see, for example, Patent Document 1.
  • the directional characteristics differ for each sound source, when providing audio data of an object and directional data of the object as content, the directional data must be provided for each type of sound source, that is, each type of object. need to prepare.
  • information about directivity is provided for more directions and frequencies, the amount of directivity data will increase.
  • the amount of directional data transmitted to the content distribution destination increases, which may cause transmission delays or increase the transmission rate.
  • This technology has been developed in view of such circumstances, and is capable of reducing the amount of directional data transmitted.
  • An information processing device includes an acquisition unit that acquires model data obtained by modeling directivity data representing the directivity of a sound source, and based on the model data, the directivity and a calculation unit for calculating the data.
  • An information processing method or program acquires model data obtained by modeling directivity data representing the directivity of a sound source, and based on the model data, the directivity data including the step of calculating
  • model data obtained by modeling directivity data representing directivity of a sound source is obtained, and the directivity data is calculated based on the model data.
  • An information processing apparatus includes a modeling unit that models directivity data representing the directivity of a sound source using a mixture model composed of a plurality of distributions; and a model data generation unit that generates model data including model parameters that constitute the model.
  • An information processing method or program models directivity data representing the directivity of a sound source using a mixture model composed of a plurality of distributions, and constructs the mixture model obtained by the modeling. generating model data including model parameters for
  • directivity data representing directivity of a sound source is modeled by a mixed model consisting of a plurality of distributions, and model parameters constituting the mixed model obtained by the modeling are used as Model data is generated containing
  • FIG. 4 is a diagram showing an example of directivity; It is a figure explaining a data point.
  • FIG. 4 is a diagram showing an example of model data; It is a figure explaining the relationship between a band and a bin.
  • FIG. 10 is a diagram showing an example of reducing the data amount of directivity data; It is a figure explaining the residual of directivity data. It is a figure which shows the structural example of a server. 4 is a flowchart for explaining encoding processing; It is a figure which shows the structural example of an information processing apparatus.
  • FIG. 4 is a flowchart for explaining directivity data generation processing; 4 is a flowchart for explaining output audio data generation processing; It is a figure explaining the appearance probability of difference information.
  • FIG. 4 is a diagram showing an example of model data;
  • FIG. 4 is a diagram showing an example of model data;
  • FIG. 4 is a diagram explaining transmission of a Huffman coding table;
  • FIG. 10 is a diagram showing an example of a Huffman coding table;
  • FIG. It is a figure which shows the structural example of a server.
  • 4 is a flowchart for explaining directivity data generation processing;
  • FIG. 4 is a diagram showing a configuration example of a directional data encoding unit;
  • FIG. 4 is a diagram illustrating a configuration example of a differential encoding unit; 4 is a flowchart for explaining model data generation processing; FIG. 10 is a diagram showing a configuration example of a distribution model decoding unit; It is a figure which shows the structural example of a computer.
  • the present technology is intended to reduce the transmission amount of directional data by modeling the directional data.
  • 3D sound source audio data and directivity data are provided as content.
  • the sound of one or more audio objects is picked up (recorded) as a 3D sound source, and audio data of each object is generated.
  • directivity data representing directivity of an object (sound source), ie, directivity, is prepared for each type of object, ie, sound source type.
  • audio data for each object and directivity data for each sound source type are provided as content data. That is, the directivity data is transmitted to the reproduction side device together with the audio data of the object. Then, on the reproduction side, audio reproduction is performed in consideration of the directivity data based on the audio data and the directivity data forming the content.
  • Directivity data can be obtained, for example, by recording the sound of an object with multiple microphones.
  • the recording of directivity data may be performed at the same time as the recording of the audio data of the object, or may be performed at a timing different from the recording of the audio data of the object.
  • Directivity data is prepared for each sound source type, such as voice, musical instrument, and speaker.
  • Directivity data is data containing information on the amplitude and phase of the sound from the sound source, for each target frequency in the entire frequency band from the DC frequency to the Nyquist frequency, for example, for each position in each direction viewed from the sound source. is.
  • the direction seen from the sound source is represented by the horizontal angle seen from the sound source position, that is, the azimuth angle, and the vertical angle seen from the sound source position, that is, the elevation angle.
  • the range of azimuth angles is set to 0 degrees to 360 degrees
  • the range of elevation angles is set to -90 degrees to +90 degrees.
  • the directivity data to be modeled is obtained by appropriately discretizing and normalizing the directivity data obtained by recording or the like.
  • the directivity data to be modeled consists of gains (hereinafter referred to as directivity gains) that indicate the directivity characteristics of a plurality of discrete frequencies of a sound source at each of a plurality of data points.
  • the position of a data point is represented by coordinates (polar coordinates) in a polar coordinate system with the sound source position as the origin.
  • the distance (radius) from the sound source position may be used to represent the position of the data point.
  • the directional gain can also be obtained by normalizing the sound amplitude (sound pressure) from the sound source at the data points.
  • the directional data is modeled using vMF (von Mises Fisher) distribution on the sphere, Kent distribution, or vMF distribution and Kent distribution, which are equivalent to multivariate/univariate Gaussian distributions defined on the plane
  • vMF von Mises Fisher
  • the part indicated by arrow Q11 in Fig. 1 shows a two-dimensional Gaussian distribution.
  • Curve L13 indicates a mixed Gaussian distribution obtained by mixing the Gaussian distribution indicated by curve L11 and the Gaussian distribution indicated by curve L12.
  • the portion indicated by the arrow Q12 in FIG. 1 shows three distributions on the plane. Multiple distributions on such a plane can also be mixed.
  • the mixed Gaussian distribution is used to express the probability density distribution (pdf (Probability Density Function)) on a plane. It is possible to reduce the amount of information by expressing the desired pdf with a small number of model parameters and as few mixtures as possible.
  • pdf Probability Density Function
  • a mixed model of the vMF distribution and Kent distribution which correspond to the Gaussian distribution defined on the spherical surface, is used to model the directivity data on the spherical surface, that is, the shape (distribution) of the directivity gain.
  • a mixture model may be composed of one or more vMF distributions, may be composed of one or more Kent distributions, or may be composed of one or more vMF distributions and one or more Kent distributions. That is, the mixture model is composed of one or more distributions including at least one of the vMF distribution and the Kent distribution.
  • x be a position vector indicating the position of the spherical surface, i.e., the coordinates of the Cartesian coordinate system.
  • the distribution value f(x) can be expressed by the following equation (1).
  • indicates parameter concentration and ⁇ indicates ellipticity. Also, ⁇ 1 indicates a vector that defines the center of the mean direction distribution, ⁇ 2 indicates a major axis vector, and ⁇ 3 indicates a minor axis vector.
  • c( ⁇ , ⁇ ) is a normalization constant shown in the following equation (2).
  • indicates a gamma function
  • I indicates a modified Bessel function of the first kind.
  • the value of the vMF distribution at the position indicated by the position vector x can also be expressed by a formula similar to formula (1).
  • the value of ellipticity ⁇ in equation (1) is assumed to be zero.
  • Fig. 2 shows examples of vMF distribution and Kent distribution.
  • FIG. 2 an example of vMF distribution is shown in the portion indicated by arrow Q21.
  • vector V11 represents vector ⁇ 1 shown in equation (1).
  • the vMF distribution does not have ellipticity ⁇ , major axis vector ⁇ 2 , and minor axis vector ⁇ 3 as parameters, and is isotropically centered on the position indicated by vector V11 (vector ⁇ 1 ) on the spherical surface. It has a circular distribution that spreads out. That is, a circular distribution can be reproduced by using the vMF distribution (vMF distribution model).
  • vectors V21 through V23 represent vector ⁇ 1 , major axis vector ⁇ 2 , and minor axis vector ⁇ 3 shown in equation (1).
  • the Kent distribution is an elliptical shape centered at the position indicated by vector V21 (vector ⁇ 1 ) on the surface of the sphere, with major and minor axes ⁇ 2 and ⁇ 3 on the spherical surface. distribution. That is, by using the Kent distribution (Kent distribution model), it is possible to reproduce an elliptical distribution determined by the ellipticity ⁇ , the major axis vector ⁇ 2 , and the minor axis vector ⁇ 3 .
  • the Kent distribution has a high degree of freedom because the shape of the ellipse can be changed by parameters such as the ellipticity ⁇ , but the number of parameters is greater than the vMF distribution.
  • the output value F (x; (3) That is, the mixture model F(x; ⁇ ) can be represented by weighted addition of N Kent distributions f(x; ⁇ i ).
  • Equation (3) the Kent distribution f(x; ⁇ i ) in Equation (3) is the same as that shown in Equation (1) above, and represents the i-th Kent distribution among the N Kent distributions to be mixed. ing.
  • ⁇ i is a parameter constituting the Kent distribution f(x; ⁇ i ), more specifically, a set of parameters, and the parameter ⁇ i is the parameter concentration ⁇ , ellipticity ⁇ , vector ⁇ 1 , major axis vector ⁇ 2 , and minor axis vector ⁇ 3 .
  • a parameter ⁇ of a mixture model F(x; ⁇ ) represents a set of parameters ⁇ i of N Kent distributions f(x; ⁇ i ).
  • ⁇ i represents the weight (weight coefficient) of the i-th Kent distribution f(x; ⁇ i ) when mixing N Kent distributions, and is shown in the following equation (4).
  • the sum of weights ⁇ i of N Kent distributions f(x; ⁇ i ) is set to one.
  • the directional data used in this technology can be obtained by recording (sound pickup) with a microphone array consisting of multiple microphones placed around the object.
  • the directivity shown in Fig. 3 is observed.
  • the left side of the drawing shows the directivity of each frequency on the horizontal plane, that is, the plane where the elevation angle is 0 degrees
  • the right side of the drawing shows the directivity of each frequency on the median plane.
  • the general shape of the directivity changes depending on the frequency (pitch), and although the directivity is small at the lower frequencies, the directivity becomes larger (sharp) as the frequency increases. I know it's going to happen. For example, on the horizontal plane, at 8000 Hz, there is a maximum sound pressure difference of about 25 dB depending on the direction.
  • a plurality of data points are provided on a spherical surface centered on the sound source position.
  • one dot represents one data point, and it can be seen that there are many data points over the spherical surface.
  • the amount of directional data transmitted increases, but an increase in the amount of directional data transmitted causes transmission delays and increases the transmission rate. Therefore, in some cases, it may not be possible to reproduce the directivity according to the sound source type, frequency, object-to-listener orientation, and the like.
  • the amount of transmission of directional data can be reduced by modeling directional data using a mixed model as described above.
  • the directional data when transmitting directional data, the directional data is modeled based on a mixture model consisting of the vMF distribution and the Kent distribution. is generated. Then, the model data is transmitted to the apparatus on the content reproduction side. This eliminates the need to transmit the original directional data having a large data size. In other words, it is possible to reduce the data amount (transmission amount) at the time of transmitting directional data.
  • FIG. 5 shows an example of model data for one sound source type specified by num_sound_types_id.
  • model data for one sound source type is described as directivityConfig.
  • the model data contains the azimuth “azimuth_table[i]” and elevation “elevation_table[i]” positions of the data points in the original directivity data before modeling, with the number indicated by the number of data points "num_point_indices”. , and the radius "distance[i]".
  • the position of the data point is the azimuth “azimuth_table[i]", which is the horizontal angle of the data point seen from the sound source position, and the elevation “elevation_table[i]”, which is the vertical angle of the data point seen from the sound source position.
  • the radius “distance[i]” which is the distance from the sound source position to the data point, in a polar coordinate system with the sound source position as the origin.
  • the model data includes the number of frequency points "bin_count” and the frequency "freq[i_bin]".
  • the entire frequency band of interest is divided into frequency bins, or bins, which are the number of frequency bands (frequencies) indicated by the number of frequency points "bin_count”, and
  • the center frequency (Hz) of the i-th bin among the bins of is set as the frequency "freq[i_bin]”.
  • the original directional data before modeling contains directional gains for each of one or more bins (frequency bins) at each of the plurality of data points.
  • model data includes parameters related to the Kent distribution and vMF distribution: the number of bands to be modeled ⁇ band_count'', the number of mixtures in each band ⁇ mix_count[i_band]'', and the original orientation Bin information "bin_range_per_band[i_band]" of gender data is included.
  • the entire frequency band of interest is divided into bands, which are the number of frequency bands indicated by the number of bands "band_count", and the distribution of directional gain for each band is represented by a mixture model. be.
  • model parameters are estimated that constitute a mixture model representing the distribution of directional gain in each band.
  • the frequency band indicated by each band always includes (belongs to) the frequency indicated by one or more bins, that is, the center frequency "freq[i_bin]" of the bins.
  • the number of mixtures "mix_count[i_band]" indicates the number of distributions constituting the mixture model representing the distribution of the directional gain of the i-th band, that is, the number of Kent distributions and vMF distributions. Corresponds to N in 3).
  • the bin information "bin_range_per_band[i_band]" of the directivity data is information indicating the bin of the original directivity data before modeling, which is included in the i-th band.
  • the bin information is index information indicating the highest frequency bin belonging to the i-th band.
  • model data includes the above-mentioned weight ⁇ i , parameter concentration ⁇ , and vector ⁇ 1 is included.
  • 'weight[i_band][i_mix]' and 'kappa[i_band][i_mix]' are the weights ⁇ i and parameter concentrations of the distribution denoted by 'i_mix' for the i-th band denoted by 'i_band'. degree ⁇ .
  • gamma1[i_band][ i_mix][x]” and "gamma1[i_band][ i_mix][y]” represent the vector ⁇ 1 of the distribution indicated by "i_mix” for the i-th band "i_band”.
  • the constituent X component (X coordinate) and Y component (Y coordinate) are shown.
  • the model data includes a selection flag "dist_flag” indicating whether the distribution indicated by "i_mix” for the i-th band "i_band” that constitutes the mixture model is the Kent distribution or the vMF distribution.
  • the value "1" of the selection flag "dist_flag” indicates that the distribution is the Kent distribution, and the value “0" of the selection flag “dist_flag” indicates that the distribution is the vMF distribution.
  • the model data includes the above-described ellipticity ⁇ , major axis vector ⁇ 2 , and minor axis vector ⁇ 3 .
  • beta[i_band][i_mix] indicates the ellipticity ⁇ of the distribution (Kent distribution) indicated by "i_mix” for the i-th band indicated by "i_band”. Also, "gamma2[i_band][i_mix][x]” and “gamma2[i_band][i_mix][y]” are the distribution (Kent distribution) indicated by "i_mix” for the i-th band "i_band”.
  • the X component (X coordinate) and Y component (Y coordinate) that constitute the major axis vector ⁇ 2 are shown.
  • 'gamma3[i_band][i_mix][x]' and 'gamma3[i_band][i_mix][y]' are the distribution (Kent distribution) indicated by 'i_mix' for the i-th band 'i_band' shows the X component (X coordinate) and the Y component (Y coordinate) that constitute the minor axis vector ⁇ 3 of .
  • the model data contains the directional data in each bin, more specifically, the scale factor "scale_factor[i_bin]” that indicates the dynamic range of the directional gain, and the offset value of the directional data (directional gain) in each bin, i.e.
  • the minimum value "offset[i_bin]” is also included.
  • a set of parameters is also called a model parameter.
  • the model data includes the original directivity data value (directivity gain) at the data point and the directivity data value indicated by the mixed model obtained by modeling (directivity gain).
  • Difference information "diff_data[i_point]” indicating the difference between the two is also included.
  • the difference information is information indicating the difference between the directivity data before modeling and the directivity data after modeling at the data point.
  • "diff_data[i_point]" stored in the model data may be Huffman-encoded difference information.
  • the output value F(x; ⁇ ) of the mixture model at each data point is calculated based on the model data having the configuration (format) shown in FIG. be.
  • Each bin of the original directional data before modeling contains a number of bands described by the number of bands in modeling, "band_count”, determined by considering the similarity of the shape of the directional data. Belongs to one of our bands.
  • bin information "bin_range_per_band[i_band]"
  • maximum index which is index information indicating the highest frequency bin belonging to the band
  • the number of bins belonging to each band may be different for each band.
  • the first band 0 (band0), which has the lowest frequency, belongs to two bins 0 (bin0) and bin 1, the next band 1 belongs to one bin 2, and so on.
  • Two bins 3 and 4 belong to band 2 of .
  • the mixture model F'(x; ⁇ ) for each band can be obtained from the model parameters.
  • the mixture model F'(x;[theta]) corresponds to the binwise mixture model F(x;[theta]) shown in equation (3).
  • the directional data before modeling has a directional gain value for each data point bin. Therefore, the bandwise mixture model F'(x; ⁇ ) obtained from the model parameters, more specifically the mixture model output value F'(x; ⁇ ), is replaced with the original binwise mixture model F(x; ⁇ ).
  • the mixture model F'(x; ⁇ ) for each band the scale factor "scale_factor[i_bin]" for each bin, and the minimum value for each bin "offset[i_bin] , the output value F(x; ⁇ ) of the mixture model for each bin at the data point is calculated.
  • F(x; ⁇ ) F'(x; ⁇ ) x scale_factor[i_bin] + offset[i_bin] is calculated.
  • the band-by-band mixture model output values F'(x; ⁇ ) are corrected for the dynamic range of each bin.
  • the original directivity data before modeling is restored from the model data.
  • the position of each data point and the frequency of each bin are obtained from the azimuth “azimuth_table[i]", elevation “elevation_table[i]", and radius “distance[i]” stored in the model data. , and the frequency “freq[i_bin]”.
  • FIG. 7 shows the amount of model data when the directivity data is actually modeled so that the model data has the structure shown in FIG.
  • the original directional data before modeling has 2522 data points and 29 bins.
  • the number of bands "band_count” is set to "3"
  • modeling is performed with a mixed model consisting of a vMF distribution (ellipticity ⁇ , major axis vector ⁇ 2 , minor axis vector ⁇ 3 ).
  • the model data includes difference information as necessary, and the difference information is used to restore the directivity data as appropriate.
  • each of the plurality of straight lines drawn on the surface of the sphere represents vector ⁇ 1 described above.
  • vector V51 represents one vector ⁇ 1 .
  • the value (residual error) at each data point of the residual data indicated by the arrow Q43 is stored in the model data as difference information "diff_data[i_point]".
  • HOA Higher Order Ambisonics
  • Directivity generally has a more complex shape and a higher degree of convexity in the high frequencies.
  • the usefulness of phase information is relatively low in high frequencies. Therefore, when reducing the amount of directional data, it is more advantageous to adopt a method of modeling using a mixed distribution model as in this technology rather than using HOA.
  • the shape of the directivity is relatively gentle in the low frequency range, and physical phenomena such as diffraction and interference can be reproduced by recording the phase. You may make it use the method to carry out.
  • the directivity data (amplitude data) generated (restored) based on the model data has directivity only at specific discrete frequency points, that is, specific bins. Gain exists. In other words, since there are frequencies at which there is no directivity gain, rendering processing may not be possible if directivity data generated from model data is used as is.
  • the data points are also arranged discretely, if the user's viewpoint position (listening position) or the object moves and the positional relationship between the user and the object changes, the directionality data used for rendering processing will change. Data points also change. In such cases, if the spacing between adjacent data points is large, glitches (waveform discontinuities) will occur.
  • directivity gains may be obtained for more frequencies (bins) and directions (data points) by performing interpolation processing in the frequency direction and the time direction on the directivity data.
  • interpolation processing in the frequency direction it is conceivable to perform primary interpolation processing or secondary interpolation processing using directional gains of bins indicating a plurality of frequencies near a specific frequency to be obtained.
  • bilinear interpolation processing in the azimuth direction and elevation direction using the directional gain for each bin at a plurality of data points near the direction (position) to be obtained may be performed. can be considered.
  • the amount of computation when modeling directional data depends on various parameters such as the frame length of audio data (number of samples/frame), the number of mixtures in the mixture model, the model to be selected (distribution), and the number of data points.
  • the effect on sound quality changes (trade-off).
  • interpolation processing in the time direction suppresses the occurrence of waveform discontinuities, resulting in higher quality audio. Regeneration can be achieved.
  • content creators increase the number of data points of directivity data according to, for example, the shape of the directivity of a sound source (object), or cope with the small number of data points by interpolation processing during playback. You can also decide whether
  • an arbitrary code such as Huffman coding is used to express the difference information indicating the error (difference) between the original directivity data to be modeled (encoded) and the mixed model, that is, the directivity data after modeling. It may be encoded by an encoding method and transmitted.
  • a flag or the like to switch whether or not to use various types of information such as difference information and the method of using directivity data (rendering method), such as interpolation processing in the frequency direction and interpolation processing in the time direction.
  • a flag may be used to switch between low-precision parameters for low-resource reproduction devices and high-precision parameters for high-resource reproduction devices, that is, to switch parameter precision.
  • the parameters are switched according to, for example, the resources of the playback device and the network environment at the time of content distribution.
  • this technology can also be applied to texture data in video, such as color and transparency information for volumetric point cloud data.
  • FIG. 9 is a diagram illustrating a configuration example of a server to which the present technology is applied.
  • the server 11 shown in FIG. 9 is an information processing device such as a computer, and distributes content.
  • the content consists of audio data of one or more objects (object audio data), and directivity data prepared for each sound source type, representing the directivity of the sound source (object), that is, the directional characteristics.
  • Such content can be obtained, for example, by recording directivity data with the sound of a 3D sound source using a microphone array or the like. Also, the content may include video data corresponding to the audio data.
  • the server 11 has a modeling unit 21, a model data generation unit 22, an audio data encoding unit 23, and an output unit 24.
  • the modeling unit 21 models the input directivity data of each sound source type, and supplies the model parameters and difference information obtained as a result to the model data generation unit 22 .
  • the model data generation unit 22 generates model data based on the model parameters and difference information supplied from the modeling unit 21 and supplies the model data to the output unit 24 .
  • the audio data encoding unit 23 encodes the input audio data of each object and supplies the resulting encoded audio data to the output unit 24 .
  • the output unit 24 multiplexes the model data supplied from the model data generation unit 22 and the encoded audio data supplied from the audio data encoding unit 23 to generate and output an encoded bitstream.
  • model data and the encoded audio data are output at the same time
  • the model data and the encoded audio data are generated separately and output at different timings.
  • the model data and the encoded audio data may be generated by different devices.
  • step S ⁇ b>11 the modeling unit 21 models the input directivity data of each sound source type, and supplies model parameters and difference information obtained as a result to the model data generation unit 22 .
  • the modeling unit 21 models the directivity data by representing (representing) the directivity data with a mixed model consisting of a plurality of distributions shown in the above equation (3).
  • the parameter concentration ⁇ , ellipticity ⁇ , weight ⁇ i , vector ⁇ 1 , major axis vector ⁇ 2 , minor axis vector ⁇ 3 , scale factor, minimum value is obtained as a model parameter.
  • the modeling unit 21 generates information indicating the number of data points, the positions of the data points, the number of frequency points, the center frequency of the bin, etc. as information about the original directivity data before modeling.
  • the modeling unit 21 uses the residual (difference) between the modeled directivity data, that is, the directivity data represented by the mixed model and the original directivity data before modeling as difference information. Generate.
  • the difference information is obtained when a specific condition is satisfied, such as when the residual between the directivity data represented by the mixed model and the original directivity data is greater than or equal to a predetermined value, or when the content creator, etc. may be generated when generation of difference information is instructed by .
  • the modeling unit 21 supplies the model parameters obtained in this way, information on the original directivity data before modeling, and difference information to the model data generating unit 22 .
  • step S12 the model data generation unit 22 generates model data by packing the model parameters supplied from the modeling unit 21, the information on the original directivity data before modeling, and the difference information, and outputs the model data. 24.
  • the model data generation unit 22 for example, Huffman-encodes the difference information, and packs the resulting encoded difference information (hereinafter also referred to as differential encoded data), model parameters, etc., to obtain the data shown in FIG. Generate model data in the format shown in . Note that the model parameters and model data may be coded.
  • step S ⁇ b>13 the audio data encoding unit 23 encodes the input audio data of each object, and supplies the resulting encoded audio data to the output unit 24 .
  • the audio data encoding unit 23 When there is metadata for the audio data of each object, the audio data encoding unit 23 also encodes the metadata of each object (audio data), and outputs the resulting encoded metadata to the output unit 24. supply to
  • the metadata includes object position information indicating the absolute position of the object in the three-dimensional space, object direction information indicating the orientation of the object in the three-dimensional space, sound source type information indicating the type of the object (sound source), etc. include.
  • step S14 the output unit 24 multiplexes the model data supplied from the model data generation unit 22 and the encoded audio data supplied from the audio data encoding unit 23 to generate and output an encoded bitstream.
  • the output unit 24 generates an encoded bitstream including model data, encoded audio data, and encoded metadata.
  • the output unit 24 transmits the encoded bitstream to an information processing device functioning as a client (not shown). Once the encoded bitstream has been transmitted, the encoding process ends.
  • the server 11 models the directivity data and outputs an encoded bitstream containing model parameters and difference information obtained as a result. By doing so, it is possible to reduce the amount of directional data transmitted to the client, that is, the amount of directional data transmitted. As a result, occurrence of transmission delay and increase in transmission rate can be suppressed.
  • FIG. 11 An information processing apparatus that acquires an encoded bitstream output from the server 11 and generates output audio data for reproducing the sound of content is configured as shown in FIG. 11, for example.
  • the information processing device 51 shown in FIG. 11 is composed of, for example, a personal computer, a smart phone, a tablet, a game device, and the like.
  • the information processing device 51 has an acquisition unit 61 , a distribution model decoding unit 62 , an audio data decoding unit 63 , and a rendering processing unit 64 .
  • the acquisition unit 61 acquires the encoded bitstream output from the server 11 and extracts model data and encoded audio data from the encoded bitstream.
  • the acquisition unit 61 supplies the model data to the distribution model decoding unit 62 and supplies the encoded audio data to the audio data decoding unit 63 .
  • the distribution model decoding unit 62 calculates directivity data from the model data.
  • the distribution model decoding unit 62 has an unpacking unit 81 , a directivity data calculation unit 82 , a difference information decoding unit 83 , an addition unit 84 and a frequency interpolation processing unit 85 .
  • the unpacking unit 81 unpacks the model data supplied from the acquiring unit 61 to extract model parameters, information on original directivity data before modeling, and differential code data from the model data.
  • the unpacking unit 81 also supplies the model parameters and information about the original directivity data before modeling to the directivity data calculating unit 82 , and supplies the differential encoded data to the differential information decoding unit 83 .
  • the directivity data calculator 82 calculates (restores) the directivity data based on the model parameters supplied from the unpacking unit 81 and the information on the original directivity data before modeling, and supplies the directivity data to the adder 84 .
  • the directivity data calculated (restored) by the directivity data calculator 82 based on the model parameters will also be referred to as approximate directivity data.
  • the differential information decoding unit 83 decodes the encoded differential data supplied from the unpacking unit 81 using a method corresponding to Huffman coding, and adds the resulting differential information as a directional data residual. 84.
  • the addition unit 84 adds the general directivity data supplied from the directivity data calculation unit 82 and the directivity data residual (difference information) supplied from the difference information decoding unit 83 to obtain the following: , and supplies it to the frequency interpolation processing unit 85 .
  • the frequency interpolation processing unit 85 performs frequency direction interpolation processing on the directivity data supplied from the addition unit 84 and supplies the resulting directivity data to the rendering processing unit 64 .
  • the audio data decoding unit 63 decodes the encoded audio data supplied from the acquisition unit 61 and supplies the resulting audio data of each object to the rendering processing unit 64 .
  • the audio data decoding unit 63 decodes the encoded metadata supplied from the acquisition unit 61 and renders the resulting metadata. 64.
  • the rendering processing unit 64 generates output audio data based on the directivity data supplied from the frequency interpolation processing unit 85 and the audio data supplied from the audio data decoding unit 63 .
  • the rendering processing unit 64 has a directivity data storage unit 86, an HRTF (Head Related Transfer Function) data storage unit 87, a temporal interpolation processing unit 88, a directivity convolution unit 89, and an HRTF convolution unit 90.
  • HRTF Head Related Transfer Function
  • Viewpoint position information, listener direction information, object position information, and object direction information are supplied to the directivity data storage unit 86 and the HRTF data storage unit 87 in accordance with user designation, sensor measurement, and the like. .
  • the viewpoint position information is information indicating the viewpoint position (listening position) of the user (listener) viewing the content in the three-dimensional space
  • the listener direction information is the face of the user viewing the content in the three-dimensional space. This is information indicating the orientation of the viewpoint position (listening position) of the user (listener) viewing the content in the three-dimensional space
  • the object position information and the object orientation information are extracted from the metadata obtained by decoding the encoded metadata, It is supplied to the HRTF data holding unit 87 .
  • sound source type information obtained by extracting from metadata is also supplied to the directivity data holding unit 86, and a user ID indicating the user viewing the content is stored in the HRTF data holding unit 87 as appropriate. supplied.
  • the directivity data holding unit 86 holds the directivity data supplied from the frequency interpolation processing unit 85 .
  • the directivity data holding unit 86 selects directivity data corresponding to the supplied viewpoint position information, listener direction information, object position information, object direction information, and sound source type information from the held directivity data. The data is read out and supplied to the time interpolation processing section 88 .
  • the HRTF data holding unit 87 holds HRTFs for each user indicated by the user ID for each of multiple directions viewed from the user (listener).
  • the HRTF data holding unit 87 reads out HRTFs corresponding to the supplied viewpoint position information, listener direction information, object position information, object direction information, and user ID from the held HRTFs, and HRTF convolution unit 90 supply to
  • the temporal interpolation processing unit 88 performs temporal interpolation processing on the directivity data supplied from the directivity data holding unit 86 and supplies the resultant directivity data to the directivity convolution unit 89 .
  • the directional convolution unit 89 convolves the audio data supplied from the audio data decoding unit 63 and the directional data supplied from the time interpolation processing unit 88, and supplies the resulting audio data to the HRTF convolution unit 90. do. Convolution of the directional data adds the directional characteristics of the object (sound source) to the audio data.
  • the HRTF convolution unit 90 convolves the audio data supplied from the directional convolution unit 89, that is, the audio data in which the directional data is convoluted, with the HRTF supplied from the HRTF data holding unit 87, resulting in Output audio data as output audio data. By convolving the HRTF, it is possible to obtain output audio data in which the sound of the object is localized at the position of the object seen by the user (listener).
  • This directivity data generation process is started when the acquisition unit 61 receives the encoded bitstream transmitted from the server 11 and supplies the model data extracted from the encoded bitstream to the unpacking unit 81 . be.
  • step S51 the unpacking unit 81 unpacks the model data supplied from the acquiring unit 61, and outputs information about model parameters extracted from the model data and original directivity data before modeling to the directivity data calculating unit. 82.
  • step S52 the directivity data calculation unit 82 calculates (generates) approximate directivity data based on the model parameters supplied from the unpacking unit 81 and information on the original directivity data before modeling, It is supplied to the adding section 84 .
  • the directivity data calculation unit 82 includes a mixture model F'(x; ]” to calculate the binwise mixture model output value F(x; ⁇ ) at the data point. This results in approximate directivity data consisting of the directivity gain (amplitude data) for each bin at each data point.
  • step S53 the unpacking unit 81 determines whether or not the model data supplied from the acquiring unit 61 contains differential code data, that is, whether or not there is differential code data.
  • step S53 If it is determined in step S53 that differential encoded data is included, the unpacking unit 81 extracts differential encoded data from the model data and supplies the differential encoded data to the differential information decoding unit 83, after which the process proceeds to step S54. move on.
  • step S ⁇ b>54 the differential information decoding unit 83 decodes the differential encoded data supplied from the unpacking unit 81 and supplies the resulting directional data residual (difference information) to the addition unit 84 .
  • step S55 the adding unit 84 adds the directivity data residual supplied from the difference information decoding unit 83 to the general directivity data supplied from the directivity data calculating unit 82.
  • the addition unit 84 supplies the directivity data obtained by the addition to the frequency interpolation processing unit 85, after which the process proceeds to step S56.
  • step S53 if it is determined in step S53 that differential code data is not included, the processing of steps S54 and S55 is skipped, and then the processing proceeds to step S56.
  • the adder 84 supplies the general directivity data supplied from the directivity data calculator 82 to the frequency interpolation processor 85 as restored directivity data.
  • step S53 If it is determined in step S53 that differential code data is not included, or if the process of step S55 is performed, the process of step S56 is performed.
  • step S56 the frequency interpolation processing unit 85 performs interpolation processing in the frequency direction on the directivity data supplied from the addition unit 84, and supplies the directivity data obtained by the interpolation processing to the directivity data holding unit 86. to hold.
  • the audio data of an object is data in the frequency domain
  • the audio data has frequency component values for each of multiple frequency bins.
  • an interpolation process of calculating the directivity gain of the necessary bin so that the directivity data has the directivity gain for all frequency bins in which the audio data has frequency component values. is done.
  • the frequency interpolation processing unit 85 performs an interpolation process based on the directional gains of a plurality of bins (frequencies) of predetermined data points in the directional data, so that Calculate the directional gain for new frequencies (bins) at the same data points that were not Through such interpolation processing in the frequency direction, it is possible to obtain directivity data including directivity gains at more frequencies.
  • the directivity data generating process ends.
  • the information processing device 51 calculates the directivity data based on the model data. By doing so, it is possible to reduce the amount of directional data to be transmitted, that is, the amount of directional data to be transmitted. As a result, occurrence of transmission delay and increase in transmission rate can be suppressed.
  • step S81 the audio data decoding unit 63 decodes the encoded audio data supplied from the acquisition unit 61, and supplies the resulting audio data to the directional convolution unit 89. For example, decoding yields audio data in the frequency domain.
  • the audio data decoding unit 63 decodes the encoded metadata, and extracts the object position information and the object direction information included in the resulting metadata.
  • the sound source type information is supplied to the directivity data holding unit 86 and the HRTF data holding unit 87 as appropriate.
  • the directivity data holding unit 86 supplies the time interpolation processing unit 88 with directivity data corresponding to the supplied viewpoint position information, listener direction information, object position information, object direction information, and sound source type information.
  • the directivity data storage unit 86 identifies the relationship between the object in the three-dimensional space and the user's viewpoint position (listening position) from the viewpoint position information, the listener direction information, the object position information, and the object direction information. Identify data points according to results.
  • the position on the spherical surface of the mixture model in the viewpoint position direction when viewed from the center of the mixture model is specified as the target data point position. Note that there may not be an actual data point at the data point location of interest.
  • the directivity data storage unit 86 extracts the directivity gain of each bin at a plurality of data points near the specified target data point position from the directivity data of the sound source type indicated by the sound source type information.
  • the directivity data holding unit 86 performs time interpolation processing on the data consisting of the directivity gain of each bin in the plurality of extracted data points as directivity data according to the relationship between the position and direction of the object and the user (listener). 88.
  • the HRTF data holding unit 87 supplies the HRTF convolution unit 90 with HRTF corresponding to the supplied viewpoint position information, listener direction information, object position information, object direction information, and user ID.
  • the HRTF data storage unit 87 stores the relative direction of the object as viewed from the listener (user) based on the viewpoint position information, the listener direction information, the object position information, and the object direction information. Identify as Then, the HRTF data holding unit 87 supplies the HRTF in the direction corresponding to the object direction to the HRTF convolution unit 90 among the HRTFs in each direction corresponding to the user ID.
  • step S82 the time interpolation processing unit 88 performs temporal interpolation processing on the directivity data supplied from the directivity data holding unit 86, and supplies the resulting directivity data to the directivity convolution unit 89. do.
  • the time interpolation processing unit 88 calculates the directivity gain of each bin at the target data point position by interpolation processing, based on the directivity gain of each bin at a plurality of data points included in the directivity data. That is, the directivity gain at a new data point (target data point position) different from the original data point is calculated by interpolation processing.
  • the temporal interpolation processing unit 88 supplies the data of the directivity gain of each bin at the target data point position to the directivity convolution unit 89 as the directivity data obtained by interpolation processing in the time direction.
  • step S83 the directional convolution unit 89 convolves the audio data supplied from the audio data decoding unit 63 and the directional data supplied from the time interpolation processing unit 88, and applies the resulting audio data to the HRTF convolution unit. supply to 90.
  • step S84 the HRTF convolution unit 90 convolves the audio data supplied from the directional convolution unit 89 and the HRTF supplied from the HRTF data holding unit 87, and outputs the resulting output audio data.
  • step S85 the information processing device 51 determines whether or not to end the process.
  • step S85 when encoded audio data of a new frame is supplied from the acquisition unit 61 to the audio data decoding unit 63, it is determined in step S85 that the process is not to end. On the other hand, for example, when the encoded audio data of a new frame is not supplied from the acquisition unit 61 to the audio data decoding unit 63 and the output audio data of all frames of the content is generated, the process ends in step S85. be judged.
  • step S85 If it is determined in step S85 that the process has not yet ended, then the process returns to step S81 and the above-described processes are repeated.
  • step S85 the information processing device 51 terminates the operation of each unit and terminates the output audio data generation processing.
  • the information processing device 51 selects appropriate directivity data and HRTF, and convolves the directivity data and HRTF with audio data to produce output audio data. By doing so, it is possible to realize high-quality audio reproduction with a more realistic feeling by considering the directional characteristics of the object (sound source) and the relationship between the position and orientation of the object and the listener.
  • the server 11 appropriately generates difference information indicating the difference between the directivity data before modeling and the directivity data after modeling.
  • differential information is encoded by an encoding method such as Huffman encoding to obtain differential encoded data.
  • the difference information encoding method is applied on the server 11 side, that is, on the encoder side, so that appropriate encoding can be performed according to the sound source type and frequency band for encoding the difference information. You may enable it to be selected.
  • a distribution of occurrence probability is generated based on difference information for each of a plurality of bins obtained from one directional data to be coded. .
  • the horizontal axis indicates the value (dB value) of the difference information
  • the vertical axis indicates the appearance probability of each value of the difference information.
  • the appearance probability of each value of the difference information is obtained by generating a histogram from the difference information of each bin.
  • the appearance probability distribution may be obtained for each bin, may be obtained for bins included in a specific frequency band, or may be obtained for all bins. may be required or any of them may be selectable.
  • the server 11 selects an appropriate Huffman coding table from a plurality of prepared Huffman coding tables, or selects one new Huffman coding table based on the appearance probability of such difference information.
  • a conversion table is generated.
  • All bins (frequencies) in all data points of the directional data may be considered and one Huffman coding table may be selected or generated for all those bins, or One Huffman coding table may be selected or generated.
  • the Huffman coding table selected or generated in this manner is used to Huffman code the difference information.
  • the Huffman coding table is a table for converting pre-encoded data into Huffman code, showing the correspondence between pre-encoded data, that is, difference information, and Huffman code (encoded data) obtained by encoding. be.
  • a reverse lookup table corresponding to the Huffman coding table is used when decoding the difference encoded data obtained by Huffman coding the difference information.
  • the reverse lookup table is a table for converting the Huffman code into the data after decoding, showing the correspondence between the Huffman code (encoded data) and the data after decoding.
  • This reverse lookup table can be generated from a Huffman coding table.
  • both the server 11 (encoder) and the information processing device 51 (decoder) may hold Huffman-encoding tables in advance. In such a case, the server 11 notifies the information processing device 51 of ID information indicating the Huffman coding table used for Huffman coding the difference information.
  • the server 11 may store the Huffman coding table or the reverse lookup table in the coded bitstream and transmit it to the information processing device 51 .
  • the Huffman coding table is transmitted from the server 11 to the information processing device 51, and the information processing device 51 performs reverse lookup based on the Huffman coding table at the time of decoding or the like.
  • a reference table may be generated.
  • the range corresponding to the data of the narrow dynamic range including the value of the difference information with high occurrence probability such as the range of ⁇ 3 dB as the range of possible values of the difference information, was selected as the target range, and only that target range was targeted.
  • a Huffman coding table may be used.
  • the difference information of values outside the target range that is, the difference information of irregular values with a low appearance probability
  • the differential information is treated as it is as differential code data.
  • a highly efficient Huffman coding table is selected or generated according to the probability density distribution of difference information, and information about which Huffman coding table to use is encoded. By describing it in the bitstream, it is possible to efficiently encode and transmit the differential information.
  • the dynamic range can be further reduced and the encoding efficiency can be improved.
  • multistage differential encoding can be realized by combining a plurality of schemes.
  • the mode indicating the presence or absence of multi-stage differential encoding and the method is recorded as enc_mode etc. in the model data.
  • the multistage differential encoding method is recorded in the lower 4 bits and whether the target is a real number or a complex number is recorded in the upper 4 bits, the following information is stored in the model data.
  • Target data is real number
  • 0x00 No multistage differential encoding
  • 0x01 Spatial adjacent difference method
  • 0x02 Inter-frequency difference method
  • 0x03 Spatial adjacent difference method + Inter-frequency difference method (target data is complex number)
  • 0x1* Lower bits are the same as the target data real number
  • the spatial adjacent difference method when encoding the difference information of the data point to be processed, the difference information at the data point to be processed and the difference information at other data points near the data point to be processed. is obtained as spatial difference information. For example, a difference in difference information between adjacent data points is obtained as spatial difference information. Then, the obtained spatial difference information is Huffman-encoded to obtain differential encoded data.
  • the data at spatially close positions (data points) in the directivity data that is, the directivity gain and difference information, take advantage of the property that they tend to take close values.
  • the inter-frequency difference method when encoding the difference information of the bin (frequency) to be processed, the difference information in the bin to be processed and the neighboring frequencies of the bins adjacent to the bin to be processed are used. is obtained as inter-frequency difference information. Then, the obtained inter-frequency difference information is Huffman-encoded to be differential code data.
  • the data of close frequencies that is, the directivity gain and difference information, take advantage of the property that they tend to take close values.
  • the difference in spatial difference information between adjacent bins is obtained as inter-frequency difference information, and the inter-frequency difference information is Huffman encoded.
  • a difference in inter-frequency difference information between adjacent data points is obtained as spatial difference information, and the spatial difference information is Huffman-encoded.
  • the complex difference method is used when the directivity data has not only information about the amplitude described above but also information about the phase.
  • the directional data has information about amplitude and phase
  • the information about those amplitudes and phases, that is, the directional gain is expressed by a complex number.
  • the directivity data has complex number data (hereinafter also referred to as complex directivity gain) indicating the amplitude and phase for each bin for each data point, and the difference information is also complex number data.
  • the real and imaginary parts of the differential information represented by complex numbers are Huffman-encoded independently (individually), or two-dimensional data consisting of real and imaginary parts (complex directivity gain) Huffman encoding is performed.
  • the complex difference method it may be possible to select whether Huffman coding is performed on the real part and the imaginary part separately, or Huffman coding is performed on the two-dimensional data.
  • each method of encoding by combining at least one or more of the spatially adjacent differential method, the inter-frequency differential method, and the complex differential method, and the method of Huffman encoding the difference information as it is are referred to as one differential encoding method or Also referred to as differential encoding mode.
  • a differential encoding method that Huffman-encodes differential information as it is can be said to be an encoding that uses the difference, that is, a method that does not perform differential encoding.
  • the server 11 selects the most efficient one from among a plurality of differential encoding methods (differential encoding modes) based on the differential information, etc., and Huffman-encodes the differential information using the selected differential encoding method. I do.
  • the code amount (data amount) of the differential code data in each differential encoding method is obtained by calculation based on the difference information, and the differential encoding method with the smallest code amount is the most efficient. It may be selected as high.
  • an appropriate differential encoding method may be selected based on, for example, the sound source type of the directional data or the environment during recording of the directional data such as an anechoic room.
  • the HOA method for each frequency band, that is, for each bin or band, or in common for all frequency bands, at least one or more of the HOA method, the mixed method, the complex mixed method, and the difference method are combined. may be used to generate the model data.
  • directivity data is modeled by one or a plurality of different methods such as the HOA method and the mixed method, and model data including model parameters and the like obtained as a result is generated.
  • the HOA method is a method that uses HOA to model directional data consisting of complex directional gains for each data point bin. That is, the HOA method is a method of modeling directivity data by spherical harmonic expansion.
  • spherical harmonic expansion is performed on the directional data, and as a result, spherical harmonic coefficients, which are coefficients for spherical harmonic functions in each dimension, are obtained as model parameters.
  • Directivity data consisting of the complex directional gain after modeling by HOA can be obtained from the spherical harmonic coefficients in each of these dimensions.
  • the mixed method is a method of modeling using a mixed model consisting of the above-mentioned Kent distribution and vMF distribution.
  • the mixed scheme can describe the shape of the directional gain, which varies sharply at a particular orientation (direction) as seen from the sound source, ie the location of the data points.
  • the complex mixture method is a method of modeling directivity data consisting of complex directivity gain, that is, amplitude and phase data, using a mixture distribution (mixture model) corresponding to complex numbers.
  • modeling by the following two methods can be considered.
  • each of the real and imaginary parts of the complex directivity gain, or each of the amplitude and phase angle obtained from the complex directivity gain is independently calculated using a mixed model of probability density distribution for real numbers.
  • a method of modeling by describing is conceivable.
  • the directional data is modeled by a mixture model consisting of one or more complex Bingham distributions or one or more complex Watson distributions, so that the model parameters are similar to those in the mixture scheme. can get. From the model parameters thus obtained, it is possible to obtain directivity data consisting of complex directivity gains after modeling in the complex mixture method.
  • the description is performed in the format shown in the following formula (5). That is, the complex Bingham distribution value f(z) is represented by the following equation (5).
  • the complex vector z in Equation (5) corresponds to the position vector x on the spherical surface in the Kent distribution or the vMF distribution, and z* is its complex conjugate.
  • the complex matrix A is a k ⁇ k-dimensional matrix indicating the position, steepness, direction, and shape, and the normalization coefficient C(A) is given by the following equation (6).
  • ⁇ j is the eigenvalue of the complex matrix A and ⁇ 1 ⁇ 2 ⁇ 3 ⁇ . . . ⁇ k .
  • the mixture model consisting of one or more complex Bingham distributions that is, the number of mixtures and weights in the complex Bingham mixture model are common to the formulation of the mixture model consisting of the Kent distribution and the vMF distribution described above.
  • a value F(x; ⁇ ) of a mixture model using N complex Bingham distributions f(z; ⁇ i ) can be weighted and described as shown in the following equation (8).
  • the sum of the weights is 1, ⁇ is the set of all parameters, ⁇ i is the set of parameters of each complex Bingham distribution (parameters constituting the complex Bingham distribution), and ⁇ i is each complex It represents the weights for the Bingham distribution.
  • the difference method is a method that uses differences to generate model data.
  • model data is generated by combining one or more other methods such as the HOA method and the mixed method with the difference method
  • the difference method the directivity data before modeling and the one or more other methods
  • Difference information indicating the difference from the directivity data after modeling is encoded by any of the differential encoding methods described above, and differential encoded data obtained as a result is stored in the model data.
  • the difference in directivity data obtained by the difference method may be modeled by the HOA method or the like.
  • the difference method for example, at least one of the difference between spatial positions (between data points) and the difference between frequencies (between bins or bands) is obtained for the difference information, and the resulting difference is Huffman encoded. are used as differential code data.
  • the difference in the differential information to be Huffman-encoded is a complex number
  • the real part and the imaginary part of the difference may be individually Huffman-encoded, or the complex number may be directly Huffman-encoded.
  • each of the amplitude component and the phase component obtained from the difference may be individually Huffman-encoded.
  • At this time, at least one of the spatially adjacent differential method, the inter-frequency differential method, and the complex differential method, including at least one of the spatially adjacent differential method and the inter-frequency differential method, is used. That is, a difference in directivity gain between spatial positions (between data points) or between frequencies (between bins or bands) is obtained, and the difference is Huffman-encoded.
  • the difference is represented by a complex number
  • the real part and the imaginary part of the difference may be separately Huffman-encoded, or the difference (complex number) may be Huffman-encoded.
  • each of the amplitude component and the phase component obtained from the difference may be individually Huffman-encoded.
  • model data is generated that includes data composed of Huffman codes obtained by Huffman coding the differences obtained by the differential method (hereinafter also referred to as coded directivity data).
  • coded directivity data since there is no directivity data residual, the model data does not include differential code data.
  • differential code It is necessary to define the order of data when data and encoded directional data are stored in model data, and the compression ratio varies depending on the data order.
  • the differential information is calculated after applying offsets and scale factors to the average directivity and matching the dynamic range.
  • model data is generated by combining the HOA method, mixture method, complex mixture method, and difference method
  • the methods for generating model data can be categorized into the following five methods.
  • the five methods here are the band hybrid method, the additive hybrid method, the multiplicative hybrid method, the spherical harmonic coefficient modeling method, and the combination hybrid method. Each method will be described below.
  • the band hybrid method is a method for switching which method of the HOA method, the mixing method, the complex mixing method, and the differential method to generate model data for each frequency band, that is, for each bin or band.
  • low frequencies may be recorded with a complex directional gain
  • high frequencies may be recorded with a real directional gain.
  • the HOA method is used for modeling in the lower band
  • the mixed method is used for modeling in the higher band. Modeling of directional data can be performed.
  • the low-side band may be modeled by a complex mixed method using a complex Bingham distribution or the like, and the high-side band may be modeled by a mixed method.
  • additive hybrid method In the additive hybrid method, difference information indicating the difference from modeled directivity data is further modeled or encoded by a differential method.
  • additive hybrid methods include the following methods (AH1) to (AH4).
  • processing is executed in order from the method described on the left.
  • the directional data is first modeled with a mixed method.
  • difference information indicating the difference between the directivity data before modeling and the directivity data after modeling by the mixed method is encoded by the differential method to generate difference encoded data.
  • model data including model parameters obtained by modeling in the mixed method and differential code data is generated.
  • the directivity data is first modeled using the HOA method.
  • modeling in the HOA method involves spherical harmonic expansion up to low-order terms.
  • difference information indicating the difference between the directivity data before modeling and the directivity data after modeling by the HOA method is further modeled by the mixed method.
  • model data is generated that includes model parameters obtained by modeling in the HOA method and model parameters obtained by modeling differential information in the mixed method.
  • method (AH3) as in method (AH2), the HOA method is used to model up to the lower-order terms, and then the difference information obtained for modeling in the HOA method is encoded by the difference method. and differential code data is generated.
  • model data including model parameters obtained by modeling in the HOA method and differential code data is generated.
  • method (AH4) as in method (AH2), after modeling up to low-order terms with the HOA method, the differential information is further modeled with the mixed method.
  • the difference information indicating the difference between the difference information obtained for modeling by the HOA method and the difference information after modeling by the mixed method is encoded by the difference method to generate difference encoded data.
  • the difference information indicating the difference between the directivity data after modeling modeled by a combination of the HOA method and the mixed method and the directivity data before modeling is encoded by the differential method to obtain differential encoded data. is generated.
  • model data is generated that includes the model parameters obtained by modeling with the HOA method, the model parameters obtained by modeling the difference information with the mixed method, and the differential code data.
  • the difference information that is obtained is also referred to as intermediate difference information.
  • the difference information obtained by modeling in the HOA method is the intermediate difference information, and this intermediate difference information is modeled in the mixed method.
  • difference information indicating the difference between the original intermediate difference information and the intermediate difference information after modeling by the mixed method is encoded by the differential method.
  • method (AH2) cannot obtain data that completely matches the original directivity data on the decoding side, but method (AH1) and method (AH3) , and method (AH4) yields a perfect match with the original directivity data.
  • the directional data may be modeled or coded by a single method instead of the additive hybrid method. That is, for example, a model in which the directional data is modeled or coded by only one of the HOA method, the mixed method, and the differential method, and the resulting model parameters or coded directional data is included. Data may be generated.
  • multiplicative hybrid method In the multiplicative hybrid method, the directivity data is modeled by a predetermined method, and the ratio (quotient) of the directivity data after modeling and the directivity data before modeling is another method different from the predetermined method. is modeled with
  • multiplicative hybrid system examples include the following system (MH1) and system (MH2).
  • the directivity data is first modeled by the HOA method.
  • modeling in the HOA method involves spherical harmonic expansion up to low-order terms.
  • the value obtained by dividing the directivity data before modeling by the directivity data after modeling in the HOA method (hereinafter also referred to as amplitude modulation information) is further modeled in a mixed method.
  • the absolute value (amplitude component) of the complex number (complex directivity gain) that constitutes the amplitude modulation information may be modeled by the mixed method, or the amplitude component of the directivity data before and after modeling may be used. may be used as the amplitude modulation information.
  • model data including model parameters obtained by modeling in the HOA method and model parameters obtained by modeling amplitude modulation information in the mixed method is generated.
  • the directivity data calculated from the model parameters for the HOA method is multiplied by the amplitude modulation information calculated from the model parameters for the mixed method to calculate the final directivity data.
  • amplitude modulation information indicating fine amplitude fluctuations corresponding to the high frequency direction (direction from the sound source), which cannot be expressed by modeling up to the low-order terms in the HOA method, is obtained. It is modeled by a mixed method and recorded (stored) in model data. At the time of decoding, the directivity data calculated from the model parameters for the HOA method is modulated with the amplitude modulation information to obtain the directivity data with less error.
  • method (MH2) as in method (MH1), the directivity data is modeled up to the lower-order terms in the HOA method.
  • the value obtained by dividing the directivity data before modeling by the directivity data after modeling in the HOA method (hereinafter also referred to as amplitude phase modulation information) is further modeled in a mixed method.
  • the real part and imaginary part of the complex number (complex directional gain) and the amplitude component and phase component that constitute the amplitude phase modulation information are modeled by the mixed method.
  • the amplitude phase modulation information may be modeled by a complex mixing method.
  • model data including model parameters obtained by modeling in the HOA method and model parameters obtained by modeling the amplitude phase modulation information in the mixed method is generated.
  • the directivity data calculated from the model parameters for the HOA method is multiplied by the amplitude phase modulation information calculated from the model parameters for the mixed method to calculate the final directivity data.
  • amplitude phase modulation information that indicates rotational changes in the high-frequency phase according to the direction (direction from the sound source), which cannot be expressed by modeling down to the lower-order terms in the HOA method. is modeled by a mixed method and recorded (stored) in the model data.
  • the directivity data calculated from the model parameters for the HOA method is modulated by the amplitude phase modulation information to obtain the directivity data with less error.
  • the real and imaginary parts of the complex numbers are different or independent by the same method ( separately) may be modeled.
  • the real part may be modeled by a mixed method and the imaginary part may also be modeled by a mixed method.
  • the amplitude component and the phase component may be modeled independently (individually) by any method, and complex number data may be modeled by the complex mixture method.
  • the directivity data is modeled in two stages, the HOA method and the mixed method, in the spherical harmonic coefficient modeling method.
  • spherical harmonic coefficients are calculated based on the model parameters for the mixed method, and then directivity data (approximate directivity data) are calculated based on the spherical harmonic coefficients.
  • each of the real and imaginary parts of the spherical harmonic coefficients as model parameters, or each of the amplitude and phase components obtained from the model parameters can be modeled individually (independently) by any method such as a mixing method.
  • the spherical harmonic coefficients may be modeled by complex mixtures, such as one or more complex Bingham distributions.
  • model data is generated using a combination of at least two of the above-described band hybrid method, additive hybrid method, multiplicative hybrid method, and spherical harmonics modeling method.
  • information indicating a combination of one or more methods used to generate model data may be stored in the model data.
  • the server 11 side can appropriately select or switch between one or more methods used to generate model data.
  • the model data is configured as shown in FIGS. 15 and 16, for example. 16 shows a portion following the portion shown in FIG. 15. As shown in FIG. 15 and 16 corresponding to those shown in FIG. 5 will be omitted as appropriate.
  • FIGS. 15 and 16 are examples in which the directivity information (directivity data) of one type of sound source specified by num_sound_types_id is described as directivityConfig.
  • the vMF distribution, the Kent distribution, and the syntax when there is difference data (difference information) are shown as an example of realizing the hybrid method, and the number of bits of each information is just an example.
  • the model data shown in FIGS. 15 and 16 are basically composed of the same data as the model data shown in FIG. The number of bits and the data structure of some data are different.
  • the azimuth “azimuth_table[i]” and elevation “elevation_table[i]” are 16-bit unsigned shorts.
  • the number of bands “band_count” and the number of mixtures “mix_count[i_band]” are 8-bit unsigned chars, and the selection flag “dist_flag” is a 1-bit bool.
  • the model data includes the ID of the hybrid mode (differential encoding mode (differential encoding method)) used for encoding the differential information, that is, "mode” indicating the differential encoding mode information.
  • the model data also includes an index "table_index” indicating the Huffman coding table used for coding the difference information.
  • the model data includes "int db_resolution”, which indicates the quantization step size such as quantization every 1.0 dB.
  • int db_resolution a value of '0' indicates no quantization, a value of '1' indicates 0.01 dB, a value of '2' indicates 0.2 dB, and a value of '3' indicates 0.4 dB, the value "256" indicates 25.6 dB.
  • model data also includes a Huffman code (Huffman code) obtained by Huffman coding the difference information for each data point for each bin, that is, "diff_data[i_bin][i_point]", which is differential code data. stored.
  • Huffman code Huffman code
  • information of the configuration shown in FIG. 17 is transmitted from the server 11 to the information processing device 51, either stored in the model data or separately from the model data.
  • the information shown in FIG. 17 includes a Huffman coding table or a reverse lookup table.
  • diff_mode_count is information indicating the total number of differential encoding methods, and "int_nbits_res_data” is stored for this total number "diff_mode_count”.
  • This "int_nbits_res_data” is information indicating the maximum number of bits of the Huffman code, that is, the maximum word length of the Huffman code. can be done.
  • element_count is information indicating the number of elements in the Huffman coding table or reverse lookup table
  • “Huff_dec_table[i_element]” which is the number of elements, is stored.
  • “Huff_dec_table[i_element]” is an element of the reverse lookup table.
  • the Huffman coding table is as shown in FIG. 18, for example. That is, FIG. 18 shows a specific example of the Huffman coding table.
  • Huff_dec_table is a reverse lookup table when the maximum word length is 2 bits. 0: 0dB 1: 0dB 2: 1dB 3: 2dB
  • processing is performed in the following procedure.
  • An offset value is required for restoration.
  • ⁇ Server configuration example> When the server 11 generates model data by combining one or a plurality of methods and encodes difference information in the differential encoding mode, the server 11 is configured as shown in FIG. 19, for example.
  • the server 11 shown in FIG. 19 is an information processing device such as a computer, and functions as an encoding device as in the case of FIG.
  • the server 11 has a directional data encoding unit 201, an audio data encoding unit 23, and an output unit 24.
  • the directional data encoding unit 201 generates model data based on the supplied directional data.
  • Directivity data encoding section 201 has model parameter estimation section 211 , residual calculation section 212 , encoding method selection section 213 , Huffman encoding section 214 , and model data generation section 215 .
  • model parameter estimation unit 211 and the residual calculation unit 212 correspond to the modeling unit 21 in FIG. handle.
  • the model parameter estimating unit 211 models the supplied directivity data to be processed by at least one method such as the HOA method or the mixed method, and the residual calculating unit 212 calculates the model parameters obtained as a result for each method. It is supplied to the model data generator 215 .
  • the residual calculation unit 212 calculates difference information based on the supplied directivity data to be processed and the model parameters supplied from the model parameter estimation unit 211, and the coding method selection unit 213 and the Huffman coding unit 214.
  • the encoding method selection unit 213 selects a differential encoding mode and a Huffman encoding mode when Huffman encoding the difference information.
  • An encoding table is selected, and encoding mode information indicating the selection result is supplied to the Huffman encoding unit 214 and the model data generation unit 215 .
  • the encoding mode information consists of differential encoding mode information indicating the selected differential encoding mode (differential encoding method) and table index information indicating the selected Huffman coding table. It should be noted that only the difference information may be used when the encoding mode information is generated by the encoding method selection unit 213 .
  • the Huffman encoding unit 214 Huffman-encodes the difference information supplied from the residual calculation unit 212 based on the encoding mode information supplied from the encoding method selection unit 213, and converts the resulting encoded differential data into It is supplied to the model data generator 215 .
  • the model data generating unit 215 generates model parameters for each method supplied from the model parameter estimating unit 211 , differential encoded data supplied from the Huffman encoding unit 214 , and encoding mode supplied from the encoding scheme selecting unit 213 .
  • the model data including the information is generated and supplied to the output unit 24 .
  • the difference code data is not included in the model data when the difference information is not encoded.
  • the model data also stores information about the directivity data described above.
  • information indicating the method used to model the directivity data may be stored in the model data.
  • the server 11 performs the encoding process described with reference to FIG. However, in steps S11 and S12, in more detail, the processing described below is performed.
  • step S11 the model parameter estimation unit 211 models the supplied directivity data to be processed by at least one method, and the residual calculation unit 212 calculates difference information as necessary. be done.
  • the HOA method, the mixture method, the complex mixture method, the difference method, and the like are combined as necessary, and thereby the above-mentioned band hybrid method, additive hybrid method, multiplicative hybrid method, spherical harmonic coefficient modeling method, Model parameters and difference information are calculated by a combination hybrid method or the like.
  • step S12 the encoding method selection unit 213 selects a differential encoding mode and a Huffman encoding table, and the Huffman encoding unit 214 performs Huffman encoding as necessary. Data generation takes place.
  • the model parameter estimation unit 211 first models the directivity data by the HOA method, and as a result, the spherical harmonics as the model parameters. get the coefficients.
  • the model parameter estimating unit 211 obtains the difference between the directivity data modeled by the HOA method and the directivity data before modeling as intermediate difference information, and models the intermediate difference information by the mixing method.
  • parameter concentration ⁇ , ellipticity ⁇ , weight ⁇ i , vector ⁇ 1 , major axis vector ⁇ 2 , minor axis vector ⁇ 3 , scale factor, and minimum value are obtained as model parameters. be done.
  • the model parameter estimating unit 211 combines the model parameters obtained by modeling the directivity data by the HOA method and the model parameters obtained by modeling the intermediate difference information by the mixed method into the residual calculation unit 212 and the model data generation unit 212 . 215.
  • the residual calculator 212 generates difference information based on the model parameters supplied from the model parameter estimator 211 and the supplied directivity data.
  • This difference information is the residual difference between the directivity data after modeling, which is modeled by a combination of the HOA method and the mixed method, and the directivity data before modeling.
  • the Huffman encoding unit 214 Huffman-encodes the difference information supplied from the residual calculation unit 212 according to the encoding mode information supplied from the encoding method selection unit 213 as necessary.
  • processing is performed by the method indicated by the differential encoding mode information. That is, for example, the difference information is Huffman-encoded by one or more of the spatial adjacent difference method, the inter-frequency difference method, and the complex difference method, or the Huffman-encoding of the difference information is not performed.
  • the Huffman coding unit 214 obtains the difference of the difference information between the adjacent data points as the spatial difference information, and Huffman codes the spatial difference information. Generate differential code data.
  • the model data generation unit 215 generates model data including the HOA model parameters and the mixed method model parameters supplied from the model parameter estimation unit 211 and the encoding mode information supplied from the encoding method selection unit 213. Generate. In particular, when the difference information is Huffman-encoded, the model data generator 215 also stores the differential code data supplied from the Huffman encoder 214 in the model data.
  • model parameter estimation unit 211 uses at least one of the spatial adjacent difference method and the inter-frequency difference method based on the supplied directivity data.
  • a difference in directivity data (hereinafter also referred to as differential directivity data) is obtained.
  • This differential directivity data is the difference in directivity data, or directivity gain, between data points or between bins.
  • the encoding method selection unit 213 generates encoding mode information based on the differential directivity data supplied from the model parameter estimation unit 211 via the residual calculation unit 212 .
  • the Huffman encoding unit 214 designates the differential directivity data supplied from the model parameter estimation unit 211 via the residual calculation unit 212 based on the encoding mode information supplied from the encoding method selection unit 213. Huffman encoding is performed by the differential encoding method to generate encoded directivity data.
  • model data generation unit 215 generates model data including the coding directivity data supplied from the Huffman coding unit 214 and the coding mode information supplied from the coding scheme selection unit 213, and outputs the model data to the output unit 24. supply to
  • the information processing device 51 that has received the encoded bitstream supplied from the server 11 having the configuration shown in FIG. 19 performs, for example, the directivity data generation processing shown in FIG. The output audio data generation processing described above is performed.
  • step S111 the same processing as the processing in step S51 of FIG. 12 is performed. That is, in step S111, the unpacking unit 81 unpacks the model data, and extracts model parameters, information on original directivity data before modeling, differential code data, and the like from the model data.
  • step S112 the unpacking unit 81 determines whether or not there are model parameters that have not yet been supplied to the directivity data calculating unit 82 among the model parameters for each method extracted by the unpacking.
  • step S112 If it is determined in step S112 that there are model parameters, the unpacking unit 81 supplies the directivity data calculating unit 82 with the model parameters that have not yet been supplied to the directivity data calculating unit 82, that is, have not yet been processed. Then, the process proceeds to step S113.
  • step S113 the directivity data calculation unit 82 calculates data based on the model parameters based on the model parameters of one method supplied from the unpacking unit 81.
  • step S113 based on the model parameters for each method such as the HOA method and the mixed method, the directivity gain, the intermediate difference information, the amplitude modulation information, the amplitude phase modulation information, etc., which constitute the directivity data after modeling, are modeled. Calculated as data based on parameters.
  • step S113 After the processing of step S113 is performed, the processing returns to step S112, and the above-described processing is repeatedly performed.
  • step S112 determines whether there is no model parameter that has not been supplied to the directivity data calculation unit 82. If it is determined in step S112 that there is no model parameter that has not been supplied to the directivity data calculation unit 82, then the process proceeds to step S114.
  • step S114 the unpacking unit 81 determines whether or not the model data supplied from the acquiring unit 61 contains differential code data, that is, whether or not there is differential code data.
  • step S114 If it is determined in step S114 that differential encoded data is included, the unpacking unit 81 supplies the differential encoded data and the encoding mode information extracted from the model data to the differential information decoding unit 83. The process proceeds to step S115.
  • step S115 the differential information decoding unit 83 acquires the encoding mode information and differential code data output from the unpacking unit 81.
  • step S116 the difference information decoding unit 83 decodes the difference encoded data based on the obtained encoding mode information, and supplies the resulting difference information (directivity data residual) to the addition unit 84.
  • differential encoding mode information included in the encoding mode information specifies that encoding is being performed using the spatial adjacent differential method.
  • the difference information decoding unit 83 uses the reverse lookup table specified by the table index information included in the encoding mode information to decode the differential encoded data supplied from the unpacking unit 81. , to obtain the spatial difference information for each data point.
  • the difference information decoding unit 83 adds the difference information of other decoded data points in the vicinity of the data point to the spatial difference information of the data point to be processed, thereby obtaining the difference information of the data point to be processed.
  • step S116 If the process of step S116 has been performed, or if it is determined that there is no differential code data in step S114, then the process of step S117 is performed.
  • step S117 the directivity data calculator 82 and the adder 84 calculate the directivity data.
  • the directivity data calculation unit 82 calculates approximate directivity data based on the data obtained by the process of step S113 performed one or more times, and supplies it to the addition unit 84.
  • model parameters are calculated by the addition hybrid method (AH4) on the server 11 side.
  • step S113 post-modeling directivity data (rough directivity data) is calculated based on the model parameters of the HOA method.
  • intermediate difference information after modeling is calculated based on the model parameters of the mixed method.
  • the directivity data calculation unit 82 adds the intermediate difference information to the outline directivity data, that is, adds the intermediate difference information for each bin at each data point to the directivity gain for each bin at each data point. By doing so, the final outline directivity data is obtained.
  • the addition unit 84 adds the difference information (directivity data residual) supplied from the difference information decoding unit 83 to the final general directivity data obtained by the directivity data calculation unit 82 in this manner. Then, directivity data is calculated and supplied to the frequency interpolation processing unit 85 . If there is no difference information, the final outline directivity data is used as the directivity data.
  • model parameters are calculated by the multiplication hybrid method (MH1) on the server 11 side.
  • step S113 post-modeling directivity data (rough directivity data) is calculated based on the model parameters of the HOA method. Further, in the process of step S113 for the second time, amplitude modulation information after modeling is calculated based on the model parameters of the mixed method.
  • the directivity data calculation unit 82 multiplies the approximate directivity data by the amplitude modulation information, that is, the directivity gain for each bin at each data point is multiplied by the amplitude modulation information for each bin at each data point. to obtain the final directivity data.
  • the processing of steps S115 and S116 is not performed, and since there is no difference information, the directivity data obtained by the directivity data calculator 82 is directly supplied to the frequency interpolation processor 85 via the adder 84. .
  • model data may be generated by the difference method alone on the server 11 side.
  • the process of step S113 is not performed, and the encoded directivity data is decoded by the difference information decoding unit 83 in steps S115 and S116.
  • the difference information decoding unit 83 uses the reverse lookup table specified by the table index information included in the encoding mode information to decode the encoded directivity data supplied from the unpacking unit 81, Obtain differential directivity data.
  • step S117 the difference information decoding unit 83 calculates directivity data based on the value (difference) for each bin of each data point forming the differential directivity data.
  • the differential information decoding unit 83 adds the value (difference) for each bin of the data points to be processed to the The directional gains for each bin of the data point being processed are determined by adding the directional gains for the same bin of other reconstructed data points in the vicinity of the data point.
  • the difference information decoding unit 83 adds the value (difference) of the bin to be processed of the data point to the process at the same data point.
  • the directivity gain of the bin to be processed is obtained by adding the directivity gains of other restored bins in the vicinity of the bin of interest.
  • step S118 is performed and the directivity data generation process ends. Since it is the same, its explanation is omitted.
  • the information processing device 51 calculates the directivity data based on the model data. By doing so, it is possible to reduce the transmission amount of directional data. As a result, occurrence of transmission delay and increase in transmission rate can be suppressed.
  • the directivity data encoding unit 201 has a model parameter estimation unit 241, a calculation unit 242, a model parameter estimation unit 243, a calculation unit 244, a differential coding unit 245, and a model data generation unit 215. ing.
  • the model parameter estimator 241 through the calculator 244 correspond to the model parameter estimator 211 in FIG.
  • the model parameter estimating unit 241 models the supplied directionality data to be processed by the mixed method, supplies the model parameters obtained as a result to the model data generating unit 215, and estimates the directivity after modeling by the mixed method. Data is supplied to the calculation unit 242 .
  • the computing unit 242 calculates intermediate difference information by subtracting the modeled directivity data supplied from the model parameter estimating unit 241 (obtaining the difference) from the supplied directivity data to be processed. It is supplied to the parameter estimator 243 and the calculator 244 .
  • the model parameter estimating unit 243 models the intermediate difference information supplied from the computing unit 242 by the HOA method, supplies the model parameters obtained as a result to the model data generating unit 215, and calculates the intermediate difference information after modeling by the HOA method.
  • the difference information is supplied to the calculation unit 244 .
  • the calculation unit 244 calculates difference information by subtracting the intermediate difference information after modeling supplied from the model parameter estimation unit 243 from the intermediate difference information supplied from the calculation unit 242 (finding the difference). It is supplied to the encoding unit 245 .
  • the differential encoding unit 245 generates the encoding mode information and the differential encoded data based on the difference information supplied from the calculation unit 244 and the directivity data to be processed supplied as appropriate, and generates model data. 215.
  • model parameter estimation unit 241 performs modeling by the mixed method and the model parameter estimation unit 243 performs modeling by the HOA method has been described.
  • model parameter estimation unit 241 and the model parameter estimation unit 243 may use any method for modeling.
  • the model parameter estimation unit 241 may perform modeling by the HOA method
  • the model parameter estimation unit 243 may perform modeling by the mixed method.
  • the differential encoding unit 245 can have the configuration shown in FIG. 22, for example.
  • portions corresponding to those in FIG. 19 are denoted by the same reference numerals, and description thereof will be omitted as appropriate.
  • the differential encoding unit 245 has a residual calculating unit 212, an encoding method selecting unit 213, a multistage differential processing unit 271, and a Huffman encoding unit 214.
  • the residual calculation unit 212 calculates difference information based on the supplied directivity data to be processed, and the modeled directivity data and the intermediate difference information supplied from the model parameter estimation unit 241 and the model parameter estimation unit 243. is calculated and supplied to the encoding method selection unit 213 and the multistage difference processing unit 271 .
  • the multistage difference processing unit 271 selects the difference indicated by the encoding mode information supplied from the encoding method selection unit 213 based on either the difference information from the residual calculation unit 212 or the difference information from the calculation unit 244. Multistage differential information is generated in differential encoding mode.
  • Huffman coding when Huffman coding is performed by the spatial adjacent difference method as the differential encoding mode, spatial difference information is obtained as multistage difference information, and when Huffman coding is performed by the inter-frequency difference method as the differential encoding mode. , inter-frequency difference information is obtained as multistage difference information.
  • Huffman coding when Huffman coding is performed by the spatial adjacent difference method and the inter-frequency difference method as the differential encoding mode, Huffman coding obtained by obtaining spatial difference information and inter-frequency difference information is performed. The information becomes multilevel difference information.
  • the multistage difference processing unit 271 supplies the obtained multistage difference information to the encoding method selection unit 213 and the Huffman encoding unit 214 .
  • the encoding method selection unit 213 selects the supplied directivity data to be processed, the difference information supplied from the residual calculation unit 212 or the calculation unit 244, and the multistage difference information supplied from the multistage difference processing unit 271. Based on this, the encoding mode information is generated and supplied to the multistage difference processing unit 271 , the Huffman encoding unit 214 and the model data generation unit 215 .
  • the Huffman encoding unit 214 Huffman-encodes the multistage difference information supplied from the multistage difference processing unit 271 based on the encoding mode information supplied from the encoding method selection unit 213, and obtains differential encoded data as a result. is supplied to the model data generation unit 215 .
  • step S151 the model parameter estimating unit 241 models the supplied directionality data to be processed using the mixed method.
  • the model parameter estimation unit 241 supplies the model parameters obtained by modeling to the model data generation unit 215 and supplies the directivity data after modeling by the mixed method to the calculation unit 242 .
  • step S152 the computing unit 242 calculates intermediate difference information based on the supplied directivity data to be processed and the modeled directivity data supplied from the model parameter estimating unit 241. 243 and the calculation unit 244 .
  • step S153 the model parameter estimation unit 243 models the intermediate difference information supplied from the calculation unit 242 by the HOA method.
  • the model parameter estimation unit 243 supplies the model parameters obtained by modeling to the model data generation unit 215, and supplies the intermediate difference information after modeling by the HOA method to the calculation unit 244.
  • step S154 the computing unit 244 calculates difference information based on the intermediate difference information supplied from the computing unit 242 and the intermediate difference information after modeling supplied from the model parameter estimating unit 243, and the differential encoding unit 245.
  • step S ⁇ b>155 the differential encoding unit 245 performs differential encoding based on the differential information supplied from the computing unit 244 .
  • the encoding method selection unit 213 of the differential encoding unit 245 uses the supplied directivity data to be processed, the difference information supplied from the calculation unit 244, and the previous processing such as the previous frame to perform multistage differential processing.
  • Coding mode information is generated based on the multistage difference information supplied from the unit 271 and supplied to the multistage difference processing unit 271 , the Huffman coding unit 214 , and the model data generation unit 215 .
  • the encoding method selection unit 213 may use the difference information supplied from the residual calculation unit 212 to generate the encoding mode information.
  • the multi-stage difference processing unit 271 generates multi-stage difference information based on, for example, the difference information supplied from the calculation unit 244 and the encoding mode information supplied from the encoding method selection unit 213, and selects the encoding method. It is supplied to the unit 213 and the Huffman coding unit 214 .
  • the Huffman encoding unit 214 Huffman-encodes the multistage difference information supplied from the multistage difference processing unit 271 based on the encoding mode information supplied from the encoding method selection unit 213, and obtains differential encoded data as a result. is supplied to the model data generation unit 215 .
  • step S ⁇ b>156 the model data generation unit 215 generates model data by packing and supplies it to the output unit 24 .
  • the model data generating unit 215 generates the model parameters of the mixed method from the model parameter estimating unit 241, the model parameters of the HOA method from the model parameter estimating unit 243, and the coding mode information from the coding method selecting unit 213. , and the difference code data from the Huffman coding unit 214 are generated. When the model data is generated in this manner, the model data generation process ends.
  • the directional data encoding unit 201 generates model data by the additive hybrid method. By doing so, it is possible to reduce the transmission amount of directional data and suppress the occurrence of transmission delays and an increase in the transmission rate.
  • the distribution model decoding unit 62 of the information processing device 51 has the configuration shown in FIG. 24, for example.
  • parts corresponding to those in FIG. 11 are denoted by the same reference numerals, and description thereof will be omitted as appropriate.
  • calculation units 301 and 302 correspond to directivity data calculation unit 82 shown in FIG.
  • the calculation unit 301 calculates the directivity data (approximate directivity data) after modeling by the mixed method based on the model parameters of the mixed method supplied from the unpacking unit 81 , and supplies the calculated directivity data to the calculation unit 304 .
  • the calculation unit 302 calculates intermediate difference information after modeling by the HOA method based on the model parameters of the HOA method supplied from the unpacking unit 81 , and supplies it to the calculation unit 303 .
  • the differential information decoding unit 83 calculates differential information (directivity data residual) based on the encoding mode information and the differential encoded data supplied from the unpacking unit 81 and supplies it to the computing unit 303 .
  • the calculation unit 303 adds (synthesizes) the difference information supplied from the difference information decoding unit 83 and the intermediate difference information supplied from the calculation unit 302, and supplies the addition result (difference information) to the calculation unit 304. .
  • the calculation unit 304 adds the directivity data (approximate directivity data) supplied from the calculation unit 301 and the addition result (difference information) supplied from the calculation unit 303, and obtains the resulting directivity data. is supplied to the frequency interpolation processing unit 85 .
  • the directivity data (rough directivity data) is calculated by the calculating unit 301 in the first step S113 in the directivity data generation process of FIG. be. Also, in the second step S113, the calculation unit 302 calculates the intermediate difference information.
  • the difference information decoding unit 83 performs the processing of steps S115 and S116 to generate difference information, and in step S117, addition processing is performed by the calculation units 303 and 304 to generate directivity data.
  • the series of processes described above can be executed by hardware or by software.
  • a program that constitutes the software is installed in the computer.
  • the computer includes, for example, a computer built into dedicated hardware and a general-purpose personal computer capable of executing various functions by installing various programs.
  • FIG. 25 is a block diagram showing a hardware configuration example of a computer that executes the series of processes described above by a program.
  • a CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • An input/output interface 505 is further connected to the bus 504 .
  • An input unit 506 , an output unit 507 , a recording unit 508 , a communication unit 509 and a drive 510 are connected to the input/output interface 505 .
  • the input unit 506 consists of a keyboard, mouse, microphone, imaging device, and the like.
  • the output unit 507 includes a display, a speaker, and the like.
  • a recording unit 508 is composed of a hard disk, a nonvolatile memory, or the like.
  • a communication unit 509 includes a network interface and the like.
  • a drive 510 drives a removable recording medium 511 such as a magnetic disk, optical disk, magneto-optical disk, or semiconductor memory.
  • the CPU 501 loads the program recorded in the recording unit 508 into the RAM 503 via the input/output interface 505 and the bus 504 and executes the above-described series of programs. is processed.
  • the program executed by the computer (CPU 501) can be provided by being recorded on a removable recording medium 511 such as package media, for example. Also, the program can be provided via a wired or wireless transmission medium such as a local area network, the Internet, or digital satellite broadcasting.
  • the program can be installed in the recording unit 508 via the input/output interface 505 by loading the removable recording medium 511 into the drive 510 . Also, the program can be received by the communication unit 509 and installed in the recording unit 508 via a wired or wireless transmission medium. In addition, the program can be installed in the ROM 502 or the recording unit 508 in advance.
  • the program executed by the computer may be a program that is processed in chronological order according to the order described in this specification, or may be executed in parallel or at a necessary timing such as when a call is made. It may be a program in which processing is performed.
  • this technology can take the configuration of cloud computing in which a single function is shared by multiple devices via a network and processed jointly.
  • each step described in the flowchart above can be executed by a single device, or can be shared by a plurality of devices.
  • one step includes multiple processes
  • the multiple processes included in the one step can be executed by one device or shared by multiple devices.
  • this technology can also be configured as follows.
  • an acquisition unit that acquires model data obtained by modeling directivity data representing directivity of a sound source; an information processing apparatus comprising: a calculator that calculates the directivity data based on the model data.
  • the model data includes model parameters that constitute the mixture model obtained by modeling the directional data with a mixture model consisting of one or more distributions. processing equipment.
  • the one or more distributions include at least one of a vMF distribution and a Kent distribution.
  • the directional data includes a directional gain for each of a plurality of frequency bins; (2) or ( The information processing device according to 3).
  • model data includes a scale factor indicating a dynamic range of the directional gain in the frequency bin and a minimum value of the directional gain in the frequency bin.
  • model data includes difference information indicating a difference between the directivity data before modeling and the directivity data after modeling;
  • the information processing apparatus according to any one of (1) to (5), further comprising an addition unit that adds the difference information to the directivity data calculated by the calculation unit.
  • the difference information is Huffman-encoded.
  • the directional data includes a directional gain for each of a plurality of frequency bins; Any one of (1) to (7), further comprising an interpolation processing unit that calculates the directivity gain of the new frequency bin by performing interpolation processing based on the directivity data calculated by the calculation unit.
  • the information processing device according to item 1. the directional data includes a directional gain at each of a plurality of data points; Any one of (1) to (8), further comprising an interpolation processing unit that calculates the directivity gain at the new data point by performing interpolation processing based on the directivity data calculated by the calculation unit.
  • model data includes model parameters obtained by modeling the directivity data by one or a plurality of methods different from each other.
  • the method includes at least one of a method of modeling by a mixture model consisting of one or more distributions and a method of modeling by spherical harmonic expansion.
  • the model data further includes difference information indicating a difference between the directivity data after modeling by the one or more methods and the directivity data before modeling. ).
  • the difference information is Huffman-encoded.
  • each of the real part and the imaginary part of the difference information is individually Huffman-encoded.
  • the model data includes, among spatial positions and frequencies of difference information indicating a difference between the directivity data after modeling by the one or more methods and the directivity data before modeling, The information processing device according to (14) or (15), wherein differential code data obtained by Huffman-encoding at least one of the differences is included.
  • the model data includes the difference code data obtained by separately Huffman-encoding a real part and an imaginary part of the difference information.
  • the model data includes the model parameters obtained by modeling the directivity data by a predetermined method, the directivity data after modeling by the predetermined method, and the directivity data before modeling.
  • the information processing apparatus according to (14) or (15), wherein another model parameter obtained by modeling the difference between is included by a method different from the predetermined method.
  • the model data includes the model parameters obtained by modeling the directivity data by a predetermined method, the directivity data after modeling by the predetermined method, and the directivity data before modeling.
  • the information processing apparatus according to (14) or (15) which includes other model parameters obtained by modeling the ratio of , using a method different from the predetermined method.
  • the information according to (14) or (15), wherein the model data includes model parameters obtained by further modeling the model parameters obtained by modeling the directivity data.
  • model data includes the model parameters obtained by modeling the directivity data using a different method for each frequency band. processing equipment.
  • the information processing device Acquiring model data obtained by modeling directivity data representing the directivity of a sound source, An information processing method for calculating the directivity data based on the model data.
  • a modeling unit that models directivity data representing the directivity of a sound source using a mixed model consisting of one or more distributions; and a model data generation unit that generates model data including model parameters that constitute the mixture model obtained by the modeling.
  • the information processing device Directivity data representing the directivity of a sound source is modeled by a mixture model consisting of one or more distributions, An information processing method for generating model data including model parameters constituting the mixture model obtained by the modeling.
  • Directivity data representing the directivity of a sound source is modeled by a mixture model consisting of one or more distributions, A program that causes a computer to execute a process of generating model data including model parameters that constitute the mixture model obtained by the modeling.
  • the information processing device for directivity data representing the directivity of a sound source the directivity data consisting of directivity gains for each of a plurality of frequency bins at each of a plurality of data points; obtaining differential directivity data obtained by determining the difference between at least one of An information processing method, wherein the directivity data is calculated based on the differential directivity data.
  • the directivity data representing the directivity of a sound source, the directivity data consisting of directivity gains for each of a plurality of frequency bins at each of a plurality of data points; obtaining differential directivity data obtained by determining the difference between at least one of A program that causes a computer to execute a process of calculating the directivity data based on the differential directivity data.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)

Abstract

本技術は、指向性データの伝送量を低減させることができるようにする情報処理装置および方法、並びにプログラムに関する。 情報処理装置は、音源の指向性を表す指向性データをモデル化することにより得られたモデルデータを取得する取得部と、モデルデータに基づいて、指向性データを算出する算出部とを備える。本技術は情報処理装置に適用することができる。

Description

情報処理装置および方法、並びにプログラム
 本技術は、情報処理装置および方法、並びにプログラムに関し、特に、指向性データの伝送量を低減させることができるようにした情報処理装置および方法、並びにプログラムに関する。
 従来、音源の指向性を考慮することで、より臨場感の高いオーディオ再生を実現できることが知られている。
 例えば、オブジェクトのオーディオデータとともに、オブジェクトからの音の指向性を表す指向性データを用意すれば、オーディオデータと指向性データとを用いて、オブジェクトの指向特性に基づくオーディオ再生を行うことが可能である。
 また、指向性に関する技術として、例えば録音時においてユーザが指向性方向を任意に選択して録音でき、かつ再生時においてユーザが録音時の指向性方向とは別に所望の指向性の方向を選択して再生する技術が提案されている(例えば、特許文献1参照)。
特開2021-100209号公報
 ところで、音源ごとに指向特性(指向性)は異なるため、コンテンツとして、オブジェクトのオーディオデータと、そのオブジェクトの指向性データとを提供する場合、音源の種別、すなわちオブジェクトの種別ごとに指向性データを用意する必要がある。また、より多くの方向および周波数について指向性に関する情報をもたせようとすると、指向性データのデータ量が多くなってしまう。
 そうすると、コンテンツの配信先に対する指向性データの伝送量が多くなってしまい、伝送遅延が発生したり、伝送レートが増大したりするおそれがある。
 本技術は、このような状況に鑑みてなされたものであり、指向性データの伝送量を低減させることができるようにするものである。
 本技術の第1の側面の情報処理装置は、音源の指向性を表す指向性データをモデル化することにより得られたモデルデータを取得する取得部と、前記モデルデータに基づいて、前記指向性データを算出する算出部とを備える。
 本技術の第1の側面の情報処理方法またはプログラムは、音源の指向性を表す指向性データをモデル化することにより得られたモデルデータを取得し、前記モデルデータに基づいて、前記指向性データを算出するステップを含む。
 本技術の第1の側面においては、音源の指向性を表す指向性データをモデル化することにより得られたモデルデータが取得され、前記モデルデータに基づいて、前記指向性データが算出される。
 本技術の第2の側面の情報処理装置は、音源の指向性を表す指向性データを、複数の分布からなる混合モデルによりモデル化するモデル化部と、前記モデル化により得られた、前記混合モデルを構成するモデルパラメータを含むモデルデータを生成するモデルデータ生成部とを備える。
 本技術の第2の側面の情報処理方法またはプログラムは、音源の指向性を表す指向性データを、複数の分布からなる混合モデルによりモデル化し、前記モデル化により得られた、前記混合モデルを構成するモデルパラメータを含むモデルデータを生成するステップを含む。
 本技術の第2の側面においては、音源の指向性を表す指向性データが、複数の分布からなる混合モデルによりモデル化され、前記モデル化により得られた、前記混合モデルを構成するモデルパラメータを含むモデルデータが生成される。
混合ガウス分布について説明する図である。 vMF分布とKent分布について説明する図である。 指向性の例を示す図である。 データポイントについて説明する図である。 モデルデータの例を示す図である。 バンドとビンの関係について説明する図である。 指向性データのデータ量の低減例を示す図である。 指向性データの残差について説明する図である。 サーバの構成例を示す図である。 符号化処理を説明するフローチャートである。 情報処理装置の構成例を示す図である。 指向性データ生成処理を説明するフローチャートである。 出力オーディオデータ生成処理を説明するフローチャートである。 差分情報の出現確率について説明する図である。 モデルデータの例を示す図である。 モデルデータの例を示す図である。 ハフマン符号化テーブルの伝送について説明する図である。 ハフマン符号化テーブルの例を示す図である。 サーバの構成例を示す図である。 指向性データ生成処理を説明するフローチャートである。 指向性データ符号化部の構成例を示す図である。 差分符号化部の構成例を示す図である。 モデルデータ生成処理を説明するフローチャートである。 分布モデル復号部の構成例を示す図である。 コンピュータの構成例を示す図である。
 以下、図面を参照して、本技術を適用した実施の形態について説明する。
〈第1の実施の形態〉
〈本技術について〉
 本技術は、指向性データをモデル化することで、指向性データの伝送量を低減させることができるようにするものである。
 本技術では、例えばコンテンツとして、3D音源のオーディオデータと指向性データが提供される。
 具体的には、例えば3D音源として1または複数のオーディオオブジェクト(以下、単にオブジェクトと称する)の音が収音(収録)されて、各オブジェクトのオーディオデータが生成される。また、オブジェクトの種別、すなわち音源種別ごとに、オブジェクト(音源)の指向特性、すなわち指向性を表す指向性データが用意される。
 さらに、各オブジェクトのオーディオデータと、音源種別ごとの指向性データとがコンテンツのデータとして提供される。すなわち、オブジェクトのオーディオデータとあわせて指向性データが再生側の装置へと伝送される。そして、再生側では、コンテンツを構成するオーディオデータと指向性データとに基づいて、指向性データを考慮したオーディオ再生が行われる。
 指向性データは、例えばオブジェクトの音を複数のマイクロホンで収録することで得ることができる。なお、指向性データの収録は、オブジェクトのオーディオデータの収録と同時に行われてもよいし、オブジェクトのオーディオデータの収録とは異なるタイミングで行われてもよい。
 指向性データは、例えば音声や楽器、スピーカなどの音源種別ごとに用意される。また、指向性データは、例えば音源から見た各方向にある位置について、DCとなる周波数からナイキスト周波数までの全周波数帯域における対象周波数ごとに、音源からの音の振幅と位相の情報をもつデータである。
 例えば音源から見た方向は、音源位置から見た水平方向の角度、すなわち方位角と、音源位置から見た垂直方向の角度、すなわち仰角とにより表される。このとき、例えば方位角の範囲は0度乃至360度の範囲とされ、仰角の範囲は-90度乃至+90度の範囲とされる。
 本技術では、このような指向性データを離散化および圧縮するにあたり、直接、データが圧縮されるのではなく、モデル化によるパラメトリック圧縮が行われる。
 なお、本技術では、モデル化の対象とされる指向性データは、収録等により得られた指向性データを適宜、離散化および正規化することにより得られたものとされる。
 以下では、モデル化の対象とされる指向性データは、複数の各データポイントにおける、音源の複数の離散的な各周波数の指向特性を示すゲイン(以下、指向性ゲインと称する)からなるものとして説明を行う。
 例えばデータポイントとなる位置は、音源位置を原点とする極座標系の座標(極座標)、すなわち音源位置から見た水平方向の位置を示す方位角と、音源位置から見た垂直方向の位置を示す仰角によって表すことができる。なお、データポイントの位置を表すのに音源位置からの距離(半径)が用いられるようにしてもよい。また、指向性ゲインは、データポイントにおける音源からの音の振幅(音圧)を正規化することにより得ることができる。
(音源の指向性データの記録方式について)
 音源種別ごとの指向性データの記録方式について説明する。
 本技術では、指向性データのモデル化には、平面上で定義される多変量/単変量のガウス分布に相当する、球面上のvMF(von Mises Fisher)分布、Kent分布、またはvMF分布とKent分布の少なくとも何れかからなる混合モデルが用いられる。
 なお、vMF分布やKent分布、混合モデルについては、例えば「John T. Kent (1982). The Fisher-Bingham Distribution on the Sphere」などに詳細に記載されている。
 まず、一般的な混合ガウス分布について説明する。
 例えば図1の矢印Q11に示す部分には、2次元のガウス分布が示されている。この例では、直線上に2つのガウス分布が存在している。すなわち、曲線L11は1つのガウス分布を示しており、曲線L12は他の1つのガウス分布を示している。
 また、曲線L13は、曲線L11に示すガウス分布と、曲線L12に示すガウス分布とを混合することにより得られる混合ガウス分布を示している。
 一方、図1における矢印Q12に示す部分には、平面上における3つの分布が示されている。このような平面上の複数の分布を混合することもできる。
 通常、混合ガウス分布は、平面上における確率密度分布(pdf(Probability Density Function))を表現するのに利用される。所望のpdfを少ないモデルパラメータ、かつなるべく少ない混合数で表現することで情報量の削減が可能となる。
 本技術では、球表面上で定義されるガウス分布に相当するvMF分布やKent分布の混合モデルが用いられて、球表面上の指向性データ、すなわち指向性ゲインの形状(分布)がモデル化される。
 混合モデルは、1または複数のvMF分布により構成されてもよいし、1または複数のKent分布により構成されてもよいし、1以上のvMF分布と1以上のKent分布により構成されてもよい。つまり、混合モデルは、vMF分布とKent分布の少なくとも何れかを含む1または複数の分布により構成される。
 球表面の位置を示す位置ベクトル、すなわち直交座標系(デカルト座標系)の座標をxとすると、位置ベクトルxに対応するKent分布の値f(x)、すなわち位置ベクトルxにより示される位置におけるKent分布の値f(x)は、次式(1)により表すことができる。
Figure JPOXMLDOC01-appb-M000001
 なお、式(1)において、κはパラメータ集中度を示しており、βは楕円率を示している。また、γはmean direction分布の中心を規定するベクトルを示しており、γはmajor軸ベクトルを示しており、γはminor軸ベクトルを示している。
 さらに、c(κ,β)は次式(2)に示す正規化定数である。なお、式(2)においてΓはガンマ関数を示しており、Iは第一種変形ベッセル関数を示している。
Figure JPOXMLDOC01-appb-M000002
 また、位置ベクトルxにより示される位置におけるvMF分布の値も式(1)と同様の式により表すことができる。そのような場合、式(1)における楕円率βの値は0とされる。
 図2にvMF分布とKent分布の例を示す。
 図2では、矢印Q21に示す部分にはvMF分布の例が示されている。特に、ベクトルV11は、式(1)に示したベクトルγを表している。
 vMF分布は、楕円率β、major軸ベクトルγ、およびminor軸ベクトルγをパラメータとしてもたず、球表面上において、ベクトルV11(ベクトルγ)により示される位置を中心として等方的に広がっていく円形状の分布となっている。すなわち、vMF分布(vMF分布モデル)を用いれば、円形状の分布を再現することができる。
 これに対して、矢印Q22に示す部分にはKent分布の例が示されている。特に、ベクトルV21乃至ベクトルV23は、式(1)に示したベクトルγ、major軸ベクトルγ、およびminor軸ベクトルγを表している。
 Kent分布は、球表面上において、ベクトルV21(ベクトルγ)により示される位置を中心とし、球表面上のmajor軸ベクトルγおよびminor軸ベクトルγを長軸および短軸とする楕円形状の分布となっている。すなわち、Kent分布(Kent分布モデル)を用いれば、楕円率β、major軸ベクトルγ、およびminor軸ベクトルγにより定まる楕円形状の分布を再現することができる。
 Kent分布は、楕円率βなどのパラメータにより楕円の形状を変化させることができるので自由度は高いが、パラメータ数はvMF分布よりも多くなってしまう。
 本技術では、vMF分布やKent分布を混合して得られる混合モデルが用いられて指向性データが表される(モデル化される)。
 例えば、式(1)における場合と同様の位置ベクトルxにより示される位置における、N個のKent分布f(x;θi)を用いた混合モデルの出力値F(x;Θ)は、次式(3)により表すことができる。すなわち、混合モデルF(x;Θ)は、N個のKent分布f(x;θi)の重みづけ加算により表記することができる。
Figure JPOXMLDOC01-appb-M000003
 なお、式(3)においてKent分布f(x;θi)は、上述の式(1)に示したものと同様であり、混合するN個のKent分布のうちのi番目のKent分布を示している。
 また、θiはKent分布f(x;θi)を構成するパラメータ、より詳細にはパラメータの集合であり、パラメータθiは、式(1)におけるパラメータ集中度κ、楕円率β、ベクトルγ、major軸ベクトルγ、およびminor軸ベクトルγからなる。混合モデルF(x;Θ)のパラメータΘは、N個のKent分布f(x;θi)のパラメータθiの集合を表している。
 さらに式(3)において、φiはN個のKent分布を混合するときのi番目のKent分布f(x;θi)の重み(重み係数)を表しており、次式(4)に示すように、N個のKent分布f(x;θi)の重みφiの総和は1とされる。
Figure JPOXMLDOC01-appb-M000004
 本技術で用いられる指向性データは、オブジェクトの周囲に配置された複数のマイクロホンからなるマイクアレイで収録(収音)を行うことにより得ることができる。
 一例として、トランペットの演奏音を収録すると、図3に示す指向性が観測される。特に、図中、左側には水平面、すなわち仰角が0度となる面における各周波数の指向性が示されており、図中、右側には正中面における各周波数の指向性が示されている。
 この例では、水平面および正中面の両方において、周波数(ピッチ)によって指向性の概形が変化し、低域側の周波数では指向性は小さいが、周波数が高くなるにつれて指向性が大きく(鋭く)なっていくことが分かる。例えば水平面では、8000Hzにおいて方向によっては最大で25dB程度の音圧差が生じている。
 ところで、モデル化対象となる指向性データでは、例えば図4に示すように音源位置を中心とする球表面上に複数のデータポイントが設けられる。図4の例では、1つの点が1つのデータポイントを表しており、球表面全体に多数のデータポイントが存在することが分かる。
 ここで、例えば方位角方向に2度の間隔(2度刻み)で、かつ仰角方向にも2度の間隔でデータポイントを設けるとすると、球表面全体には16022個のデータポイントが設けられることになる。また、そのような場合に、各データポイントについて19Hz乃至20kHzを対象とした512個のビン(周波数ビン)における指向性ゲイン(音圧)を伝送しようとすると、1音源の指向性データは約31MBとなる。
 このように、音源種別ごとの指向性データはデータサイズが大きいため、伝送量が多くなってしまう。
 また、音声にも母音と子音などがあり、楽器も演奏方法によって指向性が異なるなど、音源種別の多様性が非常に大きいため、音源種別ごとに指向性データを用意しようとすると、多数の指向性データが必要となる。
 これらのことから、指向性データの伝送量が多くなってしまうが、指向性データの伝送量の増加は伝送遅延の発生や伝送レートの増大の要因となる。そのため、場合によっては音源種別や周波数、オブジェクトと受聴者の向きなどに応じた指向性の再現ができなくなってしまうことがある。
 そこで、本技術では、上述のように混合モデルを用いて指向性データをモデル化することで、指向性データの伝送量を低減できるようにした。
〈モデルデータの例〉
 ここで、指向性データをモデル化することで得られるモデルデータの具体的な例について説明する。
 本技術では、指向性データの伝送時に、vMF分布やKent分布からなる混合モデルに基づく指向性データのモデル化が行われ、その結果得られた、混合モデルを構成するモデルパラメータ等を含むモデルデータが生成される。そして、そのモデルデータがコンテンツの再生側の装置へと伝送される。これにより、データサイズの大きいもとの指向性データの伝送が不要となる。換言すれば、指向性データの伝送時のデータ量(伝送量)を低減させることができる。
 ここで、num_sound_types_idで指定される1つの音源種別のモデルデータの例を図5示す。この例では1つの音源種別のモデルデータがdirectivityConfigとして記述されている。
 モデルデータには、データポイント数「num_point_indices」により示される数だけ、モデル化前のもとの指向性データにおけるデータポイントの位置を示す方位角「azimuth_table[i]」、仰角「elevation_table[i]」、および半径「distance[i]」が含まれている。
 データポイントの位置は、音源位置から見たデータポイントの水平方向の角度である方位角「azimuth_table[i]」、音源位置から見たデータポイントの垂直方向の角度である仰角「elevation_table[i]」、および音源位置からデータポイントまでの距離である半径「distance[i]」からなる、音源位置を原点とする極座標系の座標により表される。
 また、モデルデータには、周波数ポイント数「bin_count」と周波数「freq[i_bin]」が含まれている。モデル化前のもとの指向性データでは、対象となる周波数帯域全体が周波数ポイント数「bin_count」により示される数の周波数帯域(周波数)である周波数ビン、すなわちビン(bin)に分割され、それらのビンのうちのi番目のビンの中心周波数(Hz)が周波数「freq[i_bin]」とされる。
 したがって、モデル化前のもとの指向性データには、複数の各データポイントにおける1または複数の各ビン(周波数ビン)の指向性ゲインが含まれている。
 さらにモデルデータには、Kent分布やvMF分布に関するパラメータとして、モデル化するバンド数「band_count」、各バンドでの混合数「mix_count[i_band]」、各バンドに含まれるモデル化前のもとの指向性データのビン情報「bin_range_per_band[i_band]」が含まれている。
 例えばモデル化では、対象となる周波数帯域全体がバンド数「band_count」により示される数の周波数帯域であるバンド(band)に分割され、それらのバンドごとに指向性ゲインの分布が混合モデルにより表される。換言すれば、各バンドにおける指向性ゲインの分布を表す混合モデルを構成するモデルパラメータが推定される。なお、各バンド(band)により示される周波数帯域には、必ず1または複数のビンにより示される周波数、つまりビンの中心周波数「freq[i_bin]」が含まれている(属している)。
 混合数「mix_count[i_band]」は、i番目のバンドの指向性ゲインの分布を表す混合モデルを構成する分布の数、すなわちKent分布やvMF分布の数を示しており、この混合数は式(3)におけるNに対応する。
 指向性データのビン情報「bin_range_per_band[i_band]」は、i番目のバンドに含まれている、モデル化前のもとの指向性データについてのビン(bin)を示す情報である。例えばビン情報は、i番目のバンドに属す最も大きい周波数のビンを示すインデックス情報などとされる。ビン情報「bin_range_per_band[i_band]」を参照すれば、モデル化前のもとの指向性データについてのビン(周波数ビン)が、モデル化後のどのバンドに含まれているかを特定することができる。
 また、モデルデータには、Kent分布やvMF分布に関するパラメータとして、各バンドについて、混合モデルを構成する分布(Kent分布またはvMF分布)ごとに、上述した重みφi、パラメータ集中度κ、およびベクトルγが含まれている。
 この例では、「weight[i_band][i_mix]」および「kappa[i_band][i_mix]」が「i_band」により示されるi番目のバンドについての「i_mix」により示される分布の重みφiおよびパラメータ集中度κを示している。
 また、「gamma1[i_band][ i_mix][x]」および「gamma1[i_band][ i_mix][y]」は、i番目のバンド「i_band」についての「i_mix」により示される分布のベクトルγを構成するX成分(X座標)およびY成分(Y座標)を示している。
 モデルデータには、混合モデルを構成するi番目のバンド「i_band」についての「i_mix」により示される分布がKent分布とvMF分布の何れの分布であるかを示す選択フラグ「dist_flag」が含まれている。
 選択フラグ「dist_flag」の値「1」は分布がKent分布であることを示しており、選択フラグ「dist_flag」の値「0」は分布がvMF分布であることを示している。
 選択フラグ「dist_flag」の値が「1」である場合、モデルデータには上述した楕円率β、major軸ベクトルγ、およびminor軸ベクトルγが含まれている。
 「beta[i_band][i_mix]」は「i_band」により示されるi番目のバンドについての「i_mix」により示される分布(Kent分布)の楕円率βを示している。また、「gamma2[i_band][i_mix][x]」および「gamma2[i_band][i_mix][y]」は、i番目のバンド「i_band」についての「i_mix」により示される分布(Kent分布)のmajor軸ベクトルγを構成するX成分(X座標)およびY成分(Y座標)を示している。
 同様に、「gamma3[i_band][i_mix][x]」および「gamma3[i_band][i_mix][y]」は、i番目のバンド「i_band」についての「i_mix」により示される分布(Kent分布)のminor軸ベクトルγを構成するX成分(X座標)およびY成分(Y座標)を示している。
 モデルデータには、各ビンにおける指向性データ、より詳細には指向性ゲインのダイナミックレンジを示すスケールファクタ「scale_factor[i_bin]」と、各ビンにおける指向性データ(指向性ゲイン)のオフセット値、すなわち最小値「offset[i_bin]」も含まれている。
 以下では、モデルデータに含まれている楕円率β、パラメータ集中度κ、重みφi、ベクトルγ、major軸ベクトルγ、minor軸ベクトルγ、スケールファクタ、および最小値(オフセット値)からなるパラメータ集合をモデルパラメータとも称することとする。
 モデルデータには、データポイントにおける、モデル化前のもとの指向性データの値(指向性ゲイン)と、モデル化により得られた混合モデルにより示される指向性データの値(指向性ゲイン)との差分を示す差分情報「diff_data[i_point]」も含まれている。換言すれば、差分情報は、データポイントにおける、モデル化前の指向性データと、モデル化後の指向性データとの差分を示す情報である。
 なお、差分情報が格納されるか否かを選択できるようにしてもよい。また、モデルデータに格納される「diff_data[i_point]」は、ハフマン符号化された差分情報であってもよい。
 再生側(復号側)の装置では、例えば図5に示した構成(フォーマット)のモデルデータに基づいて、各データポイントにおける混合モデルの出力値F(x;Θ)、すなわち指向性ゲインが算出される。
 モデル化前のもとの指向性データの各ビンは、指向性データの形状の類似性を考慮して決定されるモデル化時のバンド数「band_count」により記述される数のバンド(band)のうちの何れかのバンドに属す。
 また、各ビンとバンドの対応関係は、ビン情報「bin_range_per_band[i_band]」により記述され、そのビン情報として、バンドに属す最も大きい周波数のビンを示すインデックス情報である最大インデックスが書き込まれている。
 この場合、例えば図6に示すように各バンドに属すビンの数はバンドごとに異なっていてもよい。
 この例では、最も周波数が低い最初のバンド0(band0)には2つのビン0(bin0)とビン1が属しており、次のバンド1には1つのビン2が属しており、さらにその次のバンド2には2つのビン3とビン4が属している。
 したがって、バンド0のビン情報「bin_range_per_band[i_band]」の値は、ビン1を示す値「1」、すなわち「bin_range_per_band[0]=1」とされる。同様に、バンド1のビン情報の値は「2」、すなわち「bin_range_per_band[1]=2」とされ、バンド2のビン情報の値は「4」、すなわち「bin_range_per_band[2]=4」とされる。
 モデルデータにはモデルパラメータが含まれているため、そのモデルパラメータから各バンドについての混合モデルF’(x;Θ)を得ることができる。ここで、混合モデルF’(x;Θ)は、式(3)に示したビンごとの混合モデルF(x;Θ)に対応する。
 モデル化前の指向性データは、各データポイントのビンごとに指向性ゲインの値を有している。そのため、モデルパラメータから得られるバンドごとの混合モデルF’(x;Θ)、より詳細には混合モデルの出力値F’(x;Θ)を、もとのビンごとの混合モデルF(x;Θ)に変換する必要がある。
 そこで、再生側(復号側)の装置では、バンドごとの混合モデルF’(x;Θ)と、ビンごとのスケールファクタ「scale_factor[i_bin]」と、ビンごとの最小値「offset[i_bin]」とに基づいて、データポイントにおけるビンごとの混合モデルの出力値F(x;Θ)が算出される。
 すなわち、F(x;Θ)=F’(x;Θ)×scale_factor[i_bin]+offset[i_bin]が計算される。この計算では、バンドごとの混合モデルの出力値F’(x;Θ)が各ビンのダイナミックレンジに合わせて補正される。
 さらに、差分圧縮を併用している場合、すなわちモデルデータにデータポイントごとの差分情報「diff_data[i_point]」が含まれている場合には、計算により得られた出力値F(x;Θ)に差分情報が加算され、最終的な出力値F(x;Θ)とされる。
 以上の計算により、モデルデータから、モデル化前のもとの指向性データが復元されたことになる。なお、再生側では、各データポイントとなる位置や各ビンの周波数は、モデルデータに格納されている方位角「azimuth_table[i]」、仰角「elevation_table[i]」、半径「distance[i]」、および周波数「freq[i_bin]」から特定することが可能である。
 実際に、モデルデータが図5に示した構成となるように指向性データをモデル化したときのモデルデータのデータ量を図7に示す。
 この例では、モデル化前のもとの指向性データにおけるデータポイント数は2522個であり、ビン数は29個となっている。また、モデル化時には、バンド数「band_count」が「3」とされ、vMF分布(楕円率β、major軸ベクトルγ、minor軸ベクトルγなし)からなる混合モデルでのモデル化が行われている。
 図7のモデル化では、モデル化前はデータ量が306KBであったもとの指向性データが、データ量が0.85KBのモデルパラメータに変換されており、データ量が約1/360に圧縮されていることが分かる。
 また、図5の例では、必要に応じてモデルデータに差分情報が含まれており、適宜、差分情報が用いられて指向性データの復元が行われる。
 すなわち、例えば聴覚心理の観点で差分が知覚できる場合には、本技術のモデル化と合わせて差分符号化が併用され、知覚不可能な程度まで指向性データが復元される。
 例えば図8の矢印Q41に示す指向性データが対象とされてモデル化が行われたとする。なお、図8において各球表面における色の濃淡は指向性ゲインの大きさを示している。
 この例では、矢印Q41に示す指向性データをモデル化した結果、矢印Q42に示す混合モデル、より詳細には混合モデルにより表される指向性データが得られたとする。
 なお、矢印Q42に示す部分において、球表面に描かれた複数の各直線は上述のベクトルγを表している。例えばベクトルV51は1つのベクトルγを表している。
 このような矢印Q41に示す指向性データと、矢印Q42に示す混合モデルとが得られた場合、それらの指向性データと混合モデルとの差分を求めると、矢印Q43に示す残差のデータが差分情報として得られる。
 図5に示した例では、矢印Q43に示す残差のデータの各データポイントにおける値(残差)が差分情報「diff_data[i_point]」としてモデルデータに格納される。
 なお、指向性の表現方式でHOA(Higher Order Ambisonics)と呼ばれる方式が存在する。HOAでは、振幅だけでなく位相の情報も記録できるという利点があるが、指向性の形状が複雑になるほど高次の項が必要となりデータ量が多くなる。また、HOAでは係数が発散してしまうため、使用することのできない禁止周波数も存在する。
 指向性は、一般的に高域の方が、より形状が複雑になり凸度が高くなる。また、高域では位相の情報の利用価値が相対的に低下する。そのため、指向性データのデータ量を低減させる場合に、HOAを利用するよりも、本技術のように混合分布モデルによりモデル化する方式を採用することのメリットが大きい。なお、低域では指向性の形状が比較的緩やかで、位相を記録することにより回折、干渉等の物理現象を再現できるため、低域ではHOAを利用し、高域では混合分布モデルによりモデル化する方式を利用するようにしてもよい。
 ところで、モデルデータを再生側(復号側)に伝送した場合、そのモデルデータに基づき生成(復元)される指向性データ(振幅データ)では、特定の離散周波数ポイント、すなわち特定のビンにおいてのみ指向性ゲインが存在する。換言すれば、指向性ゲインが存在しない周波数があるため、モデルデータから生成された指向性データをそのまま用いたのではレンダリング処理ができない場合がある。
 また、データポイントも離散的に配置されているため、ユーザの視点位置(受聴位置)やオブジェクトが移動して、それらのユーザとオブジェクトの位置関係が変化すると、レンダリング処理に利用する指向性データのデータポイントも変化する。そのような場合に、互いに隣接するデータポイント間の間隔が広いとglitch(波形不連続)が発生してしまう。
 そこで、指向性データに対して周波数方向や時間方向の補間処理を行うことで、より多くの周波数(ビン)や方向(データポイント)について指向性ゲインが得られるようにしてもよい。
 例えば周波数方向の補間処理として、得ようとする特定周波数近傍の複数の周波数を示すビンの指向性ゲインを用いた1次補間処理や2次補間処理などを行うことが考えられる。
 また、例えば時間方向の補間処理として、得ようとする方向(位置)近傍の複数のデータポイントにおけるビンごとの指向性ゲインを用いた、方位角方向や仰角方向の双一次補間処理などを行うことが考えられる。
 なお、オーディオデータのフレーム長(サンプル数/フレーム)、混合モデルでの混合数や選択するモデル(分布)、データポイント数などの各種のパラメータ等により、指向性データのモデル化時の計算量と音質への影響が変化する(トレードオフ)。
 すなわち、例えばオーディオデータの1フレームごとにユーザ(受聴者)やオブジェクトの位置と向きが変化する場合、時間方向の補間処理を行うことで、波形不連続の発生を抑制し、より高品質なオーディオ再生を実現することができる。
 また、例えば再生側で、より高精度な指向性データを得るために混合モデルの混合数を増やすかや、vMF分布よりもパラメータ数は多いが、より表現能力の高いKent分布を使用するかなどを適切に決定することで、計算量と音質のバランスを調整することができる。
 さらに、コンテンツの制作者等は、例えば音源(オブジェクト)の指向性の形状に応じて、指向性データのデータポイント数を増やすか、または再生時の補間処理によりデータポイント数の少なさに対処するかなどを決定することもできる。
 その他、モデル化(符号化)の対象となるもとの指向性データと、混合モデル、すなわちモデル化後の指向性データとの誤差(差分)を示す差分情報をハフマン符号化などの任意の符号化方式により符号化し、伝送してもよい。
 また、例えば周波数方向の補間処理や時間方向の補間処理など、指向性データの利用方式(レンダリング方式)や、差分情報等の各種の情報を使用するか否かをフラグ等により切り替えることができるようにしてもよい。
 例えばフラグにより、低リソース再生機器向け等の低精度用のパラメータと、高リソース再生機器向け等の高精度用のパラメータとの切り替え、すなわちパラメータ精度の切り替えを行うことができるようにしてもよい。そのような場合、例えば再生機器のリソースやコンテンツ配信時のネットワーク環境などに応じてパラメータが切り替えられる。
 なお、以上においては本技術を指向性データに適用する例について説明したが、その他、本技術は、映像におけるテスクチャデータ、例えばvolumetric点群データに対する色や、透明度情報などにも適用可能である。
 さらに、本技術では、例えば微細構造の再現が重要な場合には、コンテンツの制作者等がマニュアル(手動)で混合モデルの混合数の追加や、モデルパラメータ等の各種のパラメータの調整を行うことができるようにしてもよい。
〈サーバの構成例〉
 図9は、本技術を適用したサーバの構成例を示す図である。
 図9に示すサーバ11は、例えばコンピュータなどからなる情報処理装置であり、コンテンツの配信を行う。
 例えばコンテンツは、1または複数の各オブジェクトのオーディオデータ(オブジェクトオーディオデータ)と、音源種別ごとに用意された、音源(オブジェクト)の指向性、すなわち指向特性を表す指向性データとから構成される。
 このようなコンテンツは、例えば3D音源の音とともに指向性データをマイクロホンアレイ等により収録することで得ることができる。また、コンテンツにオーディオデータに対応する映像データが含まれていてもよい。
 サーバ11は、モデル化部21、モデルデータ生成部22、オーディオデータ符号化部23、および出力部24を有している。
 モデル化部21は、入力された各音源種別の指向性データをモデル化し、その結果得られたモデルパラメータや差分情報をモデルデータ生成部22に供給する。
 モデルデータ生成部22は、モデル化部21から供給されたモデルパラメータや差分情報に基づいてモデルデータを生成し、出力部24に供給する。
 オーディオデータ符号化部23は、入力された各オブジェクトのオーディオデータを符号化し、その結果得られた符号化オーディオデータを出力部24に供給する。
 出力部24は、モデルデータ生成部22から供給されたモデルデータと、オーディオデータ符号化部23から供給された符号化オーディオデータとを多重化することで符号化ビットストリームを生成し、出力する。
 なお、ここでは説明を簡単にするため、モデルデータと符号化オーディオデータとが同時に出力される例について説明するが、これらのモデルデータと符号化オーディオデータは個別に生成され、互いに異なるタイミングで出力されるようにしてもよい。また、モデルデータと符号化オーディオデータは、互いに異なる装置により生成されてもよい。
〈符号化処理の説明〉
 次に、サーバ11の動作について説明する。すなわち、以下、図10のフローチャートを参照して、サーバ11による符号化処理について説明する。
 ステップS11においてモデル化部21は、入力された各音源種別の指向性データをモデル化し、その結果得られたモデルパラメータや差分情報をモデルデータ生成部22に供給する。
 例えばモデル化部21は、指向性データを上述した式(3)に示した、複数の分布からなる混合モデルで表す(表現する)ことで、指向性データをモデル化する。
 これにより、式(3)に示した混合モデルを構成するパラメータ集中度κや、楕円率β、重みφ、ベクトルγ、major軸ベクトルγ、minor軸ベクトルγ、スケールファクタ、最小値がモデルパラメータとして得られる。
 また、モデル化部21は、モデル化前のもとの指向性データに関する情報として、データポイント数やデータポイントの位置、周波数ポイント数、ビンの中心周波数を示す情報などを生成する。
 さらに、例えばモデル化部21は、モデル化された指向性データ、すなわち混合モデルで表された指向性データと、モデル化前のもとの指向性データとの残差(差分)を差分情報として生成する。
 なお、差分情報は、例えば混合モデルで表された指向性データと、もとの指向性データとの残差が所定値以上であるなど、特定の条件が満たされる場合や、コンテンツの制作者等により差分情報の生成が指示された場合などに生成されるようにしてもよい。
 モデル化部21は、このようにして得られたモデルパラメータや、モデル化前のもとの指向性データに関する情報、差分情報をモデルデータ生成部22に供給する。
 ステップS12においてモデルデータ生成部22は、モデル化部21から供給されたモデルパラメータや、モデル化前のもとの指向性データに関する情報、差分情報をパッキングすることでモデルデータを生成し、出力部24に供給する。
 このとき、モデルデータ生成部22は、例えば差分情報をハフマン符号化し、その結果得られた符号化後の差分情報(以下、差分符号データとも称する)やモデルパラメータ等をパッキングすることで、図5に示したフォーマットのモデルデータを生成する。なお、モデルパラメータやモデルデータの符号化が行われるようにしてもよい。
 ステップS13においてオーディオデータ符号化部23は、入力された各オブジェクトのオーディオデータを符号化し、その結果得られた符号化オーディオデータを出力部24に供給する。
 なお、各オブジェクトのオーディオデータに対してメタデータがあるときには、オーディオデータ符号化部23は、各オブジェクト(オーディオデータ)のメタデータも符号化し、その結果得られた符号化メタデータを出力部24に供給する。
 例えばメタデータには、そのオブジェクトの3次元空間における絶対的な位置を示すオブジェクト位置情報や、3次元空間におけるオブジェクトの向きを示すオブジェクト方向情報、オブジェクト(音源)の種別を示す音源種別情報などが含まれている。
 ステップS14において出力部24は、モデルデータ生成部22から供給されたモデルデータと、オーディオデータ符号化部23から供給された符号化オーディオデータとを多重化して符号化ビットストリームを生成し、出力する。なお、オブジェクトにメタデータがあるときには、出力部24は、モデルデータ、符号化オーディオデータ、および符号化メタデータを含む符号化ビットストリームを生成する。
 例えば出力部24は、図示せぬクライアントとして機能する情報処理装置に符号化ビットストリームを送信する。符号化ビットストリームが送信されると、符号化処理は終了する。
 以上のようにしてサーバ11は、指向性データをモデル化し、その結果得られたモデルパラメータや差分情報が含まれる符号化ビットストリームを出力する。このようにすることで、クライアントへと伝送する指向性データのデータ量、すなわち指向性データの伝送量を低減させることができる。これにより、伝送遅延の発生や伝送レートの増大を抑制することができる。
〈情報処理装置の構成例〉
 サーバ11から出力された符号化ビットストリームを取得し、コンテンツの音を再生するための出力オーディオデータを生成する情報処理装置は、例えば図11に示すように構成される。図11に示す情報処理装置51は、例えばパーソナルコンピュータやスマートフォン、タブレット、ゲーム機器などからなる。
 情報処理装置51は、取得部61、分布モデル復号部62、オーディオデータ復号部63、およびレンダリング処理部64を有している。
 取得部61は、サーバ11から出力された符号化ビットストリームを取得するとともに、符号化ビットストリームからモデルデータおよび符号化オーディオデータを抽出する。取得部61は、モデルデータを分布モデル復号部62に供給するとともに、符号化オーディオデータをオーディオデータ復号部63に供給する。
 分布モデル復号部62は、モデルデータから指向性データを算出する。分布モデル復号部62は、アンパッキング部81、指向性データ算出部82、差分情報復号部83、加算部84、および周波数補間処理部85を有している。
 アンパッキング部81は、取得部61から供給されたモデルデータのアンパッキングを行うことで、モデルデータからモデルパラメータやモデル化前のもとの指向性データに関する情報、差分符号データを抽出する。また、アンパッキング部81は、モデルパラメータやモデル化前のもとの指向性データに関する情報を指向性データ算出部82に供給し、差分符号データを差分情報復号部83に供給する。
 指向性データ算出部82は、アンパッキング部81から供給されたモデルパラメータやモデル化前のもとの指向性データに関する情報に基づいて指向性データを算出(復元)し、加算部84に供給する。なお、以下、指向性データ算出部82によりモデルパラメータに基づき算出(復元)された指向性データを概形指向性データとも称する。
 差分情報復号部83は、アンパッキング部81から供給された差分符号データに対して、ハフマン符号化に対応する方式での復号を行い、その結果得られた差分情報を指向性データ残差として加算部84に供給する。
 加算部84は、指向性データ算出部82から供給された概形指向性データと、差分情報復号部83から供給された指向性データ残差(差分情報)とを加算することで、よりもとの指向性データに近い指向性データを生成し、周波数補間処理部85に供給する。
 周波数補間処理部85は、加算部84から供給された指向性データに対して周波数方向の補間処理を行い、その結果得られた指向性データをレンダリング処理部64に供給する。
 オーディオデータ復号部63は、取得部61から供給された符号化オーディオデータに対する復号を行い、その結果得られた各オブジェクトのオーディオデータをレンダリング処理部64に供給する。
 また、符号化ビットストリームに符号化メタデータが含まれている場合、オーディオデータ復号部63は、取得部61から供給された符号化メタデータを復号し、その結果得られたメタデータをレンダリング処理部64に供給する。
 レンダリング処理部64は、周波数補間処理部85から供給された指向性データと、オーディオデータ復号部63から供給されたオーディオデータとに基づいて出力オーディオデータを生成する。
 レンダリング処理部64は、指向性データ保持部86、HRTF(Head Related Transfer Function)データ保持部87、時間補間処理部88、指向性畳み込み部89、およびHRTF畳み込み部90を有している。
 指向性データ保持部86およびHRTFデータ保持部87には、ユーザ等の指定やセンサ等による測定などに応じて、視点位置情報、受聴者方向情報、オブジェクト位置情報、およびオブジェクト方向情報が供給される。
 例えば視点位置情報は、コンテンツを視聴するユーザ(受聴者)の3次元空間における視点位置(受聴位置)を示す情報であり、受聴者方向情報は、3次元空間における、コンテンツを視聴するユーザの顔の向きを示す情報である。
 また、符号化ビットストリームに符号化メタデータが含まれている場合、オブジェクト位置情報およびオブジェクト方向情報は、符号化メタデータの復号により得られたメタデータから抽出され、指向性データ保持部86とHRTFデータ保持部87に供給される。
 その他、指向性データ保持部86には、メタデータから抽出されるなどして得られた音源種別情報も供給され、HRTFデータ保持部87には、適宜、コンテンツを視聴するユーザを示すユーザIDが供給される。
 指向性データ保持部86は、周波数補間処理部85から供給された指向性データを保持する。また、指向性データ保持部86は、保持している指向性データのなかから、供給された視点位置情報、受聴者方向情報、オブジェクト位置情報、オブジェクト方向情報、および音源種別情報に応じた指向性データを読み出して時間補間処理部88に供給する。
 HRTFデータ保持部87は、ユーザIDにより示される各ユーザについて、ユーザ(受聴者)から見た複数の方向ごとにHRTFを保持している。
 HRTFデータ保持部87は、保持しているHRTFのなかから、供給された視点位置情報、受聴者方向情報、オブジェクト位置情報、オブジェクト方向情報、およびユーザIDに応じたHRTFを読み出してHRTF畳み込み部90に供給する。
 時間補間処理部88は、指向性データ保持部86から供給された指向性データに対して、時間方向の補間処理を行い、その結果得られた指向性データを指向性畳み込み部89に供給する。
 指向性畳み込み部89は、オーディオデータ復号部63から供給されたオーディオデータと、時間補間処理部88から供給された指向性データとを畳み込み、その結果得られたオーディオデータをHRTF畳み込み部90に供給する。指向性データの畳み込みにより、オーディオデータに対して、オブジェクト(音源)が有する指向特性が付加される。
 HRTF畳み込み部90は、指向性畳み込み部89から供給されたオーディオデータ、すなわち指向性データが畳み込まれたオーディオデータと、HRTFデータ保持部87から供給されたHRTFとを畳み込み、その結果得られたオーディオデータを出力オーディオデータとして出力する。HRTFの畳み込みにより、ユーザ(受聴者)から見たオブジェクトの位置に、そのオブジェクトの音が定位する出力オーディオデータを得ることができる。
〈指向性データ生成処理の説明〉
 次に、情報処理装置51の動作について説明する。
 まず、情報処理装置51が各音源種別の指向性データを生成するときに行われる指向性データ生成処理について説明する。すなわち、以下、図12のフローチャートを参照して、情報処理装置51による指向性データ生成処理について説明する。
 この指向性データ生成処理は、サーバ11から送信されてきた符号化ビットストリームを取得部61が受信し、取得部61が符号化ビットストリームから抽出したモデルデータをアンパッキング部81に供給すると開始される。
 ステップS51においてアンパッキング部81は、取得部61から供給されたモデルデータのアンパッキングを行い、モデルデータから抽出したモデルパラメータやモデル化前のもとの指向性データに関する情報を指向性データ算出部82に供給する。
 ステップS52において指向性データ算出部82は、アンパッキング部81から供給されたモデルパラメータやモデル化前のもとの指向性データに関する情報に基づいて、概形指向性データを算出(生成)し、加算部84に供給する。
 例えば指向性データ算出部82は、モデルパラメータにより得られる各バンドの混合モデルF’(x;Θ)と、ビンごとのスケールファクタ「scale_factor[i_bin]」と、ビンごとの最小値「offset[i_bin]」とに基づいて、データポイントにおけるビンごとの混合モデルの出力値F(x;Θ)を算出する。これにより、各データポイントにおけるビンごとの指向性ゲイン(振幅データ)からなる概形指向性データが得られる。
 ステップS53においてアンパッキング部81は、取得部61から供給されたモデルデータに差分符号データが含まれているか否か、すなわち差分符号データがあるか否かを判定する。
 ステップS53において差分符号データが含まれていると判定された場合、アンパッキング部81は、モデルデータから差分符号データを抽出して差分情報復号部83に供給し、その後、処理はステップS54へと進む。
 ステップS54において差分情報復号部83は、アンパッキング部81から供給された差分符号データに対する復号を行い、その結果得られた指向性データ残差(差分情報)を加算部84に供給する。
 ステップS55において加算部84は、指向性データ算出部82から供給された概形指向性データに、差分情報復号部83から供給された指向性データ残差を加算する。
 加算部84は、加算により得られた指向性データを周波数補間処理部85に供給し、その後、処理はステップS56へと進む。
 これに対して、ステップS53において差分符号データが含まれていないと判定された場合、ステップS54およびステップS55の処理はスキップされ、その後、処理はステップS56へと進む。この場合、加算部84は、指向性データ算出部82から供給された概形指向性データを、そのまま復元された指向性データとして周波数補間処理部85に供給する。
 ステップS53において差分符号データが含まれていないと判定されたか、またはステップS55の処理が行われると、ステップS56の処理が行われる。
 ステップS56において周波数補間処理部85は、加算部84から供給された指向性データに対して周波数方向の補間処理を行い、補間処理により得られた指向性データを指向性データ保持部86に供給して保持させる。
 例えばオブジェクトのオーディオデータが周波数領域のデータであり、オーディオデータが複数の周波数ビンごとに周波数成分値を有しているとする。そのような場合、周波数方向の補間処理では、例えば指向性データが、オーディオデータが周波数成分値を有する全周波数ビンについて指向性ゲインを有するように、必要なビンの指向性ゲインを算出する補間処理が行われる。
 具体的には、例えば周波数補間処理部85は、指向性データにおける所定のデータポイントの複数のビン(周波数)の指向性ゲインに基づく補間処理を行うことで、もとの指向性データには存在していなかった、同じデータポイントにおける新たな周波数(ビン)の指向性ゲインを算出する。このような周波数方向の補間処理により、より多くの周波数における指向性ゲインを含む指向性データを得ることができる。
 周波数方向の補間処理が行われ、指向性データ保持部86に補間処理後の指向性データが保持されると、指向性データ生成処理は終了する。
 以上のようにして情報処理装置51は、モデルデータに基づいて指向性データを算出する。このようにすることで、伝送される指向性データのデータ量、すなわち指向性データの伝送量を低減させることができる。これにより、伝送遅延の発生や伝送レートの増大を抑制することができる。
〈出力オーディオデータ生成処理の説明〉
 続いて、図13のフローチャートを参照して、情報処理装置51により行われる出力オーディオデータ生成処理について説明する。この出力オーディオデータ生成処理は、図12を参照して説明した指向性データ生成処理が行われた後の任意のタイミングで行われる。
 ステップS81においてオーディオデータ復号部63は、取得部61から供給された符号化オーディオデータの復号を行い、その結果得られたオーディオデータを指向性畳み込み部89に供給する。例えば復号により、周波数領域のオーディオデータが得られる。
 なお、取得部61から符号化メタデータが供給された場合、オーディオデータ復号部63は、符号化メタデータを復号し、その結果得られたメタデータに含まれているオブジェクト位置情報、オブジェクト方向情報、音源種別情報を、適宜、指向性データ保持部86やHRTFデータ保持部87に供給する。
 また、指向性データ保持部86は、供給された視点位置情報、受聴者方向情報、オブジェクト位置情報、オブジェクト方向情報、および音源種別情報に応じた指向性データを時間補間処理部88に供給する。
 例えば指向性データ保持部86は、視点位置情報、受聴者方向情報、オブジェクト位置情報、およびオブジェクト方向情報から、3次元空間におけるオブジェクトとユーザの視点位置(受聴位置)の関係を特定し、その特定結果に応じたデータポイントを特定する。
 一例として、例えばオブジェクトから視点位置へと向かう方向を視点位置方向とすると、混合モデルの中心から見て視点位置方向にある、混合モデルの球表面上の位置が対象データポイント位置として特定される。なお、対象データポイント位置に実際のデータポイントがない場合もある。
 指向性データ保持部86は、音源種別情報により示される音源種別の指向性データから、特定された対象データポイント位置近傍にある複数のデータポイントにおける各ビンの指向性ゲインを抽出する。
 そして指向性データ保持部86は、抽出した複数のデータポイントにおける各ビンの指向性ゲインからなるデータを、オブジェクトとユーザ(受聴者)の位置や方向の関係に応じた指向性データとして時間補間処理部88に供給する。
 さらに、HRTFデータ保持部87は、供給された視点位置情報、受聴者方向情報、オブジェクト位置情報、オブジェクト方向情報、およびユーザIDに応じたHRTFをHRTF畳み込み部90に供給する。
 具体的には、例えばHRTFデータ保持部87は、視点位置情報、受聴者方向情報、オブジェクト位置情報、およびオブジェクト方向情報に基づき、受聴者(ユーザ)から見たオブジェクトの相対的な方向をオブジェクト方向として特定する。そしてHRTFデータ保持部87は、ユーザIDに対応する各方向のHRTFのうち、オブジェクト方向に対応する方向のHRTFをHRTF畳み込み部90に供給する。
 ステップS82において時間補間処理部88は、指向性データ保持部86から供給された指向性データに対して時間方向の補間処理を行い、その結果得られた指向性データを指向性畳み込み部89に供給する。
 例えば時間補間処理部88は、指向性データに含まれる複数のデータポイントにおける各ビンの指向性ゲインに基づいて、上述の対象データポイント位置における各ビンの指向性ゲインを補間処理により算出する。すなわち、もとのデータポイントとは異なる新たなデータポイント(対象データポイント位置)における指向性ゲインが補間処理により算出される。
 時間補間処理部88は、対象データポイント位置における各ビンの指向性ゲインからなるデータを、時間方向の補間処理により得られた指向性データとして指向性畳み込み部89に供給する。
 ステップS83において指向性畳み込み部89は、オーディオデータ復号部63から供給されたオーディオデータと、時間補間処理部88から供給された指向性データとを畳み込み、その結果得られたオーディオデータをHRTF畳み込み部90に供給する。
 ステップS84においてHRTF畳み込み部90は、指向性畳み込み部89から供給されたオーディオデータと、HRTFデータ保持部87から供給されたHRTFとを畳み込み、その結果得られた出力オーディオデータを出力する。
 ステップS85において情報処理装置51は、処理を終了するか否かを判定する。
 例えば取得部61からオーディオデータ復号部63に新たなフレームの符号化オーディオデータが供給された場合、ステップS85において処理を終了しないと判定される。これに対して、例えば取得部61からオーディオデータ復号部63に新たなフレームの符号化オーディオデータが供給されず、コンテンツの全フレームの出力オーディオデータが生成された場合、ステップS85において処理を終了すると判定される。
 ステップS85において、まだ処理を終了しないと判定された場合、その後、処理はステップS81に戻り、上述した処理が繰り返し行われる。
 これに対して、ステップS85において処理を終了すると判定された場合、情報処理装置51は各部の動作を終了させ、出力オーディオデータ生成処理は終了する。
 以上のようにして情報処理装置51は、適切な指向性データとHRTFを選択し、それらの指向性データとHRTFをオーディオデータに畳み込んで出力オーディオデータとする。このようにすることで、オブジェクト(音源)の指向特性や、オブジェクトと受聴者の位置や向きの関係を考慮して、より臨場感のある高品質なオーディオ再生を実現することができる。
〈第2の実施の形態〉
〈差分情報の符号化について〉
 ところで、指向性データは、音源種別ごとや周波数帯域ごとに異なる指向性形状を有している。
 また、サーバ11では、モデル化前の指向性データと、モデル化後の指向性データとの差分を示す差分情報が適宜生成される。上述の例では、差分情報がハフマン符号化などの符号化方式で符号化され、差分符号データが得られると説明した。
 Kent分布やvMF分布によるモデル化だけでなく、差分情報の符号化についても音源種別や周波数帯域に応じて適切な符号化を行えるようにサーバ11側、すなわちエンコーダ側で差分情報の符号化手法を選択できるようにしてもよい。
 ここでは、例として差分情報がハフマン符号化される場合について説明する。
 ハフマン符号化では、例えば図14に示すように、符号化の対象となる1つの指向性データから得られた複数のビンごとの差分情報に基づき出現確率の分布(確率密度分布)が生成される。
 なお、図14において横軸は差分情報の値(dB値)を示しており、縦軸は差分情報の各値の出現確率を示している。
 例えば、指向性データの全データポイントにおける全てのビン(周波数)が対象とされ、それらの各ビンの差分情報からヒストグラムを生成することで、差分情報の各値の出現確率が求められる。なお、出現確率の分布(確率密度分布)は、ビンごとに求められてもよいし、特定の周波数帯域に含まれるビンが対象とされて求められてもよいし、全ビンが対象とされて求められてもよく、それらの何れかを選択可能であってもよい。
 サーバ11では、このような差分情報の出現確率に基づいて、予め用意された複数のハフマン符号化テーブルのなかから適切な1つのハフマン符号化テーブルが選択されるか、または1つの新規のハフマン符号化テーブルが生成される。
 指向性データの全データポイントにおける全てのビン(周波数)が対象とされ、それらの全てのビンに対して1つのハフマン符号化テーブルが選択または生成されてもよいし、1または複数のビンごとに1つのハフマン符号化テーブルが選択または生成されてもよい。
 このようにして選択または生成されたハフマン符号化テーブルが用いられて差分情報のハフマン符号化が行われる。
 ハフマン符号化テーブルは、符号化前のデータ、すなわち差分情報と、符号化により得られるハフマンコード(符号データ)との対応を示す、符号化前のデータをハフマンコードへと変換するためのテーブルである。
 また、差分情報をハフマン符号化することで得られる差分符号データの復号時には、ハフマン符号化テーブルに対応する逆引テーブルが用いられる。
 逆引テーブルは、ハフマンコード(符号データ)と復号後のデータとの対応を示す、ハフマンコードを復号後のデータへと変換するためのテーブルである。この逆引テーブルは、ハフマン符号化テーブルから生成することができる。
 差分情報をハフマン符号化する場合には、予めサーバ11(エンコーダ)と情報処理装置51(デコーダ)の双方でハフマン符号化テーブルを保持している状態となるようにしてもよい。そのような場合、サーバ11から情報処理装置51に対して、差分情報のハフマン符号化に用いたハフマン符号化テーブルを示すID情報が通知される。
 また、サーバ11がハフマン符号化テーブルまたは逆引テーブルを符号化ビットストリームに格納し、情報処理装置51へと伝送するようにしてもよい。
 特に、逆引テーブルのサイズ(データ量)は大きいので、サーバ11から情報処理装置51へとハフマン符号化テーブルを伝送しておき、情報処理装置51が復号時等にハフマン符号化テーブルに基づき逆引テーブルを生成するようにしてもよい。
 また、出現確率の分布(確率密度分布)では、出現確率(出現頻度)が低い差分情報の値と出現確率が高い差分情報の値がある。そこで、例えば差分情報の取り得る値の範囲として±3dBの範囲など、出現確率の高い差分情報の値を含む狭いダイナミックレンジのデータに対応する範囲を対象範囲とし、その対象範囲のみを対象としたハフマン符号化テーブルを用いるようにしてもよい。
 そのような場合、対象範囲外の値の差分情報、すなわち出現確率の低いイレギュラーな値の差分情報については、差分情報をそのままモデルデータに格納するようにしてもよい。換言すれば、差分情報がそのまま差分符号データとして扱われる。
 以上のようにして、差分情報の確率密度分布に応じて、高効率となるハフマン符号化テーブルを選択したり生成したりし、どのようなハフマン符号化テーブルを利用するかに関する情報等を符号化ビットストリームに記述することで、効率よく差分情報を符号化および伝送することができる。
 また、差分情報を符号化するにあたっては、1または複数の方式を組み合わせて用いることで、さらにダイナミックレンジを小さくし、符号化効率を向上させることができる。特に、複数の方式を組み合わせることで、多段差分符号化を実現することができる。
 例えば多段差分符号化では、空間隣接差分方式、周波数間差分方式、および複素差分方式のうちの少なくとも2以上を組み合わせて符号化を行うことが考えられる。
 また、例えば多段差分符号化の有無や方式を示すmodeがモデルデータにおいてenc_mode等として記録される。このとき、例えば下位4bitに多段差分符号化の方式を記録し、上位4bitに対象が実数または複素数の何れであるかを記録した場合、以下のような情報がモデルデータに格納される。
(対象データが実数)
 0x00:多段差分符号化無し
 0x01:空間隣接差分方式
 0x02:周波数間差分方式
 0x03:空間隣接差分方式+周波数間差分方式
(対象データが複素数)
 0x1*:下位ビットは対象データ実数の場合と同じ
 空間隣接差分方式は、処理対象のデータポイントの差分情報の符号化を行うときに、その処理対象のデータポイントにおける差分情報と、処理対象のデータポイントの近傍にある他のデータポイントにおける差分情報との差分が空間差分情報として求められる。例えば、互いに隣接するデータポイント間の差分情報の差分が空間差分情報として求められる。そして、得られた空間差分情報がハフマン符号化されて差分符号データとされる。
 空間隣接差分方式では、指向性データにおける空間的に近い位置(データポイント)のデータ、すなわち指向性ゲインや差分情報は、近い値を取りやすいという性質が利用されている。
 周波数間差分方式は、処理対象のビン(周波数)の差分情報の符号化を行うときに、その処理対象のビンにおける差分情報と、処理対象のビンに隣接するビンなどの近傍の周波数である他のビンにおける差分情報との差分が周波数間差分情報として求められる。そして、得られた周波数間差分情報がハフマン符号化されて差分符号データとされる。
 周波数間差分方式では、近い周波数(ビン)のデータ、すなわち指向性ゲインや差分情報は、近い値を取りやすいという性質が利用されている。
 例えば空間隣接差分方式と周波数間差分方式を組み合わせて用いる場合には、互いに近接するビン間の空間差分情報の差分が周波数間差分情報として求められ、その周波数間差分情報がハフマン符号化されるか、または互いに近接するデータポイント間の周波数間差分情報の差分が空間差分情報として求められ、その空間差分情報がハフマン符号化される。
 複素差分方式は、指向性データが上述した振幅に関する情報だけでなく、位相に関する情報も有する場合に用いられる。
 例えば指向性データが振幅と位相に関する情報を有する場合、それらの振幅と位相に関する情報、つまり指向性ゲインは複素数により表現される。すなわち、指向性データは、データポイントごとに、各ビンについての振幅と位相を示す複素数のデータ(以下、複素指向性ゲインとも称する)を有することになり、差分情報も複素数のデータとなる。
 複素差分方式では、複素数により表現される差分情報の実部と虚部がそれぞれ独立(個別)にハフマン符号化されるか、または実部と虚部からなる2次元データ(複素指向性ゲイン)に対するハフマン符号化が行われる。なお、複素差分方式では、実部と虚部のそれぞれに対して個別にハフマン符号化を行うか、または2次元データに対するハフマン符号化を行うかを選択できるようにしてもよい。
 以下では、空間隣接差分方式、周波数間差分方式、および複素差分方式のうちの少なくとも1以上を組み合わせて符号化する各方式や、差分情報をそのままハフマン符号化する方式を1つの差分符号化方式または差分符号化モードとも称することとする。特に、差分情報をそのままハフマン符号化する差分符号化方式は、差分を用いる符号化、すなわち差分符号化を行わない方式であるといえる。
 例えばサーバ11は、差分情報等に基づいて、複数の差分符号化方式(差分符号化モード)のなかから最も効率の高いものを選択し、その選択した差分符号化方式で差分情報のハフマン符号化を行う。
 具体的には、例えば各差分符号化方式における差分符号データの符号量(データ量)が差分情報に基づく演算により求められ、差分符号化方式のなかから最も符号量が少ないものが、最も効率の高いものとして選択されるようにしてもよい。
 その他、例えば指向性データの音源種別や、無響室等の指向性データの収録時の環境などに基づいて、適切な差分符号化方式が選択されるようにしてもよい。
〈指向性データの表現方式について〉
 以上においては、主に指向性データがKent分布やvMF分布からなる混合モデル(混合分布モデル)によりモデル化される例について説明した。
 また、例えば低域、つまり低い周波数のビンではHOAにより指向性データをモデル化して位相に関する情報も記録し、位相の重要度が相対的に低い高域、つまり高い周波数のビンではKent分布やvMF分布からなる混合モデルにより指向性データをモデル化してもよいと説明した。この場合、例えば1.5kHz乃至2kHzの近傍の所定の周波数で混合モデルによるモデル化とHOAによるモデル化とを切り替えることが考えられる。例えばオーディオコーデック等で位相の情報を利用しないIntensity stereoが上記の帯域以上で用いられている。このようにHOAと混合モデルを組み合わせる手法は、例えばホイッスルやトランペットなど、鋭い正面指向性を持つ場合に有効と考えられる。
 なお、これに限らず、周波数帯域ごと、すなわちビンやバンドごとに、または全周波数帯域で共通して、HOA方式、混合方式、複素混合方式、および差分方式のうちの少なくとも1以上の方式を組み合わせてモデルデータを生成するようにしてもよい。そのような場合、例えばHOA方式や混合方式などの互いに異なる1または複数の方式により指向性データがモデル化され、その結果得られたモデルパラメータ等を含むモデルデータが生成される。
 HOA方式は、各データポイントのビンごとの複素指向性ゲインからなる指向性データを、HOAを利用してモデル化する方式である。すなわち、HOA方式は指向性データを球面調和関数展開によりモデル化する方式である。
 具体的には、HOA方式では指向性データに対して球面調和関数展開が行われ、その結果、各次元の球面調和関数についての係数である球面調和係数がモデルパラメータとして得られる。これらの各次元の球面調和係数から、HOAによるモデル化後の複素指向性ゲインからなる指向性データを得ることができる。
 上述のように、HOA方式でのモデル化では、位相を含めた表現が可能であるが、微細な表現を行うためには球面調和関数展開の次数を上げる、すなわち高次の項まで球面調和係数を求める必要があり、そのような場合にはモデルデータのデータ量が多くなってしまう。特にHOA方式でのモデル化では、特定の方位(方向)のみ振幅や位相の分布の微細な表現を行うことができない。
 逆に、低次の項のみ球面調和係数を求める場合には、比較的緩やかな振幅や位相の変化のみを記述可能となる。
 混合方式は、上述したKent分布やvMF分布からなる混合モデルによりモデル化を行う方式である。混合方式では、音源から見た特定の方位(方向)、すなわちデータポイントの位置において変化の激しい指向性ゲインの形状を記述可能である。
 複素混合方式は、複素指向性ゲインからなる指向性データ、すなわち振幅と位相のデータを、複素数に対応した混合分布(混合モデル)を用いてモデル化する方式である。
 複素混合方式の例として、例えば以下に示す2つの方法によるモデル化が考えられる。
 まず、1つ目の方法として、複素指向性ゲインの実部と虚部のそれぞれ、または複素指向性ゲインから求まる振幅と位相角のそれぞれを独立に実数を対象とした確率密度分布の混合モデルで記述することによりモデル化を行う方法が考えられる。
 2つ目の方法として、複素数に対応した複素Bingham分布混合モデルや、複素watson分布混合モデル等を用いて指向性データ(複素指向性ゲインの分布)を記述することによりモデル化を行う方法が考えられる。
 この場合、例えば指向性データが1または複数の複素Bingham分布からなる混合モデルや、1または複数の複素watson分布からなる混合モデルによりモデル化され、その結果、混合方式における場合と同様のモデルパラメータが得られる。このようにして得られたモデルパラメータから、複素混合方式でのモデル化後の複素指向性ゲインからなる指向性データを得ることができる。
 一例として対象とする複素数データの分布をそのまま複素Bingham分布で記述する場合、以下の式(5)に示す形式で記述が行われる。すなわち、複素Bingham分布の値f(z)は次式(5)により表される。
Figure JPOXMLDOC01-appb-M000005
 式(5)における複素数ベクトルzは、Kent分布やvMF分布における球表面の位置ベクトルxに対応し、z*はその複素共役となる。複素行列Aは位置、急峻さ、方向、形状を示すk×k次元の行列であり、正規化係数C(A)は次式(6)の通りである。
Figure JPOXMLDOC01-appb-M000006
 ここでaの定義は以下の式(7)の通りである。λは複素行列Aの固有値であり、λ<λ<λ<…λである。
Figure JPOXMLDOC01-appb-M000007
 1または複数の複素Bingham分布からなる混合モデル、すなわち複素Bingham混合モデルにおける混合数および重みは、上述のKent分布やvMF分布からなる混合モデルの定式化と共通である。N個の複素Bingham分布f(z;θi)を用いた混合モデルの値F(x;Θ)は以下の式(8)の通り、重みづけ記述が可能である。なお、式(9)に示すように重みの総和は1であり、Θは全パラメータ集合、θiは各複素Bingham分布のパラメータ集合(複素Bingham分布を構成するパラメータ)、φiはそれぞれの複素Bingham分布に対する重みを表している。
Figure JPOXMLDOC01-appb-M000008
Figure JPOXMLDOC01-appb-M000009
 差分方式は、差分を利用してモデルデータを生成する方式である。
 例えばHOA方式や混合方式などの1または複数の他の方式と差分方式とを組み合わせてモデルデータを生成する場合、差分方式では、モデル化前の指向性データと、1または複数の他の方式によるモデル化後の指向性データとの差分を示す差分情報が、上述の任意の差分符号化方式により符号化され、その結果得られた差分符号データがモデルデータに格納される。なお、差分方式により求められた指向性データの差分がHOA方式等によりモデル化されてもよい。
 差分方式では、例えば差分情報について空間上の位置間(データポイント間)の差分と周波数間(ビン間またはバンド間)の差分の少なくとも何れかが求められ、その結果得られた差分がハフマン符号化されて差分符号データとされる。このとき、ハフマン符号化の対象となる差分情報の差分が複素数である場合には、その差分の実部と虚部のそれぞれが個別にハフマン符号化されてもよいし、複素数がそのままハフマン符号化されてもよいし、差分から求まる振幅成分と位相成分のそれぞれが個別にハフマン符号化されてもよい。
 これに対して、差分方式のみが用いられて、すなわち差分方式単独でモデルデータが生成される場合、上述の任意の差分符号化方式と同様にして指向性データに対する符号化(ハフマン符号化)が行われる。
 このとき、空間隣接差分方式と周波数間差分方式のうちの少なくとも1つを含む、空間隣接差分方式、周波数間差分方式、および複素差分方式のうちの少なくとも1以上の方式が用いられる。すなわち、空間上の位置間(データポイント間)や周波数間(ビン間またはバンド間)における指向性ゲインの差分が求められ、その差分がハフマン符号化される。なお、差分が複素数で表現されるときには、差分の実部と虚部のそれぞれが個別にハフマン符号化されてもよいし、差分(複素数)がハフマン符号化されてもよい。また、差分から求まる振幅成分と位相成分のそれぞれが個別にハフマン符号化されてもよい。
 さらに、差分方式により得られた差分に対するハフマン符号化により得られたハフマンコードからなるデータ(以下、符号化指向性データとも称する)が含まれるモデルデータが生成される。この場合、指向性データの残差は生じないので、モデルデータに差分符号データは含まれていない。
 なお、差分方式では、可逆圧縮が可能であるが、データ次第で圧縮率が変動する。また、空間隣接差分方式や周波数間差分方式などの複数の方式を組み合わせて多段の差分を求める、すなわち差分を求める処理を複数回行う場合には、1次元のデータの場合とは異なり、差分符号データや符号化指向性データをモデルデータに格納する際のデータ順の定義が必要となり、このデータ順によって圧縮率が変動する。
 指向性データからモデルデータを生成するにあたっては、指向性データのビンごとやバンドごとの指向性ゲインの平均値、すなわち平均指向特性をモデル化することも考えられる。そのような場合、差分情報は、平均指向特性にオフセットとスケールファクタを適用し、ダイナミックレンジを合わせてから計算される。
 以上のようにHOA方式や混合方式、複素混合方式、差分方式を組み合わせてモデルデータを生成する場合、モデルデータを生成する方式として主に以下に示す5つの方式への類型化が考えられる。
 ここでいう5つの方式とは、帯域ハイブリッド方式、加算ハイブリッド方式、乗算ハイブリッド方式、球面調和係数モデル化方式、および組み合わせハイブリッド方式である。以下、各方式について説明する。
(帯域ハイブリッド方式)
 帯域ハイブリッド方式は、周波数帯域ごと、すなわちビンごとやバンドごとにHOA方式、混合方式、複素混合方式、および差分方式のうちの何れの方式を用いてモデルデータを生成するかを切り替える方式である。この場合、例えば低域では複素指向性ゲインでの記録が行われ、高域では実数の指向性ゲインでの記録が行われるようにしてもよい。
 具体的な例として、例えば低域側のバンドではHOA方式でのモデル化が行われ、高域側のバンドでは混合方式でのモデル化が行われるなど、バンド(周波数帯域)ごとに異なる方式で指向性データのモデル化が行われるようにすることができる。
 また、例えば低域側のバンドでは複素Bingham分布等による複素混合方式でのモデル化が行われ、高域側のバンドでは混合方式でのモデル化が行われるようにしてもよい。
(加算ハイブリッド方式)
 加算ハイブリッド方式では、モデル化後の指向性データとの差分を示す差分情報が、さらにモデル化されたり、差分方式により符号化されたりする。
 加算ハイブリッド方式の具体的な例として、例えば以下に示す方式(AH1)乃至方式(AH4)などが考えられる。特に、以下に示す例では左側に記述されている方式から順番に処理が実行されていく。
 方式(AH1):混合方式+差分方式
 方式(AH2):HOA方式(低次)+混合方式
 方式(AH3):HOA方式(低次)+差分方式
 方式(AH4):HOA方式(低次)+混合方式+差分方式
 方式(AH1)では、まず指向性データが混合方式でモデル化される。次に、モデル化前の指向性データと、混合方式でのモデル化後の指向性データとの差分を示す差分情報が差分方式により符号化され、差分符号データが生成される。
 そして、混合方式でのモデル化により得られたモデルパラメータと、差分符号データとが含まれるモデルデータが生成される。
 方式(AH2)では、まず指向性データがHOA方式でモデル化される。特に、HOA方式でのモデル化では、低次の項までの球面調和関数展開が行われる。次に、モデル化前の指向性データと、HOA方式でのモデル化後の指向性データとの差分を示す差分情報が、さらに混合方式でモデル化される。
 そして、HOA方式でのモデル化により得られたモデルパラメータと、混合方式での差分情報のモデル化により得られたモデルパラメータとが含まれるモデルデータが生成される。
 方式(AH3)では、方式(AH2)における場合と同様に、HOA方式で低次の項までのモデル化が行われ、その後、HOA方式でのモデル化について得られる差分情報が差分方式により符号化され、差分符号データが生成される。
 そして、HOA方式でのモデル化により得られたモデルパラメータと、差分符号データとが含まれるモデルデータが生成される。
 方式(AH4)では、方式(AH2)における場合と同様に、HOA方式で低次の項までのモデル化後、さらに混合方式での差分情報のモデル化が行われる。
 次にHOA方式でのモデル化について得られた差分情報と、混合方式でのモデル化後の差分情報との差分を示す差分情報が差分方式により符号化され、差分符号データが生成される。換言すれば、HOA方式および混合方式の組み合わせによりモデル化されたモデル化後の指向性データと、モデル化前の指向性データとの差分を示す差分情報が差分方式により符号化され、差分符号データが生成される。
 そして、HOA方式でのモデル化により得られたモデルパラメータと、混合方式での差分情報のモデル化により得られたモデルパラメータと、差分符号データとが含まれるモデルデータが生成される。
 以下では、所定の方式での指向性データのモデル化後に、さらにモデル化対象とされる差分情報と、差分方式での符号化対象とされる差分情報とを区別するため、モデル化対象とされる差分情報を、特に中間差分情報とも称することとする。
 例えば方式(AH4)では、HOA方式でのモデル化により得られる差分情報が中間差分情報であり、この中間差分情報が混合方式でモデル化される。そして、その後、もとの中間差分情報と、混合方式でのモデル化後の中間差分情報との差分を示す差分情報が差分方式により符号化される。
 以上の方式(AH1)乃至方式(AH4)のうち、方式(AH2)では復号側においてもとの指向性データと完全に一致するものを得ることができないが、方式(AH1)、方式(AH3)、および方式(AH4)ではもとの指向性データと完全に一致するものが得られる。
 また、加算ハイブリッド方式ではなく、指向性データが単独の方式でモデル化または符号化されるようにしてもよい。すなわち、例えばHOA方式、混合方式、および差分方式のうちの何れか1つの方式のみで指向性データがモデル化または符号化され、その結果得られたモデルパラメータまたは符号化指向性データが含まれるモデルデータが生成されるようにしてもよい。
(乗算ハイブリッド方式)
 乗算ハイブリッド方式では、所定の方式で指向性データがモデル化され、モデル化後の指向性データと、モデル化前の指向性データとの比(商)がさらに所定の方式とは異なる他の方式でモデル化される。
 乗算ハイブリッド方式の具体的な例として、例えば以下に示す方式(MH1)および方式(MH2)などが考えられる。
 方式(MH1):HOA方式(低次)×振幅変調(混合方式)
 方式(MH2):HOA方式(低次)×振幅位相変調(混合方式)
 方式(MH1)では、まず指向性データがHOA方式でモデル化される。特に、HOA方式でのモデル化では、低次の項までの球面調和関数展開が行われる。
 次に、モデル化前の指向性データを、HOA方式でのモデル化後の指向性データで除算して得られる値(以下、振幅変調情報とも称する)が、さらに混合方式でモデル化される。このとき、例えば振幅変調情報を構成する複素数(複素指向性ゲイン)の絶対値(振幅成分)が混合方式でのモデル化の対象とされてもよいし、モデル化前後の指向性データの振幅成分の比が振幅変調情報とされてもよい。そして、HOA方式でのモデル化により得られたモデルパラメータと、混合方式での振幅変調情報のモデル化により得られたモデルパラメータとが含まれるモデルデータが生成される。
 復号時には、HOA方式についてのモデルパラメータから算出された指向性データに対して、混合方式についてのモデルパラメータから算出された振幅変調情報が乗算されて、最終的な指向性データが算出される。
 このような方式(MH1)では、HOA方式での低次の項までのモデル化では表現しきれない、高域の方位(音源からの方向)に応じた細かい振幅の揺れを示す振幅変調情報が混合方式でモデル化されてモデルデータに記録(格納)される。そして復号時には、HOA方式についてのモデルパラメータから算出された指向性データに対して、振幅変調情報により変調がかけられ、より誤差の少ない指向性データが求められる。
 方式(MH2)では、方式(MH1)における場合と同様に、指向性データに対してHOA方式での低次の項までのモデル化が行われる。
 次に、モデル化前の指向性データを、HOA方式でのモデル化後の指向性データで除算して得られる値(以下、振幅位相変調情報とも称する)が、さらに混合方式でモデル化される。このとき、例えば振幅位相変調情報を構成する複素数(複素指向性ゲイン)の実部と虚部や振幅成分と位相成分が混合方式でのモデル化の対象とされる。なお、振幅位相変調情報が複素混合方式によりモデル化されてもよい。そして、HOA方式でのモデル化により得られたモデルパラメータと、混合方式での振幅位相変調情報のモデル化により得られたモデルパラメータとが含まれるモデルデータが生成される。
 復号時には、HOA方式についてのモデルパラメータから算出された指向性データに対して、混合方式についてのモデルパラメータから算出された振幅位相変調情報が乗算されて、最終的な指向性データが算出される。
 このような方式(MH2)では、HOA方式での低次の項までのモデル化では表現しきれない、方位(音源からの方向)に応じた高域の位相の回転変化を示す振幅位相変調情報が混合方式でモデル化されてモデルデータに記録(格納)される。そして復号時には、HOA方式についてのモデルパラメータから算出された指向性データに対して、振幅位相変調情報により変調がかけられ、より誤差の少ない指向性データが求められる。
 乗算ハイブリッド方式や他の方式において、複素数により表現される指向性ゲイン(複素指向性ゲイン)や中間差分情報をモデル化する場合、複素数の実部と虚部とでそれぞれ異なるまたは同じ方式により独立(個別)にモデル化が行われてもよい。例えば実部が混合方式によりモデル化され、虚部も混合方式によりモデル化されてもよい。
 同様に、振幅成分と位相成分がそれぞれ独立(個別)に任意の方式によりモデル化されてもよいし、複素数のデータが複素混合方式によりモデル化されてもよい。
(球面調和係数モデル化方式)
 球面調和係数モデル化方式では、指向性データがHOA方式でモデル化され、その結果得られたモデルパラメータ、すなわち球面調和係数がさらに混合方式でモデル化され、その結果得られたモデルパラメータがモデルデータに格納される。
 したがって、球面調和係数モデル化方式では、指向性データがHOA方式と混合方式の二段階でモデル化されるということができる。復号時には、まず混合方式についてのモデルパラメータに基づいて球面調和係数が算出され、さらに球面調和係数に基づいて指向性データ(概形指向性データ)が算出される。
 その他、例えばモデルパラメータとしての球面調和係数の実部と虚部のそれぞれ、またはモデルパラメータから求まる振幅成分と位相成分のそれぞれが個別(独立)に混合方式などの任意の方式でモデル化されるようにしてもよい。また、球面調和係数が複素混合方式、すなわち1または複数の複素Bingham分布等によりモデル化されてもよい。
(組み合わせハイブリッド方式)
 組み合わせハイブリッド方式では、上述した帯域ハイブリッド方式、加算ハイブリッド方式、乗算ハイブリッド方式、および球面調和係数モデル化方式のうちの少なくとも2以上のものの組み合わせが用いられてモデルデータが生成される。
 また、例えばHOA方式や混合方式など、モデルデータの生成に用いられた1または複数の方式の組み合わせを示す情報がモデルデータに格納されるようにしてもよい。そのような場合、サーバ11側においてモデルデータの生成に用いる1または複数の方式の組み合わせを適切に選択したり切り替えたりすることができる。
 以上のようにして指向性データがモデル化される場合、モデルデータは、例えば図15および図16に示す構成とされる。なお、図16には図15に示した部分に続く部分が示されている。また、図15および図16において図5に示した場合と対応する部分については、その説明は適宜省略する。
 図15および図16に示す例は、num_sound_types_idで指定される1種類の音源の指向性情報(指向性データ)をdirectivityConfigとして記述した例となっている。特にここでは、ハイブリッド方式を実現する一例としてvMF分布とKent分布、差分データ(差分情報)が存在する場合のSyntaxが示されており、各情報のビット数はあくまで一例である。
 図15および図16に示すモデルデータは、基本的には図5に示したモデルデータと同じデータから構成されているが、図15および図16の例と図5の例とでは、それらのデータのうちのいくつかのデータのビット数とデータ構成が異なっている。
 具体的には、図15および図16に示す例においては、方位角「azimuth_table[i]」および仰角「elevation_table[i]」が16ビットのunsigned shortとされている。
 また、バンド数「band_count」および混合数「mix_count[i_band]」が8ビットのunsigned charとされており、選択フラグ「dist_flag」が1ビットのboolとされている。
 さらに、この例ではモデルデータには、差分情報の符号化に用いられたハイブリッドのモード(差分符号化モード(差分符号化方式))のID、すなわち差分符号化モード情報を示す「mode」が含まれている。また、モデルデータには差分情報の符号化に用いられたハフマン符号化テーブルを示すインデックス「table_index」も含まれている。
 さらにモデルデータには、1.0dBごとの量子化などの量子化ステップサイズを示す「int db_resolution」が含まれている。例えば「int db_resolution」について、値「0」は量子化なしを示しており、値「1」は0.01dBを示しており、値「2」は0.2dBを示しており、値「3」は0.4dBを示しており、値「256」は25.6dBを示している。
 その他、モデルデータには、各ビンについて、データポイントごとに差分情報をハフマン符号化することで得られたハフマンコード(ハフマン符号)、すなわち差分符号データである「diff_data[i_bin][i_point]」も格納されている。
 また、サーバ11から情報処理装置51には、モデルデータに格納されるか、またはモデルデータとは別に図17に示す構成の情報が伝送される。図17に示す情報には、ハフマン符号化テーブルまたは逆引きテーブルが含まれている。
 図17に示す例では、「diff_mode_count」は差分符号化方式の総数を示す情報であり、この総数「diff_mode_count」の分だけ「int_nbits_res_data」が格納されている。
 この「int_nbits_res_data」は、ハフマンコードの最大ビット数、すなわちハフマンコードの最大語長を示す情報であり、例えば1.0dBきざみの場合には7ビットなどとされ、0dBから128dBまでの範囲を表現することができる。
 「element_count」はハフマン符号化テーブルまたは逆引きテーブルの要素数を示す情報であり、その要素数分だけ要素である「Huff_dec_table[i_element]」が格納されている。特に、この例では「Huff_dec_table[i_element]」は、逆引きテーブルの要素となっている。
 また、ハフマン符号化テーブルは、例えば図18に示すようになる。すなわち、図18は、ハフマン符号化テーブルの具体的な一例を示している。
 例えば、具体的な例として図16においてint db_resolution=1dBとした場合、以下のように符号化が行われる。
 0:0dB
 10:+1dB
 11:+2dB
 element_count=4;
 int_nbits_res_data=2;// huffman decodeテーブル(indexからdataを得る逆引きテーブル)の最大語長
 Huff_dec_table[4]={0,0,1,2};
 Huff_dec_tableは最大語長2bitの場合の逆引きテーブルとなる。
 0:0dB
 1:0dB
 2:1dB
 3:2dB
 また、復号時には、以下の手順で処理が行われる。
 (1)最大語長でbitstreamからビット列を取得
 (2)ビット列をi_element(huffman codeを最大語長で記録したものと等価)としてhuff_dec_tableを参照
 (3)i_elementの要素が復元されたデータを得る
 (4)上記データをdb_resolutionを元に復元し、dB値を得る
 なお、復元にはオフセット値が必要である。
 また、元データの音圧(dB値)は、Db=Huff_dec_table[code] * db_resolutionにより得ることができる。
〈サーバの構成例〉
 サーバ11において、1または複数の方式を組み合わせてのモデルデータの生成や差分符号化モードでの差分情報の符号化が行われる場合、例えばサーバ11は図19に示すように構成される。
 なお、図19において図9における場合と対応する部分には同一の符号を付してあり、その説明は適宜、省略する。
 図19に示すサーバ11は、コンピュータなどからなる情報処理装置であり、図9における場合と同様に符号化装置として機能する。
 サーバ11は、指向性データ符号化部201、オーディオデータ符号化部23、および出力部24を有している。
 指向性データ符号化部201は、供給された指向性データに基づいてモデルデータを生成する。指向性データ符号化部201は、モデルパラメータ推定部211、残差算出部212、符号化方式選択部213、ハフマン符号化部214、およびモデルデータ生成部215を有している。
 特に、この例ではモデルパラメータ推定部211および残差算出部212が図9のモデル化部21に対応し、符号化方式選択部213乃至モデルデータ生成部215が図9のモデルデータ生成部22に対応する。
 モデルパラメータ推定部211は、供給された処理対象の指向性データをHOA方式や混合方式など、少なくとも1以上の方式によりモデル化し、その結果得られた方式ごとのモデルパラメータを残差算出部212およびモデルデータ生成部215に供給する。
 残差算出部212は、供給された処理対象の指向性データと、モデルパラメータ推定部211から供給されたモデルパラメータとに基づいて差分情報を算出し、符号化方式選択部213およびハフマン符号化部214に供給する。
 符号化方式選択部213は、供給された処理対象の指向性データと、残差算出部212から供給された差分情報とに基づいて、差分情報をハフマン符号化するときの差分符号化モードとハフマン符号化テーブルを選択し、その選択結果を示す符号化モード情報をハフマン符号化部214およびモデルデータ生成部215に供給する。
 符号化モード情報は、選択された差分符号化モード(差分符号化方式)を示す差分符号化モード情報と、選択されたハフマン符号化テーブルを示すテーブルインデックス情報とからなる。なお、符号化方式選択部213での符号化モード情報の生成にあたっては、差分情報のみが用いられるようにしてもよい。
 ハフマン符号化部214は、符号化方式選択部213から供給された符号化モード情報に基づいて、残差算出部212から供給された差分情報をハフマン符号化し、その結果得られた差分符号データをモデルデータ生成部215に供給する。
 モデルデータ生成部215は、モデルパラメータ推定部211から供給された方式ごとのモデルパラメータと、ハフマン符号化部214から供給された差分符号データと、符号化方式選択部213から供給された符号化モード情報とを含むモデルデータを生成し、出力部24に供給する。なお、差分情報の符号化が行われない場合には、モデルデータには差分符号データは含まれない。また、より詳細には、モデルデータには、上述した指向性データに関する情報も格納される。その他、指向性データのモデル化に用いられた方式を示す情報がモデルデータに格納されてもよい。
 サーバ11が図19に示した構成とされる場合においても、サーバ11では図10を参照して説明した符号化処理が行われる。但し、ステップS11およびステップS12では、より詳細には、以下において説明する処理が行われる。
 すなわち、ステップS11では、モデルパラメータ推定部211において少なくとも1以上の方式により、供給された処理対象の指向性データのモデル化が行われるとともに、残差算出部212において必要に応じて差分情報が算出される。
 換言すれば、例えばHOA方式や混合方式、複素混合方式、差分方式などが必要に応じて組み合わせられ、これにより上述の帯域ハイブリッド方式や、加算ハイブリッド方式、乗算ハイブリッド方式、球面調和係数モデル化方式、組み合わせハイブリッド方式などによりモデルパラメータと差分情報が算出される。
 また、ステップS12では符号化方式選択部213における差分符号化モードとハフマン符号化テーブルの選択、およびハフマン符号化部214におけるハフマン符号化が必要に応じて行われるとともに、モデルデータ生成部215によるモデルデータの生成が行われる。
 具体的には、例えば加算ハイブリッド方式の方式(AH4)によりモデルパラメータが算出される場合、まずモデルパラメータ推定部211は、指向性データをHOA方式でモデル化し、その結果、モデルパラメータとしての球面調和係数を得る。
 また、モデルパラメータ推定部211は、HOA方式によるモデル化後の指向性データと、モデル化前の指向性データとの差分を中間差分情報として求めるとともに、中間差分情報を混合方式によりモデル化する。混合方式による中間差分情報のモデル化によって、パラメータ集中度κや楕円率β、重みφ、ベクトルγ、major軸ベクトルγ、minor軸ベクトルγ、スケールファクタ、最小値がモデルパラメータとして得られる。
 モデルパラメータ推定部211は、HOA方式による指向性データのモデル化により得られたモデルパラメータと、混合方式による中間差分情報のモデル化により得られたモデルパラメータとを残差算出部212およびモデルデータ生成部215に供給する。
 すると、残差算出部212は、モデルパラメータ推定部211から供給されたモデルパラメータと、供給された指向性データとに基づいて差分情報を生成する。この差分情報は、HOA方式および混合方式の組み合わせによりモデル化されたモデル化後の指向性データと、モデル化前の指向性データとの残差である。
 また、ハフマン符号化部214は、符号化方式選択部213から供給された符号化モード情報に従って、残差算出部212から供給された差分情報を必要に応じてハフマン符号化する。
 このとき、差分符号化モード情報により示される方式で処理が行われる。すなわち、例えば空間隣接差分方式、周波数間差分方式、および複素差分方式のうちの1以上の方式により差分情報がハフマン符号化されたり、差分情報に対するハフマン符号化が行われなかったりする。
 例えば空間隣接差分方式によりハフマン符号化が行われる場合、ハフマン符号化部214は、互いに隣接するデータポイント間における差分情報の差分を空間差分情報として求め、その空間差分情報をハフマン符号化することで差分符号データを生成する。
 モデルデータ生成部215は、モデルパラメータ推定部211から供給された、HOA方式のモデルパラメータおよび混合方式のモデルパラメータと、符号化方式選択部213から供給された符号化モード情報とを含むモデルデータを生成する。特に、差分情報のハフマン符号化が行われた場合には、モデルデータ生成部215は、ハフマン符号化部214から供給された差分符号データもモデルデータに格納する。
 なお、差分方式単独でモデルデータが生成される場合、モデルパラメータ推定部211は、供給された指向性データに基づいて、空間隣接差分方式と周波数間差分方式のうちの少なくとも1以上の方式により指向性データの差分(以下、差分指向性データとも称する)を求める。この差分指向性データは、データポイント間やビン間における指向性データ、すなわち指向性ゲインの差分である。
 この場合、符号化方式選択部213は、残差算出部212を介してモデルパラメータ推定部211から供給された差分指向性データに基づいて符号化モード情報を生成する。また、ハフマン符号化部214は、符号化方式選択部213から供給された符号化モード情報に基づいて、残差算出部212を介してモデルパラメータ推定部211から供給された差分指向性データを指定された差分符号化方式によりハフマン符号化し、符号化指向性データを生成する。
 そしてモデルデータ生成部215は、ハフマン符号化部214から供給された符号化指向性データと、符号化方式選択部213から供給された符号化モード情報とを含むモデルデータを生成し、出力部24に供給する。
〈指向性データ生成処理の説明〉
 図19に示した構成のサーバ11から符号化ビットストリームの供給を受けた情報処理装置51は、例えば図20に示す指向性データ生成処理を行うとともに、その後、任意のタイミングで図13を参照して説明した出力オーディオデータ生成処理を行う。
 以下、図20のフローチャートを参照して、復号装置として機能する情報処理装置51により行われる指向性データ生成処理について説明する。
 なお、ステップS111では図12のステップS51の処理と同様の処理が行われる。すなわち、ステップS111ではアンパッキング部81は、モデルデータのアンパッキングを行い、モデルパラメータやモデル化前のもとの指向性データに関する情報、差分符号データなどをモデルデータから抽出する。
 ステップS112においてアンパッキング部81は、アンパッキングにより抽出された方式ごとのモデルパラメータのなかに、まだ指向性データ算出部82に供給していないモデルパラメータがあるか否かを判定する。
 ステップS112においてモデルパラメータがあると判定された場合、アンパッキング部81は、まだ指向性データ算出部82に供給していない、すなわちまだ処理を行っていないモデルパラメータを指向性データ算出部82に供給し、処理はステップS113へと進む。
 ステップS113において指向性データ算出部82は、アンパッキング部81から供給された1つの方式のモデルパラメータに基づいて、モデルパラメータに基づくデータを算出する。
 例えばステップS113では、HOA方式や混合方式など、方式ごとのモデルパラメータに基づいて、モデル化後の指向性データを構成する指向性ゲインや中間差分情報、振幅変調情報、振幅位相変調情報などがモデルパラメータに基づくデータとして算出される。
 ステップS113の処理が行われると、その後、処理はステップS112に戻り、上述した処理が繰り返し行われる。
 また、ステップS112において、指向性データ算出部82に供給していないモデルパラメータがないと判定された場合、その後、処理はステップS114へと進む。
 ステップS114においてアンパッキング部81は、取得部61から供給されたモデルデータに差分符号データが含まれているか否か、すなわち差分符号データがあるか否かを判定する。
 ステップS114において差分符号データが含まれていると判定された場合、アンパッキング部81は、モデルデータから抽出した符号化モード情報および差分符号データを差分情報復号部83に供給し、その後、処理はステップS115へと進む。
 ステップS115において差分情報復号部83は、アンパッキング部81から出力された符号化モード情報および差分符号データを取得する。
 ステップS116において差分情報復号部83は、取得した符号化モード情報に基づいて差分符号データの復号を行い、その結果得られた差分情報(指向性データ残差)を加算部84に供給する。
 例えば符号化モード情報に含まれている差分符号化モード情報によって、空間隣接差分方式による符号化が行われていることが特定されたとする。
 そのような場合、差分情報復号部83は、符号化モード情報に含まれているテーブルインデックス情報により特定される逆引テーブルを用いて、アンパッキング部81から供給された差分符号データに対する復号を行い、各データポイントの空間差分情報を得る。
 そして差分情報復号部83は、処理対象のデータポイントの空間差分情報に、そのデータポイントの近傍にある復号済みの他のデータポイントの差分情報を加算することで、処理対象のデータポイントの差分情報を求める。
 ステップS116の処理が行われたか、またはステップS114において差分符号データがないと判定された場合、その後、ステップS117の処理が行われる。
 ステップS117において指向性データ算出部82および加算部84は、指向性データを算出する。
 すなわち、指向性データ算出部82は、1または複数回行われたステップS113の処理により得られたデータに基づいて概形指向性データを算出し、加算部84に供給する。
 具体的な例として、例えばサーバ11側において、加算ハイブリッド方式の方式(AH4)によりモデルパラメータが算出されたとする。
 そのような場合、1回目のステップS113の処理では、HOA方式のモデルパラメータに基づいてモデル化後の指向性データ(概形指向性データ)が算出される。また、2回目のステップS113の処理では、混合方式のモデルパラメータに基づいてモデル化後の中間差分情報が算出される。
 そこで、指向性データ算出部82は、概形指向性データに中間差分情報を加算することで、すなわち各データポイントにおけるビンごとの指向性ゲインに、各データポイントにおけるビンごとの中間差分情報を加算することで、最終的な概形指向性データを求める。
 加算部84は、このようにして指向性データ算出部82で得られた最終的な概形指向性データに、差分情報復号部83から供給された差分情報(指向性データ残差)を加算することで指向性データを算出し、周波数補間処理部85に供給する。なお、差分情報がない場合には、最終的な概形指向性データがそのまま指向性データとされる。
 また、例えばサーバ11側において、乗算ハイブリッド方式の方式(MH1)によりモデルパラメータが算出されたとする。
 そのような場合、1回目のステップS113の処理では、HOA方式のモデルパラメータに基づいてモデル化後の指向性データ(概形指向性データ)が算出される。また、2回目のステップS113の処理では、混合方式のモデルパラメータに基づいてモデル化後の振幅変調情報が算出される。
 そこで、指向性データ算出部82は、概形指向性データに振幅変調情報を乗算することで、すなわち各データポイントにおけるビンごとの指向性ゲインに、各データポイントにおけるビンごとの振幅変調情報を乗算することで、最終的な指向性データを求める。この場合、ステップS115およびステップS116の処理は行われず、差分情報がないので、指向性データ算出部82で得られた指向性データがそのまま加算部84を介して周波数補間処理部85に供給される。
 なお、例えばサーバ11側において差分方式単独でモデルデータが生成されることもある。そのような場合、ステップS113の処理は行われず、ステップS115およびステップS116において差分情報復号部83により符号化指向性データの復号が行われる。
 すなわち、差分情報復号部83は、符号化モード情報に含まれているテーブルインデックス情報により特定される逆引テーブルを用いて、アンパッキング部81から供給された符号化指向性データに対する復号を行い、差分指向性データを得る。
 そしてステップS117では、差分情報復号部83は、差分指向性データを構成する各データポイントのビンごとの値(差分)に基づいて、指向性データを算出する。
 具体的には、例えばサーバ11側において、空間隣接差分方式により差分指向性データが算出されている場合、差分情報復号部83は、処理対象のデータポイントのビンごとの値(差分)に、そのデータポイントの近傍にある復元済みの他のデータポイントの同じビンの指向性ゲインを加算することで、処理対象のデータポイントのビンごとの指向性ゲインを求める。
 また、例えばサーバ11側において、周波数間差分方式により差分指向性データが算出されている場合、差分情報復号部83は、データポイントの処理対象のビンの値(差分)に、同じデータポイントにおける処理対象のビンの近傍にある復元済みの他のビンの指向性ゲインを加算することで、処理対象のビンの指向性ゲインを求める。
 このように、符号化指向性データがモデルデータに格納されるようにする場合であっても、指向性データの伝送量を低減させることができる。
 ステップS117の処理が行われ、指向性データが算出されると、その後、ステップS118の処理が行われて指向性データ生成処理は終了するが、ステップS118の処理は図12のステップS56の処理と同様であるので、その説明は省略する。
 以上のようにして情報処理装置51は、モデルデータに基づいて指向性データを算出する。このようにすることで指向性データの伝送量を低減させることができる。これにより、伝送遅延の発生や伝送レートの増大を抑制することができる。
〈加算ハイブリッド方式の具体例〉
〈指向性データ符号化部の構成例〉
 ところで、サーバ11において固定的に加算ハイブリッド方式でモデルデータが生成される場合、図19に示したサーバ11における指向性データ符号化部201の構成は、例えば図21に示す構成とすることができる。なお、図21において図19における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
 図21の例では、指向性データ符号化部201は、モデルパラメータ推定部241、演算部242、モデルパラメータ推定部243、演算部244、差分符号化部245、およびモデルデータ生成部215を有している。
 モデルパラメータ推定部241乃至演算部244は、図19のモデルパラメータ推定部211に対応している。
 モデルパラメータ推定部241は、供給された処理対象の指向性データを混合方式によりモデル化し、その結果得られたモデルパラメータをモデルデータ生成部215に供給するとともに、混合方式によるモデル化後の指向性データを演算部242に供給する。
 演算部242は、供給された処理対象の指向性データから、モデルパラメータ推定部241から供給されたモデル化後の指向性データを減算する(差分を求める)ことで中間差分情報を算出し、モデルパラメータ推定部243および演算部244に供給する。
 モデルパラメータ推定部243は、演算部242から供給された中間差分情報をHOA方式によりモデル化し、その結果得られたモデルパラメータをモデルデータ生成部215に供給するとともに、HOA方式によるモデル化後の中間差分情報を演算部244に供給する。
 演算部244は、演算部242から供給された中間差分情報から、モデルパラメータ推定部243から供給されたモデル化後の中間差分情報を減算する(差分を求める)ことで差分情報を算出し、差分符号化部245に供給する。
 差分符号化部245は、演算部244から供給された差分情報と、適宜、供給される処理対象の指向性データ等とに基づいて、符号化モード情報および差分符号データを生成し、モデルデータ生成部215に供給する。
 なお、ここではモデルパラメータ推定部241において混合方式によるモデル化を行い、モデルパラメータ推定部243においてHOA方式によるモデル化を行う例について説明した。
 しかし、これに限らず、モデルパラメータ推定部241やモデルパラメータ推定部243においてどのような方式でモデル化が行われるようにしてもよい。例えば、モデルパラメータ推定部241においてHOA方式によるモデル化が行われ、モデルパラメータ推定部243において混合方式によるモデル化が行われてもよい。
〈差分符号化部の構成例〉
 また、差分符号化部245は、例えば図22に示す構成とすることができる。なお、図22において図19における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
 図22の例では、差分符号化部245は残差算出部212、符号化方式選択部213、多段差分処理部271、およびハフマン符号化部214を有している。
 残差算出部212は、供給された処理対象の指向性データと、モデルパラメータ推定部241およびモデルパラメータ推定部243から供給されたモデル化後の指向性データおよび中間差分情報とに基づいて差分情報を算出し、符号化方式選択部213および多段差分処理部271に供給する。
 多段差分処理部271は、残差算出部212からの差分情報、または演算部244からの差分情報のうちの何れかに基づいて、符号化方式選択部213から供給される符号化モード情報により示される差分符号化モードで多段差分情報を生成する。
 例えば差分符号化モードとして、空間隣接差分方式でハフマン符号化が行われる場合には空間差分情報が多段差分情報として得られ、差分符号化モードとして、周波数間差分方式でハフマン符号化が行われる場合には周波数間差分情報が多段差分情報として得られる。同様に、差分符号化モードとして、空間隣接差分方式と周波数間差分方式でハフマン符号化が行われる場合には、空間差分情報や周波数間差分情報を求めることで得られるハフマン符号化の対象となる情報が多段差分情報となる。
 多段差分処理部271は、得られた多段差分情報を符号化方式選択部213およびハフマン符号化部214に供給する。
 符号化方式選択部213は、供給された処理対象の指向性データと、残差算出部212または演算部244から供給された差分情報と、多段差分処理部271から供給された多段差分情報とに基づいて符号化モード情報を生成し、多段差分処理部271、ハフマン符号化部214、およびモデルデータ生成部215に供給する。
 ハフマン符号化部214は、符号化方式選択部213から供給された符号化モード情報に基づいて、多段差分処理部271から供給された多段差分情報をハフマン符号化し、その結果得られた差分符号データをモデルデータ生成部215に供給する。
〈モデルデータ生成処理の説明〉
 指向性データ符号化部201が図21に示した構成とされる場合、指向性データ符号化部201では、図10のステップS11およびステップS12に対応する処理として、図23に示すモデルデータ生成処理が行われる。
 すなわち、ステップS151においてモデルパラメータ推定部241は、供給された処理対象の指向性データに対して混合方式によるモデル化を行う。
 モデルパラメータ推定部241は、モデル化により得られたモデルパラメータをモデルデータ生成部215に供給するとともに、混合方式によるモデル化後の指向性データを演算部242に供給する。
 ステップS152において演算部242は、供給された処理対象の指向性データと、モデルパラメータ推定部241から供給されたモデル化後の指向性データとに基づいて中間差分情報を算出し、モデルパラメータ推定部243および演算部244に供給する。
 ステップS153においてモデルパラメータ推定部243は、演算部242から供給された中間差分情報に対してHOA方式によるモデル化を行う。
 モデルパラメータ推定部243は、モデル化により得られたモデルパラメータをモデルデータ生成部215に供給するとともに、HOA方式によるモデル化後の中間差分情報を演算部244に供給する。
 ステップS154において演算部244は、演算部242から供給された中間差分情報と、モデルパラメータ推定部243から供給されたモデル化後の中間差分情報とに基づいて差分情報を算出し、差分符号化部245に供給する。
 ステップS155において差分符号化部245は、演算部244から供給された差分情報に基づいて差分符号化を行う。
 すなわち、例えば差分符号化部245の符号化方式選択部213は、供給された処理対象の指向性データと、演算部244から供給された差分情報と、前フレーム等の前回の処理で多段差分処理部271から供給された多段差分情報とに基づいて符号化モード情報を生成し、多段差分処理部271、ハフマン符号化部214、およびモデルデータ生成部215に供給する。なお、符号化方式選択部213が残差算出部212から供給された差分情報を用いて符号化モード情報を生成してもよい。
 また、多段差分処理部271は、例えば演算部244から供給された差分情報と、符号化方式選択部213から供給される符号化モード情報とに基づいて多段差分情報を生成し、符号化方式選択部213およびハフマン符号化部214に供給する。
 ハフマン符号化部214は、符号化方式選択部213から供給された符号化モード情報に基づいて、多段差分処理部271から供給された多段差分情報をハフマン符号化し、その結果得られた差分符号データをモデルデータ生成部215に供給する。
 ステップS156においてモデルデータ生成部215は、パッキングを行うことでモデルデータを生成し、出力部24に供給する。
 具体的には、モデルデータ生成部215は、モデルパラメータ推定部241からの混合方式のモデルパラメータ、モデルパラメータ推定部243からのHOA方式のモデルパラメータ、符号化方式選択部213からの符号化モード情報、およびハフマン符号化部214からの差分符号データを含むモデルデータを生成する。このようにしてモデルデータが生成されると、モデルデータ生成処理は終了する。
 以上のようにして指向性データ符号化部201は、加算ハイブリッド方式によりモデルデータを生成する。このようにすることで、指向性データの伝送量を低減させ、伝送遅延の発生や伝送レートの増大を抑制することができる。
〈分布モデル復号部の構成例〉
 また、指向性データ符号化部201が図21に示した構成とされる場合、情報処理装置51の分布モデル復号部62は、例えば図24に示す構成とされる。なお、図24において図11における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
 図24に示す分布モデル復号部62は、アンパッキング部81、計算部301、計算部302、差分情報復号部83、演算部303、演算部304、および周波数補間処理部85を有している。この例では計算部301および計算部302が図11に示した指向性データ算出部82に対応する。
 計算部301は、アンパッキング部81から供給される混合方式のモデルパラメータに基づいて、混合方式によるモデル化後の指向性データ(概形指向性データ)を算出し、演算部304に供給する。計算部302は、アンパッキング部81から供給されるHOA方式のモデルパラメータに基づいて、HOA方式によるモデル化後の中間差分情報を算出し、演算部303に供給する。
 差分情報復号部83は、アンパッキング部81から供給される符号化モード情報および差分符号データに基づいて差分情報(指向性データ残差)を算出し、演算部303に供給する。演算部303は、差分情報復号部83から供給された差分情報と、計算部302から供給された中間差分情報とを加算(合成)し、その加算結果(差分情報)を演算部304に供給する。
 演算部304は、計算部301から供給された指向性データ(概形指向性データ)と、演算部303から供給された加算結果(差分情報)とを加算し、その結果得られた指向性データを周波数補間処理部85に供給する。
 分布モデル復号部62が図24に示す構成とされる場合、上述した図20の指向性データ生成処理における1回目のステップS113では計算部301により指向性データ(概形指向性データ)が算出される。また、2回目のステップS113では計算部302により中間差分情報が算出される。
 そして、差分情報復号部83によりステップS115およびステップS116の処理が行われて差分情報が生成され、ステップS117では演算部303および演算部304により加算処理が行われ、指向性データが生成される。
〈コンピュータの構成例〉
 ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
 図25は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
 コンピュータにおいて、CPU(Central Processing Unit)501,ROM(Read Only Memory)502,RAM(Random Access Memory)503は、バス504により相互に接続されている。
 バス504には、さらに、入出力インターフェース505が接続されている。入出力インターフェース505には、入力部506、出力部507、記録部508、通信部509、及びドライブ510が接続されている。
 入力部506は、キーボード、マウス、マイクロホン、撮像素子などよりなる。出力部507は、ディスプレイ、スピーカなどよりなる。記録部508は、ハードディスクや不揮発性のメモリなどよりなる。通信部509は、ネットワークインターフェースなどよりなる。ドライブ510は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体511を駆動する。
 以上のように構成されるコンピュータでは、CPU501が、例えば、記録部508に記録されているプログラムを、入出力インターフェース505及びバス504を介して、RAM503にロードして実行することにより、上述した一連の処理が行われる。
 コンピュータ(CPU501)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体511に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
 コンピュータでは、プログラムは、リムーバブル記録媒体511をドライブ510に装着することにより、入出力インターフェース505を介して、記録部508にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部509で受信し、記録部508にインストールすることができる。その他、プログラムは、ROM502や記録部508に、あらかじめインストールしておくことができる。
 なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
 また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
 例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
 また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、本技術は、以下の構成とすることも可能である。
(1)
 音源の指向性を表す指向性データをモデル化することにより得られたモデルデータを取得する取得部と、
 前記モデルデータに基づいて、前記指向性データを算出する算出部と
 を備える情報処理装置。
(2)
 前記モデルデータには、前記指向性データを1または複数の分布からなる混合モデルによりモデル化することで得られた、前記混合モデルを構成するモデルパラメータが含まれている
 (1)に記載の情報処理装置。
(3)
 前記1または複数の分布は、vMF分布とKent分布の少なくとも何れかを含む
 (2)に記載の情報処理装置。
(4)
 前記指向性データは、複数の各周波数ビンの指向性ゲインを含み、
 前記モデルデータには、1または複数の前記周波数ビンを含む周波数帯域であるバンドごとに、前記指向性ゲインの分布を表す前記混合モデルを構成する前記モデルパラメータが含まれている
 (2)または(3)に記載の情報処理装置。
(5)
 前記モデルデータには、前記周波数ビンにおける前記指向性ゲインのダイナミックレンジを示すスケールファクタと、前記周波数ビンにおける前記指向性ゲインの最小値とが含まれている
 (4)に記載の情報処理装置。
(6)
 前記モデルデータには、モデル化前の前記指向性データと、モデル化後の前記指向性データとの差分を示す差分情報が含まれており、
 前記算出部により算出された前記指向性データに、前記差分情報を加算する加算部をさらに備える
 (1)乃至(5)の何れか一項に記載の情報処理装置。
(7)
 前記差分情報は、ハフマン符号化されている
 (6)に記載の情報処理装置。
(8)
 前記指向性データは、複数の各周波数ビンの指向性ゲインを含み、
 前記算出部により算出された前記指向性データに基づいて補間処理を行うことで、新たな前記周波数ビンの前記指向性ゲインを算出する補間処理部をさらに備える
 (1)乃至(7)の何れか一項に記載の情報処理装置。
(9)
 前記指向性データは、複数の各データポイントにおける指向性ゲインを含み、
 前記算出部により算出された前記指向性データに基づいて補間処理を行うことで、新たな前記データポイントにおける前記指向性ゲインを算出する補間処理部をさらに備える
 (1)乃至(8)の何れか一項に記載の情報処理装置。
(10)
 前記指向性データとオーディオデータとを畳み込む指向性畳み込み部をさらに備える
 (1)乃至(9)の何れか一項に記載の情報処理装置。
(11)
 前記指向性データが畳み込まれた前記オーディオデータと、HRTFとを畳み込むHRTF畳み込み部をさらに備える
 (10)に記載の情報処理装置。
(12)
 前記1または複数の分布は、複素Bingham分布または複素watson分布を含む
 (2)に記載の情報処理装置。
(13)
 前記モデルデータには、前記指向性データを球面調和関数展開によりモデル化することで得られた球面調和係数がモデルパラメータとして含まれている
 (1)に記載の情報処理装置。
(14)
 前記モデルデータには、互いに異なる1または複数の方式により前記指向性データをモデル化することで得られたモデルパラメータが含まれている
 (1)に記載の情報処理装置。
(15)
 前記方式は、1または複数の分布からなる混合モデルによりモデル化する方式、および球面調和関数展開によりモデル化する方式のうちの少なくとも何れかを含む
 (14)に記載の情報処理装置。
(16)
 前記モデルデータには、前記1または複数の方式によるモデル化後の前記指向性データと、モデル化前の前記指向性データとの差分を示す差分情報がさらに含まれている
 (14)または(15)に記載の情報処理装置。
(17)
 前記差分情報は、ハフマン符号化されている
 (16)に記載の情報処理装置。
(18)
 前記差分情報の実部と虚部のそれぞれが個別にハフマン符号化されている
 (17)に記載の情報処理装置。
(19)
 前記モデルデータには、前記1または複数の方式によるモデル化後の前記指向性データと、モデル化前の前記指向性データとの差分を示す差分情報の空間上の位置間および周波数間のうちの少なくとも何れかの差分をハフマン符号化することで得られた差分符号データが含まれている
 (14)または(15)に記載の情報処理装置。
(20)
 前記モデルデータには、前記差分情報の差分の実部と虚部のそれぞれを個別にハフマン符号化することで得られた前記差分符号データが含まれている
 (19)に記載の情報処理装置。
(21)
 前記モデルデータには、前記指向性データを所定の方式によりモデル化することで得られた前記モデルパラメータ、および前記所定の方式によるモデル化後の前記指向性データとモデル化前の前記指向性データとの差分を、前記所定の方式とは異なる方式によりモデル化することで得られた他のモデルパラメータが含まれている
 (14)または(15)に記載の情報処理装置。
(22)
 前記モデルデータには、前記指向性データを所定の方式によりモデル化することで得られた前記モデルパラメータ、および前記所定の方式によるモデル化後の前記指向性データとモデル化前の前記指向性データとの比を、前記所定の方式とは異なる方式によりモデル化することで得られた他のモデルパラメータが含まれている
 (14)または(15)に記載の情報処理装置。
(23)
 前記モデルデータには、前記指向性データをモデル化することで得られた前記モデルパラメータをさらにモデル化することで得られたモデルパラメータが含まれている
 (14)または(15)に記載の情報処理装置。
(24)
 前記モデルデータには、周波数帯域ごとに異なる方式で前記指向性データをモデル化することで得られた前記モデルパラメータが含まれている
 (14)乃至(23)の何れか一項に記載の情報処理装置。
(25)
 情報処理装置が、
 音源の指向性を表す指向性データをモデル化することにより得られたモデルデータを取得し、
 前記モデルデータに基づいて、前記指向性データを算出する
 情報処理方法。
(26)
 音源の指向性を表す指向性データをモデル化することにより得られたモデルデータを取得し、
 前記モデルデータに基づいて、前記指向性データを算出する
 処理をコンピュータに実行させるプログラム。
(27)
 音源の指向性を表す指向性データを、1または複数の分布からなる混合モデルによりモデル化するモデル化部と、
 前記モデル化により得られた、前記混合モデルを構成するモデルパラメータを含むモデルデータを生成するモデルデータ生成部と
 を備える情報処理装置。
(28)
 情報処理装置が、
 音源の指向性を表す指向性データを、1または複数の分布からなる混合モデルによりモデル化し、
 前記モデル化により得られた、前記混合モデルを構成するモデルパラメータを含むモデルデータを生成する
 情報処理方法。
(29)
 音源の指向性を表す指向性データを、1または複数の分布からなる混合モデルによりモデル化し、
 前記モデル化により得られた、前記混合モデルを構成するモデルパラメータを含むモデルデータを生成する
 処理をコンピュータに実行させるプログラム。
(30)
 音源の指向性を表す指向性データであって、複数の各データポイントにおける複数の各周波数ビンの指向性ゲインからなる指向性データに対して、前記指向性ゲインの前記データポイント間および前記周波数ビン間のうちの少なくとも何れかの差分を求めることにより得られた差分指向性データを取得する取得部と、
 前記差分指向性データに基づいて、前記指向性データを算出する算出部と
 を備える情報処理装置。
(31)
 前記差分指向性データは、ハフマン符号化されており、
 前記算出部は、ハフマン符号化された前記差分指向性データの復号を行う
 (30)に記載の情報処理装置。
(32)
 前記差分指向性データの実部と虚部のそれぞれが個別にハフマン符号化されている
 (31)に記載の情報処理装置。
(33)
 情報処理装置が、
 音源の指向性を表す指向性データであって、複数の各データポイントにおける複数の各周波数ビンの指向性ゲインからなる指向性データに対して、前記指向性ゲインの前記データポイント間および前記周波数ビン間のうちの少なくとも何れかの差分を求めることにより得られた差分指向性データを取得し、
 前記差分指向性データに基づいて、前記指向性データを算出する
 情報処理方法。
(34)
 音源の指向性を表す指向性データであって、複数の各データポイントにおける複数の各周波数ビンの指向性ゲインからなる指向性データに対して、前記指向性ゲインの前記データポイント間および前記周波数ビン間のうちの少なくとも何れかの差分を求めることにより得られた差分指向性データを取得し、
 前記差分指向性データに基づいて、前記指向性データを算出する
 処理をコンピュータに実行させるプログラム。
 11 サーバ, 21 モデル化部, 22 モデルデータ生成部, 23 オーディオデータ符号化部, 51 情報処理装置, 61 取得部, 62 分布モデル復号部, 63 オーディオデータ復号部, 64 レンダリング処理部, 82 指向性データ算出部, 83 差分情報復号部, 84 加算部, 85 周波数補間処理部, 88 時間補間処理部, 89 指向性畳み込み部, 90 HRTF畳み込み部

Claims (34)

  1.  音源の指向性を表す指向性データをモデル化することにより得られたモデルデータを取得する取得部と、
     前記モデルデータに基づいて、前記指向性データを算出する算出部と
     を備える情報処理装置。
  2.  前記モデルデータには、前記指向性データを1または複数の分布からなる混合モデルによりモデル化することで得られた、前記混合モデルを構成するモデルパラメータが含まれている
     請求項1に記載の情報処理装置。
  3.  前記1または複数の分布は、vMF分布とKent分布の少なくとも何れかを含む
     請求項2に記載の情報処理装置。
  4.  前記指向性データは、複数の各周波数ビンの指向性ゲインを含み、
     前記モデルデータには、1または複数の前記周波数ビンを含む周波数帯域であるバンドごとに、前記指向性ゲインの分布を表す前記混合モデルを構成する前記モデルパラメータが含まれている
     請求項2に記載の情報処理装置。
  5.  前記モデルデータには、前記周波数ビンにおける前記指向性ゲインのダイナミックレンジを示すスケールファクタと、前記周波数ビンにおける前記指向性ゲインの最小値とが含まれている
     請求項4に記載の情報処理装置。
  6.  前記モデルデータには、モデル化前の前記指向性データと、モデル化後の前記指向性データとの差分を示す差分情報が含まれており、
     前記算出部により算出された前記指向性データに、前記差分情報を加算する加算部をさらに備える
     請求項1に記載の情報処理装置。
  7.  前記差分情報は、ハフマン符号化されている
     請求項6に記載の情報処理装置。
  8.  前記指向性データは、複数の各周波数ビンの指向性ゲインを含み、
     前記算出部により算出された前記指向性データに基づいて補間処理を行うことで、新たな前記周波数ビンの前記指向性ゲインを算出する補間処理部をさらに備える
     請求項1に記載の情報処理装置。
  9.  前記指向性データは、複数の各データポイントにおける指向性ゲインを含み、
     前記算出部により算出された前記指向性データに基づいて補間処理を行うことで、新たな前記データポイントにおける前記指向性ゲインを算出する補間処理部をさらに備える
     請求項1に記載の情報処理装置。
  10.  前記指向性データとオーディオデータとを畳み込む指向性畳み込み部をさらに備える
     請求項1に記載の情報処理装置。
  11.  前記指向性データが畳み込まれた前記オーディオデータと、HRTFとを畳み込むHRTF畳み込み部をさらに備える
     請求項10に記載の情報処理装置。
  12.  前記1または複数の分布は、複素Bingham分布または複素watson分布を含む
     請求項2に記載の情報処理装置。
  13.  前記モデルデータには、前記指向性データを球面調和関数展開によりモデル化することで得られた球面調和係数がモデルパラメータとして含まれている
     請求項1に記載の情報処理装置。
  14.  前記モデルデータには、互いに異なる1または複数の方式により前記指向性データをモデル化することで得られたモデルパラメータが含まれている
     請求項1に記載の情報処理装置。
  15.  前記方式は、1または複数の分布からなる混合モデルによりモデル化する方式、および球面調和関数展開によりモデル化する方式のうちの少なくとも何れかを含む
     請求項14に記載の情報処理装置。
  16.  前記モデルデータには、前記1または複数の方式によるモデル化後の前記指向性データと、モデル化前の前記指向性データとの差分を示す差分情報がさらに含まれている
     請求項14に記載の情報処理装置。
  17.  前記差分情報は、ハフマン符号化されている
     請求項16に記載の情報処理装置。
  18.  前記差分情報の実部と虚部のそれぞれが個別にハフマン符号化されている
     請求項17に記載の情報処理装置。
  19.  前記モデルデータには、前記1または複数の方式によるモデル化後の前記指向性データと、モデル化前の前記指向性データとの差分を示す差分情報の空間上の位置間および周波数間のうちの少なくとも何れかの差分をハフマン符号化することで得られた差分符号データが含まれている
     請求項14に記載の情報処理装置。
  20.  前記モデルデータには、前記差分情報の差分の実部と虚部のそれぞれを個別にハフマン符号化することで得られた前記差分符号データが含まれている
     請求項19に記載の情報処理装置。
  21.  前記モデルデータには、前記指向性データを所定の方式によりモデル化することで得られた前記モデルパラメータ、および前記所定の方式によるモデル化後の前記指向性データとモデル化前の前記指向性データとの差分を、前記所定の方式とは異なる方式によりモデル化することで得られた他のモデルパラメータが含まれている
     請求項14に記載の情報処理装置。
  22.  前記モデルデータには、前記指向性データを所定の方式によりモデル化することで得られた前記モデルパラメータ、および前記所定の方式によるモデル化後の前記指向性データとモデル化前の前記指向性データとの比を、前記所定の方式とは異なる方式によりモデル化することで得られた他のモデルパラメータが含まれている
     請求項14に記載の情報処理装置。
  23.  前記モデルデータには、前記指向性データをモデル化することで得られた前記モデルパラメータをさらにモデル化することで得られたモデルパラメータが含まれている
     請求項14に記載の情報処理装置。
  24.  前記モデルデータには、周波数帯域ごとに異なる方式で前記指向性データをモデル化することで得られた前記モデルパラメータが含まれている
     請求項14に記載の情報処理装置。
  25.  情報処理装置が、
     音源の指向性を表す指向性データをモデル化することにより得られたモデルデータを取得し、
     前記モデルデータに基づいて、前記指向性データを算出する
     情報処理方法。
  26.  音源の指向性を表す指向性データをモデル化することにより得られたモデルデータを取得し、
     前記モデルデータに基づいて、前記指向性データを算出する
     処理をコンピュータに実行させるプログラム。
  27.  音源の指向性を表す指向性データを、1または複数の分布からなる混合モデルによりモデル化するモデル化部と、
     前記モデル化により得られた、前記混合モデルを構成するモデルパラメータを含むモデルデータを生成するモデルデータ生成部と
     を備える情報処理装置。
  28.  情報処理装置が、
     音源の指向性を表す指向性データを、1または複数の分布からなる混合モデルによりモデル化し、
     前記モデル化により得られた、前記混合モデルを構成するモデルパラメータを含むモデルデータを生成する
     情報処理方法。
  29.  音源の指向性を表す指向性データを、1または複数の分布からなる混合モデルによりモデル化し、
     前記モデル化により得られた、前記混合モデルを構成するモデルパラメータを含むモデルデータを生成する
     処理をコンピュータに実行させるプログラム。
  30.  音源の指向性を表す指向性データであって、複数の各データポイントにおける複数の各周波数ビンの指向性ゲインからなる指向性データに対して、前記指向性ゲインの前記データポイント間および前記周波数ビン間のうちの少なくとも何れかの差分を求めることにより得られた差分指向性データを取得する取得部と、
     前記差分指向性データに基づいて、前記指向性データを算出する算出部と
     を備える情報処理装置。
  31.  前記差分指向性データは、ハフマン符号化されており、
     前記算出部は、ハフマン符号化された前記差分指向性データの復号を行う
     請求項30に記載の情報処理装置。
  32.  前記差分指向性データの実部と虚部のそれぞれが個別にハフマン符号化されている
     請求項31に記載の情報処理装置。
  33.  情報処理装置が、
     音源の指向性を表す指向性データであって、複数の各データポイントにおける複数の各周波数ビンの指向性ゲインからなる指向性データに対して、前記指向性ゲインの前記データポイント間および前記周波数ビン間のうちの少なくとも何れかの差分を求めることにより得られた差分指向性データを取得し、
     前記差分指向性データに基づいて、前記指向性データを算出する
     情報処理方法。
  34.  音源の指向性を表す指向性データであって、複数の各データポイントにおける複数の各周波数ビンの指向性ゲインからなる指向性データに対して、前記指向性ゲインの前記データポイント間および前記周波数ビン間のうちの少なくとも何れかの差分を求めることにより得られた差分指向性データを取得し、
     前記差分指向性データに基づいて、前記指向性データを算出する
     処理をコンピュータに実行させるプログラム。
PCT/JP2022/000355 2021-10-29 2022-01-07 情報処理装置および方法、並びにプログラム WO2023074009A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
PCT/JP2022/024014 WO2023074039A1 (ja) 2021-10-29 2022-06-15 情報処理装置および方法、並びにプログラム
PCT/JP2022/040170 WO2023074800A1 (ja) 2021-10-29 2022-10-27 情報処理装置および方法、並びにプログラム
AU2022375400A AU2022375400A1 (en) 2021-10-29 2022-10-27 Information processing device, method, and program
TW111141214A TW202325040A (zh) 2021-10-29 2022-10-28 資訊處理裝置及方法、以及程式

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021-177285 2021-10-29
JP2021177285 2021-10-29

Publications (1)

Publication Number Publication Date
WO2023074009A1 true WO2023074009A1 (ja) 2023-05-04

Family

ID=86159690

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/000355 WO2023074009A1 (ja) 2021-10-29 2022-01-07 情報処理装置および方法、並びにプログラム

Country Status (1)

Country Link
WO (1) WO2023074009A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007006359A (ja) * 2005-06-27 2007-01-11 Sony Corp 復号化装置,復号化方法及びデジタル音声通信システム
JP2008107629A (ja) * 2006-10-26 2008-05-08 Nec Corp オーディオ信号の符号化復号化方法、この方法を実施するための装置及びプログラム
WO2020255810A1 (ja) * 2019-06-21 2020-12-24 ソニー株式会社 信号処理装置および方法、並びにプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007006359A (ja) * 2005-06-27 2007-01-11 Sony Corp 復号化装置,復号化方法及びデジタル音声通信システム
JP2008107629A (ja) * 2006-10-26 2008-05-08 Nec Corp オーディオ信号の符号化復号化方法、この方法を実施するための装置及びプログラム
WO2020255810A1 (ja) * 2019-06-21 2020-12-24 ソニー株式会社 信号処理装置および方法、並びにプログラム

Similar Documents

Publication Publication Date Title
US11540080B2 (en) Audio processing apparatus and method, and program
RU2555221C2 (ru) Канальное кодирование на основе комплексного преобразования с частотным кодированием с расширенной полосой
US8379868B2 (en) Spatial audio coding based on universal spatial cues
CN110767242B (zh) 声场的经分解表示的压缩
US8964994B2 (en) Encoding of multichannel digital audio signals
US8190425B2 (en) Complex cross-correlation parameters for multi-channel audio
JP6449455B2 (ja) 高次アンビソニック(hoa)バックグラウンドチャネル間の相関の低減
KR102659722B1 (ko) 공간 확장 음원을 재생하는 장치 및 방법 또는 공간 확장 음원으로부터 비트 스트림을 생성하는 장치 및 방법
US20150163615A1 (en) Method and device for rendering an audio soundfield representation for audio playback
US20070174063A1 (en) Shape and scale parameters for extended-band frequency coding
CN106133828A (zh) 编码装置和编码方法、解码装置和解码方法及程序
WO2023074009A1 (ja) 情報処理装置および方法、並びにプログラム
KR20210071972A (ko) 신호 처리 장치 및 방법, 그리고 프로그램
WO2023074039A1 (ja) 情報処理装置および方法、並びにプログラム
WO2018190151A1 (ja) 信号処理装置および方法、並びにプログラム
CN105340008A (zh) 声场的经分解表示的压缩
TW202029185A (zh) 音訊資料之靈活渲染
US20240087580A1 (en) Three-dimensional audio signal coding method and apparatus, and encoder
CN118140492A (zh) 信息处理装置、方法和程序

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22886346

Country of ref document: EP

Kind code of ref document: A1