WO2022009694A1 - 信号処理装置および方法、並びにプログラム - Google Patents
信号処理装置および方法、並びにプログラム Download PDFInfo
- Publication number
- WO2022009694A1 WO2022009694A1 PCT/JP2021/024098 JP2021024098W WO2022009694A1 WO 2022009694 A1 WO2022009694 A1 WO 2022009694A1 JP 2021024098 W JP2021024098 W JP 2021024098W WO 2022009694 A1 WO2022009694 A1 WO 2022009694A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- audio signal
- correction
- auditory
- unit
- audio
- Prior art date
Links
- 238000012545 processing Methods 0.000 title claims abstract description 117
- 238000000034 method Methods 0.000 title claims abstract description 86
- 238000012937 correction Methods 0.000 claims abstract description 375
- 230000005236 sound signal Effects 0.000 claims abstract description 235
- 238000013139 quantization Methods 0.000 claims description 138
- 238000006243 chemical reaction Methods 0.000 claims description 89
- 230000008569 process Effects 0.000 claims description 69
- 230000000873 masking effect Effects 0.000 claims description 32
- 238000012986 modification Methods 0.000 claims description 18
- 230000004048 modification Effects 0.000 claims description 18
- 238000001228 spectrum Methods 0.000 claims description 14
- 238000003672 processing method Methods 0.000 claims description 12
- 238000005516 engineering process Methods 0.000 abstract description 26
- 238000004364 calculation method Methods 0.000 description 75
- 238000009877 rendering Methods 0.000 description 13
- 239000013598 vector Substances 0.000 description 10
- 230000035807 sensation Effects 0.000 description 6
- 230000001755 vocal effect Effects 0.000 description 6
- 230000035945 sensitivity Effects 0.000 description 5
- 230000006866 deterioration Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 238000004091 panning Methods 0.000 description 2
- 241001342895 Chorus Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- HAORKNGNJCEJBX-UHFFFAOYSA-N cyprodinil Chemical compound N=1C(C)=CC(C2CC2)=NC=1NC1=CC=CC=C1 HAORKNGNJCEJBX-UHFFFAOYSA-N 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000002459 sustained effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
- G10L19/035—Scalar quantisation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
Definitions
- the present technology relates to signal processing devices and methods, and programs, and in particular, to signal processing devices, methods, and programs capable of improving coding efficiency.
- 3D Audio which is handled by the MPEG-H 3D Audio standard, etc., it has metadata for each object such as horizontal angle, vertical angle, distance, gain about the object, etc. that indicate the position of the sound material (object), and is a three-dimensional sound. It is possible to reproduce the direction, distance, and spread of the object. Therefore, 3D Audio enables more realistic audio playback than conventional stereo playback.
- This technology was made in view of such a situation, and makes it possible to improve the coding efficiency.
- the signal processing device of the first aspect of the present technology is based on a correction unit that corrects the audio signal of the audio object based on the gain value included in the metadata of the audio object, and a signal obtained by the correction. It is provided with a quantization unit that calculates audio psychological parameters and quantizes the audio signal.
- the signal processing method or program of the first aspect of the present technology corrects the audio signal of the audio object based on the gain value included in the metadata of the audio object, and based on the signal obtained by the correction. It comprises the step of calculating the auditory psychological parameters and quantizing the audio signal.
- a correction is made to the audio signal of the audio object based on the gain value included in the metadata of the audio object, and the auditory psychological parameter is set based on the signal obtained by the correction. Calculated and the audio signal is quantized.
- the signal processing device of the second aspect of the present technology is obtained by the correction unit that corrects the gain value and the audio signal of the audio object based on the gain value included in the metadata of the audio object, and the correction. It is equipped with a quantization unit that quantizes the modified audio signal.
- the signal processing method or program of the second aspect of the present technology modifies the gain value and the audio signal of the audio object based on the gain value included in the metadata of the audio object, and is obtained by the modification. Includes steps to quantize the modified audio signal.
- the gain value and the audio signal of the audio object are modified based on the gain value included in the metadata of the audio object, and the modified audio signal obtained by the modification is obtained. It is quantized.
- the signal processing device of the third aspect of the present invention is an auditory sense regarding the metadata including at least one of the gain value and the position information of the audio object, the audio signal of the audio object, and the auditory masking between the plurality of the audio objects. It is provided with a quantization unit that calculates an auditory psychological parameter based on a psychological model and quantizes the audio signal based on the auditory psychological parameter.
- the signal processing method or program of the third aspect of the present invention includes metadata including at least one of a gain value and a position information of an audio object, an audio signal of the audio object, and auditory masking between a plurality of the audio objects. It comprises the step of calculating the auditory psychological parameters based on the auditory psychological model with respect to and quantizing the audio signal based on the auditory psychological parameters.
- a metadata including at least one of a gain value and a position information of an audio object, an audio signal of the audio object, and an auditory psychological model relating to auditory masking between a plurality of the audio objects.
- the auditory psychological parameters are calculated based on the auditory psychological parameters, and the audio signal is quantized based on the auditory psychological parameters.
- the signal processing device of the fourth aspect of the present technology is an adjustment defined for the sound source type indicated by the label information based on the audio signal of the audio object and the label information indicating the sound source type of the audio object.
- a quantization unit for quantizing the audio signal is provided by at least one of a parameter and an algorithm.
- the signal processing method or program of the fourth aspect of the present technology is defined for the sound source type indicated by the label information based on the audio signal of the audio object and the label information indicating the sound source type of the audio object. It comprises the step of quantizing the audio signal with at least one of the adjustment parameters and the algorithm.
- the audio signal is quantized by at least one of the above.
- the object metadata is encoded by the meta encoder
- the object audio signal is encoded by the core encoder.
- the meta-encoder quantizes each parameter constituting the metadata and encodes the quantized parameter obtained as a result to obtain the encoded metadata.
- the core encoder performs time-frequency conversion using MDCT (Modified Discrete Cosine Transform) on the audio signal, and quantizes the resulting MDCT coefficient to obtain the quantized MDCT coefficient. .. Bit allocation is also performed during the quantization of the MDCT coefficient.
- the core encoder encodes the quantized MDCT coefficient to obtain the encoded audio data.
- MDCT Modified Discrete Cosine Transform
- the coded metadata and the coded audio data obtained in this way are combined into one bit stream and output.
- a plurality of parameters as metadata are input to the meta encoder 11, and an audio signal (waveform signal) for reproducing the sound of the object is input to the core encoder 12.
- the meta-encoder 11 has a quantization unit 21 and a coding unit 22, and metadata is input to the quantization unit 21.
- the quantization unit 21 When the process of encoding the metadata in the metadata encoder 11 is started, the quantization unit 21 first replaces the value of each parameter as the metadata with an upper limit value or a lower limit value as necessary. After that, each parameter is quantized to obtain the quantized parameter.
- the horizontal angle (Azimuth), vertical angle (Elevation), distance (Radius), gain value (Gain), and other parameters (Other parameters) are input to the quantization unit 21 as the parameters constituting the metadata. Will be done.
- the horizontal angle (Azimuth) and the vertical angle (Elevation) are horizontal and vertical angles indicating the position of the object as seen from the reference listening position in the three-dimensional space.
- the distance (Radius) indicates the distance from the reference listening position to the object, which indicates the position of the object in the three-dimensional space.
- the information consisting of these horizontal angles, vertical angles, and distances is the position information indicating the position of the object.
- the gain value (Gain) is the gain for correcting the gain of the audio signal of the object
- the other parameters (Other parameters) are the parameters for the spread processing that expands the sound image, the priority of the object, and the like.
- Each parameter constituting the metadata is set to be a value within the value range, which is a predetermined range shown in FIG.
- spread parameters for spread processing and are examples of other parameters (Other parameters).
- dynamic object priority is a parameter indicating the priority of the object, and this parameter is also an example of other parameters (Other parameters).
- the value range of the horizontal angle (Azimuth) is from the lower limit of -180 degrees to the upper limit of 180 degrees.
- the horizontal angle input to the quantization unit 21 exceeds the range of this value range, that is, if it is out of the range, the horizontal angle is replaced with the lower limit value "-180" or the upper limit value "180". Quantization is performed after it is done. That is, if the input horizontal angle is larger than the upper limit value, the upper limit value "180” is the horizontal angle after restriction (replacement), and if the horizontal angle is smaller than the lower limit value, the lower limit value. "-180" is the horizontal angle after restriction.
- the value range of the gain value (Gain) is from 0.004, which is the lower limit, to 5.957, which is the upper limit.
- the gain value is described here as a linear value.
- the quantization parameter is encoded by the coding unit 22 and obtained as a result.
- the coded metadata is output.
- differential coding is performed on the quantization parameter, and coding metadata is generated.
- the core encoder 12 has a time-frequency conversion unit 31, a quantization unit 32, and a coding unit 33, and an audio signal of an object is input to the time-frequency conversion unit 31.
- the quantization unit 32 has an auditory psychological parameter calculation unit 41 and a bit allocation unit 42.
- the time-frequency conversion unit 31 first performs MDCT, that is, time-frequency conversion on the input audio signal, and as a result, the frequency spectrum information.
- MDCT time-frequency conversion
- the quantization unit 32 the MDCT coefficient obtained by time-frequency conversion (MDCT) is quantized for each scale factor band, and as a result, the quantized MDCT coefficient is obtained.
- MDCT time-frequency conversion
- the scale factor band is a band (frequency band) obtained by bundling a plurality of subbands having a predetermined bandwidth, which is the resolution of a QMF (Quadrature Mirror Filter) analysis filter.
- QMF Quadrature Mirror Filter
- the auditory psychological parameter calculation unit 41 calculates the auditory psychological parameters for considering the human auditory characteristics (auditory masking) with respect to the MDCT coefficient.
- bit allocation unit 42 the MDCT coefficient obtained by the time-frequency conversion and the auditory psychological parameter obtained by the auditory psychological parameter calculation unit 41 are used, and the quantization bit and the quantization noise of each scale factor band are used. Bit allocation is performed based on the auditory psychological model, which calculates and evaluates.
- the bit allocation unit 42 quantizes the MDCT coefficient for each scale factor band based on the result of the bit allocation, and supplies the quantized MDCT coefficient obtained as a result to the coding unit 33.
- the coding unit 33 for example, context-based arithmetic coding is performed on the quantized MDCT coefficient supplied from the bit allocation unit 42, and the coded audio data obtained as a result is the code of the audio signal. It is output as conversion data.
- the object metadata and the audio signal are encoded by the meta encoder 11 and the core encoder 12.
- the MDCT coefficient used for the calculation of the auditory psychological parameter is obtained by performing MDCT, that is, time-frequency conversion on the input audio signal.
- the gain value of the metadata is applied, so that it is used at the time of auditory psychological parameter calculation and at the time of viewing. There will be a discrepancy in the audio signal.
- FIG. 4 is a diagram showing a configuration example of an embodiment of a coding device to which the present technology is applied.
- the same reference numerals are given to the portions corresponding to those in FIG. 2, and the description thereof will be omitted as appropriate.
- the coding device 71 shown in FIG. 4 is realized by a signal processing device such as a server that distributes the contents of an audio object, and has a meta encoder 11, a core encoder 12, and a multiplexing unit 81.
- the meta-encoder 11 has a quantization unit 21 and a coding unit 22, and the core encoder 12 includes an audio signal correction unit 91, a time frequency conversion unit 92, a time frequency conversion unit 31, and a quantization unit 32. And has a coding unit 33.
- the quantization unit 32 has an auditory psychological parameter calculation unit 41 and a bit allocation unit 42.
- the configuration of the coding device 71 is such that the multiplexing unit 81, the audio signal correction unit 91, and the time frequency conversion unit 92 are newly provided in addition to the configuration shown in FIG. 2, and the other points are shown in FIG. It has the same configuration as shown in 2.
- the multiplexing unit 81 multiplexes the coded metadata supplied from the coding unit 22 and the coded audio data supplied from the coding unit 33 to generate and output a bit stream. do.
- the audio signal of the object and the gain value of the object constituting the metadata are supplied to the audio signal correction unit 91.
- the audio signal correction unit 91 performs gain correction on the supplied audio signal based on the supplied gain value, and supplies the gain-corrected audio signal to the time-frequency conversion unit 92. For example, in the audio signal correction unit 91, the gain value is multiplied by the audio signal, and the audio signal is gain-corrected. That is, here, the correction for the audio signal is performed in the time domain.
- the time-frequency conversion unit 92 performs MDCT on the audio signal supplied from the audio signal correction unit 91, and supplies the MDCT coefficient obtained as a result to the auditory psychological parameter calculation unit 41.
- the audio signal obtained by gain correction in the audio signal correction unit 91 is also referred to as a correction audio signal in particular
- the MDCT coefficient obtained by MDCT in the time-frequency conversion unit 92 is also referred to as a correction MDCT coefficient in particular. It will be called.
- the MDCT coefficient obtained by the time-frequency conversion unit 31 is not supplied to the auditory psychological parameter calculation unit 41, and the corrected MDCT coefficient supplied from the time-frequency conversion unit 92 in the auditory psychological parameter calculation unit 41.
- the auditory psychological parameters are calculated based on.
- the audio signal correction unit 91 at the beginning performs gain correction by applying the gain value included in the metadata to the audio signal of the input object as in the case of rendering.
- MDCT is performed on the corrected audio signal obtained by the gain correction by the time frequency conversion unit 92 separately from the bit allocation, and the corrected MDCT coefficient is obtained.
- the quantization bit can be more appropriately assigned to each scale factor band, and the coding efficiency can be improved.
- the gain value of the metadata before quantization is used for the gain correction in the audio signal correction unit 91 .
- the gain value after coding or after quantization is supplied to the audio signal correction unit 91. , May be used for gain correction.
- the gain value after coding or quantization is decoded or dequantized, and the gain correction of the audio signal is performed based on the gain value obtained as a result. It is performed and is regarded as a corrected audio signal.
- step S11 the quantization unit 21 quantizes each parameter as the supplied metadata, and supplies the resulting quantization parameter to the coding unit 22.
- the quantization unit 21 performs quantization after replacing the parameter larger than the predetermined value range with the upper limit value of the value range, and similarly performs the quantization, and similarly, the lower limit for the parameter smaller than the value range. Quantization is performed after replacement with a value.
- step S12 the coding unit 22 performs differential coding on the quantization parameter supplied from the quantization unit 21, and supplies the coding metadata obtained as a result to the multiplexing unit 81.
- step S13 the audio signal correction unit 91 performs gain correction based on the gain value of the supplied metadata with respect to the audio signal of the supplied object, and the corrected audio signal obtained as a result is used as the time-frequency conversion unit 92. Supply to.
- step S14 the time-frequency conversion unit 92 performs MDCT (time-frequency conversion) on the corrected audio signal supplied from the audio signal correction unit 91, and supplies the corrected MDCT coefficient obtained as a result to the auditory psychological parameter calculation unit 41. ..
- step S15 the time-frequency conversion unit 31 performs MDCT (time-frequency conversion) on the audio signal of the supplied object, and supplies the resulting MDCT coefficient to the bit allocation unit 42.
- MDCT time-frequency conversion
- step S16 the auditory psychological parameter calculation unit 41 calculates the auditory psychological parameter based on the corrected MDCT coefficient supplied from the time-frequency conversion unit 92, and supplies the auditory psychological parameter to the bit allocation unit 42.
- step S17 the bit allocation unit 42 performs bit allocation based on the auditory psychological model based on the auditory psychological parameters supplied from the auditory psychological parameter calculation unit 41 and the MDCT coefficient supplied from the time-frequency conversion unit 31. Based on the result, the MDCT coefficient is quantized for each scale factor band.
- the bit allocation unit 42 supplies the quantized MDCT coefficient obtained by the quantization to the coding unit 33.
- step S18 the coding unit 33 performs context-based arithmetic coding on the quantized MDCT coefficient supplied from the bit allocation unit 42, and supplies the coded audio data obtained as a result to the multiplexing unit 81. do.
- step S19 the multiplexing unit 81 multiplexes the coded metadata supplied from the coding unit 22 and the coded audio data supplied from the coding unit 33 to generate and output a bit stream.
- the coding device 71 corrects the audio signal based on the gain value of the metadata before coding, and calculates the auditory psychological parameter based on the corrected audio signal obtained as a result. By doing so, it is possible to obtain auditory psychological parameters that are more in line with the actual hearing sensation, and it is possible to improve the coding efficiency.
- the coding device 71 is configured as shown in FIG. 6, for example.
- the same reference numerals are given to the portions corresponding to those in FIG. 4, and the description thereof will be omitted as appropriate.
- the coding device 71 shown in FIG. 6 has a meta encoder 11, a core encoder 12, and a multiplexing unit 81.
- the meta-encoder 11 has a quantization unit 21 and a coding unit 22, and the core encoder 12 includes a time-frequency conversion unit 31, an MDCT coefficient correction unit 131, a quantization unit 32, and a coding unit 33.
- the quantization unit 32 has an auditory psychological parameter calculation unit 41 and a bit allocation unit 42.
- the configuration of the coding device 71 shown in FIG. 6 is different from the configuration of the coding device 71 of FIG. 4 in that an MDCT coefficient correction unit 131 is provided instead of the time frequency conversion unit 92 and the audio signal correction unit 91. In that respect, it has the same configuration as the coding device 71 of FIG.
- MDCT is performed on the audio signal of the object by the time-frequency conversion unit 31, and the MDCT coefficient obtained as a result is supplied to the MDCT coefficient correction unit 131 and the bit allocation unit 42.
- the MDCT coefficient correction unit 131 corrects the MDCT coefficient supplied from the time-frequency conversion unit 31 based on the gain value of the supplied metadata, and the corrected MDCT coefficient obtained as a result is auditory. It is supplied to the psychological parameter calculation unit 41.
- the MDCT coefficient correction unit 131 the MDCT coefficient is multiplied by the gain value to correct the MDCT coefficient.
- the audio signal is gain-corrected in the frequency domain.
- the reproducibility of the gain correction is higher than in the case of the first embodiment in which the gain correction is performed by the gain value of the metadata in the time domain as in the actual rendering. It drops a little. That is, the corrected MDCT coefficients are not as accurate as in the first embodiment.
- the auditory psychological parameter calculation unit 41 calculates the auditory psychological parameters by the auditory psychological parameter calculation unit 41 based on the corrected MDCT coefficient.
- the amount of calculation is substantially the same as in the case of FIG. You can get the parameters.
- the coding efficiency can be improved while keeping the calculation load low.
- FIG. 6 has described an example in which the gain value of the metadata before quantization is used for the correction of the MDCT coefficient, the gain value after coding or after quantization may be used.
- the MDCT coefficient correction unit 131 corrects the MDCT coefficient based on the gain value obtained as a result of decoding or dequantizing the gain value after coding or quantization. It is the corrected MDCT coefficient.
- step S51 and step S52 Since the processing of step S51 and step S52 is the same as the processing of step S11 and step S12 of FIG. 5, the description thereof will be omitted.
- step S53 the time-frequency conversion unit 31 performs MDCT on the audio signal of the supplied object, and supplies the MDCT coefficient obtained as a result to the MDCT coefficient correction unit 131 and the bit allocation unit 42.
- step S54 the MDCT coefficient correction unit 131 corrects the MDCT coefficient supplied from the time-frequency conversion unit 31 based on the gain value of the supplied metadata, and hears the corrected MDCT coefficient obtained as a result. It is supplied to the psychological parameter calculation unit 41.
- step S55 the auditory psychological parameter calculation unit 41 calculates the auditory psychological parameter based on the corrected MDCT coefficient supplied from the MDCT coefficient correction unit 131.
- the coding device 71 corrects the audio signal (MDCT coefficient) in the frequency domain, and calculates the auditory psychological parameter based on the obtained corrected MDCT coefficient.
- the gain value of the metadata before encoding is not always a value within the specification range of MPEG-H.
- the gain value of the metadata may be set to a value larger than 5.957 ( ⁇ 15.50 dB) in order to match the volume of an object with an extremely low waveform level with the volume of another object. .. Conversely, the metadata gain value may be less than 0.004 ( ⁇ -49.76 dB) for unwanted sounds.
- the metadata gain value is limited to the upper or lower limit of the value range shown in FIG. 3, the sound actually heard during playback is heard. Is different from the intention of the content creator.
- the gain value of the metadata is out of the range of the MPEG-H specification, it is possible to perform preprocessing to correct the gain value of the metadata and the audio signal so as to comply with the MPEG-H specification.
- the sound that is close to the intention of the content creator may be reproduced.
- the coding device 71 is configured as shown in FIG. 8, for example.
- the parts corresponding to the case in FIG. 6 are designated by the same reference numerals, and the description thereof will be omitted as appropriate.
- the coding device 71 shown in FIG. 8 has a correction unit 161, a meta encoder 11, a core encoder 12, and a multiplexing unit 81.
- the meta-encoder 11 has a quantization unit 21 and a coding unit 22, and the core encoder 12 includes a time-frequency conversion unit 31, an MDCT coefficient correction unit 131, a quantization unit 32, and a coding unit 33.
- the quantization unit 32 has an auditory psychological parameter calculation unit 41 and a bit allocation unit 42.
- the configuration of the coding device 71 shown in FIG. 8 is different from the configuration of the coding device 71 of FIG. 6 in that a correction unit 161 is newly provided, and is the same configuration as the coding device 71 of FIG. 6 in other respects. It has become.
- the metadata and audio signals of the objects constituting the content are supplied to the correction unit 161.
- the correction unit 161 checks (confirms) whether the gain value of the supplied metadata is outside the MPEG-H specification range, that is, whether there is a gain value outside the above-mentioned value range.
- the correction unit 161 corrects the gain value and the audio signal corresponding to the gain value by correcting the gain value and the audio signal based on the MPEG-H specifications. Perform as preprocessing.
- the correction unit 161 corrects the gain value outside the value range (MPEG-H specification range) to the upper limit value or the lower limit value of the value range, and sets it as the correction gain value.
- the upper limit value is regarded as the corrected gain value which is the corrected gain value, and when the gain value is smaller than the lower limit value of the value range, the corrected gain value is set.
- the lower limit is the modified gain value.
- correction unit 161 does not correct (change) parameters other than the gain value among the plurality of parameters as metadata.
- the correction unit 161 performs gain correction on the audio signal of the supplied object based on the gain value before correction and the correction gain value, and obtains the correction audio signal. That is, the audio signal is corrected (gain correction) based on the difference between the gain value before the correction and the corrected gain value.
- the output of the rendering based on the metadata (gain value) and the audio signal before modification is equal to the output of the rendering based on the metadata (correction gain value) and the modification audio signal after modification.
- Gain correction is performed.
- the correction unit 161 corrects the above gain value and audio signal as preprocessing, and corrects the data consisting of the corrected gain value as necessary and other parameters other than the gain value of the supplied metadata. It is supplied to the quantization unit 21 as later metadata, and a gain value corrected as necessary is supplied to the MDCT coefficient correction unit 131.
- correction unit 161 supplies the corrected audio signal to the time frequency conversion unit 31 as needed.
- the metadata and the gain value output from the correction unit 161 will also be referred to as the correction metadata and the correction gain value regardless of whether or not the correction has been made.
- the audio signal output from the correction unit 161 will also be referred to as a correction audio signal.
- the modified metadata is the input of the meta encoder 11
- the modified audio signal and the modified gain value are the inputs of the core encoder 12.
- the gain value is not substantially limited by the MPEG-H specifications, so that the rendering result as intended by the content creator can be obtained.
- the meta-encoder 11 and the core encoder 12 receive the modified metadata and the modified audio signal as inputs, and perform the same processing as the example shown in FIG.
- MDCT is performed on the corrected audio signal by the time-frequency conversion unit 31, and the MDCT coefficient obtained as a result is supplied to the MDCT coefficient correction unit 131 and the bit allocation unit 42.
- the MDCT coefficient correction unit 131 corrects the MDCT coefficient supplied from the time-frequency conversion unit 31 based on the correction gain value supplied from the correction unit 161, and the correction MDCT coefficient obtained as a result is corrected. Is supplied to the auditory psychological parameter calculation unit 41.
- the gain of the modified audio signal is corrected by the modified gain value in the time domain as in the first embodiment, and then the MDCT is performed. May determine the corrected MDCT coefficient.
- FIG. 9 shows the gain value for each frame of the metadata of a predetermined object.
- the horizontal axis represents a frame and the vertical axis represents a gain value.
- the polygonal line L11 shows the gain value in each frame before the correction
- the polygonal line L12 shows the gain value after the correction in each frame, that is, the correction gain value
- the straight line L13 indicates the MPEG-H specification range, that is, the lower limit of the above-mentioned value range (0.004 ( ⁇ -49.76 dB)), and the straight line L14 indicates the upper limit of the MPEG-H specification range (5.957 ( ⁇ 5.957)). 15.50dB)) is shown.
- the gain value before correction in the frame "2" is a value smaller than the lower limit value indicated by the straight line L13, so the gain value is replaced with the lower limit value to be the corrected gain value.
- the gain value before correction in the frame "4" is a value larger than the upper limit value indicated by the straight line L14, the gain value is replaced with the upper limit value to be the corrected gain value.
- the modified gain value in each frame is within the MPEG-H specification range (value range).
- FIG. 10 shows the audio signal before the correction by the correction unit 161
- FIG. 11 shows the correction audio signal obtained by correcting the audio signal shown in FIG. 10.
- the horizontal axis represents time and the vertical axis represents signal level.
- the signal level of the audio signal before correction is a constant level regardless of time.
- the signal level is different at each time as shown in FIG. 11, that is, the correction audio signal whose signal level is not constant. Is obtained.
- the signal level of the modified audio signal is higher than that before the modification in the sample in which the gain value of the metadata is reduced by the modification, that is, the sample is replaced with the upper limit value.
- the signal level of the modified audio signal is smaller than that before the modification in the sample in which the gain value of the metadata is increased by the modification, that is, the sample is replaced with the lower limit value.
- step S91 the correction unit 161 corrects the metadata as necessary, more specifically, the gain value of the metadata and the audio signal of the supplied object according to the gain value of the metadata of the supplied object. do.
- the correction unit 161 makes a correction to replace the gain value with the upper limit value or the lower limit value of the value range. , Corrects the audio signal based on the gain value before and after the correction.
- the correction unit 161 supplies the quantization unit 21 with the correction metadata consisting of the correction gain value obtained by making appropriate corrections and the parameters of the metadata other than the supplied gain value, and also supplies the correction gain value. It is supplied to the MDCT coefficient correction unit 131.
- correction unit 161 supplies the correction audio signal obtained by performing correction as appropriate to the time frequency conversion unit 31.
- steps S92 to S99 are then performed to end the coding process, but these processes are performed in steps S51 to S58 of FIG. Since it is the same as the process, the description thereof will be omitted.
- step S92 and step S93 the modified metadata is quantized and encoded, and in step S94, MDCT is performed on the modified audio signal.
- step S95 the MDCT coefficient is corrected based on the MDCT coefficient obtained in step S94 and the corrected gain value supplied from the correction unit 161, and the corrected MDCT coefficient obtained as a result is the auditory psychology. It is supplied to the parameter calculation unit 41.
- the coding device 71 corrects the input metadata and the audio signal as necessary, and then performs coding.
- the gain value is not substantially limited by the MPEG-H specifications, and the rendering result as intended by the content creator can be obtained.
- how to feel the loudness differs depending on the direction of arrival of the sound from the sound source.
- the loudness of the audible sound is different depending on whether the sound source is in the front, side, upper, and lower directions with respect to the listener. Therefore, in order to calculate the auditory psychological parameters according to the actual hearing sensation, it is necessary to correct the gain based on the difference in sound pressure sensitivity depending on the direction of arrival of the sound from the sound source.
- FIG. 13 shows that when a certain pink noise is reproduced in front of the listener, the loudness of the audible sound is used as a reference, and when the same pink noise is reproduced from different directions, the loudness of the audible sound is the same.
- An example of the gain correction amount when the pink noise gain correction is performed is shown.
- the vertical axis shows the gain correction amount
- the horizontal axis shows Azimuth (horizontal angle), which is a horizontal angle indicating the sound source position as seen by the listener.
- Azimuth which indicates the direction directly in front of the listener
- Azimuth which indicates the direction directly beside the listener, that is, sideways
- ⁇ 90 degrees and is the direction behind the listener, that is, directly behind.
- Azimuth is 180 degrees.
- the left direction from the listener's point of view is the positive direction of Azimuth.
- This example shows the average value of the gain correction amount for each Azimuth obtained from the results of experiments conducted on multiple listeners, and in particular, the range represented by the dotted line in each Azimuth is 95%. It shows the confidence interval.
- the auditory psychological parameter considering the auditory characteristic can be obtained. ..
- a gain correction unit 191 and an auditory characteristic table holding unit 192 may be provided.
- the gain correction unit 191 is supplied with the gain value included in the metadata of the object, and the horizontal angle (Azimuth), the vertical angle (Elevation), and the distance (Radius) as the position information included in the metadata of the object. Is supplied.
- the gain value is assumed to be 1.0.
- the gain correction unit 191 shows a gain correction amount that corrects the gain value of the object based on the position information as the supplied metadata and the auditory characteristic table held in the auditory characteristic table holding unit 192. Determine the value.
- the gain correction unit 191 corrects the supplied gain value based on the determined gain correction value, and outputs the gain value obtained as a result as the correction gain value.
- the gain correction unit 191 determines the gain correction value according to the direction of the object (sound arrival direction) as seen from the listener, which is indicated by the position information, and the audio signal used for calculating the auditory psychological parameters. Determines the correction gain value for gain correction of.
- the auditory characteristic table holding unit 192 holds an auditory characteristic table showing the auditory characteristic regarding the direction of arrival of the sound from the sound source, and supplies the gain correction value indicated by the auditory characteristic table to the gain correction unit 191 as needed. ..
- the auditory characteristic table is an auditory characteristic that indicates a gain correction amount that makes the loudness of the audible sound constant with respect to the direction of arrival of the sound from the sound source.
- the gain correction value shown by the auditory characteristic table is determined according to the auditory characteristic of a person with respect to the direction of arrival of the sound, and the loudness of the sound on hearing is constant regardless of the direction of arrival of the sound.
- Gain correction amount is a correction value for correcting the gain value based on the auditory characteristic regarding the arrival direction of the sound.
- the audio signal of an object is gain-corrected using the corrected gain value obtained by correcting the gain value according to the gain correction value indicated by the auditory characteristic table, the sound of the same object is the same regardless of the position of the object. You will be able to hear it in size.
- FIG. 15 shows an example of an auditory characteristic table.
- the gain correction value is associated with the position of the object determined by the horizontal angle (Azimuth), the vertical angle (Elevation), and the distance (Radius), that is, the direction of the object.
- Elevation and Radius are 0 and 1.0, the vertical position of the object is at the same height as the listener, and the distance from the listener to the object. Is always assumed to be constant.
- the object that is the sound source when the object that is the sound source is behind the listener, for example, when the horizontal angle is 180 degrees, the object is the listener, for example, when the horizontal angle is 0 degrees or 30 degrees.
- the gain correction value is larger than when it is in front.
- the gain correction value for the object's position from Figure 15 is -0.52 dB. ..
- the gain correction unit 191 calculates the following equation (1) based on the gain correction value “-0.52 dB” read from the auditory characteristic table and the gain value “1.0”, and obtains the correction gain value “0.94”. obtain.
- the gain correction value corresponding to the position of the object is 0.51 dB from FIG. ..
- the gain correction unit 191 calculates the following equation (2) based on the gain correction value “0.51 dB” read from the auditory characteristic table and the gain value “1.0”, and obtains the correction gain value “1.06”. ..
- FIG. 15 has described an example of using a gain correction value determined based on a two-dimensional auditory characteristic in which only the horizontal direction is considered. That is, an example of using an auditory characteristic table (hereinafter, also referred to as a two-dimensional auditory characteristic table) generated based on two-dimensional auditory characteristics has been described.
- an auditory characteristic table hereinafter, also referred to as a two-dimensional auditory characteristic table
- the gain value may be corrected by using the gain correction value determined based on the three-dimensional auditory characteristics in consideration of not only the horizontal direction but also the vertical direction characteristics.
- the auditory characteristic table shown in FIG. 16 can be used.
- the gain correction value is associated with the position of the object determined by the horizontal angle (Azimuth), the vertical angle (Elevation), and the distance (Radius), that is, the direction of the object.
- the distance is 1.0 for all combinations of horizontal and vertical angles.
- the auditory characteristic table generated based on the three-dimensional auditory characteristics with respect to the arrival direction of the sound will be referred to particularly as a three-dimensional auditory characteristic table.
- the gain correction value corresponding to the position of the object is -0.07 dB from FIG.
- the gain correction unit 191 calculates the following equation (3) based on the gain correction value “-0.07 dB” read from the auditory characteristic table and the gain value “1.0”, and obtains the correction gain value “0.99”. obtain.
- the gain correction value based on the auditory characteristics determined for the position (direction) of the object was prepared in advance. That is, an example in which the gain correction value corresponding to the position information of the object is stored in the auditory characteristic table has been described.
- the position of the object is not always the position where the corresponding gain correction value is stored in the auditory characteristic table.
- the auditory characteristic table holding unit 192 holds the auditory characteristic table shown in FIG. 16, and the horizontal angle, vertical angle, and distance as position information are -120 degrees, 15 degrees, and 1.0 m.
- the auditory characteristic table of FIG. 16 does not store the gain correction values corresponding to the horizontal angle "-120", the vertical angle "15", and the distance "1.0".
- the gain correction unit 191 may calculate the gain correction value at a desired position by interpolation processing or the like. In other words, by performing interpolation processing or the like based on the gain correction value associated with each of a plurality of positions in the vicinity of the position indicated by the position information, the gain correction value of the position indicated by the position information can be obtained. Desired.
- VBAP Vector Base Amplitude Panning
- VBAP (3-point VBAP) is an amplitude panning method often used in rendering 3D spatial acoustics.
- the position of the virtual speaker can be arbitrarily changed by giving a weighted gain to each of the three real speakers in the vicinity of the virtual speaker and reproducing the sound source signal.
- the direction of the synthetic vector obtained by weighting and adding the vectors L1, the vector L2, and the vector L3 in the three directions from the listening position to each real speaker by the gain given to the real speaker is the direction of the virtual speaker (Lp).
- the gain vg1, gain vg2, and gain vg3 of each real speaker are obtained so as to match with.
- the gain vg1 to the gain vg3 satisfying the following equation (4) can be obtained.
- the positions of the above three real speakers are the positions where the three gain correction values CG1, the gain correction value CG2, and the gain correction value CG3 corresponding to the auditory characteristic table exist. Further, the position of the above-mentioned virtual speaker is set to an arbitrary position where there is no gain correction value corresponding to the auditory characteristic table.
- the gain correction value CGp at the position of the virtual speaker can be obtained by calculating the following equation (5).
- equation (5) first, the above-mentioned weighted gains vg1, gain vg2, and gain vg3 obtained by VBAP are normalized so that the sum of squares is 1, and the ratio R1, the ratio R2, and the ratio R2 are normalized.
- the ratio R3 is required.
- the combined gain obtained by weighting and adding the gain correction value CG1, the gain correction value CG2, and the gain correction value CG3 of the actual speaker position by the obtained ratio R1, ratio R2, and ratio R3 is the position of the virtual speaker.
- the gain correction value in CGp is the position of the virtual speaker.
- the mesh is divided at a plurality of positions where gain correction values are prepared in the three-dimensional space. That is, for example, assuming that gain correction values for each of the three positions in the three-dimensional space are prepared, one triangular region having those three positions as vertices is regarded as one mesh.
- the desired position for which the gain correction value is to be obtained is set as the attention position, and the mesh including the attention position is specified.
- the coefficient to be multiplied by the position vector indicating each of the three vertex positions when the position vector indicating the position of interest is expressed by multiplying and adding the position vectors indicating the three vertex positions constituting the specified mesh is obtained by VBAP. Be done.
- each of the three coefficients thus obtained normalized so that the sum of squares is 1, is multiplied by each of the gain correction values of the three vertex positions of the mesh including the position of interest.
- the sum of the gain correction values multiplied by the coefficients is calculated as the gain correction value at the position of interest.
- the normalization may be performed by any method such as making the sum or the sum of cubes or more becoming 1.
- the gain correction value interpolation method is not limited to interpolation using VBAP, and any other method may be used.
- the gain correction value at the position closest to the attention position where the gain correction value is prepared (stored) is used as the gain correction value at the attention position. You may.
- one gain correction value is prepared for each position.
- the gain correction value is uniform at all frequencies.
- a gain correction value may be prepared for each of a plurality of frequencies for one position.
- FIG. 17 shows an example of an auditory characteristic table when there are gain correction values at three frequencies for one position.
- the gain correction values at each of the three frequencies of 250Hz, 1kHz, and 8kHz are associated with the position determined by the horizontal angle (Azimuth), the vertical angle (Elevation), and the distance (Radius).
- the distance (Radius) is assumed to be a constant value, and the value is not recorded in the auditory characteristic table.
- the gain correction value at 250 Hz is -0.91
- the gain correction value at 1 kHz is -1.34
- the gain correction value at 8 kHz is -0.92. It is said that.
- an auditory characteristic table in which gain correction values at three frequencies of 250 Hz, 1 kHz, and 8 kHz are prepared for each position is shown as an example.
- the present invention is not limited to this, and in the auditory characteristic table, the number of frequencies for which the gain correction value is prepared for each position and the frequency for which the gain correction value is prepared can be any number or frequency.
- the gain correction value of the desired frequency may not be stored in the auditory characteristic table with respect to the position of the object.
- the gain correction unit 191 performs interpolation processing or the like based on the gain correction value associated with a plurality of other frequencies in the vicinity of the desired frequency at the position of the object or the position near the position in the auditory characteristic table. Thereby, the gain correction value of the desired frequency at the position of the object may be obtained.
- interpolation processing when obtaining the gain correction value of a desired frequency by interpolation processing, how is linear interpolation such as 0th-order interpolation or linear interpolation, non-linear interpolation such as spline interpolation, interpolation processing that combines arbitrary linear interpolation and non-linear interpolation, etc. Interpolation processing may be performed.
- the gain correction value may be determined based on the gain correction value of the nearby frequency. Alternatively, it may be a fixed value such as 0 dB.
- FIG. 18 shows an example when the value is obtained by the interpolation process.
- the vertical axis indicates the gain correction value
- the horizontal axis indicates the frequency.
- interpolation processing such as linear interpolation and non-linear interpolation is performed based on the gain correction values at each frequency of 250Hz, 1kHz, and 8kHz, and the gain correction values of all frequencies are obtained.
- the auditory characteristic table holding unit 192 is made to hold the auditory characteristic table for each of a plurality of reproduced sound pressures, and the gain correction unit 191 is based on the sound pressure of the audio signal of the object from the auditory characteristic tables. You may choose the appropriate one. That is, the gain correction unit 191 may switch the auditory characteristic table used for correcting the gain value according to the reproduced sound pressure.
- the gain correction value of the auditory characteristic table is interpolated. It may be obtained by processing or the like.
- the gain correction unit 191 may correct the gain at a predetermined position in the auditory characteristic table that is close to the sound pressure of the audio signal of the object, that is, is associated with a plurality of other reproduced sound pressures in the vicinity of the sound pressure.
- the gain correction value at a predetermined position in the sound pressure of the audio signal of the object is obtained.
- the interpolation may be performed by adding weights according to the spacing between the curves in the equal loudness curve.
- the gain correction of the audio signal (MDCT coefficient) of the object is performed uniformly according to the position, frequency, and playback sound pressure, the overall sound quality may deteriorate.
- a minute noise sound that is not originally important for hearing is regarded as an object audio signal.
- the gain correction method may be changed according to the characteristics of the audio signal of the object.
- the gain correction unit 191 can determine that the PE (Perceptual Entropy) of the audio signal or the sound pressure is below a certain threshold value, that is, it is an unimportant object, the gain correction is performed. It may be set to absent, or the correction amount of the gain correction may be limited, that is, the correction gain value may be limited so that the correction gain value is equal to or less than the upper limit value. This limits the correction of the MDCT coefficient (audio signal) by the correction gain value in the MDCT coefficient correction unit 131.
- PE Physical Entropy
- the gain correction unit 191 may weight the gain correction in the main frequency band and the other frequency bands. In such a case, for example, the gain correction value is corrected according to the frequency power for each frequency band.
- the characteristics of the auditory characteristics table vary from person to person. Therefore, it is also possible to configure an encoder optimized for a specific user by using an auditory characteristic table optimized for a specific user.
- the auditory characteristic table holding unit 192 may hold the auditory characteristic table for each of a plurality of users, which is optimized for each user.
- the optimization of the auditory characteristic table may be performed by using the result of an experiment in which the auditory characteristic is examined only by a specific person, or by another method.
- the coding device 71 is configured as shown in FIG. 19, for example.
- the same reference numerals are given to the portions corresponding to those in FIGS. 6 or 14, and the description thereof will be omitted as appropriate.
- the coding device 71 shown in FIG. 19 has a meta encoder 11, a core encoder 12, and a multiplexing unit 81.
- the meta-encoder 11 has a quantization unit 21 and a coding unit 22, and the core encoder 12 includes a gain correction unit 191, an auditory characteristic table holding unit 192, a time frequency conversion unit 31, and an MDCT coefficient correction unit 131. , A quantization unit 32, and a coding unit 33. Further, the quantization unit 32 has an auditory psychological parameter calculation unit 41 and a bit allocation unit 42.
- the configuration of the coding device 71 shown in FIG. 19 is different from the configuration of the coding device 71 of FIG. 6 in that a gain correction unit 191 and an auditory characteristic table holding unit 192 are newly provided, and in other respects, the configuration of the coding device 71 is different from that of FIG. It has the same configuration as the coding device 71 of.
- the auditory characteristic table holding unit 192 holds, for example, the three-dimensional auditory characteristic table shown in FIG.
- the gain correction unit 191 is supplied with the gain value, the horizontal angle, the vertical angle, and the distance of the metadata of the object.
- the gain correction unit 191 is associated with a horizontal angle, a vertical angle, and a distance as position information of the metadata supplied from the three-dimensional auditory characteristic table held in the auditory characteristic table holding unit 192. Read the value.
- the gain correction unit 191 If there is no gain correction value corresponding to the position of the object indicated by the position information of the metadata, the gain correction unit 191 appropriately performs interpolation processing or the like to move the position of the object indicated by the position information. Obtain the corresponding gain correction value.
- the gain correction unit 191 corrects the gain value of the metadata of the supplied object by the gain correction value obtained in this way, and supplies the correction gain value obtained as a result to the MDCT coefficient correction unit 131.
- the MDCT coefficient correction unit 131 corrects the MDCT coefficient supplied from the time-frequency conversion unit 31 based on the correction gain value supplied from the gain correction unit 191 and hears the corrected MDCT coefficient obtained as a result. It is supplied to the psychological parameter calculation unit 41.
- the gain correction unit 191 the metadata after encoding or quantization is decoded or dequantized, and the gain value, the horizontal angle, the vertical angle, and the distance obtained as a result are obtained.
- the correction gain value is obtained based on this.
- the gain correction unit 191 and the auditory characteristic table holding unit 192 may be provided in the configurations shown in FIGS. 4 and 8.
- step S131 and step S132 Since the processing of step S131 and step S132 is the same as the processing of step S51 and step S52 of FIG. 7, the description thereof will be omitted.
- step S133 the gain correction unit 191 calculates a correction gain value based on the gain value, horizontal angle, vertical angle, and distance of the supplied metadata, and supplies the correction gain value to the MDCT coefficient correction unit 131.
- the gain correction unit 191 reads out the gain correction value associated with the horizontal angle, the vertical angle, and the distance of the metadata from the three-dimensional auditory characteristic table held in the auditory characteristic table holding unit 192.
- the correction gain value is calculated by correcting the gain value with the gain correction value.
- interpolation processing or the like is appropriately performed to obtain a gain correction value corresponding to the position of the object indicated by the horizontal angle, the vertical angle, and the distance.
- steps S134 to S139 are then performed to end the coding process, but these processes are the same as the processes of steps S53 to S58 of FIG. Since there is, the explanation is omitted.
- step S135 the MDCT coefficient obtained by the time-frequency conversion unit 31 is corrected based on the correction gain value obtained by the gain correction unit 191 and is used as the corrected MDCT coefficient.
- the auditory characteristic table for each user optimized as described above may be held in the auditory characteristic table holding unit 192.
- the gain correction value may be associated with each position for each of a plurality of frequencies, and the gain correction unit 191 sets the gain correction value of the desired frequency to another frequency in the vicinity of the frequency. It may be obtained by interpolation processing based on gain correction values of a plurality of frequencies.
- the gain correction unit 191 obtains the correction gain value for each frequency
- the MDCT coefficient correction unit 131 obtains the correction gain value for each frequency.
- the MDCT coefficient is corrected by the correction gain value.
- the auditory characteristic table holding unit 192 may hold the auditory characteristic table for each reproduced sound pressure.
- the coding device 71 corrects the gain value of the metadata using the three-dimensional auditory characteristic table, and the auditory sense is based on the corrected MDCT coefficient obtained by using the corrected gain value obtained as a result. Calculate psychological parameters.
- ⁇ Fifth Embodiment> ⁇ Configuration example of coding device>
- a three-dimensional auditory characteristic not only the difference in sound pressure sensitivity depending on the direction of arrival of the sound from the sound source, but also the auditory masking of the sound between the objects, and the object depending on the distance between the objects and the frequency characteristic of the sound. It is known that the amount of masking between them changes.
- the auditory masking is calculated individually for each object, and the auditory masking between objects is not taken into consideration.
- the coding device 71 is configured as shown in FIG. 21, for example.
- the parts corresponding to the case in FIG. 4 are designated by the same reference numerals, and the description thereof will be omitted as appropriate.
- the coding device 71 shown in FIG. 21 has a meta encoder 11, a core encoder 12, and a multiplexing unit 81.
- the meta-encoder 11 has a quantization unit 21 and a coding unit 22, and the core encoder 12 has a time-frequency conversion unit 31, a quantization unit 32, and a coding unit 33.
- the quantization unit 32 has an auditory psychological model holding unit 221, an auditory psychological parameter calculation unit 222, and a bit allocation unit 42.
- the configuration of the coding device 71 shown in FIG. 21 includes an audio signal correction unit 91, a time frequency conversion unit 92, and an auditory psychological parameter calculation unit 221 and an auditory psychological parameter calculation unit 222 in place of the auditory psychological parameter calculation unit 41.
- the configuration is different from that of the coding device 71 of FIG. 4, and the configuration is the same as that of the coding device 71 of FIG. 4 in other respects.
- the auditory psychological model holding unit 221 holds a three-dimensional auditory psychological model related to auditory masking between a plurality of objects prepared in advance.
- This three-dimensional auditory psychological model is an auditory psychological model that takes into consideration not only the auditory masking of a single object but also the auditory masking between a plurality of objects.
- the MDCT coefficient obtained by the time-frequency conversion unit 31 and the horizontal angle, vertical angle, distance, and gain value of the metadata of the object are supplied to the auditory psychological parameter calculation unit 222.
- the auditory psychological parameter calculation unit 222 calculates the auditory psychological parameters based on the three-dimensional auditory characteristics. That is, the auditory psychological parameter calculation unit 222 is held by the MDCT coefficient from the time-frequency conversion unit 31, the horizontal angle, the vertical angle, the distance, and the gain value of the supplied metadata, and the auditory psychological model holding unit 221. The auditory psychological parameters are calculated based on the three-dimensional auditory psychological model and supplied to the bit allocation unit 42.
- an auditory psychological parameter that takes into account not only the auditory masking for each object, which has been conventionally considered, but also the auditory masking between objects.
- step S171 and step S172 Since the processing of step S171 and step S172 is the same as the processing of step S11 and step S12 of FIG. 5, the description thereof will be omitted.
- step S173 the time-frequency conversion unit 31 performs MDCT (time-frequency conversion) on the audio signal of the supplied object, and supplies the resulting MDCT coefficient to the auditory psychological parameter calculation unit 222 and the bit allocation unit 42.
- MDCT time-frequency conversion
- step S174 the auditory psychological parameter calculation unit 222 is held by the MDCT coefficient from the time-frequency conversion unit 31, the horizontal angle, the vertical angle, the distance, and the gain value of the supplied metadata, and the auditory psychological model holding unit 221.
- the auditory psychological parameters are calculated based on the existing three-dimensional auditory psychological model and supplied to the bit allocation unit 42.
- the auditory psychological parameter calculation unit 222 not only has the MDCT coefficient of the object to be processed, the horizontal angle, the vertical angle, the distance, and the gain value, but also the MDCT coefficient of another object, the horizontal angle, the vertical angle, and the distance.
- the auditory psychological parameters are calculated using the gain value as well.
- the masking threshold is obtained based on the MDCT coefficient and gain value of the object to be processed. Then, based on the MDCT coefficient, gain value, position information of the object to be processed and other objects, and the three-dimensional auditory psychological model, the distance between the objects, the relative positional relationship, and the power of frequency (MDCT coefficient). An offset value (correction value) according to the difference or the like is obtained. Further, the obtained masking threshold value is corrected by the offset value to obtain the final masking threshold value.
- steps S175 to S177 are performed and the coding process is completed. However, these processes are the same as the processes of steps S17 to S19 of FIG. The description is omitted.
- the coding device 71 calculates the auditory psychological parameters based on the three-dimensional auditory psychological model. By doing so, bit allocation can be performed using auditory psychological parameters based on three-dimensional auditory characteristics in consideration of auditory masking between objects, and coding efficiency can be improved.
- ⁇ Sixth Embodiment> ⁇ Configuration example of coding device>
- the user can use the object metadata, that is, the position and gain. This is useful for services that use and render as is without modification.
- the content creator does not always allow the user to edit the metadata of all objects, and the content creator specifies the objects that allow the user to edit the metadata and the objects that do not. It is conceivable to do.
- FIG. 23 shows the Config syntax of the metadata to which the editing permission flag "editingPermissionFlag" of the metadata for each object by the content creator is added.
- the edit permission flag is an example of edit permission information indicating whether or not to allow editing of metadata.
- the editing permission flag "editingPermissionFlag" is included in the part indicated by arrow Q11 in the metadata Config (ObjectMetadataConfig).
- number_objects indicates the number of objects that make up the content, and in this example, the edit permission flag is stored for each object.
- the value "1" of the edit permission flag indicates that the editing of the metadata of the object is permitted
- the value "0" of the edit permission flag indicates that the editing of the metadata of the object is not permitted. Shows.
- the content creator specifies (sets) the value of the edit permission flag for each object.
- the auditory psychological parameters can be calculated based on the three-dimensional auditory psychological model for the object for which the metadata editing is not permitted.
- the coding device 71 is configured as shown in FIG. 24, for example.
- the same reference numerals are given to the portions corresponding to those in FIG. 21, and the description thereof will be omitted as appropriate.
- the coding device 71 shown in FIG. 24 has a meta encoder 11, a core encoder 12, and a multiplexing unit 81.
- the meta-encoder 11 has a quantization unit 21 and a coding unit 22, and the core encoder 12 has a time-frequency conversion unit 31, a quantization unit 32, and a coding unit 33.
- the quantization unit 32 has an auditory psychological model holding unit 221, an auditory psychological parameter calculation unit 222, and a bit allocation unit 42.
- the coding device 71 shown in FIG. 24 is basically the same as the coding device 71 shown in FIG. 21, but in the coding device 71 shown in FIG. 24, the input metadata has edit permission for each object. It differs from the encoding device 71 of FIG. 21 in that it includes a flag.
- the horizontal angle, vertical angle, distance, gain value, edit permission flag, and other parameters are input to the quantization unit 21 as each parameter of the metadata. Further, the horizontal angle, the vertical angle, the distance, the gain value, and the edit permission flag of the metadata are supplied to the auditory psychological parameter calculation unit 222.
- the auditory psychological parameter calculation unit 222 calculates the auditory psychological parameter in the same manner as the auditory psychological parameter calculation unit 41 described with reference to FIG. 4 according to the supplied edit permission flag, or the auditory psychological parameter calculation unit 222 of FIG. 21. Calculate the auditory psychological parameters as in the example.
- steps S211 to S213 Since the processing of steps S211 to S213 is the same as the processing of steps S171 to S173 of FIG. 22, the description thereof will be omitted.
- step S214 the auditory psychological parameter calculation unit 222 calculates the auditory psychological parameter according to the edit permission flag included in the metadata of the supplied object, and supplies the auditory psychological parameter to the bit allocation unit 42.
- the auditory psychological parameter calculation unit 222 sets the MDCT coefficient of the object to be processed supplied from the time-frequency conversion unit 31 to the MDCT coefficient of the object to be processed when the edit permission flag of the object to be processed is "1" and editing is permitted. Based on this, the auditory psychological parameters are calculated.
- the metadata may be edited on the decoding (playback) side, so the auditory psychological parameters are calculated without considering the auditory masking between the objects.
- the auditory psychological parameter calculation unit 222 is supplied with the MDCT coefficient from the time-frequency conversion unit 31.
- the auditory psychological parameters are calculated based on the horizontal angle, vertical angle, distance, and gain value of the metadata, and the three-dimensional auditory psychological model held in the auditory psychological model holding unit 221.
- the auditory psychological parameter calculation unit 222 calculates the auditory psychological parameter in the same manner as in step S174 of FIG. That is, not only the MDCT coefficient, horizontal angle, vertical angle, distance, and gain value of the object to be processed, but also the MDCT coefficient, horizontal angle, vertical angle, distance, and gain value of other objects are used as auditory psychological parameters. Is calculated.
- the metadata does not change on the decoding (reproduction) side, so the auditory psychological parameters are calculated in consideration of auditory masking between the objects.
- steps S215 to S217 are performed and the coding process is completed. However, these processes are the same as the processes of steps S175 to S177 of FIG. 22. The description is omitted.
- the coding device 71 appropriately calculates the auditory psychological parameters using the three-dimensional auditory psychological model according to the edit permission flag. By doing so, for objects for which editing is not permitted, bit allocation can be performed using auditory psychological parameters based on three-dimensional auditory characteristics in consideration of auditory masking between objects. Thereby, the coding efficiency can be improved.
- the present invention is not limited to this, and for example, the edit permission flag may be used in combination with the configuration of the coding apparatus 71 shown in FIG.
- the gain value of the metadata of the object may be corrected by using the three-dimensional auditory characteristic table.
- the MDCT coefficient correction unit 131 does not correct the MDCT coefficient, and the auditory psychological parameter calculation unit 41 keeps the MDCT coefficient obtained by the time-frequency conversion unit 31 as it is. Used to calculate auditory psychological parameters.
- the position information when editing is permitted for the position information consisting of the horizontal angle and the like and editing of the gain value is not permitted, the position information is not used and the gain value is used in three dimensions.
- the auditory psychological parameters are calculated based on the auditory psychological model.
- ⁇ 7th embodiment> ⁇ Configuration example of coding device>
- channel-based audio coding such as 2ch, 5.1ch, and 7.1ch
- the audio signals of individual musical instruments such as "Vocal”, “Guitar”, and “Bass", which are objects, are input. Therefore, by optimizing algorithms and parameters (hereinafter, also referred to as adjustment parameters) such as bit allocation for the signals of each musical instrument, it is possible to improve the coding efficiency and speed up the arithmetic processing.
- the sound source type of each object that is, the label information indicating the musical instrument such as "Vocal” or "Guitar”
- the auditory psychological parameter may be calculated by the algorithm or adjustment parameter corresponding to the label information. ..
- bit allocation may be performed according to the label information.
- the coding device 71 is configured as shown in FIG. 26, for example.
- the parts corresponding to the case in FIG. 6 are designated by the same reference numerals, and the description thereof will be omitted as appropriate.
- the coding device 71 shown in FIG. 26 has a meta encoder 11, a core encoder 12, and a multiplexing unit 81.
- the meta-encoder 11 has a quantization unit 21 and a coding unit 22, and the core encoder 12 includes a parameter table holding unit 251, a time-frequency conversion unit 31, a quantization unit 32, and a coding unit 33.
- the quantization unit 32 has an auditory psychological parameter calculation unit 41 and a bit allocation unit 42.
- the configuration of the coding device 71 shown in FIG. 26 is different from the configuration of the coding device 71 of FIG. 6 in that the parameter table holding unit 251 is provided in place of the MDCT coefficient correction unit 131, and the reference numerals of FIG. 6 are obtained in other respects. It has the same configuration as the conversion device 71.
- a label indicating the sound source type of each object that is, the instrument type of the sound based on the audio signal of the object such as Vocal, Chorus, Guitar, Bass, Drums, Kick, Snare, Hi-hat, Piano, Synth, String, etc.
- Information is input (supplied) to the coding device 71.
- This label information can be used, for example, for editing content consisting of object signals of each object, and the label information may be a character string indicating a musical instrument type or the like, or indicates a musical instrument type. It may be ID information or the like.
- the parameter table holding unit 251 is associated with information indicating MDCT calculation, auditory psychological parameter calculation, algorithm used for bit allocation, and adjustment parameters for each musical instrument type (sound source type) indicated by label information. Holds the parameter table.
- the parameter table at least one of the information indicating the algorithm and the adjustment parameter may be associated with the musical instrument type (sound source type).
- the time-frequency conversion unit 31 refers to the parameter table held in the parameter table holding unit 251 and uses the adjustment parameters and algorithms specified for the musical instrument type indicated by the supplied label information to supply the audio. Perform MDCT on the signal.
- the time-frequency conversion unit 31 supplies the MDCT coefficient obtained by MDCT to the auditory psychological parameter calculation unit 41 and the bit allocation unit 42.
- the quantization unit 32 quantizes the MDCT coefficient based on the supplied label information and the MDCT coefficient according to the adjustment parameters and algorithms defined for the instrument type indicated by the label information.
- the auditory psychological parameter calculation unit 41 refers to the parameter table held in the parameter table holding unit 251 and uses the adjustment parameters and algorithms defined for the instrument type indicated by the supplied label information to determine the time.
- the auditory psychological parameters are calculated based on the MDCT coefficient from the frequency conversion unit 31 and supplied to the bit allocation unit 42.
- the bit allocation unit 42 refers to the parameter table held in the parameter table holding unit 251 and refers to the MDCT coefficient from the time-frequency conversion unit 31, the auditory psychological parameter from the auditory psychological parameter calculation unit 41, and the supplied label information. Bit allocation and MDCT coefficient quantization are performed based on.
- bit allocation is performed by the MDCT coefficient, the auditory psychological parameter, and the adjustment parameter or algorithm defined for the musical instrument type indicated by the label information.
- the window (conversion window) used for MDCT that is, the window function can be switched.
- a window with high time resolution such as the Kaiser window is used to give a sense of volume such as Vocal and Bass.
- a sign window may be used for important musical instrument objects.
- the window corresponding to the label information is used. MDCT can be performed.
- low-pitched instruments such as Bass and Kick
- mid-range instruments such as Vocal
- high-pitched instruments such as Hi-hat
- full-range instruments such as Piano
- the object signal of a bass instrument such as Bass or Kick originally contains almost no high frequency component.
- the object signal of such an instrument contains a lot of high-frequency noise, many quantization bits are also allocated to the high-frequency scale factor band in bit allocation.
- the number of high-frequency quantization bits that do not contain the target signal component is suppressed to a low level to reduce noise, and the number of low-frequency quantization bits that include the target signal component is reduced. It can be increased to improve sound quality and coding efficiency.
- the auditory psychological parameters such as the masking threshold also depend on the type of musical instrument such as a musical instrument with strong tone, a musical instrument with high noise, a musical instrument with a large time fluctuation of the signal, and a musical instrument with a small time fluctuation of the signal.
- the adjustment adjustment parameter
- many quantization bits can be assigned to the sound that is easily perceived by the hearing of each instrument.
- frequency spectrum information (MDCT coefficient) is quantized for each scale factor band.
- the quantized value of each scale factor band that is, the number of bits allocated to each scale factor band, starts with a predetermined value as the initial value, and the final value is determined by performing a bit allocation loop.
- the MDCT coefficient is repeatedly quantized while changing the quantization value of each scale factor band, that is, performing bit allocation, until a predetermined condition is satisfied.
- the predetermined conditions are, for example, a condition that the sum of the number of bits of the quantized MDCT coefficient of each scale factor band is equal to or less than a predetermined number of allowable bits, and a condition that the quantization noise is sufficiently small.
- the label information may be one of the auditory psychological parameters, or the initial value of the quantization value as the adjustment parameter may be defined for each musical instrument type in the parameter table.
- the above adjustment parameters and algorithms for each instrument type can be obtained in advance by manual adjustment based on experience, statistical adjustment, machine learning, etc.
- adjustment parameters and algorithms for each of these musical instrument types are prepared in advance as a parameter table. Then, the calculation and bit allocation of auditory psychological parameters, that is, quantization, and MDCT are performed by the adjustment parameters and algorithms according to the label information.
- label information is used alone in this example, it may be used in combination with other metadata information.
- priority information indicating the priority of an object may be included.
- the auditory psychological parameter calculation unit 41, and the bit allocation unit 42 further adjust the adjustment parameter determined for the label information according to the priority value indicated by the priority information of the object. good.
- even objects having the same priority may be processed with different priorities depending on the label information.
- the label information is limited to the musical instrument type here, the label information for determining the listening environment can be used in addition to the musical instrument type.
- the minimum audible limit that is, the perceptible volume, differs between a quiet room and an outdoor area with crowds. Furthermore, the listening environment itself changes with the passage of time and the movement of the user.
- label information including listening environment information indicating the user's listening environment is input to the coding device 71, and the optimum auditory psychological parameters for the listening environment in which the user is present are calculated by adjusting parameters and algorithms according to the label information. May be done.
- the parameter table is referred to, and MDCT, calculation of auditory psychological parameters, and bit allocation are performed by the adjustment parameters and algorithms defined for the listening environment and the instrument type indicated by the label information.
- step S251 and step S252 Since the processing of step S251 and step S252 is the same as the processing of step S51 and step S52 of FIG. 7, the description thereof will be omitted.
- step S253 the time-frequency conversion unit 31 performs MDCT on the supplied audio signal based on the parameter table held in the parameter table holding unit 251 and the supplied label information, and the resulting MDCT is obtained.
- the coefficient is supplied to the auditory psychological parameter calculation unit 41 and the bit allocation unit 42.
- step S253 MDCT is performed on the audio signal of the object according to the adjustment parameters and algorithms defined for the label information of the object.
- the auditory psychological parameter calculation unit 41 refers to the parameter table held in the parameter table holding unit 251 according to the supplied label information, and is auditory based on the MDCT coefficient supplied from the time-frequency conversion unit 31.
- Psychological parameters are calculated and supplied to the bit allocation unit 42.
- step S254 the auditory psychological parameters for the object are calculated by the adjustment parameters and algorithms defined for the label information of the object.
- step S255 the bit allocation unit 42 refers to the parameter table held in the parameter table holding unit 251 according to the supplied label information, and from the MDCT coefficient from the time-frequency conversion unit 31 and the auditory psychological parameter calculation unit 41. Bit allocation is performed based on the auditory psychological parameters of, and the MDCT coefficient is quantized.
- the coding device 71 performs MDCT, calculation of auditory psychological parameters, and bit allocation according to the label information. By doing so, it is possible to improve the coding efficiency and the processing speed of the quantization operation, and it is possible to realize audio reproduction with higher sound quality.
- coding device 71 that performs quantization (encoding) using label information is also applied to the case where the user's position information and the object's position information are used in combination, such as the free viewpoint of MPEG-I. It is possible.
- the coding device 71 is configured as shown in FIG. 28, for example.
- the parts corresponding to the case in FIG. 26 are designated by the same reference numerals, and the description thereof will be omitted as appropriate.
- the coding device 71 shown in FIG. 28 has a meta encoder 11, a core encoder 12, and a multiplexing unit 81.
- the metaencoder 11 has a quantization unit 21 and a coding unit 22.
- the core encoder 12 has a parameter table holding unit 251, a time-frequency conversion unit 31, a quantization unit 32, and a coding unit 33, and the quantization unit 32 has an auditory psychological parameter calculation unit 41 and a bit allocation unit 42. have.
- the configuration of the coding device 71 shown in FIG. 28 is basically the same as that of the coding device 71 shown in FIG. 26, but in the coding device 71 shown in FIG. 28, the position of the user, that is, the content by the user, etc. It differs from the coding device 71 of FIG. 26 in that the user position information indicating the listening position of the sound of the above is further input.
- the meta encoder 11 encodes the metadata including each parameter such as the position information of the object and the gain value, but here, the position information of the object included in the metadata is different from the example shown in FIG.
- Position information indicating the absolute position of the modified object is encoded as the position information constituting the metadata of the object.
- the user position information is supplied from, for example, a content by the coding device 71, that is, a client device (not shown) which is a delivery destination (transmission destination) of a bit stream including coded metadata and coded audio data.
- the auditory psychological parameter calculation unit 41 not only the label information but also the position information of the supplied object, that is, the horizontal angle, the vertical angle, and the distance indicating the position of the object, and the user position information are used as the auditory psychological parameters. Is calculated.
- the user position information and the object position information may be supplied to the bit allocation unit 42, and the user position information and the object position information may be used for the bit allocation.
- the user listens to the sound of the content in the virtual live venue, but the sound heard in the front row and the last row of the live venue is significantly different.
- Quantization bits are preferentially assigned to objects in. By doing so, it is possible to give the user a reality as if he / she is closer to the object, that is, a high sense of presence.
- the adjustment for each original instrument type that is, the adjustment parameter or algorithm according to the label information
- the adjustment parameter or algorithm according to the label information is used for a longer distance. Adjustments may be made.
- step S281 the quantization unit 21 of the meta encoder 11 quantizes each parameter as the supplied metadata, and supplies the resulting quantization parameter to the coding unit 22.
- step S281 the same processing as in step S251 of FIG. 27 is performed, but the quantization unit 21 is relative to the object as seen by the user based on the supplied user position information and the object position information.
- the position information indicating the position, the position information indicating the absolute position of the object modified as appropriate, and the like are quantized as the position information constituting the metadata of the object.
- step S281 When the process of step S281 is performed, the processes of steps S282 to S287 are subsequently performed and the coding process is completed. However, these processes are the same as the processes of steps S252 to S257 of FIG. 27. , The description is omitted.
- step S284 as described above, the auditory psychological parameters are calculated using not only the label information but also the user position information and the position information of the object. Further, in step S285, the bit allocation may be performed by using the user position information and the position information of the object.
- the coding device 71 performs calculation of auditory psychological parameters and bit allocation using not only label information but also user position information and object position information. By doing so, it is possible to improve the coding efficiency and the processing speed of the quantization operation, improve the sense of presence, and realize audio reproduction with higher sound quality.
- the auditory psychological parameters are calculated and bit-allocated according to the actual hearing sensation. It is possible to improve the coding efficiency.
- the gain value of the metadata created by the content creator is outside the range of the MPEG-H specification, the gain value is not substantially limited to the upper limit value or the lower limit value of the specification range. Except for the deterioration of sound quality due to quantization, it is possible to reproduce the rendered sound as intended by the creator.
- the audio signal of a certain object has the same gain as that of another object, and the gain value of the metadata is 0 (- ⁇ dB), which is intended as a noise gate.
- the audio signal that is actually rendered and viewed is zero data
- bits are allocated in a general coding device like other objects, but in this technology, it is regarded as zero data. Since bit allocation is performed, the quantization bit can be significantly reduced.
- the series of processes described above can be executed by hardware or software.
- the programs constituting the software are installed on the computer.
- the computer includes a computer embedded in dedicated hardware and, for example, a general-purpose personal computer capable of executing various functions by installing various programs.
- FIG. 30 is a block diagram showing a configuration example of computer hardware that executes the above-mentioned series of processes programmatically.
- a CPU Central Processing Unit
- ROM Read Only Memory
- RAM Random Access Memory
- An input / output interface 505 is further connected to the bus 504.
- An input unit 506, an output unit 507, a recording unit 508, a communication unit 509, and a drive 510 are connected to the input / output interface 505.
- the input unit 506 includes a keyboard, a mouse, a microphone, an image pickup device, and the like.
- the output unit 507 includes a display, a speaker, and the like.
- the recording unit 508 includes a hard disk, a non-volatile memory, and the like.
- the communication unit 509 includes a network interface and the like.
- the drive 510 drives a removable recording medium 511 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory.
- the CPU 501 loads the program recorded in the recording unit 508 into the RAM 503 via the input / output interface 505 and the bus 504 and executes the above-mentioned series. Is processed.
- the program executed by the computer (CPU501) can be recorded and provided on a removable recording medium 511 as a package medium or the like, for example.
- the program can also be provided via a wired or wireless transmission medium such as a local area network, the Internet, or digital satellite broadcasting.
- the program can be installed in the recording unit 508 via the input / output interface 505 by mounting the removable recording medium 511 in the drive 510. Further, the program can be received by the communication unit 509 and installed in the recording unit 508 via a wired or wireless transmission medium. In addition, the program can be pre-installed in the ROM 502 or the recording unit 508.
- the program executed by the computer may be a program in which processing is performed in chronological order according to the order described in the present specification, in parallel, or at a necessary timing such as when a call is made. It may be a program in which processing is performed.
- the embodiment of the present technology is not limited to the above-described embodiment, and various changes can be made without departing from the gist of the present technology.
- this technology can take a cloud computing configuration in which one function is shared by multiple devices via a network and processed jointly.
- each step described in the above flowchart can be executed by one device or shared by a plurality of devices.
- the plurality of processes included in the one step can be executed by one device or shared by a plurality of devices.
- this technology can also have the following configurations.
- a correction unit that corrects the audio signal of the audio object based on the gain value included in the metadata of the audio object, and a correction unit.
- a signal processing device including a quantization unit that calculates auditory psychological parameters based on the signal obtained by the correction and quantizes the audio signal.
- the correction unit corrects the audio signal in the time domain based on the gain value.
- a time-frequency conversion unit that performs time-frequency conversion on the corrected audio signal obtained by the correction by the correction unit is further provided.
- the signal processing device according to (2), wherein the quantization unit calculates the auditory psychological parameters based on the frequency spectrum information obtained by the time-frequency conversion.
- a time-frequency conversion unit that performs time-frequency conversion on the audio signal.
- the correction unit corrects the frequency spectrum information obtained by the time-frequency conversion based on the gain value.
- the signal processing device wherein the quantization unit calculates the auditory psychological parameter based on the correction frequency spectrum information obtained by the correction by the correction unit.
- a gain correction unit that corrects the gain value based on the auditory characteristics regarding the direction of arrival of the sound.
- the signal processing device according to any one of (1) to (4), wherein the correction unit corrects the audio signal based on the corrected gain value.
- the gain correction unit corrects the gain value based on the auditory characteristics with respect to the position indicated by the position information included in the metadata.
- an auditory characteristic table holding unit that holds an auditory characteristic table in which the position of the audio object and the gain correction value for correcting the gain value based on the auditory characteristic with respect to the position of the audio object are associated with each other.
- the signal processing apparatus according to (6).
- the gain correction unit performs interpolation processing based on the plurality of gain correction values in the auditory characteristic table, and the gain correction unit performs the interpolation processing.
- the signal processing apparatus which obtains the gain correction value of the position indicated by the position information.
- the signal processing device which obtains the gain correction value of the position indicated by the position information.
- the gain correction unit performs the interpolation processing based on the gain correction value associated with each of a plurality of positions in the vicinity of the position indicated by the position information.
- the interpolation process is an interpolation process using VBAP.
- the gain correction value for each of a plurality of frequencies is associated with each position.
- the gain correction unit may perform other gain correction values in the vicinity of the predetermined frequency corresponding to the position indicated by the position information.
- the signal processing apparatus wherein the interpolation processing is performed based on the gain correction values of a plurality of frequencies, and the gain correction value of the predetermined frequency at the position indicated by the position information is obtained.
- the auditory characteristic table holding unit holds the auditory characteristic table for each reproduced sound pressure.
- the signal processing device wherein the gain correction unit switches the auditory characteristic table used for correcting the gain value based on the sound pressure of the audio signal.
- the gain correction unit may use the auditory sense of a plurality of other reproduced sound pressures in the vicinity of the sound pressure.
- the interpolation process is performed based on the gain correction value corresponding to the position indicated by the position information in the characteristic table, and the gain correction value of the position indicated by the position information corresponding to the sound pressure is obtained (12).
- the signal processing apparatus according to. (14) The signal processing device according to any one of (7) to (13), wherein the gain correction unit limits the gain value according to the characteristics of the audio signal. (15) When the gain correction value corresponding to the position indicated by the position information is not in the auditory characteristic table, the gain correction unit is associated with the position closest to the position indicated by the position information.
- the gain correction unit is associated with each of a plurality of positions in the vicinity of the position indicated by the position information.
- the signal processing device Based on the gain value contained in the metadata of the audio object, the audio signal of the audio object is corrected.
- a signal processing method that calculates auditory psychological parameters based on the signal obtained by the correction and quantizes the audio signal.
- the audio signal of the audio object is corrected.
- a correction unit that corrects the corrected audio signal based on the correction gain value obtained by the correction is further provided.
- the signal processing device according to (19) or (20), wherein the quantization unit quantizes the modified audio signal based on the signal obtained by the correction for the modified audio signal.
- a meta-encoder that quantizes and encodes the metadata including the modified gain value obtained by the modification.
- a coding unit that encodes the quantized modified audio signal, The signal processing apparatus according to any one of (19) to (21), further comprising a multiplexing unit for multiplexing the encoded metadata and the encoded modified audio signal.
- the signal processing device according to any one of (19) to (22), wherein the correction unit corrects the audio signal based on the difference between the gain value and the correction gain value obtained by the correction.
- the signal processing device Based on the gain value contained in the metadata of the audio object, the gain value and the audio signal of the audio object are modified.
- the auditory psychological parameters are calculated based on the metadata including at least one of the gain value and the position information of the audio object, the audio signal of the audio object, and the auditory psychological model regarding the auditory masking between the plurality of audio objects.
- a signal processing device including a quantization unit that quantizes the audio signal based on auditory psychological parameters.
- a time-frequency conversion unit that performs time-frequency conversion on the audio signal.
- the signal processing device wherein the quantization unit calculates the auditory psychological parameters based on the frequency spectrum information obtained by the time-frequency conversion.
- the quantization unit obtains the auditory psychological parameters based on the metadata and the audio signal of the audio object to be processed, the metadata and the audio signal of the other audio object, and the auditory psychological model.
- the signal processing apparatus according to (26) or (27) to be calculated.
- the metadata includes edit permission information indicating the edit permission of a part or all of a plurality of parameters including the gain value and the position information contained in the metadata.
- the quantization unit calculates the auditory psychological parameters based on the parameters, the audio signal, and the auditory psychological model for which editing is not permitted by the edit permission information (26) to (28).
- the signal processing device according to the section.
- the signal processing device The auditory psychological parameters are calculated based on the metadata including at least one of the gain value and the position information of the audio object, the audio signal of the audio object, and the auditory psychological model regarding the auditory masking between the plurality of audio objects.
- a signal processing method that quantizes the audio signal based on auditory psychological parameters.
- the auditory psychological parameters are calculated based on the metadata including at least one of the gain value and the position information of the audio object, the audio signal of the audio object, and the auditory psychological model regarding the auditory masking between the plurality of audio objects.
- a program that causes a computer to perform processing including the step of quantizing the audio signal based on auditory psychological parameters.
- the audio signal is quantized by at least one of the adjustment parameters and the algorithm defined for the sound source type indicated by the label information.
- the signal processing device (32), wherein the quantization unit calculates an auditory psychological parameter based on the audio signal and the label information, and quantizes the audio signal based on the auditory psychological parameter.
- the quantization unit performs bit allocation and quantization of the audio signal based on the label information.
- a time-frequency conversion unit that performs time-frequency conversion on the audio signal by at least one of the adjustment parameters and the algorithm defined for the sound source type indicated by the label information based on the label information is further provided.
- the quantization unit calculates the auditory psychological parameter based on the frequency spectrum information obtained by the time-frequency conversion, and quantizes the frequency spectrum information according to any one of (32) to (34). Signal processing equipment.
- the label information further includes listening environment information indicating a sound listening environment based on the audio signal.
- the quantization unit is any one of (32) to (35) that quantizes the audio signal by at least one of the adjustment parameter and the algorithm defined for the sound source type and the listening environment indicated by the label information.
- the signal processing device according to item 1.
- the quantization unit adjusts an adjustment parameter defined for the sound source type indicated by the label information based on the priority of the audio object according to any one of (32) to (35).
- Signal processing equipment (38) The item according to any one of (32) to (35), wherein the quantization unit quantizes the audio signal based on the user's position information, the position information of the audio object, the audio signal, and the label information. Signal processing equipment.
- the signal processing device Based on the audio signal of the audio object and the label information indicating the sound source type of the audio object, the audio signal is quantized by at least one of the adjustment parameters and the algorithm defined for the sound source type indicated by the label information. Signal processing method. (40) Based on the audio signal of the audio object and the label information indicating the sound source type of the audio object, the audio signal is quantized by at least one of the adjustment parameters and the algorithm defined for the sound source type indicated by the label information.
- a program that causes a computer to perform processing that includes the steps to make it.
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Mathematical Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本技術は、符号化効率を向上させることができるようにする信号処理装置および方法、並びにプログラムに関する。 信号処理装置は、オーディオオブジェクトのメタデータに含まれるゲイン値に基づいて、オーディオオブジェクトのオーディオ信号に対する補正を行う補正部と、補正により得られた信号に基づいて聴覚心理パラメータを計算し、オーディオ信号を量子化する量子化部とを備える。本技術は符号化装置に適用することができる。
Description
本技術は、信号処理装置および方法、並びにプログラムに関し、特に、符号化効率を向上させることができるようにした信号処理装置および方法、並びにプログラムに関する。
従来、国際標準規格であるMPEG(Moving Picture Experts Group)-D USAC(Unified Speech and Audio Coding)規格や、MPEG-D USAC 規格をCore CoderにしたMPEG-H 3D Audio規格の符号化等が知られている(例えば、非特許文献1乃至非特許文献3参照)。
ISO/IEC 23003-3, MPEG-D USAC
ISO/IEC 23008-3, MPEG-H 3D Audio
ISO/IEC 23008-3:2015/AMENDMENT3, MPEG-H 3D Audio Phase 2
MPEG-H 3D Audio規格等で扱われる3D Audioでは、音素材(オブジェクト)の位置を示す水平角度や垂直角度、距離、オブジェクトについてのゲインなどといったオブジェクトごとのメタデータを持ち、3次元的な音の方向や距離、拡がりなどを再現することができる。そのため、3D Audioでは、従来のステレオ再生に比べて、より臨場感のあるオーディオ再生が可能となる。
しかしながら、3D Audioで実現される多数のオブジェクトのデータを伝送するためには、より多くのオーディオチャネルを圧縮効率よく高速に復号可能な符号化技術が必要となる。すなわち、符号化効率の向上が望まれている。
本技術は、このような状況に鑑みてなされたものであり、符号化効率を向上させることができるようにするものである。
本技術の第1の側面の信号処理装置は、オーディオオブジェクトのメタデータに含まれるゲイン値に基づいて、前記オーディオオブジェクトのオーディオ信号に対する補正を行う補正部と、前記補正により得られた信号に基づいて聴覚心理パラメータを計算し、前記オーディオ信号を量子化する量子化部とを備える。
本技術の第1の側面の信号処理方法またはプログラムは、オーディオオブジェクトのメタデータに含まれるゲイン値に基づいて、前記オーディオオブジェクトのオーディオ信号に対する補正を行い、前記補正により得られた信号に基づいて聴覚心理パラメータを計算し、前記オーディオ信号を量子化するステップを含む。
本技術の第1の側面においては、オーディオオブジェクトのメタデータに含まれるゲイン値に基づいて、前記オーディオオブジェクトのオーディオ信号に対する補正が行われ、前記補正により得られた信号に基づいて聴覚心理パラメータが計算され、前記オーディオ信号が量子化される。
本技術の第2の側面の信号処理装置は、オーディオオブジェクトのメタデータに含まれるゲイン値に基づいて、前記オーディオオブジェクトの前記ゲイン値およびオーディオ信号に対する修正を行う修正部と、前記修正により得られた修正オーディオ信号を量子化する量子化部とを備える。
本技術の第2の側面の信号処理方法またはプログラムは、オーディオオブジェクトのメタデータに含まれるゲイン値に基づいて、前記オーディオオブジェクトの前記ゲイン値およびオーディオ信号に対する修正を行い、前記修正により得られた修正オーディオ信号を量子化するステップを含む。
本技術の第2の側面においては、オーディオオブジェクトのメタデータに含まれるゲイン値に基づいて、前記オーディオオブジェクトの前記ゲイン値およびオーディオ信号に対する修正が行われ、前記修正により得られた修正オーディオ信号が量子化される。
本技術の第3の側面の信号処理装置は、オーディオオブジェクトのゲイン値と位置情報の少なくとも何れか一方を含むメタデータ、前記オーディオオブジェクトのオーディオ信号、および複数の前記オーディオオブジェクト間の聴覚マスキングに関する聴覚心理モデルに基づいて聴覚心理パラメータを計算し、前記聴覚心理パラメータに基づいて前記オーディオ信号を量子化する量子化部を備える。
本技術の第3の側面の信号処理方法またはプログラムは、オーディオオブジェクトのゲイン値と位置情報の少なくとも何れか一方を含むメタデータ、前記オーディオオブジェクトのオーディオ信号、および複数の前記オーディオオブジェクト間の聴覚マスキングに関する聴覚心理モデルに基づいて聴覚心理パラメータを計算し、前記聴覚心理パラメータに基づいて前記オーディオ信号を量子化するステップを含む。
本技術の第3の側面においては、オーディオオブジェクトのゲイン値と位置情報の少なくとも何れか一方を含むメタデータ、前記オーディオオブジェクトのオーディオ信号、および複数の前記オーディオオブジェクト間の聴覚マスキングに関する聴覚心理モデルに基づいて聴覚心理パラメータが計算され、前記聴覚心理パラメータに基づいて前記オーディオ信号が量子化される。
本技術の第4の側面の信号処理装置は、オーディオオブジェクトのオーディオ信号、および前記オーディオオブジェクトの音源種別を示すラベル情報に基づいて、前記ラベル情報により示される前記音源種別に対して定められた調整パラメータとアルゴリズムの少なくとも一方により、前記オーディオ信号を量子化する量子化部を備える。
本技術の第4の側面の信号処理方法またはプログラムは、オーディオオブジェクトのオーディオ信号、および前記オーディオオブジェクトの音源種別を示すラベル情報に基づいて、前記ラベル情報により示される前記音源種別に対して定められた調整パラメータとアルゴリズムの少なくとも一方により、前記オーディオ信号を量子化するステップを含む。
本技術の第4の側面においては、オーディオオブジェクトのオーディオ信号、および前記オーディオオブジェクトの音源種別を示すラベル情報に基づいて、前記ラベル情報により示される前記音源種別に対して定められた調整パラメータとアルゴリズムの少なくとも一方により、前記オーディオ信号が量子化される。
以下、図面を参照して、本技術を適用した実施の形態について説明する。
〈第1の実施の形態〉
〈本技術について〉
本技術は、視聴時のレンダリングで適用されるメタデータのゲインを考慮し、実際の聴感に適した聴覚心理パラメータの計算とビットアロケーションを行うことで、符号化効率(圧縮効率)を向上させることができるようにするものである。
〈本技術について〉
本技術は、視聴時のレンダリングで適用されるメタデータのゲインを考慮し、実際の聴感に適した聴覚心理パラメータの計算とビットアロケーションを行うことで、符号化効率(圧縮効率)を向上させることができるようにするものである。
まず、MPEG-H 3D Audioにおけるオーディオオブジェクト(以下、単にオブジェクトと称する)のメタデータとオーディオ信号の符号化について説明する。
MPEG-H 3D Audioでは、図1に示すようにオブジェクトのメタデータはメタエンコーダによって符号化(エンコード)され、オブジェクトのオーディオ信号はコアエンコーダによって符号化される。
具体的には、メタエンコーダは、メタデータを構成する各パラメータを量子化するとともに、その結果得られた量子化パラメータを符号化し、符号化メタデータとする。
また、コアエンコーダは、オーディオ信号に対してMDCT(Modified Discrete Cosine Transform)(修正離散コサイン変換)を用いた時間周波数変換を行い、その結果得られたMDCT係数を量子化し、量子化MDCT係数を得る。MDCT係数の量子化時には、ビットアロケーションも行われる。さらに、コアエンコーダは、量子化MDCT係数を符号化し、符号化オーディオデータを得る。
そして、このようにして得られた符号化メタデータと符号化オーディオデータとが1つのビットストリームとしてまとめられ、出力される。
ここで、図2を参照して、MPEG-H 3D Audioでのメタデータとオーディオ信号の符号化について、より詳細に説明する。
この例では、メタデータとしての複数のパラメータがメタエンコーダ11に入力され、オブジェクトの音を再生するための時間信号(波形信号)であるオーディオ信号がコアエンコーダ12に入力される。
メタエンコーダ11は、量子化部21および符号化部22を有しており、量子化部21にメタデータが入力される。
メタエンコーダ11でのメタデータの符号化の処理が開始されると、量子化部21は、最初にメタデータとしての各パラメータの値に対して、必要に応じて上限値または下限値への置き換えを行い、その後、各パラメータを量子化し、量子化パラメータを得る。
この例では、メタデータを構成する各パラメータとして水平角度(Azimuth)、垂直角度(Elevation)、距離(Radius)、ゲイン値(Gain)、および他のパラメータ(Other parameters)が量子化部21に入力される。
ここで、水平角度(Azimuth)および垂直角度(Elevation)は、3次元空間における基準となる聴取位置から見たオブジェクトの位置を示す水平方向および垂直方向の角度である。また、距離(Radius)は3次元空間におけるオブジェクトの位置を示す、基準となる聴取位置からオブジェクトまでの距離を示している。これらの水平角度、垂直角度、および距離からなる情報が、オブジェクトの位置を示す位置情報である。
さらに、ゲイン値(Gain)はオブジェクトのオーディオ信号のゲイン補正のためのゲインであり、他のパラメータ(Other parameters)は音像を広げるスプレッド処理のためのパラメータや、オブジェクトの優先度などである。
メタデータを構成する各パラメータは、図3に示す予め定められた所定の範囲であるvalue range内の値となるようにされる。
図3の例では、メタデータを構成する各パラメータのvalue rangeが示されている。
なお、図3において「spread」、「spread width」、「spread height」、および「spread depth」は、スプレッド処理のためのパラメータであり、他のパラメータ(Other parameters)の例である。また、「dynamic object priority」はオブジェクトの優先度を示すパラメータであり、このパラメータも他のパラメータ(Other parameters)の例である。
例えば、この例では水平角度(Azimuth)のvalue rangeは、下限値である-180度から上限値である180度までとなっている。
量子化部21に入力された水平角度が、このvalue rangeの範囲を超えている場合、つまり範囲外である場合には、その水平角度が下限値「-180」または上限値「180」に置き換えられてから量子化が行われる。すなわち、入力された水平角度が上限値よりも大きい値であれば、上限値「180」が制限(置き換え)後の水平角度とされ、水平角度が下限値よりも小さい値であれば、下限値「-180」が制限後の水平角度とされる。
また、例えばゲイン値(Gain)のvalue rangeは、下限値である0.004から上限値である5.957となっている。特に、ここではゲイン値はリニア値で記述されている。
図2の説明に戻り、量子化部21でメタデータを構成する各パラメータが量子化され、量子化パラメータが得られると、その量子化パラメータが符号化部22により符号化され、その結果得られた符号化メタデータが出力される。例えば符号化部22では、量子化パラメータに対して差分符号化が行われ、符号化メタデータが生成される。
また、コアエンコーダ12は、時間周波数変換部31、量子化部32、および符号化部33を有しており、時間周波数変換部31にオブジェクトのオーディオ信号が入力される。また、量子化部32は、聴覚心理パラメータ計算部41およびビットアロケーション部42を有している。
コアエンコーダ12では、オーディオ信号の符号化の処理が開始されると、最初に時間周波数変換部31が、入力されたオーディオ信号に対してMDCT、すなわち時間周波数変換を行い、その結果として周波数スペクトル情報であるMDCT係数が得られる。
次に、量子化部32において、時間周波数変換(MDCT)により得られたMDCT係数がスケールファクターバンドごとに量子化され、その結果として量子化MDCT係数が得られる。
ここで、スケールファクターバンドとは、QMF(Quadrature Mirror Filter)分析フィルタの分解能である所定帯域幅のサブバンドを複数束ねて得られる帯域(周波数帯域)である。
具体的には、量子化部32での量子化では、聴覚心理パラメータ計算部41により、MDCT係数に対して人間の聴覚特性(聴覚マスキング)を考慮するための聴覚心理パラメータが計算される。
また、ビットアロケーション部42において、時間周波数変換により得られたMDCT係数と、聴覚心理パラメータ計算部41で得られた聴覚心理パラメータとが用いられて、各スケールファクターバンドの量子化ビットと量子化ノイズの計算および評価を行う、聴覚心理モデルに基づいたビットアロケーションが行われる。
そしてビットアロケーション部42は、そのビットアロケーションの結果に基づいてMDCT係数をスケールファクターバンドごとに量子化し、その結果得られた量子化MDCT係数を符号化部33に供給する。
このようにすることで、MDCT係数の量子化で発生してしまう量子化ノイズがマスクされて知覚されないスケールファクターバンドの量子化ビットの一部が、量子化ノイズが知覚されやすいスケールファクターバンドに割り当てられる(回される)。これにより、全体として音質の劣化を抑制し、効率的な量子化を行うことができる。すなわち、符号化効率を向上させることができる。
さらに、符号化部33では、ビットアロケーション部42から供給された量子化MDCT係数に対して、例えばコンテキストベースの算術符号化が行われ、その結果得られた符号化オーディオデータが、オーディオ信号の符号化データとして出力される。
以上のようにして、オブジェクトのメタデータとオーディオ信号が、メタエンコーダ11およびコアエンコーダ12により符号化される。
ところで、聴覚心理パラメータの計算に使用されるMDCT係数は、入力されたオーディオ信号にMDCT、すなわち時間周波数変換を行って得られたものである。
しかしながら、実際に符号化されたオーディオ信号が復号(デコード)およびレンダリングされて視聴される際には、メタデータのゲイン値が適用されるため、聴覚心理パラメータ計算時と視聴時とで使用されるオーディオ信号に乖離が生じてしまう。
そのため、所定のスケールファクターバンドに対して、本来であれば聴感上聞こえることのない量子化ノイズの発生を防ぐために余分に多くのビットが使用されてしまうなど、符号化効率が低下してしまう場合がある。
そこで本技術では、メタデータのゲイン値を適用した補正MDCT係数を用いて聴覚心理パラメータを計算することで、より実際の聴感に即した聴覚心理パラメータを得て符号化効率を向上させることができるようにした。
〈符号化装置の構成例〉
図4は、本技術を適用した符号化装置の一実施の形態の構成例を示す図である。なお、図4において図2における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
図4は、本技術を適用した符号化装置の一実施の形態の構成例を示す図である。なお、図4において図2における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
図4に示す符号化装置71は、例えばオーディオオブジェクトのコンテンツを配信するサーバ等の信号処理装置により実現され、メタエンコーダ11、コアエンコーダ12、および多重化部81を有している。
また、メタエンコーダ11は、量子化部21および符号化部22を有しており、コアエンコーダ12は、オーディオ信号補正部91、時間周波数変換部92、時間周波数変換部31、量子化部32、および符号化部33を有している。
さらに量子化部32は、聴覚心理パラメータ計算部41およびビットアロケーション部42を有している。
符号化装置71の構成は、図2に示した構成に対して新たに多重化部81、オーディオ信号補正部91、および時間周波数変換部92を設けた構成となっており、その他の点では図2に示した構成と同じとなっている。
図4の例では、多重化部81は、符号化部22から供給された符号化メタデータと、符号化部33から供給された符号化オーディオデータとを多重化してビットストリームを生成し、出力する。
また、オーディオ信号補正部91にはオブジェクトのオーディオ信号と、メタデータを構成するオブジェクトのゲイン値とが供給される。
オーディオ信号補正部91は、供給されたゲイン値に基づいて、供給されたオーディオ信号に対するゲイン補正を行い、ゲイン補正後のオーディオ信号を時間周波数変換部92に供給する。例えばオーディオ信号補正部91では、ゲイン値がオーディオ信号に乗算されて、オーディオ信号がゲイン補正される。すなわち、ここでは時間領域でオーディオ信号に対する補正が行われる。
時間周波数変換部92は、オーディオ信号補正部91から供給されたオーディオ信号に対してMDCTを行い、その結果得られたMDCT係数を聴覚心理パラメータ計算部41に供給する。
なお、以下では、オーディオ信号補正部91でのゲイン補正により得られたオーディオ信号を、特に補正オーディオ信号とも称し、時間周波数変換部92でのMDCTで得られたMDCT係数を、特に補正MDCT係数とも称することとする。
また、この例では時間周波数変換部31で得られたMDCT係数は、聴覚心理パラメータ計算部41には供給されず、聴覚心理パラメータ計算部41では、時間周波数変換部92から供給された補正MDCT係数に基づいて聴覚心理パラメータが計算される。
符号化装置71では、冒頭にあるオーディオ信号補正部91において、入力されたオブジェクトのオーディオ信号に対して、レンダリング時と同様にメタデータに含まれるゲイン値を適用するゲイン補正が行われる。
その後、ゲイン補正により得られた補正オーディオ信号に対して、ビットアロケーション用とは別に時間周波数変換部92によりMDCTが行われ、補正MDCT係数が求められる。
そして、最後に、補正MDCT係数に基づいて、聴覚心理パラメータ計算部41により聴覚心理パラメータを計算することで、図2における場合よりも実際の聴感に即した聴覚心理パラメータが得られる。
これは、補正オーディオ信号に基づく音は、もとのオーディオ信号に基づく音よりも、復号側でのレンダリングにより得られる信号に基づく音により近いものとなるからである。このようにすることで、各スケールファクターバンドに対して、より適切に量子化ビットが割り当てられるようになり、符号化効率を向上させることができる。
なお、ここではオーディオ信号補正部91でのゲイン補正に量子化前のメタデータのゲイン値を用いる例について説明したが、符号化後や量子化後のゲイン値をオーディオ信号補正部91に供給し、ゲイン補正に利用するようにしてもよい。
そのような場合、オーディオ信号補正部91において、符号化後や量子化後のゲイン値が復号されたり逆量子化されたりして、その結果得られたゲイン値に基づいてオーディオ信号のゲイン補正が行われ、補正オーディオ信号とされる。
〈符号化処理の説明〉
次に、図4に示した符号化装置71の動作について説明する。すなわち、以下、図5のフローチャートを参照して、符号化装置71による符号化処理について説明する。
次に、図4に示した符号化装置71の動作について説明する。すなわち、以下、図5のフローチャートを参照して、符号化装置71による符号化処理について説明する。
ステップS11において量子化部21は、供給されたメタデータとしての各パラメータを量子化し、その結果得られた量子化パラメータを符号化部22に供給する。
このとき、量子化部21は、予め定められたvalue rangeよりも大きいパラメータについてはそのvalue rangeの上限値への置き換えを行ってから量子化を行い、同様にvalue rangeよりも小さいパラメータについては下限値への置き換えを行ってから量子化を行う。
ステップS12において符号化部22は、量子化部21から供給された量子化パラメータに対して差分符号化を行い、その結果得られた符号化メタデータを多重化部81に供給する。
ステップS13においてオーディオ信号補正部91は、供給されたオブジェクトのオーディオ信号に対して、供給されたメタデータのゲイン値に基づくゲイン補正を行い、その結果得られた補正オーディオ信号を時間周波数変換部92に供給する。
ステップS14において時間周波数変換部92は、オーディオ信号補正部91から供給された補正オーディオ信号に対するMDCT(時間周波数変換)を行い、その結果得られた補正MDCT係数を聴覚心理パラメータ計算部41に供給する。
ステップS15において時間周波数変換部31は、供給されたオブジェクトのオーディオ信号に対するMDCT(時間周波数変換)を行い、その結果得られたMDCT係数をビットアロケーション部42に供給する。
ステップS16において聴覚心理パラメータ計算部41は、時間周波数変換部92から供給された補正MDCT係数に基づいて聴覚心理パラメータを計算し、ビットアロケーション部42に供給する。
ステップS17においてビットアロケーション部42は、聴覚心理パラメータ計算部41から供給された聴覚心理パラメータと、時間周波数変換部31から供給されたMDCT係数とに基づいて聴覚心理モデルに基づくビットアロケーションを行い、その結果に基づきスケールファクターバンドごとにMDCT係数を量子化する。ビットアロケーション部42は、量子化により得られた量子化MDCT係数を符号化部33に供給する。
ステップS18において符号化部33は、ビットアロケーション部42から供給された量子化MDCT係数に対して、コンテキストベースの算術符号化を行い、その結果得られた符号化オーディオデータを多重化部81に供給する。
ステップS19において多重化部81は、符号化部22から供給された符号化メタデータと、符号化部33から供給された符号化オーディオデータとを多重化してビットストリームを生成し、出力する。
このようにしてビットストリームが出力されると、符号化処理は終了する。
以上のようにして符号化装置71は、符号化前のメタデータのゲイン値に基づいてオーディオ信号を補正し、その結果得られた補正オーディオ信号に基づいて聴覚心理パラメータを計算する。このようにすることで、より実際の聴感に即した聴覚心理パラメータを得ることができ、符号化効率を向上させることができる。
〈第2の実施の形態〉
〈符号化装置の構成例〉
ところで、図4に示した符号化装置71では、MDCTを2回行う必要があるため、演算負荷(演算量)が大きくなってしまう。そこで、周波数領域でMDCT係数(オーディオ信号)の補正を行うことで、演算量を低減させるようにしてもよい。
〈符号化装置の構成例〉
ところで、図4に示した符号化装置71では、MDCTを2回行う必要があるため、演算負荷(演算量)が大きくなってしまう。そこで、周波数領域でMDCT係数(オーディオ信号)の補正を行うことで、演算量を低減させるようにしてもよい。
そのような場合、符号化装置71は、例えば図6に示すように構成される。なお、図6において図4における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
図6に示す符号化装置71は、メタエンコーダ11、コアエンコーダ12、および多重化部81を有している。
また、メタエンコーダ11は、量子化部21および符号化部22を有しており、コアエンコーダ12は、時間周波数変換部31、MDCT係数補正部131、量子化部32、および符号化部33を有している。さらに量子化部32は、聴覚心理パラメータ計算部41およびビットアロケーション部42を有している。
図6に示す符号化装置71の構成は、時間周波数変換部92とオーディオ信号補正部91に代えて、MDCT係数補正部131を設けた点で図4の符号化装置71の構成と異なり、その他の点では図4の符号化装置71と同じ構成となっている。
この例では、まず、オブジェクトのオーディオ信号に対して時間周波数変換部31によりMDCTが行われ、その結果得られたMDCT係数がMDCT係数補正部131およびビットアロケーション部42に供給される。
そして、MDCT係数補正部131では、時間周波数変換部31から供給されたMDCT係数に対して、供給されたメタデータのゲイン値に基づいて補正が行われ、その結果得られた補正MDCT係数が聴覚心理パラメータ計算部41へと供給される。
例えばMDCT係数補正部131では、MDCT係数にゲイン値が乗算されて、MDCT係数が補正される。これにより、オーディオ信号が周波数領域でゲイン補正されたことになる。
このように周波数領域でゲイン補正を行う場合、時間領域で実際のレンダリングと同様にメタデータのゲイン値によるゲイン補正を行う第1の実施の形態の場合と比較して、ゲイン補正の再現度が多少低下する。すなわち、補正MDCT係数は、第1の実施の形態における場合ほど正確ではない。
しかし、補正MDCT係数に基づいて、聴覚心理パラメータ計算部41により聴覚心理パラメータを計算することで、図2における場合と略同じ演算量で、図2における場合よりも実際の聴感に即した聴覚心理パラメータを得ることができる。これにより、演算負荷を低く抑えつつ符号化効率を向上させることができる。
なお、図6では、MDCT係数の補正に量子化前のメタデータのゲイン値を用いる例について説明したが、符号化後や量子化後のゲイン値を利用するようにしてもよい。
そのような場合、MDCT係数補正部131において、符号化後や量子化後のゲイン値が復号されたり逆量子化されたりして、その結果得られたゲイン値に基づいてMDCT係数の補正が行われ、補正MDCT係数とされる。
〈符号化処理の説明〉
次に、図6に示した符号化装置71の動作について説明する。すなわち、以下、図7のフローチャートを参照して、図6の符号化装置71による符号化処理について説明する。
次に、図6に示した符号化装置71の動作について説明する。すなわち、以下、図7のフローチャートを参照して、図6の符号化装置71による符号化処理について説明する。
なお、ステップS51およびステップS52の処理は、図5のステップS11およびステップS12の処理と同様であるので、その説明は省略する。
ステップS53において時間周波数変換部31は、供給されたオブジェクトのオーディオ信号に対するMDCTを行い、その結果得られたMDCT係数をMDCT係数補正部131およびビットアロケーション部42に供給する。
ステップS54においてMDCT係数補正部131は、時間周波数変換部31から供給されたMDCT係数に対して、供給されたメタデータのゲイン値に基づいて補正を行い、その結果得られた補正MDCT係数を聴覚心理パラメータ計算部41に供給する。
このようにして補正MDCT係数が得られると、その後、ステップS55乃至ステップS58の処理が行われて符号化処理は終了するが、これらの処理は図5のステップS16乃至ステップS19の処理と同様であるので、その説明は省略する。但し、ステップS55では、聴覚心理パラメータ計算部41は、MDCT係数補正部131から供給された補正MDCT係数に基づいて聴覚心理パラメータを計算する。
以上のようにして符号化装置71は、周波数領域でオーディオ信号(MDCT係数)の補正を行い、得られた補正MDCT係数に基づいて聴覚心理パラメータを計算する。
このようにすることで、少ない演算量でも、より実際の聴感に即した聴覚心理パラメータを得ることができ、符号化効率を向上させることができる。
〈第3の実施の形態〉
〈符号化装置の構成例〉
ところで、実際の3D Audioのコンテンツにおいては、符号化前のメタデータのゲイン値が必ずしもMPEG-Hの仕様範囲内の値であるとは限らない。
〈符号化装置の構成例〉
ところで、実際の3D Audioのコンテンツにおいては、符号化前のメタデータのゲイン値が必ずしもMPEG-Hの仕様範囲内の値であるとは限らない。
すなわち、例えばコンテンツ制作時に、波形レベルが極端に小さいオブジェクトの音量を他のオブジェクトの音量と揃えるために、メタデータのゲイン値が5.957(≒15.50dB)よりも大きい値とされることが考えられる。逆に、不要な音に対してメタデータのゲイン値が0.004(≒-49.76dB)より小さい値とされることもあり得る。
このようなコンテンツをMPEG-Hフォーマットで符号化および復号する場合、メタデータのゲイン値が図3に示したvalue rangeの上限値または下限値に制限されると、再生時に実際に聴取される音がコンテンツ制作者の意図とは異なるものとなってしまう。
そこで、メタデータのゲイン値がMPEG-Hの仕様の範囲外である場合に、MPEG-Hの仕様に準拠するようにメタデータのゲイン値とオーディオ信号を修正する前処理を行うことで、よりコンテンツ制作者の意図に近い音が再生されるようにしてもよい。
そのような場合、符号化装置71は、例えば図8に示すように構成される。なお、図8において図6における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
図8に示す符号化装置71は、修正部161、メタエンコーダ11、コアエンコーダ12、および多重化部81を有している。
また、メタエンコーダ11は、量子化部21および符号化部22を有しており、コアエンコーダ12は、時間周波数変換部31、MDCT係数補正部131、量子化部32、および符号化部33を有している。さらに量子化部32は、聴覚心理パラメータ計算部41およびビットアロケーション部42を有している。
図8に示す符号化装置71の構成は、新たに修正部161が設けられている点で図6の符号化装置71の構成と異なり、その他の点では図6の符号化装置71と同じ構成となっている。
図8に示す例では、コンテンツを構成するオブジェクトのメタデータおよびオーディオ信号が修正部161に供給される。
修正部161は、符号化前に、供給されたメタデータのゲイン値のなかに、MPEG-Hの仕様範囲外、つまり上述のvalue range外のゲイン値があるかのチェック(確認)を行う。
そして、修正部161は、value range外のゲイン値がある場合には、そのゲイン値と、ゲイン値に対応するオーディオ信号に対して、MPEG-H 仕様に基づくゲイン値とオーディオ信号の修正処理を前処理として行う。
具体的には、修正部161はvalue range(MPEG-Hの仕様範囲)外のゲイン値を、そのvalue rangeの上限値または下限値に修正し、修正ゲイン値とする。
すなわち、ゲイン値がvalue rangeの上限値よりも大きい場合には、その上限値が修正後のゲイン値である修正ゲイン値とされ、ゲイン値がvalue rangeの下限値よりも小さい場合には、その下限値が修正ゲイン値とされる。
なお、修正部161では、メタデータとしての複数のパラメータのうち、ゲイン値以外のパラメータについての修正(変更)は行われない。
また、修正部161は修正前のゲイン値と修正ゲイン値とに基づいて、供給されたオブジェクトのオーディオ信号に対するゲイン補正を行い、修正オーディオ信号とする。すなわち、修正前のゲイン値と修正ゲイン値の差分に基づき、オーディオ信号に対する修正(ゲイン補正)が行われる。
このとき、修正前のメタデータ(ゲイン値)およびオーディオ信号に基づくレンダリングの出力と、修正後のメタデータ(修正ゲイン値)および修正オーディオ信号に基づくレンダリングの出力とが等しくなるようにオーディオ信号に対するゲイン補正が行われる。
修正部161は、以上のゲイン値とオーディオ信号の修正を前処理として行い、必要に応じて修正されたゲイン値と、供給されたメタデータのゲイン値以外の他のパラメータとからなるデータを修正後のメタデータとして量子化部21に供給するとともに、必要に応じて修正されたゲイン値をMDCT係数補正部131に供給する。
また、修正部161は、必要に応じて修正されたオーディオ信号を時間周波数変換部31に供給する。
なお、以下では、説明を簡単にするため、修正が行われたか否かによらず、修正部161から出力されるメタデータおよびゲイン値を修正メタデータおよび修正ゲイン値とも称することとする。同様に、修正部161から出力されるオーディオ信号を修正オーディオ信号とも称することとする。
したがって、この例では修正メタデータがメタエンコーダ11の入力となり、修正オーディオ信号および修正ゲイン値がコアエンコーダ12の入力となる。
このようにすることで、実質的にMPEG-Hの仕様によってゲイン値が制限されることがなくなるため、コンテンツ制作者の意図通りのレンダリング結果を得ることができる。
メタエンコーダ11やコアエンコーダ12では、修正メタデータや修正オーディオ信号を入力として、図6に示した例と同様の処理が行われる。
すなわち、例えばコアエンコーダ12では、時間周波数変換部31により修正オーディオ信号に対してMDCTが行われ、その結果得られたMDCT係数がMDCT係数補正部131およびビットアロケーション部42に供給される。
また、MDCT係数補正部131では、時間周波数変換部31から供給されたMDCT係数に対して、修正部161から供給された修正ゲイン値に基づいて補正が行われ、その結果得られた補正MDCT係数が聴覚心理パラメータ計算部41へと供給される。
なお、ここでは周波数領域でMDCT係数の補正が行われる例について説明したが、第1の実施の形態と同様に、時間領域において修正ゲイン値により修正オーディオ信号のゲイン補正が行われ、その後、MDCTにより補正MDCT係数が求められてもよい。
ここで、図9乃至図11を参照して、ゲイン値とオーディオ信号の修正の具体的な例について説明する。
図9は、所定のオブジェクトのメタデータのフレームごとのゲイン値を示している。なお、図9において横軸はフレームを示しており、縦軸はゲイン値を示している。
特に、この例では折れ線L11は修正前における各フレームでのゲイン値を示しており、折れ線L12は各フレームでの修正後のゲイン値、つまり修正ゲイン値を示している。
また、直線L13はMPEG-Hの仕様範囲、つまり上述のvalue rangeの下限値(0.004(≒-49.76dB))を示しており、直線L14はMPEG-Hの仕様範囲の上限値(5.957(≒15.50dB))を示している。
ここでは、例えばフレーム「2」における修正前のゲイン値は、直線L13により示される下限値よりも小さい値であるので、ゲイン値が下限値へと置き換えられて修正ゲイン値とされている。また、例えばフレーム「4」における修正前のゲイン値は、直線L14により示される上限値よりも大きい値であるので、ゲイン値が上限値へと置き換えられて修正ゲイン値とされている。
このように、適宜、ゲイン値の修正を行うことで、各フレームにおける修正ゲイン値はMPEG-Hの仕様範囲(value range)内の値となっている。
また、図10は修正部161での修正前のオーディオ信号を示しており、図11は図10に示したオーディオ信号を修正することで得られた修正オーディオ信号を示している。なお、図10および図11において横軸は時間を示しており、縦軸は信号レベルを示している。
図10に示されるように、修正前のオーディオ信号の信号レベルは時間によらず一定のレベルとなっている。
このようなオーディオ信号に対して修正部161でゲイン値および修正ゲイン値に基づくゲイン補正を行うと、図11に示すように各時刻で信号レベルが異なる、つまり信号レベルが一定ではない修正オーディオ信号が得られる。
特に図11では、修正オーディオ信号における、メタデータのゲイン値が修正によって小さくなった、つまり上限値に置き換えられた影響が生じるサンプルでは、修正前よりも信号レベルが大きくなっていることが分かる。
これは、修正の前後でレンダリングの出力が同じとなるようにするためには、ゲイン値が小さくなった分だけ、オーディオ信号を大きくしておく必要があるからである。
逆に、修正オーディオ信号における、メタデータのゲイン値が修正によって大きくなった、つまり下限値に置き換えられた影響が生じるサンプルでは、修正前よりも信号レベルが小さくなっていることが分かる。
〈符号化処理の説明〉
次に、図8に示した符号化装置71の動作について説明する。すなわち、以下、図12のフローチャートを参照して、図8の符号化装置71による符号化処理について説明する。
次に、図8に示した符号化装置71の動作について説明する。すなわち、以下、図12のフローチャートを参照して、図8の符号化装置71による符号化処理について説明する。
ステップS91において修正部161は、供給されたオブジェクトのメタデータのゲイン値に応じて、必要に応じてメタデータ、より詳細にはメタデータのゲイン値と、供給されたオブジェクトのオーディオ信号とを修正する。
すなわち、修正部161は、メタデータのゲイン値がMPEG-Hの仕様範囲外、つまりvalue range外の値である場合、そのゲイン値をvalue rangeの上限値または下限値へと置き換える修正を行うとともに、修正前後のゲイン値に基づいてオーディオ信号を修正する。
修正部161は、適宜修正を行うことにより得られた修正ゲイン値と、供給されたゲイン値以外のメタデータのパラメータとからなる修正メタデータを量子化部21に供給するとともに、修正ゲイン値をMDCT係数補正部131に供給する。
また、修正部161は、適宜修正を行うことにより得られた修正オーディオ信号を時間周波数変換部31に供給する。
このようにして修正メタデータおよび修正オーディオ信号が得られると、その後、ステップS92乃至ステップS99の処理が行われて符号化処理は終了するが、これらの処理は図7のステップS51乃至ステップS58の処理と同様であるので、その説明は省略する。
但し、ステップS92およびステップS93では、修正メタデータが量子化および符号化され、ステップS94では修正オーディオ信号に対してMDCTが行われる。
また、ステップS95では、ステップS94で得られたMDCT係数と、修正部161から供給された修正ゲイン値とに基づいて、MDCT係数の補正が行われ、その結果得られた補正MDCT係数が聴覚心理パラメータ計算部41へと供給される。
以上のようにして符号化装置71は、入力されたメタデータおよびオーディオ信号を、必要に応じて修正してから符号化を行う。
このようにすることで、実質的にMPEG-Hの仕様によってゲイン値が制限されてしまうことがなくなり、コンテンツ制作者の意図通りのレンダリング結果を得ることができる。
〈第4の実施の形態〉
〈聴覚特性に応じたゲイン値の補正について〉
さらに、音源からの音の到来方向に関する聴覚特性に応じて、聴覚心理パラメータの計算に用いるオーディオ信号の補正を行うようにすることもできる。
〈聴覚特性に応じたゲイン値の補正について〉
さらに、音源からの音の到来方向に関する聴覚特性に応じて、聴覚心理パラメータの計算に用いるオーディオ信号の補正を行うようにすることもできる。
例えば聴覚の特性として、音の大きさの感じ方は、音源からの音の到来方向によって異なる。
つまり、同じオブジェクトであっても、聴取者に対して前方、側方、上方、および下方の各方向に音源がある場合で、それぞれ聴感上の音の大きさが異なる。そのため、実際の聴感に即した聴覚心理パラメータの計算を行うためには、音源からの音の到来方向による音圧感度の違いを踏まえたゲイン補正が必要である。
ここで、音の到来方向に応じた音圧感度の違いと、その音圧感度に応じた補正について説明する。
図13は、あるピンクノイズが聴取者の真正面で再生されたときの聴感上の音の大きさを基準として、同じピンクノイズを異なる方向から再生した際に、聴感上の音の大きさが同じに感じるようにピンクノイズのゲイン補正を行ったときのゲイン補正量の一例を示している。
なお、図13において縦軸はゲイン補正量を示しており、横軸は聴取者から見た音源位置を示す水平方向の角度であるAzimuth(水平角度)を示している。
例えば、聴取者から見た真正面の方向を示すAzimuthは0度であり、聴取者から見た真横の方向、つまり側方を示すAzimuthは±90度であり、聴取者の後方、つまり真後ろの方向を示すAzimuthは180度である。特に、聴取者から見て左方向がAzimuthの正の方向となっている。
この例では、複数人の聴取者を対象として行われた実験の結果から得られた各Azimuthに対するゲイン補正量の平均値を示しており、特に各Azimuthにおいて点線で表される範囲は95%の信頼区間を示している。
例えば側方(Azimuth=±90度)でピンクノイズを再生するときには、ゲインを少し下げることで、聴取者は正面方向でピンクノイズを再生したときと同じ大きさで音が聞こえるように感じることが分かる。
また、例えば後方(Azimuth=180度)でピンクノイズを再生するときには、ゲインを少し上げることで、聴取者は正面方向でピンクノイズを再生したときと同じ大きさで音が聞こえるように感じることが分かる。
すなわち、あるオブジェクト音源に対して、そのオブジェクト音源の定位位置が聴取者の側方にあるときにはオブジェクト音源の音のゲインを少し下げ、オブジェクト音源の定位位置が聴取者の後方にあるときにはオブジェクト音源の音のゲインを少し上げると、聴取者に同じ大きさで音が聞こえているように感じさせることができる。
そこで、オブジェクトの位置情報から、聴覚特性に基づき、そのオブジェクトに対するゲイン値の補正量を決定し、決定した補正量でゲイン値を補正すれば、聴覚特性を考慮した聴覚心理パラメータを得ることができる。
そのような場合、例えば図14に示すようにゲイン補正部191および聴覚特性テーブル保持部192を設けるようにすればよい。
ゲイン補正部191には、オブジェクトのメタデータに含まれるゲイン値が供給されるとともに、オブジェクトのメタデータに含まれる位置情報としての水平角度(Azimuth)、垂直角度(Elevation)、および距離(Radius)が供給される。なお、ここでは説明を簡単にするため、ゲイン値は1.0であるものとする。
ゲイン補正部191は、供給されたメタデータとしての位置情報と、聴覚特性テーブル保持部192に保持されている聴覚特性テーブルとに基づいて、オブジェクトのゲイン値を補正するゲイン補正量を示すゲイン補正値を決定する。
また、ゲイン補正部191は、決定したゲイン補正値に基づいて、供給されたゲイン値を補正し、その結果得られたゲイン値を補正ゲイン値として出力する。
換言すれば、ゲイン補正部191は位置情報により示される、聴取者から見たオブジェクトの方向(音の到来方向)に応じてゲイン補正値を決定することで、聴覚心理パラメータの計算に用いるオーディオ信号のゲイン補正のための補正ゲイン値を決定する。
聴覚特性テーブル保持部192は、音源からの音の到来方向に関する聴覚特性を示す聴覚特性テーブルを保持しており、必要に応じて聴覚特性テーブルにより示されるゲイン補正値をゲイン補正部191に供給する。
ここで、聴覚特性テーブルは、音源であるオブジェクトから聴取者への音の到来方向、つまり聴取者から見た音源の方向(位置)と、その方向に応じたゲイン補正値とが対応付けられているテーブルである。換言すれば、聴覚特性テーブルは、音源からの音の到来方向に対して、聴感上の音の大きさを一定にするゲイン補正量を示す聴覚特性である。
聴覚特性テーブルにより示されるゲイン補正値は、音の到来方向に対する人の聴覚特性に応じて定められたものであり、特に音の到来方向によらず聴感上の音の大きさが一定になるようなゲイン補正量となっている。換言すれば、ゲイン補正値は、音の到来方向に関する聴覚特性に基づくゲイン値の補正を行うための補正値である。
したがって、聴覚特性テーブルにより示されるゲイン補正値によりゲイン値を補正して得られた補正ゲイン値を用いてオブジェクトのオーディオ信号をゲイン補正すれば、オブジェクトの位置によらず、同じオブジェクトの音は同じ大きさで聞こえるようになる。
ここで、図15に聴覚特性テーブルの例を示す。
図15に示す例では水平角度(Azimuth)、垂直角度(Elevation)、および距離(Radius)により定まるオブジェクトの位置、つまりオブジェクトの方向に対してゲイン補正値が対応付けられている。
特に、この例では全ての垂直角度(Elevation)および距離(Radius)が0および1.0となっており、オブジェクトの垂直方向の位置は聴取者と同じ高さであり、かつ聴取者からオブジェクトまでの距離は常に一定であると想定されている。
図15の例では、例えば水平角度が180度である場合など、音源であるオブジェクトが聴取者の後方にある場合には、水平角度が0度や30度である場合など、オブジェクトが聴取者の前方にある場合よりもゲイン補正値が大きくなっている。
また、聴覚特性テーブル保持部192が図15に示す聴覚特性テーブルを保持している場合における、ゲイン補正部191によるゲイン値の補正の具体的な例について説明する。
例えばオブジェクトのメタデータのパラメータである水平角度、垂直角度、および距離が90度、0度、および1.0mであるとすると、図15からオブジェクトの位置に対応するゲイン補正値は-0.52dBとなる。
したがって、ゲイン補正部191は、聴覚特性テーブルから読み出したゲイン補正値「-0.52dB」と、ゲイン値「1.0」とに基づいて次式(1)の計算を行い、補正ゲイン値「0.94」を得る。
同様に、例えばオブジェクトの位置を示す水平角度、垂直角度、および距離が-150度、0度、および1.0mであるとすると、図15からオブジェクトの位置に対応するゲイン補正値は0.51dBとなる。
したがって、ゲイン補正部191は、聴覚特性テーブルから読み出したゲイン補正値「0.51dB」と、ゲイン値「1.0」とに基づいて次式(2)の計算を行い、補正ゲイン値「1.06」を得る。
なお、図15では水平方向のみが考慮された2次元の聴覚特性に基づいて決定されたゲイン補正値を利用する例について説明した。つまり、2次元の聴覚特性に基づいて生成された聴覚特性テーブル(以下、2次元聴覚特性テーブルとも称する)を利用する例について説明した。
しかし、水平方向だけでなく垂直方向の特性も考慮された3次元の聴覚特性に基づいて決定されたゲイン補正値を利用してゲイン値を補正するようにしてもよい。
そのような場合、例えば図16に示す聴覚特性テーブルを利用することができる。
図16に示す例では、水平角度(Azimuth)、垂直角度(Elevation)、および距離(Radius)により定まるオブジェクトの位置、つまりオブジェクトの方向に対してゲイン補正値が対応付けられている。
特に、この例では全ての水平角度と垂直角度の組み合わせにおいて、距離は1.0とされている。
以下では、図16に示すように音の到来方向に対する3次元の聴覚特性に基づいて生成された聴覚特性テーブルを、特に3次元聴覚特性テーブルとも称することとする。
ここで、聴覚特性テーブル保持部192が図16に示す聴覚特性テーブルを保持している場合における、ゲイン補正部191によるゲイン値の補正の具体的な例について説明する。
例えばオブジェクトの位置を示す水平角度、垂直角度、および距離が60度、30度、および1.0mであるとすると、図16からオブジェクトの位置に対応するゲイン補正値は-0.07dBとなる。
したがって、ゲイン補正部191は、聴覚特性テーブルから読み出したゲイン補正値「-0.07dB」と、ゲイン値「1.0」とに基づいて次式(3)の計算を行い、補正ゲイン値「0.99」を得る。
なお、以上において説明した補正ゲイン値算出の具体例では、オブジェクトの位置(方向)に対して定まる聴覚特性に基づくゲイン補正値が予め用意されていた。すなわち、オブジェクトの位置情報に対応するゲイン補正値が聴覚特性テーブルに格納されている例について説明した。
しかしながら、オブジェクトの位置は、聴覚特性テーブルにおいて、対応するゲイン補正値が格納されている位置にあるとは限らない。
具体的には、例えば聴覚特性テーブル保持部192に図16に示した聴覚特性テーブルが保持されており、位置情報としての水平角度、垂直角度、および距離が-120度、15度、および1.0mであるとする。
この場合、図16の聴覚特性テーブルには、水平角度「-120」、垂直角度「15」、および距離「1.0」に対応するゲイン補正値は格納されていない。
そこで、聴覚特性テーブルに、位置情報により示される位置に対応するゲイン補正値がない場合には、その位置情報により示される位置に隣接する、対応するゲイン補正値が存在する複数の位置のゲイン補正値を用いて、ゲイン補正部191が補間処理等により所望の位置のゲイン補正値を算出するようにしてもよい。換言すれば、位置情報により示される位置の近傍にある、複数の各位置に対応付けられているゲイン補正値に基づいて補間処理等を行うことにより、位置情報により示される位置のゲイン補正値が求められる。
例えば、ゲイン補正値の補間方法の1つとしてVBAP(Vector Base Amplitude Panning)を利用した方法がある。
VBAP(3点VBAP)は、3次元空間音響のレンダリングでよく用いられる振幅パンニング手法である。
VBAPでは、任意の仮想スピーカの近傍にある3つの実スピーカに対して、それぞれ重み付けのゲインを与えて音源信号を再生することで、仮想スピーカの位置を任意に変えることができる。
その際、聴取位置から各実スピーカまでの3方向のベクトルL1、ベクトルL2、およびベクトルL3を、実スピーカに与えるゲインで重み付け加算して得られる合成ベクトルの向きが、仮想スピーカの向き(Lp)と一致するように各実スピーカのゲインvg1、ゲインvg2、およびゲインvg3が求められる。具体的には、仮想スピーカの向き、すなわち聴取位置から仮想スピーカまでのベクトルをベクトルLpとすると、次式(4)を満たすゲインvg1乃至ゲインvg3が求められる。
ここで、上述の3つの各実スピーカの位置を、聴覚特性テーブルに対応する3つのゲイン補正値CG1、ゲイン補正値CG2、およびゲイン補正値CG3が存在する位置とする。また、上述の仮想スピーカの位置を、聴覚特性テーブルに対応するゲイン補正値がない任意の位置とする。
このとき、次式(5)を計算することで、仮想スピーカの位置におけるゲイン補正値CGpを得ることができる。
式(5)では、まず、VBAPで求めた上述の重み付けのゲインvg1、ゲインvg2、およびゲインvg3に対して2乗和が1になるように正規化が行われて比率R1、比率R2、および比率R3が求められる。
そして、求められた比率R1、比率R2、および比率R3により、実スピーカ位置のゲイン補正値CG1、ゲイン補正値CG2、およびゲイン補正値CG3が重み付けされて加算された合成ゲインが、仮想スピーカの位置におけるゲイン補正値CGpとされる。
具体的には、3次元空間内においてゲイン補正値が用意されている複数の位置でメッシュが区切られる。すなわち、例えば3次元空間内の3つの各位置のゲイン補正値が用意されているとすると、それらの3つの位置を頂点とする1つの3角形の領域が1つのメッシュとされる。
このようにして3次元空間が複数のメッシュに区切られると、ゲイン補正値を得ようとする所望の位置を注目位置として、その注目位置を内包するメッシュが特定される。
また、特定されたメッシュを構成する3つの頂点位置を示す位置ベクトルの乗加算により注目位置を示す位置ベクトルを表したときの3つの各頂点位置を示す位置ベクトルに乗算される係数がVBAPにより求められる。
そして、このようにして求められた3つの係数を2乗和が1になるように正規化したそれぞれが、注目位置を内包するメッシュの3つの各頂点位置のゲイン補正値のそれぞれに乗算され、係数が乗算されたゲイン補正値の和が注目位置のゲイン補正値として算出される。また、正規化は、和または3乗以上の和が1になるようにするなど、どのような方法で行われてもよい。
なお、ゲイン補正値の補間方法はVBAPを利用した補間に限らず、他のどのような方法であってもよい。
例えば聴覚特性テーブルにおいてゲイン補正値が存在する位置のうち、注目位置の近傍にあるN個(例えばN=5)の位置など、複数個の位置のゲイン補正値の平均値を注目位置のゲイン補正値として用いてもよい。
また、例えば聴覚特性テーブルにおいてゲイン補正値が存在する位置のうち、注目位置に最も近い、ゲイン補正値が用意(格納)されている位置のゲイン補正値を注目位置のゲイン補正値として用いるようにしてもよい。
ところで、図16に示した聴覚特性テーブルでは、各位置に対して1つのゲイン補正値が用意されている。言い換えると、全周波数でゲイン補正値が均一ということになる。
しかし、方向による主観的な音圧感度の違いは、周波数によって変わることも知られている。そこで、1つの位置に対して複数の周波数ごとにゲイン補正値が用意されるようにしてもよい。
ここで、1つの位置に対して3つの周波数におけるゲイン補正値がある場合における聴覚特性テーブルの例を図17に示す。
図17に示す例では水平角度(Azimuth)、垂直角度(Elevation)、および距離(Radius)により定まる位置に対して、250Hz、1kHz、および8kHzの3つの各周波数におけるゲイン補正値が対応付けられている。なお、ここでは距離(Radius)は一定値であると想定されており、その値は聴覚特性テーブルには記されていない。
例えば水平角度が-30度であり、垂直角度が0度である位置では、250Hzにおけるゲイン補正値は-0.91とされ、1kHzにおけるゲイン補正値は-1.34とされ、8kHzにおけるゲイン補正値は-0.92とされている。
なお、ここでは各位置について250Hz、1kHz、および8kHzという3つの周波数におけるゲイン補正値が用意された聴覚特性テーブルを例として示した。しかし、これに限らず、聴覚特性テーブルにおいて、位置ごとにゲイン補正値が用意される周波数の数や、ゲイン補正値を用意する周波数は任意の数や周波数とすることができる。
また、上述の例と同様に、聴覚特性テーブルにおいて、オブジェクトの位置に対して所望する周波数のゲイン補正値が格納されていないこともある。
そこで、ゲイン補正部191が、聴覚特性テーブルにおいてオブジェクトの位置またはその位置近傍の位置における、所望の周波数近傍の他の複数の周波数に対応付けられているゲイン補正値に基づいて補間処理等を行うことにより、オブジェクトの位置における所望の周波数のゲイン補正値を求めるようにしてもよい。
例えば補間処理により所望の周波数のゲイン補正値を求める場合、0次補間や1次補間などの線形補間、スプライン補間などの非線形補間、任意の線形補間と非線形補間を組み合わせた補間処理など、どのような補間処理を行うようにしてもよい。
また、所望の位置について、周波数の最小値や最大値におけるゲイン補正値が存在しない(用意されていない)場合には、そのゲイン補正値を近傍の周波数のゲイン補正値に基づいて決定してもよいし、0dB等の固定値としてもよい。
ここで、聴覚特性テーブルにおいて、所定の位置の250Hz、1kHz、および8kHzの各周波数のゲイン補正値が存在しており、他の周波数のゲイン補正値がない場合に、他の各周波数のゲイン補正値を補間処理により求めたときの例を図18に示す。なお、図18において縦軸はゲイン補正値を示しており、横軸は周波数を示している。
この例では、250Hz、1kHz、および8kHzの各周波数におけるゲイン補正値に基づいて、線形補間や非線形補間等の補間処理が行われ、全周波数のゲイン補正値が求められている。
ところで、再生音圧によって等ラウドネス曲線が変わることが知られており、聴覚特性テーブルもオーディオ信号の再生音圧によって切り替える方がよいこともあり得る。
そこで、例えば聴覚特性テーブル保持部192に、複数の再生音圧ごとに聴覚特性テーブルを保持させておき、それらの聴覚特性テーブルのなかから、ゲイン補正部191がオブジェクトのオーディオ信号の音圧に基づいて適切なものを選択するようにしてもよい。つまり、ゲイン補正部191が、再生音圧に応じて、ゲイン値の補正に用いる聴覚特性テーブルを切り替えるようにしてもよい。
この場合においても、上述した各位置や周波数のゲイン補正値の補間と同様に、対応する音圧の聴覚特性テーブルが聴覚特性テーブル保持部192にないときには、その聴覚特性テーブルのゲイン補正値を補間処理等により求めるようにしてもよい。
そのような場合、例えばゲイン補正部191は、オブジェクトのオーディオ信号の音圧に近い、つまりその音圧近傍の他の複数の再生音圧に対応付けられている聴覚特性テーブルの所定位置のゲイン補正値に基づいて補間処理等を行うことで、オブジェクトのオーディオ信号の音圧における所定位置のゲイン補正値を求める。このとき、例えば等ラウドネス曲線における曲線間の間隔等に応じた重みを付けて補間を行うようにしてもよい。
さらに、位置や周波数、再生音圧に応じて一律にオブジェクトのオーディオ信号(MDCT係数)のゲイン補正を行うと、かえって全体の音質が低下してしまう場合もある。
具体的には、例えばもともと聴感上重要でない微小なノイズ音がオブジェクトのオーディオ信号とされている場合が考えられる。
この場合、微小なノイズ音のオブジェクトがゲイン補正値の大きい位置に配置されると、ビットアロケーション部42において、そのオブジェクトのオーディオ信号に割り当てられるビット数が増えてしまう。そうすると、その分だけ重要な他のオブジェクトの音(オーディオ信号)に割り当てられるビット数が少なくなり、音質が低下してしまう可能性がある。
したがって、オブジェクトのオーディオ信号の特性に応じてゲイン補正の方法を変えるようにしてもよい。
例えば上述の例であれば、ゲイン補正部191は、オーディオ信号のPE(Perceptual Entropy)や音圧がある閾値以下である、つまり重要でないオブジェクトであると判別できる場合には、ゲイン補正が行われないようにしたり、ゲイン補正の補正量を制限する、つまり補正ゲイン値が上限値以下となるように補正ゲイン値を制限したりするようにしてもよい。これにより、MDCT係数補正部131における、補正ゲイン値によるMDCT係数(オーディオ信号)の補正が制限されることになる。
その他、例えばゲイン補正部191は、オブジェクト音の周波数パワーに偏りがある場合には、主要な周波数帯域とそれ以外の周波数帯域とでゲイン補正に重み付けするようにしてもよい。そのような場合、例えば周波数帯域ごとに、周波数パワーに応じてゲイン補正値が補正される。
さらに、聴覚特性テーブルには、人によってその特性にばらつきがあることが知られている。よって、特定のユーザに最適化された聴覚特性テーブルを用いて、特定のユーザに最適化したエンコーダを構成することも可能である。
そのような場合、例えば聴覚特性テーブル保持部192にユーザごとに最適化された、複数のユーザごとの聴覚特性テーブルが保持されるようにすればよい。
なお、聴覚特性テーブルの最適化は、特定の人だけで聴覚特性を調べる実験を行った結果を使用してもよいし、他の別の方法で行ってもよい。
〈符号化装置の構成例〉
以上のように聴覚特性に応じてゲイン値を補正する場合、符号化装置71は、例えば図19に示すように構成される。なお、図19において図6または図14における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
以上のように聴覚特性に応じてゲイン値を補正する場合、符号化装置71は、例えば図19に示すように構成される。なお、図19において図6または図14における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
図19に示す符号化装置71は、メタエンコーダ11、コアエンコーダ12、および多重化部81を有している。
また、メタエンコーダ11は、量子化部21および符号化部22を有しており、コアエンコーダ12は、ゲイン補正部191、聴覚特性テーブル保持部192、時間周波数変換部31、MDCT係数補正部131、量子化部32、および符号化部33を有している。さらに量子化部32は、聴覚心理パラメータ計算部41およびビットアロケーション部42を有している。
図19に示す符号化装置71の構成は、新たにゲイン補正部191および聴覚特性テーブル保持部192が設けられている点で図6の符号化装置71の構成と異なり、その他の点では図6の符号化装置71と同じ構成となっている。
図19の例では、聴覚特性テーブル保持部192には、例えば図16に示した3次元聴覚特性テーブルが保持されている。
また、ゲイン補正部191には、オブジェクトのメタデータのゲイン値、水平角度、垂直角度、および距離が供給される。
ゲイン補正部191は、聴覚特性テーブル保持部192に保持されている3次元聴覚特性テーブルから、供給されたメタデータの位置情報としての水平角度、垂直角度、および距離に対応付けられているゲイン補正値を読み出す。
なお、メタデータの位置情報により示されるオブジェクトの位置に対応するゲイン補正値がない場合には、ゲイン補正部191は、適宜、補間処理等を行うことにより、位置情報により示されるオブジェクトの位置に対応するゲイン補正値を得る。
ゲイン補正部191は、このようにして得られたゲイン補正値により、供給されたオブジェクトのメタデータのゲイン値を補正し、その結果得られた補正ゲイン値をMDCT係数補正部131に供給する。
したがって、MDCT係数補正部131は、ゲイン補正部191から供給された補正ゲイン値に基づいて、時間周波数変換部31から供給されたMDCT係数の補正を行い、その結果得られた補正MDCT係数を聴覚心理パラメータ計算部41に供給する。
なお、図19に示す例では、MDCT係数のゲイン補正に量子化前のメタデータを用いる例について説明したが、符号化後や量子化後のメタデータを利用するようにしてもよい。
そのような場合、ゲイン補正部191において、符号化後や量子化後のメタデータが復号されたり逆量子化されたりして、その結果得られたゲイン値、水平角度、垂直角度、および距離に基づいて補正ゲイン値が求められる。
その他、図4や図8に示した構成に、ゲイン補正部191および聴覚特性テーブル保持部192を設けるようにしてもよい。
〈符号化処理の説明〉
次に、図19に示した符号化装置71の動作について説明する。すなわち、以下、図20のフローチャートを参照して、図19の符号化装置71による符号化処理について説明する。
次に、図19に示した符号化装置71の動作について説明する。すなわち、以下、図20のフローチャートを参照して、図19の符号化装置71による符号化処理について説明する。
なお、ステップS131およびステップS132の処理は、図7のステップS51およびステップS52の処理と同様であるので、その説明は省略する。
ステップS133においてゲイン補正部191は、供給されたメタデータのゲイン値、水平角度、垂直角度、および距離に基づいて補正ゲイン値を算出し、MDCT係数補正部131に供給する。
すなわち、ゲイン補正部191は、聴覚特性テーブル保持部192に保持されている3次元聴覚特性テーブルから、メタデータの水平角度、垂直角度、および距離に対応付けられているゲイン補正値を読み出して、そのゲイン補正値によりゲイン値を補正することで補正ゲイン値を算出する。このとき、適宜、補間処理等が行われて、水平角度、垂直角度、および距離により示されるオブジェクトの位置に対応するゲイン補正値が求められる。
このようにして補正ゲイン値が求められると、その後、ステップS134乃至ステップS139の処理が行われて符号化処理は終了するが、これらの処理は図7のステップS53乃至ステップS58の処理と同様であるので、その説明は省略する。
但し、ステップS135では、時間周波数変換部31で得られたMDCT係数が、ゲイン補正部191で得られた補正ゲイン値に基づいて補正され、補正MDCT係数とされる。
なお、上述したように最適化されたユーザごとの聴覚特性テーブルが聴覚特性テーブル保持部192に保持されているようにしてもよい。
また、聴覚特性テーブルにおいて、各位置について複数の周波数ごとにゲイン補正値が対応付けられているようにしてもよく、ゲイン補正部191が所望の周波数のゲイン補正値を、その周波数近傍の他の複数の周波数のゲイン補正値に基づく補間処理により求めるようにしてもよい。
例えば聴覚特性テーブルにおいて、各位置に周波数ごとのゲイン補正値が対応付けられて格納されている場合、ゲイン補正部191では周波数ごとに補正ゲイン値が求められ、MDCT係数補正部131では、周波数ごとに補正ゲイン値によりMDCT係数が補正される。その他、聴覚特性テーブル保持部192には、再生音圧ごとに聴覚特性テーブルが保持されているようにしてもよい。
以上のようにして符号化装置71は、3次元聴覚特性テーブルを用いてメタデータのゲイン値を補正するとともに、その結果得られた補正ゲイン値を用いて得られた補正MDCT係数に基づいて聴覚心理パラメータを計算する。
このようにすることで、少ない演算量でも、実際の聴感に即した聴覚心理パラメータを得ることができ、符号化効率を向上させることができる。特に、3次元の聴覚特性に基づいてゲイン値が補正されるので、より実際の聴感に即した聴覚心理パラメータを得ることができる。
〈第5の実施の形態〉
〈符号化装置の構成例〉
ところで、3次元の聴覚の特性として、音源からの音の到来方向による音圧感度の違いだけでなく、オブジェクト間の音にも聴覚マスキングがあり、さらにオブジェクト間の距離や音の周波数特性によってオブジェクト間のマスキング量が変わることが知られている。
〈符号化装置の構成例〉
ところで、3次元の聴覚の特性として、音源からの音の到来方向による音圧感度の違いだけでなく、オブジェクト間の音にも聴覚マスキングがあり、さらにオブジェクト間の距離や音の周波数特性によってオブジェクト間のマスキング量が変わることが知られている。
しかし、一般的な聴覚心理パラメータの計算では、オブジェクトごとに個別に聴覚マスキングの計算を行っており、オブジェクト間の聴覚マスキングは考慮されていない。
そのため、複数のオブジェクトの音が同時に再生される場合に、実際にはオブジェクト間の聴覚マスキングによって、本来であれば量子化ノイズが知覚されないにも関わらず量子化ビットを過剰に使用してしまう場合がある。
そこで、オブジェクトの位置や距離に応じた、複数のオブジェクト間の聴覚マスキングを考慮した3次元聴覚心理モデルを用いて聴覚心理パラメータの計算を行うことで、さらに符号化効率のよいビットアロケーションを行うようにしてもよい。
そのような場合、符号化装置71は、例えば図21に示すように構成される。なお、図21において図4における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
図21に示す符号化装置71は、メタエンコーダ11、コアエンコーダ12、および多重化部81を有している。
また、メタエンコーダ11は、量子化部21および符号化部22を有しており、コアエンコーダ12は、時間周波数変換部31、量子化部32、および符号化部33を有している。さらに量子化部32は、聴覚心理モデル保持部221、聴覚心理パラメータ計算部222、およびビットアロケーション部42を有している。
図21に示す符号化装置71の構成は、オーディオ信号補正部91と時間周波数変換部92、および聴覚心理パラメータ計算部41に代えて、聴覚心理モデル保持部221および聴覚心理パラメータ計算部222を設けた点で図4の符号化装置71の構成と異なり、その他の点では図4の符号化装置71と同じ構成となっている。
この例では、聴覚心理モデル保持部221は、予め用意された、複数のオブジェクト間の聴覚マスキングに関する3次元聴覚心理モデルを保持している。この3次元聴覚心理モデルは、オブジェクト単体の聴覚マスキングだけでなく、複数のオブジェクト間の聴覚マスキングも考慮された聴覚心理モデルである。
また、時間周波数変換部31で得られたMDCT係数と、オブジェクトのメタデータの水平角度、垂直角度、距離、およびゲイン値とが聴覚心理パラメータ計算部222に供給される。
聴覚心理パラメータ計算部222は、3次元聴覚特性に基づく聴覚心理パラメータ計算を行う。すなわち、聴覚心理パラメータ計算部222は、時間周波数変換部31からのMDCT係数、供給されたメタデータの水平角度、垂直角度、距離、およびゲイン値、並びに聴覚心理モデル保持部221に保持されている3次元聴覚心理モデルに基づいて聴覚心理パラメータを計算し、ビットアロケーション部42に供給する。
このような3次元聴覚特性に基づく聴覚心理パラメータ計算では、従来から考慮されていたオブジェクトごとの聴覚マスキングだけでなく、オブジェクト間の聴覚マスキングも考慮された聴覚心理パラメータを得ることができる。
これにより、3次元聴覚特性に基づく聴覚心理パラメータを用いてビットアロケーションを行うことができ、さらに符号化効率を向上させることができる。
〈符号化処理の説明〉
次に、図21に示した符号化装置71の動作について説明する。すなわち、以下、図22のフローチャートを参照して、図21の符号化装置71による符号化処理について説明する。
次に、図21に示した符号化装置71の動作について説明する。すなわち、以下、図22のフローチャートを参照して、図21の符号化装置71による符号化処理について説明する。
なお、ステップS171およびステップS172の処理は、図5のステップS11およびステップS12の処理と同様であるので、その説明は省略する。
ステップS173において時間周波数変換部31は、供給されたオブジェクトのオーディオ信号に対するMDCT(時間周波数変換)を行い、その結果得られたMDCT係数を聴覚心理パラメータ計算部222およびビットアロケーション部42に供給する。
ステップS174において聴覚心理パラメータ計算部222は、時間周波数変換部31からのMDCT係数、供給されたメタデータの水平角度、垂直角度、距離、およびゲイン値、並びに聴覚心理モデル保持部221に保持されている3次元聴覚心理モデルに基づいて聴覚心理パラメータを計算し、ビットアロケーション部42に供給する。
このとき、聴覚心理パラメータ計算部222は、処理対象のオブジェクトのMDCT係数や、水平角度、垂直角度、距離、ゲイン値だけでなく、他のオブジェクトのMDCT係数や、水平角度、垂直角度、距離、ゲイン値も用いて聴覚心理パラメータを計算する。
具体的な例として、例えば聴覚心理パラメータとしてのマスキング閾値を求める場合について説明する。
この場合、処理対象のオブジェクトのMDCT係数やゲイン値などに基づいてマスキング閾値が求められる。そして、処理対象のオブジェクトと他のオブジェクトのMDCT係数やゲイン値、位置情報と、3次元聴覚心理モデルとに基づいて、オブジェクト間の距離や相対的な位置関係、周波数のパワー(MDCT係数)の差などに応じたオフセット値(補正値)が求められる。さらに、求めたマスキング閾値がオフセット値により補正され、最終的なマスキング閾値とされる。
このようにすることで、オブジェクト間の聴覚マスキングも考慮された聴覚心理パラメータを得ることができる。
聴覚心理パラメータが算出されると、その後、ステップS175乃至ステップS177の処理が行われて符号化処理は終了するが、これらの処理は図5のステップS17乃至ステップS19の処理と同様であるので、その説明は省略する。
以上のようにして符号化装置71は、3次元聴覚心理モデルに基づいて聴覚心理パラメータを計算する。このようにすることで、オブジェクト間の聴覚マスキングも考慮した3次元聴覚特性に基づく聴覚心理パラメータを用いてビットアロケーションを行うことができ、符号化効率を向上させることができる。
〈第6の実施の形態〉
〈符号化装置の構成例〉
なお、以上において説明したオブジェクトのメタデータのゲイン値や位置情報をビットアロケーションに利用する手法は、例えば、配信されたコンテンツの視聴の際に、オブジェクトのメタデータ、すなわち位置やゲインを、ユーザが変更なしにそのまま使用してレンダリングするようなサービスにおいては有効である。
〈符号化装置の構成例〉
なお、以上において説明したオブジェクトのメタデータのゲイン値や位置情報をビットアロケーションに利用する手法は、例えば、配信されたコンテンツの視聴の際に、オブジェクトのメタデータ、すなわち位置やゲインを、ユーザが変更なしにそのまま使用してレンダリングするようなサービスにおいては有効である。
一方で、このような手法は、ユーザがレンダリング時のメタデータを編集できるようなサービスにおいては、符号化(エンコード)時とレンダリング時とでメタデータが異なる可能性があるため、そのままでは利用できない。
しかし、そのようなサービスであっても、コンテンツ制作者が全てのオブジェクトのメタデータの編集を許可するとは限らず、ユーザによるメタデータの編集を許可するオブジェクトと許可しないオブジェクトをコンテンツ制作者が指定することが考えられる。
ここで、コンテンツ制作者によるオブジェクトごとのメタデータの編集許可フラグ「editingPermissionFlag」を追加したメタデータのConfigのシンタックスを図23に示す。編集許可フラグは、メタデータの編集を許可するか否かを示す編集許可情報の一例である。
この例では、メタデータのConfig(ObjectMetadataConfig)における矢印Q11に示す部分に編集許可フラグ「editingPermissionFlag」が含まれている。
ここで、「num_objects」はコンテンツを構成するオブジェクトの数を示しており、この例ではオブジェクトごとに編集許可フラグが格納されている。
特に、編集許可フラグの値「1」はオブジェクトのメタデータの編集が許可されていることを示しており、編集許可フラグの値「0」はオブジェクトのメタデータの編集が許可されていないことを示している。コンテンツ制作者は、オブジェクトごとに編集許可フラグの値を指定(セット)する。
このような編集許可フラグをメタデータに含めるようにすれば、メタデータの編集が許可されていないオブジェクトについては、3次元聴覚心理モデルに基づいて聴覚心理パラメータを計算することができる。
そのような場合、符号化装置71は、例えば図24に示すように構成される。なお、図24において図21における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
図24に示す符号化装置71は、メタエンコーダ11、コアエンコーダ12、および多重化部81を有している。
また、メタエンコーダ11は、量子化部21および符号化部22を有しており、コアエンコーダ12は、時間周波数変換部31、量子化部32、および符号化部33を有している。さらに量子化部32は、聴覚心理モデル保持部221、聴覚心理パラメータ計算部222、およびビットアロケーション部42を有している。
図24に示す符号化装置71は、基本的には図21に示した符号化装置71と同じであるが、図24に示す符号化装置71では、入力されるメタデータにオブジェクトごとの編集許可フラグが含まれている点で、図21の符号化装置71と異なっている。
この例では、メタデータの各パラメータとして、水平角度、垂直角度、距離、ゲイン値、編集許可フラグ、および他のパラメータ(Other parameters)が量子化部21に入力される。また、メタデータのうちの水平角度、垂直角度、距離、ゲイン値、および編集許可フラグが聴覚心理パラメータ計算部222に供給される。
したがって、聴覚心理パラメータ計算部222は、供給された編集許可フラグに応じて、図4を参照して説明した聴覚心理パラメータ計算部41と同様にして聴覚心理パラメータを計算するか、または図21の例と同様にして聴覚心理パラメータを計算する。
〈符号化処理の説明〉
次に、図24に示した符号化装置71の動作について説明する。すなわち、以下、図25のフローチャートを参照して、図24の符号化装置71による符号化処理について説明する。
次に、図24に示した符号化装置71の動作について説明する。すなわち、以下、図25のフローチャートを参照して、図24の符号化装置71による符号化処理について説明する。
なお、ステップS211乃至ステップS213の処理は、図22のステップS171乃至ステップS173の処理と同様であるので、その説明は省略する。
ステップS214において聴覚心理パラメータ計算部222は、供給されたオブジェクトのメタデータに含まれる編集許可フラグに応じて、聴覚心理パラメータを計算し、ビットアロケーション部42に供給する。
例えば聴覚心理パラメータ計算部222は、処理対象のオブジェクトの編集許可フラグが「1」であり、編集が許可されている場合、時間周波数変換部31から供給された、処理対象のオブジェクトのMDCT係数に基づいて、聴覚心理パラメータを計算する。
このように、編集が許可されているオブジェクトについては、復号(再生)側でメタデータが編集される可能性があるので、オブジェクト間の聴覚マスキングは考慮されずに聴覚心理パラメータが算出される。
これに対して、例えば処理対象のオブジェクトの編集許可フラグが「0」であり、編集が許可されていない場合、聴覚心理パラメータ計算部222は、時間周波数変換部31からのMDCT係数、供給されたメタデータの水平角度、垂直角度、距離、およびゲイン値、並びに聴覚心理モデル保持部221に保持されている3次元聴覚心理モデルに基づいて聴覚心理パラメータを計算する。
この場合、聴覚心理パラメータ計算部222は、図22のステップS174における場合と同様にして聴覚心理パラメータを計算する。すなわち、処理対象のオブジェクトのMDCT係数や、水平角度、垂直角度、距離、ゲイン値だけでなく、他のオブジェクトのMDCT係数や、水平角度、垂直角度、距離、ゲイン値も用いられて聴覚心理パラメータが計算される。
このように、編集が許可されていないオブジェクトについては、復号(再生)側でメタデータが変わることがないので、オブジェクト間の聴覚マスキングが考慮されて聴覚心理パラメータが算出される。
聴覚心理パラメータが算出されると、その後、ステップS215乃至ステップS217の処理が行われて符号化処理は終了するが、これらの処理は図22のステップS175乃至ステップS177の処理と同様であるので、その説明は省略する。
以上のようにして符号化装置71は、編集許可フラグに応じて、適宜、3次元聴覚心理モデルを用いて聴覚心理パラメータを計算する。このようにすることで、編集が許可されていないオブジェクトについては、オブジェクト間の聴覚マスキングも考慮した3次元聴覚特性に基づく聴覚心理パラメータを用いてビットアロケーションを行うことができる。これにより、符号化効率を向上させることができる。
なお、ここでは、図21に示した符号化装置71の構成に対して、編集許可フラグを組み合わせて利用する例について説明した。しかし、これに限らず、例えば図19に示した符号化装置71の構成に対して、編集許可フラグを組み合わせて利用してもよい。
そのような場合、編集が許可されていないオブジェクトについては、3次元聴覚特性テーブルが用いられてオブジェクトのメタデータのゲイン値が補正されるようにすればよい。
これに対して、編集が許可されているオブジェクトについては、MDCT係数補正部131でMDCT係数の補正は行われず、聴覚心理パラメータ計算部41において、時間周波数変換部31で得られたMDCT係数がそのまま用いられて聴覚心理パラメータが計算される。
さらに、ここでは、1つの編集許可フラグ「editingPermissionFlag」によって、メタデータを構成する全パラメータの編集許可を一括管理する例について説明したが、メタデータのパラメータごとに編集許可フラグが用意されるようにしてもよい。そうすれば、編集許可フラグによって、メタデータに含まれる複数のパラメータのうちの一部または全部について選択的に編集を許可することができる。
そのような場合、例えばメタデータのパラメータのうちの編集許可フラグにより編集が許可されていないものだけが聴覚心理パラメータの計算に利用されるようにしてもよい。
例えば図24の例で、水平角度等からなる位置情報については編集が許可されており、ゲイン値の編集は許可されていない場合、位置情報は用いられず、ゲイン値が用いられて、3次元聴覚心理モデルに基づく聴覚心理パラメータの計算が行われる。
〈第7の実施の形態〉
〈符号化装置の構成例〉
ところで、2chや5.1ch、7.1ch等のチャンネルベースのオーディオ符号化では、様々な楽器のオーディオ信号がミキシングされた音が入力されることを前提としていた。
〈符号化装置の構成例〉
ところで、2chや5.1ch、7.1ch等のチャンネルベースのオーディオ符号化では、様々な楽器のオーディオ信号がミキシングされた音が入力されることを前提としていた。
そのため、ビットアロケーションのアルゴリズムも、様々な楽器の信号に対して普遍的に安定動作するように調整する必要があった。
一方で、オブジェクトベースの3D Audioの符号化では、オブジェクトとなる「Vocal」や「Guitar」、「Bass」といった個別の楽器のオーディオ信号が入力される。そのため、各楽器の信号用にビットアロケーション等のアルゴリズムやパラメータ(以下、調整パラメータとも称する)を最適化することで、符号化効率の向上や演算処理の高速化が可能になる。
そこで、例えば各オブジェクトの音源種別、つまり「Vocal」や「Guitar」などといった楽器を示すラベル情報を入力し、ラベル情報に応じたアルゴリズムや調整パラメータにより、聴覚心理パラメータを算出するようにしてもよい。換言すれば、ラベル情報に応じたビットアロケーションが行われるようにしてもよい。
そのような場合、符号化装置71は、例えば図26に示すように構成される。なお、図26において図6における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
図26に示す符号化装置71は、メタエンコーダ11、コアエンコーダ12、および多重化部81を有している。
また、メタエンコーダ11は、量子化部21および符号化部22を有しており、コアエンコーダ12は、パラメータテーブル保持部251、時間周波数変換部31、量子化部32、および符号化部33を有している。さらに量子化部32は、聴覚心理パラメータ計算部41およびビットアロケーション部42を有している。
図26に示す符号化装置71の構成は、MDCT係数補正部131に代えてパラメータテーブル保持部251を設けた点で図6の符号化装置71の構成と異なり、その他の点では図6の符号化装置71と同じ構成となっている。
この例では、各オブジェクトの音源種別、すなわち例えばVocal、Chorus、Guitar、Bass、Drums、Kick、Snare、Hi-hat、Piano、Synth、String等のオブジェクトのオーディオ信号に基づく音の楽器種別を示すラベル情報が符号化装置71に入力(供給)される。
このラベル情報は、例えば各オブジェクトのオブジェクト信号からなるコンテンツの編集等で利用されるものなどとすることができ、ラベル情報は楽器種別を示す文字列などとされてもよいし、楽器種別を示すID情報などとされてもよい。
パラメータテーブル保持部251には、ラベル情報により示される各楽器種別(音源種別)に対して、MDCTの計算や聴覚心理パラメータの計算、ビットアロケーションに用いるアルゴリズムや調整パラメータを示す情報が対応付けられているパラメータテーブルを保持している。なお、パラメータテーブルでは、楽器種別(音源種別)に対して、アルゴリズムを示す情報と調整パラメータのうちの少なくとも何れか一方が対応付けられていればよい。
時間周波数変換部31は、パラメータテーブル保持部251に保持されているパラメータテーブルを参照し、供給されたラベル情報により示される楽器種別に対して定められている調整パラメータやアルゴリズムにより、供給されたオーディオ信号に対するMDCTを行う。
時間周波数変換部31は、MDCTにより得られたMDCT係数を聴覚心理パラメータ計算部41およびビットアロケーション部42に供給する。
また、量子化部32は、供給されたラベル情報およびMDCT係数に基づいて、ラベル情報により示される楽器種別に対して定められている調整パラメータやアルゴリズムにより、MDCT係数の量子化を行う。
すなわち、聴覚心理パラメータ計算部41は、パラメータテーブル保持部251に保持されているパラメータテーブルを参照し、供給されたラベル情報により示される楽器種別に対して定められている調整パラメータやアルゴリズムにより、時間周波数変換部31からのMDCT係数に基づいて聴覚心理パラメータを計算し、ビットアロケーション部42に供給する。
ビットアロケーション部42は、パラメータテーブル保持部251に保持されているパラメータテーブルを参照し、時間周波数変換部31からのMDCT係数、聴覚心理パラメータ計算部41からの聴覚心理パラメータ、および供給されたラベル情報に基づいてビットアロケーションおよびMDCT係数の量子化を行う。
このとき、ビットアロケーション部42では、MDCT係数および聴覚心理パラメータと、ラベル情報により示される楽器種別に対して定められている調整パラメータやアルゴリズムにより、ビットアロケーションが行われる。
なお、ラベル情報により示される楽器種別(音源種別)ごとのアルゴリズムや調整パラメータの最適化方法は様々であるが、以下、具体的な例について説明する。
例えばMDCT(時間周波数変換)では、MDCTに用いる窓(変換窓)、すなわち窓関数の切り替えを行うことができる。
そこで、例えば楽器種別がHi-hatやGuitarなど、音の立ち上がりや立ち下がりが重要な楽器のオブジェクトに対しては、カイザー窓のような時間解像度の高い窓を用い、VocalやBassなどの量感が重要な楽器のオブジェクトにはサイン窓を用いるようにしてもよい。
このように、ラベル情報により示される楽器種別と、その楽器種別に対して定められた窓関数を示す情報とを対応付けてパラメータテーブルに格納しておけば、ラベル情報に応じた窓を用いたMDCTを行うことができる。
また、聴覚心理パラメータの計算やビットアロケーションにおいても、例えばラベル情報に応じた帯域制限が行われるようにすることができる。
すなわち、BassやKickといった低音域の楽器、Vocalのような中音域の楽器、Hi-hatのような高音域の楽器、Pianoのような全音域の楽器では、それぞれ聴感上の重要な帯域や不要な帯域が異なる。そこで、ラベル情報を利用して、量子化ビットをそれぞれの不要な帯域から削減し、重要な帯域に多く割り当てるようにすることができる。
具体的には、例えばBassやKickといった低音域の楽器のオブジェクト信号には、本来であれば、高域成分は殆ど含まれていない。しかし、そのような楽器のオブジェクト信号に高域のノイズが多く含まれていると、ビットアロケーションにおいて高域のスケールファクターバンドにも多くの量子化ビットが割り当てられてしまう。
そこで、例えばBassやKickといった低音域の楽器種別については、低域により多くの量子化ビットが割り当てられ、高域には少ない量子化ビットが割り当てられるように、聴覚心理パラメータの計算やビットアロケーションのための調整パラメータとアルゴリズムが定められる。
このようにすることで、目的とする信号成分が含まれていない高域の量子化ビット数を低く抑えてノイズを低減させるとともに、目的とする信号成分が含まれる低域の量子化ビット数を増加させ、音質と符号化効率を向上させることができる。
また、一方でマスキング閾値をはじめとした聴覚心理パラメータにおいても、トーン性の強い楽器、ノイズ性の高い楽器、信号の時間変動の多い楽器、信号の時間変動の少ない楽器などの楽器種別に応じて調整(調整パラメータ)を変えることで、楽器ごとの聴感に知覚されやすい音に多くの量子化ビットを割り当てることができる。
さらに、例えばAAC(Advanced Audio Coding)やUSACのような方式のエンコーダにおいては、周波数スペクトル情報(MDCT係数)がスケールファクターバンドごとに量子化される。
各スケールファクターバンドの量子化値、すなわちスケールファクターバンドごとの割り当てのビット数は、所定の値を初期値としてスタートし、ビットアロケーションループを行うことで最終的な値が決められる。
例えばビットアロケーションループでは、所定の条件が満たされるまで、各スケールファクターバンドの量子化値を変化させながら、つまりビットアロケーションを行いながら、MDCT係数の量子化が繰り返し行われる。ここでいう所定の条件とは、例えば各スケールファクターバンドの量子化MDCT係数のビット数の和が所定の許容ビット数以下であるという条件、および量子化ノイズが十分に小さいという条件である。
リアルタイムエンコーダなど、符号化(量子化)にかかる時間を短くしたい場合も多く、そのような場合には多少の音質劣化を伴うが、上述のビットアロケーションループの回数(ループ数)に上限を設けることも行われている。
当然、各スケールファクターバンドの量子化値の初期値が最終値に近いほど、ビットアロケーションループのループ数は少なくなり、エンコード時間が短くなる。また、ループ数の制限による音質劣化も減少することになる。
したがって、ラベル情報により示される楽器種別ごとに予め最適な初期値を求めておき、ラベル情報に従って初期値を切り替えることで、短い時間で高音質にオーディオ信号を符号化(量子化)することができる。この場合、例えばラベル情報を聴覚心理パラメータの1つとしたり、パラメータテーブルにおいて楽器種別ごとに調整パラメータとしての量子化値の初期値が定められていたりすればよい。
以上のような楽器種別ごとの調整パラメータやアルゴリズムは、予め経験に基づく手調整や、統計的調整、機械学習などで求めることができる。
図26に示した構成の符号化装置71では、これらの楽器種別ごとの調整パラメータやアルゴリズムが予めパラメータテーブルとして用意される。そして、ラベル情報に応じた調整パラメータやアルゴリズムにより、聴覚心理パラメータの計算やビットアロケーション、すなわち量子化が行われたり、MDCTが行われたりする。
なお、この例ではラベル情報を単独で使用しているが、他のメタデータの情報と組み合わせて使用してもよい。
例えば、オブジェクトのメタデータの他のパラメータの例として、オブジェクトの優先度(Priority)を示す優先度情報が含まれていることがある。
そこで、時間周波数変換部31や聴覚心理パラメータ計算部41、ビットアロケーション部42において、オブジェクトの優先度情報により示される優先度の値によって、ラベル情報に対して定まる調整パラメータをさらに強弱調整してもよい。逆に、同じ優先度のオブジェクトでもラベル情報によって優先度に差をつけて処理してもよい。
また、ここではラベル情報を楽器種別に限定して説明したが、楽器種別以外にも、聴取環境を判別するラベル情報を利用することもできる。
例えば、車内でコンテンツ等の音を聴取する場合には、エンジン音や走行ノイズにより低音域の量子化ノイズが知覚されにくくなる。また、静かな室内と雑踏のある屋外とでは、最小可聴限、つまり知覚できる音量が異なる。さらに、聴取環境自体も時間経過やユーザの移動に伴って変化する。
そこで、例えばユーザの聴取環境を示す聴取環境情報も含むラベル情報を符号化装置71に入力し、ラベル情報に応じた調整パラメータやアルゴリズムにより、ユーザのいる聴取環境に最適な聴覚心理パラメータの計算等が行われるようにしてもよい。
この場合、例えばパラメータテーブルが参照されて、ラベル情報により示される聴取環境や楽器種別に対して定められた調整パラメータやアルゴリズムにより、MDCTや、聴覚心理パラメータの計算、ビットアロケーションが行われる。
このようにすることで、様々な聴取環境に対して、より高音質な量子化(符号化)を行うことができる。例えば車内であれば、MDCT係数の量子化時に、知覚されにくい低音域の量子化ノイズのマスキング閾値を大きくして、中高域にビットを多く割り当てることで、よりVocal等の楽器種別のオブジェクトの音質を向上させることができる。
〈符号化処理の説明〉
次に、図26に示した符号化装置71の動作について説明する。すなわち、以下、図27のフローチャートを参照して、図26の符号化装置71による符号化処理について説明する。
次に、図26に示した符号化装置71の動作について説明する。すなわち、以下、図27のフローチャートを参照して、図26の符号化装置71による符号化処理について説明する。
なお、ステップS251およびステップS252の処理は、図7のステップS51およびステップS52の処理と同様であるので、その説明は省略する。
ステップS253において時間周波数変換部31は、パラメータテーブル保持部251に保持されているパラメータテーブルと、供給されたラベル情報とに基づいて、供給されたオーディオ信号に対するMDCTを行い、その結果得られたMDCT係数を聴覚心理パラメータ計算部41およびビットアロケーション部42に供給する。
例えばステップS253では、オブジェクトのラベル情報に対して定められた調整パラメータやアルゴリズムにより、そのオブジェクトのオーディオ信号に対するMDCTが行われる。
ステップS254において聴覚心理パラメータ計算部41は、供給されたラベル情報に応じてパラメータテーブル保持部251に保持されているパラメータテーブルを参照し、時間周波数変換部31から供給されたMDCT係数に基づいて聴覚心理パラメータを計算して、ビットアロケーション部42に供給する。
例えばステップS254では、オブジェクトのラベル情報に対して定められた調整パラメータやアルゴリズムにより、そのオブジェクトについての聴覚心理パラメータが算出される。
ステップS255においてビットアロケーション部42は、供給されたラベル情報に応じてパラメータテーブル保持部251に保持されているパラメータテーブルを参照し、時間周波数変換部31からのMDCT係数および聴覚心理パラメータ計算部41からの聴覚心理パラメータに基づいてビットアロケーションを行い、MDCT係数を量子化する。
このようにしてMDCT係数が量子化されると、その後、ステップS256およびステップS257の処理が行われて符号化処理は終了するが、これらの処理は図7のステップS57およびステップS58の処理と同様であるので、その説明は省略する。
以上のようにして符号化装置71は、ラベル情報に応じてMDCTや聴覚心理パラメータの計算、ビットアロケーションを行う。このようにすることで、符号化効率や量子化演算の処理速度を向上させることができるとともに、より高音質なオーディオ再生を実現することができる。
〈第8の実施の形態〉
〈符号化装置の構成例〉
また、ラベル情報を用いて量子化(符号化)を行う符号化装置71は、例えばMPEG-Iの自由視点のようなユーザの位置情報とオブジェクトの位置情報とを組み合わせて利用する場合にも適用可能である。
〈符号化装置の構成例〉
また、ラベル情報を用いて量子化(符号化)を行う符号化装置71は、例えばMPEG-Iの自由視点のようなユーザの位置情報とオブジェクトの位置情報とを組み合わせて利用する場合にも適用可能である。
そのような場合、符号化装置71は、例えば図28に示すように構成される。なお、図28において図26における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
図28に示す符号化装置71は、メタエンコーダ11、コアエンコーダ12、および多重化部81を有している。
また、図示は省略されているが、メタエンコーダ11は量子化部21および符号化部22を有している。
さらにコアエンコーダ12は、パラメータテーブル保持部251、時間周波数変換部31、量子化部32、および符号化部33を有しており、量子化部32は聴覚心理パラメータ計算部41およびビットアロケーション部42を有している。
図28に示す符号化装置71の構成は、基本的には図26に示した符号化装置71と同じであるが、図28に示す符号化装置71では、ユーザの位置、すなわちユーザによるコンテンツ等の音の聴取位置を示すユーザ位置情報がさらに入力される点で、図26の符号化装置71と異なっている。
メタエンコーダ11は、オブジェクトの位置情報やゲイン値などの各パラメータが含まれるメタデータを符号化するが、ここではメタデータに含まれるオブジェクトの位置情報が図26に示した例とは異なる。
例えば、この例では、ユーザ位置情報と、供給されたオブジェクトの水平角度、垂直角度、および距離とに基づいて、ユーザ(聴取位置)から見たオブジェクトの相対的な位置を示す位置情報や、適宜、修正されたオブジェクトの絶対的な位置を示す位置情報などが、オブジェクトのメタデータを構成する位置情報として符号化される。
なお、ユーザ位置情報は、例えば符号化装置71によるコンテンツ、つまり符号化メタデータと符号化オーディオデータとを含むビットストリームの配信先(送信先)である図示せぬクライアント装置から供給される。
また、聴覚心理パラメータ計算部41では、ラベル情報だけでなく、供給されたオブジェクトの位置情報、つまりオブジェクトの位置を示す水平角度、垂直角度、および距離や、ユーザ位置情報も用いられて聴覚心理パラメータが計算される。
その他、ユーザ位置情報とオブジェクトの位置情報がビットアロケーション部42にも供給され、それらのユーザ位置情報やオブジェクトの位置情報がビットアロケーションに用いられるようにしてもよい。
ここで、聴覚心理パラメータ計算部41での聴覚心理パラメータの計算、およびビットアロケーション部42でのビットアロケーションの例について説明する。特に、ここではコンテンツが音楽ライブコンテンツである例について説明する。
この場合、ユーザは仮想のライブ会場でコンテンツの音を聴取するが、ライブ会場の最前列と最後列とでは聞こえる音が大きく異なる。
そこで、例えば自由視点において、ユーザが最前列のオブジェクトと近い位置でコンテンツの音を聴取する場合には、複数のオブジェクトに同じラベル情報が付与されていても、均一にではなく、ユーザから近い位置にあるオブジェクトに優先的に量子化ビットが割り当てられるようにされる。このようにすることで、ユーザに対して、よりオブジェクトの近くにいるかのようなリアリティ、すなわち高い臨場感を与えることができる。
逆に、ユーザが最後列のオブジェクトから遠い位置でコンテンツの音を聴取する場合には、もとの楽器種別ごとの調整、つまりラベル情報に応じた調整パラメータやアルゴリズムに対して、さらに遠距離用の調整が行われるようにしてもよい。
例えば、アタック音や持続音に多くのビットを割り当てた方がよい楽器の音でも、信号のディケイや残響、余韻の部分にビットを多く割り当てることで、空間感を向上させ、広い会場にいるかのような臨場感をユーザに対して与えることができる。
このように、ラベル情報だけでなく、3次元空間内におけるユーザの位置、つまりユーザ位置情報により示される聴取位置や、ユーザとオブジェクトとの間の距離に応じて、聴覚心理パラメータの計算やビットアロケーションを行うことで、さらに臨場感を向上させることができる。
〈符号化処理の説明〉
次に、図28に示した符号化装置71の動作について説明する。すなわち、以下、図29のフローチャートを参照して、図28の符号化装置71による符号化処理について説明する。
次に、図28に示した符号化装置71の動作について説明する。すなわち、以下、図29のフローチャートを参照して、図28の符号化装置71による符号化処理について説明する。
ステップS281においてメタエンコーダ11の量子化部21は、供給されたメタデータとしての各パラメータを量子化し、その結果得られた量子化パラメータを符号化部22に供給する。
なお、ステップS281では、図27のステップS251と同様の処理が行われるが、量子化部21は、供給されたユーザ位置情報とオブジェクトの位置情報に基づいて、ユーザから見たオブジェクトの相対的な位置を示す位置情報、または、適宜修正されたオブジェクトの絶対的な位置を示す位置情報などを、オブジェクトのメタデータを構成する位置情報として量子化する。
ステップS281の処理が行われると、その後、ステップS282乃至ステップS287の処理が行われて符号化処理は終了するが、これらの処理は、図27のステップS252乃至ステップS257の処理と同様であるので、その説明は省略する。
但し、ステップS284では、上述したように、ラベル情報だけでなくユーザ位置情報やオブジェクトの位置情報も用いられて聴覚心理パラメータが計算される。また、ステップS285においてもユーザ位置情報やオブジェクトの位置情報が用いられてビットアロケーションが行われるようにしてもよい。
以上のようにして符号化装置71は、ラベル情報だけでなく、ユーザ位置情報やオブジェクトの位置情報も用いて聴覚心理パラメータの計算やビットアロケーションを行う。このようにすることで、符号化効率や量子化演算の処理速度を向上させることができるとともに、臨場感を向上させ、より高音質なオーディオ再生を実現することができる。
以上のように、本技術においては視聴時のレンダリングで適用されるメタデータのゲイン値やオブジェクトの位置等を考慮しているため、実際の聴感に即した聴覚心理パラメータの計算とビットアロケーションを行うことができ、符号化効率を向上させることができる。
また、コンテンツ制作者が作成したメタデータのゲイン値がMPEG-Hの仕様の範囲外である場合でも、実質的にゲイン値が仕様範囲の上限値や下限値に制限されてしまうことがなく、量子化による音質劣化を除けば、製作者の意図通りのレンダリング音を再現することができる。
例えば、あるオブジェクトのオーディオ信号が他のオブジェクトと同程度の利得をもっていて、かつメタデータのゲイン値が0(-∞dB)でノイズゲートを意図しているような場合がある。そのような場合、実際にレンダリングされて視聴するオーディオ信号はゼロデータにもかかわらず、一般的な符号化装置では他のオブジェクトと同様にビットが割り当てられてしまうところ、本技術では、ゼロデータとしてビットアロケーションが行われるため、量子化ビットを大幅に削減することができる。
〈コンピュータの構成例〉
ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
図30は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
コンピュータにおいて、CPU(Central Processing Unit)501,ROM(Read Only Memory)502,RAM(Random Access Memory)503は、バス504により相互に接続されている。
バス504には、さらに、入出力インターフェース505が接続されている。入出力インターフェース505には、入力部506、出力部507、記録部508、通信部509、及びドライブ510が接続されている。
入力部506は、キーボード、マウス、マイクロフォン、撮像素子などよりなる。出力部507は、ディスプレイ、スピーカなどよりなる。記録部508は、ハードディスクや不揮発性のメモリなどよりなる。通信部509は、ネットワークインターフェースなどよりなる。ドライブ510は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体511を駆動する。
以上のように構成されるコンピュータでは、CPU501が、例えば、記録部508に記録されているプログラムを、入出力インターフェース505及びバス504を介して、RAM503にロードして実行することにより、上述した一連の処理が行われる。
コンピュータ(CPU501)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体511に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
コンピュータでは、プログラムは、リムーバブル記録媒体511をドライブ510に装着することにより、入出力インターフェース505を介して、記録部508にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部509で受信し、記録部508にインストールすることができる。その他、プログラムは、ROM502や記録部508に、あらかじめインストールしておくことができる。
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
さらに、本技術は、以下の構成とすることも可能である。
(1)
オーディオオブジェクトのメタデータに含まれるゲイン値に基づいて、前記オーディオオブジェクトのオーディオ信号に対する補正を行う補正部と、
前記補正により得られた信号に基づいて聴覚心理パラメータを計算し、前記オーディオ信号を量子化する量子化部と
を備える信号処理装置。
(2)
前記補正部は、前記ゲイン値に基づいて時間領域で前記オーディオ信号を補正する
(1)に記載の信号処理装置。
(3)
前記補正部による補正により得られた補正オーディオ信号に対して時間周波数変換を行う時間周波数変換部をさらに備え、
前記量子化部は、前記時間周波数変換により得られた周波数スペクトル情報に基づいて前記聴覚心理パラメータを計算する
(2)に記載の信号処理装置。
(4)
前記オーディオ信号に対して時間周波数変換を行う時間周波数変換部をさらに備え、
前記補正部は、前記ゲイン値に基づいて、前記時間周波数変換により得られた周波数スペクトル情報を補正し、
前記量子化部は、前記補正部による補正により得られた補正周波数スペクトル情報に基づいて前記聴覚心理パラメータを計算する
(1)に記載の信号処理装置。
(5)
音の到来方向に関する聴覚特性に基づいて、前記ゲイン値を補正するゲイン補正部をさらに備え、
前記補正部は、補正された前記ゲイン値に基づいて前記オーディオ信号に対する補正を行う
(1)乃至(4)の何れか一項に記載の信号処理装置。
(6)
前記ゲイン補正部は、前記メタデータに含まれる位置情報により示される位置に対する前記聴覚特性に基づいて前記ゲイン値を補正する
(5)に記載の信号処理装置。
(7)
前記オーディオオブジェクトの位置と、前記オーディオオブジェクトの位置に対する、前記ゲイン値の前記聴覚特性に基づく補正を行うためのゲイン補正値とが対応付けられた聴覚特性テーブルを保持する聴覚特性テーブル保持部をさらに備える
(6)に記載の信号処理装置。
(8)
前記ゲイン補正部は、前記位置情報により示される位置に対応する前記ゲイン補正値が前記聴覚特性テーブルにない場合、前記聴覚特性テーブルにある複数の前記ゲイン補正値に基づいて補間処理を行い、前記位置情報により示される位置の前記ゲイン補正値を求める
(7)に記載の信号処理装置。
(9)
前記ゲイン補正部は、前記位置情報により示される位置近傍にある複数の各位置と対応付けられている前記ゲイン補正値に基づいて前記補間処理を行う
(8)に記載の信号処理装置。
(10)
前記補間処理はVBAPを利用した補間処理である
(9)に記載の信号処理装置。
(11)
前記聴覚特性テーブルにおいて、各位置に対して複数の周波数ごとの前記ゲイン補正値が対応付けられており、
前記ゲイン補正部は、前記位置情報により示される位置に対応する所定周波数の前記ゲイン補正値が前記聴覚特性テーブルにない場合、前記位置情報により示される位置に対応する、前記所定周波数近傍の他の複数の周波数の前記ゲイン補正値に基づいて前記補間処理を行い、前記位置情報により示される位置の前記所定周波数の前記ゲイン補正値を求める
(8)に記載の信号処理装置。
(12)
前記聴覚特性テーブル保持部は、再生音圧ごとに前記聴覚特性テーブルを保持しており、
前記ゲイン補正部は、前記オーディオ信号の音圧に基づいて、前記ゲイン値の補正に用いる前記聴覚特性テーブルを切り替える
(8)に記載の信号処理装置。
(13)
前記ゲイン補正部は、前記オーディオ信号の前記音圧に対応する前記聴覚特性テーブルが前記聴覚特性テーブル保持部に保持されていない場合、前記音圧近傍の他の複数の前記再生音圧の前記聴覚特性テーブルにおける、前記位置情報により示される位置に対応する前記ゲイン補正値に基づいて前記補間処理を行い、前記音圧に対応する前記位置情報により示される位置の前記ゲイン補正値を求める
(12)に記載の信号処理装置。
(14)
前記ゲイン補正部は、前記オーディオ信号の特性に応じて、前記ゲイン値を制限する
(7)乃至(13)の何れか一項に記載の信号処理装置。
(15)
前記ゲイン補正部は、前記位置情報により示される位置に対応する前記ゲイン補正値が前記聴覚特性テーブルにない場合、前記位置情報により示される位置に最も近い位置と対応付けられている前記ゲイン補正値により前記ゲイン値を補正する
(7)に記載の信号処理装置。
(16)
前記ゲイン補正部は、前記位置情報により示される位置に対応する前記ゲイン補正値が前記聴覚特性テーブルにない場合、前記位置情報により示される位置近傍にある複数の各位置と対応付けられている前記ゲイン補正値の平均値を、前記位置情報により示される位置の前記ゲイン補正値とする
(7)に記載の信号処理装置。
(17)
信号処理装置が、
オーディオオブジェクトのメタデータに含まれるゲイン値に基づいて、前記オーディオオブジェクトのオーディオ信号に対する補正を行い、
前記補正により得られた信号に基づいて聴覚心理パラメータを計算し、前記オーディオ信号を量子化する
信号処理方法。
(18)
オーディオオブジェクトのメタデータに含まれるゲイン値に基づいて、前記オーディオオブジェクトのオーディオ信号に対する補正を行い、
前記補正により得られた信号に基づいて聴覚心理パラメータを計算し、前記オーディオ信号を量子化する
ステップを含む処理をコンピュータに実行させるプログラム。
(19)
オーディオオブジェクトのメタデータに含まれるゲイン値に基づいて、前記オーディオオブジェクトの前記ゲイン値およびオーディオ信号に対する修正を行う修正部と、
前記修正により得られた修正オーディオ信号を量子化する量子化部と
を備える信号処理装置。
(20)
前記修正部は、前記ゲイン値が所定の範囲外の値である場合に前記修正を行う
(19)に記載の信号処理装置。
(21)
前記修正により得られた修正ゲイン値に基づいて、前記修正オーディオ信号に対する補正を行う補正部をさらに備え、
前記量子化部は、前記修正オーディオ信号に対する補正により得られた信号に基づいて前記修正オーディオ信号を量子化する
(19)または(20)に記載の信号処理装置。
(22)
前記修正により得られた修正ゲイン値を含む前記メタデータを量子化および符号化するメタエンコーダと、
量子化された前記修正オーディオ信号を符号化する符号化部と、
符号化された前記メタデータと、符号化された前記修正オーディオ信号とを多重化する多重化部と
をさらに備える(19)乃至(21)の何れか一項に記載の信号処理装置。
(23)
前記修正部は、前記ゲイン値と、前記修正により得られた修正ゲイン値との差分に基づいて前記オーディオ信号を修正する
(19)乃至(22)の何れか一項に記載の信号処理装置。
(24)
信号処理装置が、
オーディオオブジェクトのメタデータに含まれるゲイン値に基づいて、前記オーディオオブジェクトの前記ゲイン値およびオーディオ信号に対する修正を行い、
前記修正により得られた修正オーディオ信号を量子化する
信号処理方法。
(25)
オーディオオブジェクトのメタデータに含まれるゲイン値に基づいて、前記オーディオオブジェクトの前記ゲイン値およびオーディオ信号に対する修正を行い、
前記修正により得られた修正オーディオ信号を量子化する
ステップを含む処理をコンピュータに実行させるプログラム。
(26)
オーディオオブジェクトのゲイン値と位置情報の少なくとも何れか一方を含むメタデータ、前記オーディオオブジェクトのオーディオ信号、および複数の前記オーディオオブジェクト間の聴覚マスキングに関する聴覚心理モデルに基づいて聴覚心理パラメータを計算し、前記聴覚心理パラメータに基づいて前記オーディオ信号を量子化する量子化部を備える
信号処理装置。
(27)
前記オーディオ信号に対して時間周波数変換を行う時間周波数変換部をさらに備え、
前記量子化部は、前記時間周波数変換により得られた周波数スペクトル情報に基づいて前記聴覚心理パラメータを計算する
(26)に記載の信号処理装置。
(28)
前記量子化部は、処理対象の前記オーディオオブジェクトの前記メタデータおよび前記オーディオ信号と、他の前記オーディオオブジェクトの前記メタデータおよび前記オーディオ信号と、前記聴覚心理モデルとに基づいて前記聴覚心理パラメータを計算する
(26)または(27)に記載の信号処理装置。
(29)
前記メタデータには、前記メタデータに含まれる、前記ゲイン値および前記位置情報を含む複数のパラメータの一部または全部の編集許可を示す編集許可情報が含まれており、
前記量子化部は、前記編集許可情報により編集が許可されていない前記パラメータ、前記オーディオ信号、および前記聴覚心理モデルに基づいて前記聴覚心理パラメータを計算する
(26)乃至(28)の何れか一項に記載の信号処理装置。
(30)
信号処理装置が、
オーディオオブジェクトのゲイン値と位置情報の少なくとも何れか一方を含むメタデータ、前記オーディオオブジェクトのオーディオ信号、および複数の前記オーディオオブジェクト間の聴覚マスキングに関する聴覚心理モデルに基づいて聴覚心理パラメータを計算し、前記聴覚心理パラメータに基づいて前記オーディオ信号を量子化する
信号処理方法。
(31)
オーディオオブジェクトのゲイン値と位置情報の少なくとも何れか一方を含むメタデータ、前記オーディオオブジェクトのオーディオ信号、および複数の前記オーディオオブジェクト間の聴覚マスキングに関する聴覚心理モデルに基づいて聴覚心理パラメータを計算し、前記聴覚心理パラメータに基づいて前記オーディオ信号を量子化する
ステップを含む処理をコンピュータに実行させるプログラム。
(32)
オーディオオブジェクトのオーディオ信号、および前記オーディオオブジェクトの音源種別を示すラベル情報に基づいて、前記ラベル情報により示される前記音源種別に対して定められた調整パラメータとアルゴリズムの少なくとも一方により、前記オーディオ信号を量子化する量子化部を備える
信号処理装置。
(33)
前記量子化部は、前記オーディオ信号および前記ラベル情報に基づいて聴覚心理パラメータを計算し、前記聴覚心理パラメータに基づいて前記オーディオ信号を量子化する
(32)に記載の信号処理装置。
(34)
前記量子化部は、前記ラベル情報に基づいて前記オーディオ信号のビットアロケーションおよび量子化を行う
(32)または(33)に記載の信号処理装置。
(35)
前記ラベル情報に基づいて、前記ラベル情報により示される前記音源種別に対して定められた調整パラメータとアルゴリズムの少なくとも一方により、前記オーディオ信号に対して時間周波数変換を行う時間周波数変換部をさらに備え、
前記量子化部は、前記時間周波数変換により得られた周波数スペクトル情報に基づいて前記聴覚心理パラメータを計算し、前記周波数スペクトル情報を量子化する
(32)乃至(34)の何れか一項に記載の信号処理装置。
(36)
前記ラベル情報には、前記オーディオ信号に基づく音の聴取環境を示す聴取環境情報がさらに含まれており、
前記量子化部は、前記ラベル情報により示される前記音源種別および前記聴取環境に対して定められた調整パラメータとアルゴリズムの少なくとも一方により、前記オーディオ信号を量子化する
(32)乃至(35)の何れか一項に記載の信号処理装置。
(37)
前記量子化部は、前記オーディオオブジェクトの優先度に基づいて、前記ラベル情報により示される前記音源種別に対して定められた調整パラメータを調整する
(32)乃至(35)の何れか一項に記載の信号処理装置。
(38)
前記量子化部は、ユーザの位置情報、前記オーディオオブジェクトの位置情報、前記オーディオ信号、および前記ラベル情報に基づいて前記オーディオ信号を量子化する
(32)乃至(35)の何れか一項に記載の信号処理装置。
(39)
信号処理装置が、
オーディオオブジェクトのオーディオ信号、および前記オーディオオブジェクトの音源種別を示すラベル情報に基づいて、前記ラベル情報により示される前記音源種別に対して定められた調整パラメータとアルゴリズムの少なくとも一方により、前記オーディオ信号を量子化する
信号処理方法。
(40)
オーディオオブジェクトのオーディオ信号、および前記オーディオオブジェクトの音源種別を示すラベル情報に基づいて、前記ラベル情報により示される前記音源種別に対して定められた調整パラメータとアルゴリズムの少なくとも一方により、前記オーディオ信号を量子化する
ステップを含む処理をコンピュータに実行させるプログラム。
オーディオオブジェクトのメタデータに含まれるゲイン値に基づいて、前記オーディオオブジェクトのオーディオ信号に対する補正を行う補正部と、
前記補正により得られた信号に基づいて聴覚心理パラメータを計算し、前記オーディオ信号を量子化する量子化部と
を備える信号処理装置。
(2)
前記補正部は、前記ゲイン値に基づいて時間領域で前記オーディオ信号を補正する
(1)に記載の信号処理装置。
(3)
前記補正部による補正により得られた補正オーディオ信号に対して時間周波数変換を行う時間周波数変換部をさらに備え、
前記量子化部は、前記時間周波数変換により得られた周波数スペクトル情報に基づいて前記聴覚心理パラメータを計算する
(2)に記載の信号処理装置。
(4)
前記オーディオ信号に対して時間周波数変換を行う時間周波数変換部をさらに備え、
前記補正部は、前記ゲイン値に基づいて、前記時間周波数変換により得られた周波数スペクトル情報を補正し、
前記量子化部は、前記補正部による補正により得られた補正周波数スペクトル情報に基づいて前記聴覚心理パラメータを計算する
(1)に記載の信号処理装置。
(5)
音の到来方向に関する聴覚特性に基づいて、前記ゲイン値を補正するゲイン補正部をさらに備え、
前記補正部は、補正された前記ゲイン値に基づいて前記オーディオ信号に対する補正を行う
(1)乃至(4)の何れか一項に記載の信号処理装置。
(6)
前記ゲイン補正部は、前記メタデータに含まれる位置情報により示される位置に対する前記聴覚特性に基づいて前記ゲイン値を補正する
(5)に記載の信号処理装置。
(7)
前記オーディオオブジェクトの位置と、前記オーディオオブジェクトの位置に対する、前記ゲイン値の前記聴覚特性に基づく補正を行うためのゲイン補正値とが対応付けられた聴覚特性テーブルを保持する聴覚特性テーブル保持部をさらに備える
(6)に記載の信号処理装置。
(8)
前記ゲイン補正部は、前記位置情報により示される位置に対応する前記ゲイン補正値が前記聴覚特性テーブルにない場合、前記聴覚特性テーブルにある複数の前記ゲイン補正値に基づいて補間処理を行い、前記位置情報により示される位置の前記ゲイン補正値を求める
(7)に記載の信号処理装置。
(9)
前記ゲイン補正部は、前記位置情報により示される位置近傍にある複数の各位置と対応付けられている前記ゲイン補正値に基づいて前記補間処理を行う
(8)に記載の信号処理装置。
(10)
前記補間処理はVBAPを利用した補間処理である
(9)に記載の信号処理装置。
(11)
前記聴覚特性テーブルにおいて、各位置に対して複数の周波数ごとの前記ゲイン補正値が対応付けられており、
前記ゲイン補正部は、前記位置情報により示される位置に対応する所定周波数の前記ゲイン補正値が前記聴覚特性テーブルにない場合、前記位置情報により示される位置に対応する、前記所定周波数近傍の他の複数の周波数の前記ゲイン補正値に基づいて前記補間処理を行い、前記位置情報により示される位置の前記所定周波数の前記ゲイン補正値を求める
(8)に記載の信号処理装置。
(12)
前記聴覚特性テーブル保持部は、再生音圧ごとに前記聴覚特性テーブルを保持しており、
前記ゲイン補正部は、前記オーディオ信号の音圧に基づいて、前記ゲイン値の補正に用いる前記聴覚特性テーブルを切り替える
(8)に記載の信号処理装置。
(13)
前記ゲイン補正部は、前記オーディオ信号の前記音圧に対応する前記聴覚特性テーブルが前記聴覚特性テーブル保持部に保持されていない場合、前記音圧近傍の他の複数の前記再生音圧の前記聴覚特性テーブルにおける、前記位置情報により示される位置に対応する前記ゲイン補正値に基づいて前記補間処理を行い、前記音圧に対応する前記位置情報により示される位置の前記ゲイン補正値を求める
(12)に記載の信号処理装置。
(14)
前記ゲイン補正部は、前記オーディオ信号の特性に応じて、前記ゲイン値を制限する
(7)乃至(13)の何れか一項に記載の信号処理装置。
(15)
前記ゲイン補正部は、前記位置情報により示される位置に対応する前記ゲイン補正値が前記聴覚特性テーブルにない場合、前記位置情報により示される位置に最も近い位置と対応付けられている前記ゲイン補正値により前記ゲイン値を補正する
(7)に記載の信号処理装置。
(16)
前記ゲイン補正部は、前記位置情報により示される位置に対応する前記ゲイン補正値が前記聴覚特性テーブルにない場合、前記位置情報により示される位置近傍にある複数の各位置と対応付けられている前記ゲイン補正値の平均値を、前記位置情報により示される位置の前記ゲイン補正値とする
(7)に記載の信号処理装置。
(17)
信号処理装置が、
オーディオオブジェクトのメタデータに含まれるゲイン値に基づいて、前記オーディオオブジェクトのオーディオ信号に対する補正を行い、
前記補正により得られた信号に基づいて聴覚心理パラメータを計算し、前記オーディオ信号を量子化する
信号処理方法。
(18)
オーディオオブジェクトのメタデータに含まれるゲイン値に基づいて、前記オーディオオブジェクトのオーディオ信号に対する補正を行い、
前記補正により得られた信号に基づいて聴覚心理パラメータを計算し、前記オーディオ信号を量子化する
ステップを含む処理をコンピュータに実行させるプログラム。
(19)
オーディオオブジェクトのメタデータに含まれるゲイン値に基づいて、前記オーディオオブジェクトの前記ゲイン値およびオーディオ信号に対する修正を行う修正部と、
前記修正により得られた修正オーディオ信号を量子化する量子化部と
を備える信号処理装置。
(20)
前記修正部は、前記ゲイン値が所定の範囲外の値である場合に前記修正を行う
(19)に記載の信号処理装置。
(21)
前記修正により得られた修正ゲイン値に基づいて、前記修正オーディオ信号に対する補正を行う補正部をさらに備え、
前記量子化部は、前記修正オーディオ信号に対する補正により得られた信号に基づいて前記修正オーディオ信号を量子化する
(19)または(20)に記載の信号処理装置。
(22)
前記修正により得られた修正ゲイン値を含む前記メタデータを量子化および符号化するメタエンコーダと、
量子化された前記修正オーディオ信号を符号化する符号化部と、
符号化された前記メタデータと、符号化された前記修正オーディオ信号とを多重化する多重化部と
をさらに備える(19)乃至(21)の何れか一項に記載の信号処理装置。
(23)
前記修正部は、前記ゲイン値と、前記修正により得られた修正ゲイン値との差分に基づいて前記オーディオ信号を修正する
(19)乃至(22)の何れか一項に記載の信号処理装置。
(24)
信号処理装置が、
オーディオオブジェクトのメタデータに含まれるゲイン値に基づいて、前記オーディオオブジェクトの前記ゲイン値およびオーディオ信号に対する修正を行い、
前記修正により得られた修正オーディオ信号を量子化する
信号処理方法。
(25)
オーディオオブジェクトのメタデータに含まれるゲイン値に基づいて、前記オーディオオブジェクトの前記ゲイン値およびオーディオ信号に対する修正を行い、
前記修正により得られた修正オーディオ信号を量子化する
ステップを含む処理をコンピュータに実行させるプログラム。
(26)
オーディオオブジェクトのゲイン値と位置情報の少なくとも何れか一方を含むメタデータ、前記オーディオオブジェクトのオーディオ信号、および複数の前記オーディオオブジェクト間の聴覚マスキングに関する聴覚心理モデルに基づいて聴覚心理パラメータを計算し、前記聴覚心理パラメータに基づいて前記オーディオ信号を量子化する量子化部を備える
信号処理装置。
(27)
前記オーディオ信号に対して時間周波数変換を行う時間周波数変換部をさらに備え、
前記量子化部は、前記時間周波数変換により得られた周波数スペクトル情報に基づいて前記聴覚心理パラメータを計算する
(26)に記載の信号処理装置。
(28)
前記量子化部は、処理対象の前記オーディオオブジェクトの前記メタデータおよび前記オーディオ信号と、他の前記オーディオオブジェクトの前記メタデータおよび前記オーディオ信号と、前記聴覚心理モデルとに基づいて前記聴覚心理パラメータを計算する
(26)または(27)に記載の信号処理装置。
(29)
前記メタデータには、前記メタデータに含まれる、前記ゲイン値および前記位置情報を含む複数のパラメータの一部または全部の編集許可を示す編集許可情報が含まれており、
前記量子化部は、前記編集許可情報により編集が許可されていない前記パラメータ、前記オーディオ信号、および前記聴覚心理モデルに基づいて前記聴覚心理パラメータを計算する
(26)乃至(28)の何れか一項に記載の信号処理装置。
(30)
信号処理装置が、
オーディオオブジェクトのゲイン値と位置情報の少なくとも何れか一方を含むメタデータ、前記オーディオオブジェクトのオーディオ信号、および複数の前記オーディオオブジェクト間の聴覚マスキングに関する聴覚心理モデルに基づいて聴覚心理パラメータを計算し、前記聴覚心理パラメータに基づいて前記オーディオ信号を量子化する
信号処理方法。
(31)
オーディオオブジェクトのゲイン値と位置情報の少なくとも何れか一方を含むメタデータ、前記オーディオオブジェクトのオーディオ信号、および複数の前記オーディオオブジェクト間の聴覚マスキングに関する聴覚心理モデルに基づいて聴覚心理パラメータを計算し、前記聴覚心理パラメータに基づいて前記オーディオ信号を量子化する
ステップを含む処理をコンピュータに実行させるプログラム。
(32)
オーディオオブジェクトのオーディオ信号、および前記オーディオオブジェクトの音源種別を示すラベル情報に基づいて、前記ラベル情報により示される前記音源種別に対して定められた調整パラメータとアルゴリズムの少なくとも一方により、前記オーディオ信号を量子化する量子化部を備える
信号処理装置。
(33)
前記量子化部は、前記オーディオ信号および前記ラベル情報に基づいて聴覚心理パラメータを計算し、前記聴覚心理パラメータに基づいて前記オーディオ信号を量子化する
(32)に記載の信号処理装置。
(34)
前記量子化部は、前記ラベル情報に基づいて前記オーディオ信号のビットアロケーションおよび量子化を行う
(32)または(33)に記載の信号処理装置。
(35)
前記ラベル情報に基づいて、前記ラベル情報により示される前記音源種別に対して定められた調整パラメータとアルゴリズムの少なくとも一方により、前記オーディオ信号に対して時間周波数変換を行う時間周波数変換部をさらに備え、
前記量子化部は、前記時間周波数変換により得られた周波数スペクトル情報に基づいて前記聴覚心理パラメータを計算し、前記周波数スペクトル情報を量子化する
(32)乃至(34)の何れか一項に記載の信号処理装置。
(36)
前記ラベル情報には、前記オーディオ信号に基づく音の聴取環境を示す聴取環境情報がさらに含まれており、
前記量子化部は、前記ラベル情報により示される前記音源種別および前記聴取環境に対して定められた調整パラメータとアルゴリズムの少なくとも一方により、前記オーディオ信号を量子化する
(32)乃至(35)の何れか一項に記載の信号処理装置。
(37)
前記量子化部は、前記オーディオオブジェクトの優先度に基づいて、前記ラベル情報により示される前記音源種別に対して定められた調整パラメータを調整する
(32)乃至(35)の何れか一項に記載の信号処理装置。
(38)
前記量子化部は、ユーザの位置情報、前記オーディオオブジェクトの位置情報、前記オーディオ信号、および前記ラベル情報に基づいて前記オーディオ信号を量子化する
(32)乃至(35)の何れか一項に記載の信号処理装置。
(39)
信号処理装置が、
オーディオオブジェクトのオーディオ信号、および前記オーディオオブジェクトの音源種別を示すラベル情報に基づいて、前記ラベル情報により示される前記音源種別に対して定められた調整パラメータとアルゴリズムの少なくとも一方により、前記オーディオ信号を量子化する
信号処理方法。
(40)
オーディオオブジェクトのオーディオ信号、および前記オーディオオブジェクトの音源種別を示すラベル情報に基づいて、前記ラベル情報により示される前記音源種別に対して定められた調整パラメータとアルゴリズムの少なくとも一方により、前記オーディオ信号を量子化する
ステップを含む処理をコンピュータに実行させるプログラム。
11 メタエンコーダ, 12 コアエンコーダ, 31 時間周波数変換部, 32 量子化部, 33 符号化部, 71 符号化装置, 81 多重化部, 91 オーディオ信号補正部, 92 時間周波数変換部, 131 MDCT係数補正部
Claims (33)
- オーディオオブジェクトのメタデータに含まれるゲイン値に基づいて、前記オーディオオブジェクトのオーディオ信号に対する補正を行う補正部と、
前記補正により得られた信号に基づいて聴覚心理パラメータを計算し、前記オーディオ信号を量子化する量子化部と
を備える信号処理装置。 - 前記補正部は、前記ゲイン値に基づいて時間領域で前記オーディオ信号を補正する
請求項1に記載の信号処理装置。 - 前記補正部による補正により得られた補正オーディオ信号に対して時間周波数変換を行う時間周波数変換部をさらに備え、
前記量子化部は、前記時間周波数変換により得られた周波数スペクトル情報に基づいて前記聴覚心理パラメータを計算する
請求項2に記載の信号処理装置。 - 前記オーディオ信号に対して時間周波数変換を行う時間周波数変換部をさらに備え、
前記補正部は、前記ゲイン値に基づいて、前記時間周波数変換により得られた周波数スペクトル情報を補正し、
前記量子化部は、前記補正部による補正により得られた補正周波数スペクトル情報に基づいて前記聴覚心理パラメータを計算する
請求項1に記載の信号処理装置。 - 音の到来方向に関する聴覚特性に基づいて、前記ゲイン値を補正するゲイン補正部をさらに備え、
前記補正部は、補正された前記ゲイン値に基づいて前記オーディオ信号に対する補正を行う
請求項1に記載の信号処理装置。 - 前記ゲイン補正部は、前記メタデータに含まれる位置情報により示される位置に対する前記聴覚特性に基づいて前記ゲイン値を補正する
請求項5に記載の信号処理装置。 - 前記オーディオオブジェクトの位置と、前記オーディオオブジェクトの位置に対する、前記ゲイン値の前記聴覚特性に基づく補正を行うためのゲイン補正値とが対応付けられた聴覚特性テーブルを保持する聴覚特性テーブル保持部をさらに備える
請求項6に記載の信号処理装置。 - 前記ゲイン補正部は、前記位置情報により示される位置に対応する前記ゲイン補正値が前記聴覚特性テーブルにない場合、前記位置情報により示される位置近傍にある複数の各位置と対応付けられている前記ゲイン補正値に基づいて補間処理を行い、前記位置情報により示される位置の前記ゲイン補正値を求めるか、前記位置情報により示される位置に最も近い位置と対応付けられている前記ゲイン補正値を、前記位置情報により示される位置の前記ゲイン補正値とするか、または前記位置情報により示される位置近傍にある複数の各位置と対応付けられている前記ゲイン補正値の平均値を、前記位置情報により示される位置の前記ゲイン補正値とする
請求項7に記載の信号処理装置。 - 前記補間処理はVBAPを利用した補間処理である
請求項8に記載の信号処理装置。 - 信号処理装置が、
オーディオオブジェクトのメタデータに含まれるゲイン値に基づいて、前記オーディオオブジェクトのオーディオ信号に対する補正を行い、
前記補正により得られた信号に基づいて聴覚心理パラメータを計算し、前記オーディオ信号を量子化する
信号処理方法。 - オーディオオブジェクトのメタデータに含まれるゲイン値に基づいて、前記オーディオオブジェクトのオーディオ信号に対する補正を行い、
前記補正により得られた信号に基づいて聴覚心理パラメータを計算し、前記オーディオ信号を量子化する
ステップを含む処理をコンピュータに実行させるプログラム。 - オーディオオブジェクトのメタデータに含まれるゲイン値に基づいて、前記オーディオオブジェクトの前記ゲイン値およびオーディオ信号に対する修正を行う修正部と、
前記修正により得られた修正オーディオ信号を量子化する量子化部と
を備える信号処理装置。 - 前記修正部は、前記ゲイン値が所定の範囲外の値である場合に前記修正を行う
請求項12に記載の信号処理装置。 - 前記修正により得られた修正ゲイン値に基づいて、前記修正オーディオ信号に対する補正を行う補正部をさらに備え、
前記量子化部は、前記修正オーディオ信号に対する補正により得られた信号に基づいて前記修正オーディオ信号を量子化する
請求項12に記載の信号処理装置。 - 前記修正により得られた修正ゲイン値を含む前記メタデータを量子化および符号化するメタエンコーダと、
量子化された前記修正オーディオ信号を符号化する符号化部と、
符号化された前記メタデータと、符号化された前記修正オーディオ信号とを多重化する多重化部と
をさらに備える請求項12に記載の信号処理装置。 - 前記修正部は、前記ゲイン値と、前記修正により得られた修正ゲイン値との差分に基づいて前記オーディオ信号を修正する
請求項12に記載の信号処理装置。 - 信号処理装置が、
オーディオオブジェクトのメタデータに含まれるゲイン値に基づいて、前記オーディオオブジェクトの前記ゲイン値およびオーディオ信号に対する修正を行い、
前記修正により得られた修正オーディオ信号を量子化する
信号処理方法。 - オーディオオブジェクトのメタデータに含まれるゲイン値に基づいて、前記オーディオオブジェクトの前記ゲイン値およびオーディオ信号に対する修正を行い、
前記修正により得られた修正オーディオ信号を量子化する
ステップを含む処理をコンピュータに実行させるプログラム。 - オーディオオブジェクトのゲイン値と位置情報の少なくとも何れか一方を含むメタデータ、前記オーディオオブジェクトのオーディオ信号、および複数の前記オーディオオブジェクト間の聴覚マスキングに関する聴覚心理モデルに基づいて聴覚心理パラメータを計算し、前記聴覚心理パラメータに基づいて前記オーディオ信号を量子化する量子化部を備える
信号処理装置。 - 前記オーディオ信号に対して時間周波数変換を行う時間周波数変換部をさらに備え、
前記量子化部は、前記時間周波数変換により得られた周波数スペクトル情報に基づいて前記聴覚心理パラメータを計算する
請求項19に記載の信号処理装置。 - 前記量子化部は、処理対象の前記オーディオオブジェクトの前記メタデータおよび前記オーディオ信号と、他の前記オーディオオブジェクトの前記メタデータおよび前記オーディオ信号と、前記聴覚心理モデルとに基づいて前記聴覚心理パラメータを計算する
請求項19に記載の信号処理装置。 - 前記メタデータには、前記メタデータに含まれる、前記ゲイン値および前記位置情報を含む複数のパラメータの一部または全部の編集許可を示す編集許可情報が含まれており、
前記量子化部は、前記編集許可情報により編集が許可されていない前記パラメータ、前記オーディオ信号、および前記聴覚心理モデルに基づいて前記聴覚心理パラメータを計算する
請求項19に記載の信号処理装置。 - 信号処理装置が、
オーディオオブジェクトのゲイン値と位置情報の少なくとも何れか一方を含むメタデータ、前記オーディオオブジェクトのオーディオ信号、および複数の前記オーディオオブジェクト間の聴覚マスキングに関する聴覚心理モデルに基づいて聴覚心理パラメータを計算し、前記聴覚心理パラメータに基づいて前記オーディオ信号を量子化する
信号処理方法。 - オーディオオブジェクトのゲイン値と位置情報の少なくとも何れか一方を含むメタデータ、前記オーディオオブジェクトのオーディオ信号、および複数の前記オーディオオブジェクト間の聴覚マスキングに関する聴覚心理モデルに基づいて聴覚心理パラメータを計算し、前記聴覚心理パラメータに基づいて前記オーディオ信号を量子化する
ステップを含む処理をコンピュータに実行させるプログラム。 - オーディオオブジェクトのオーディオ信号、および前記オーディオオブジェクトの音源種別を示すラベル情報に基づいて、前記ラベル情報により示される前記音源種別に対して定められた調整パラメータとアルゴリズムの少なくとも一方により、前記オーディオ信号を量子化する量子化部を備える
信号処理装置。 - 前記量子化部は、前記オーディオ信号および前記ラベル情報に基づいて聴覚心理パラメータを計算し、前記聴覚心理パラメータに基づいて前記オーディオ信号を量子化する
請求項25に記載の信号処理装置。 - 前記量子化部は、前記ラベル情報に基づいて前記オーディオ信号のビットアロケーションおよび量子化を行う
請求項25に記載の信号処理装置。 - 前記ラベル情報に基づいて、前記ラベル情報により示される前記音源種別に対して定められた調整パラメータとアルゴリズムの少なくとも一方により、前記オーディオ信号に対して時間周波数変換を行う時間周波数変換部をさらに備え、
前記量子化部は、前記時間周波数変換により得られた周波数スペクトル情報に基づいて前記聴覚心理パラメータを計算し、前記周波数スペクトル情報を量子化する
請求項25に記載の信号処理装置。 - 前記ラベル情報には、前記オーディオ信号に基づく音の聴取環境を示す聴取環境情報がさらに含まれており、
前記量子化部は、前記ラベル情報により示される前記音源種別および前記聴取環境に対して定められた調整パラメータとアルゴリズムの少なくとも一方により、前記オーディオ信号を量子化する
請求項25に記載の信号処理装置。 - 前記量子化部は、前記オーディオオブジェクトの優先度に基づいて、前記ラベル情報により示される前記音源種別に対して定められた調整パラメータを調整する
請求項25に記載の信号処理装置。 - 前記量子化部は、ユーザの位置情報、前記オーディオオブジェクトの位置情報、前記オーディオ信号、および前記ラベル情報に基づいて前記オーディオ信号を量子化する
請求項25に記載の信号処理装置。 - 信号処理装置が、
オーディオオブジェクトのオーディオ信号、および前記オーディオオブジェクトの音源種別を示すラベル情報に基づいて、前記ラベル情報により示される前記音源種別に対して定められた調整パラメータとアルゴリズムの少なくとも一方により、前記オーディオ信号を量子化する
信号処理方法。 - オーディオオブジェクトのオーディオ信号、および前記オーディオオブジェクトの音源種別を示すラベル情報に基づいて、前記ラベル情報により示される前記音源種別に対して定められた調整パラメータとアルゴリズムの少なくとも一方により、前記オーディオ信号を量子化する
ステップを含む処理をコンピュータに実行させるプログラム。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE112021003663.7T DE112021003663T5 (de) | 2020-07-09 | 2021-06-25 | Signalverarbeitungsvorrichtung, Verfahren und Programm |
US18/013,217 US20230253000A1 (en) | 2020-07-09 | 2021-06-25 | Signal processing device, signal processing method, and program |
JP2022535018A JPWO2022009694A1 (ja) | 2020-07-09 | 2021-06-25 | |
CN202180039314.0A CN115943461A (zh) | 2020-07-09 | 2021-06-25 | 信号处理装置、方法及程序 |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020-118174 | 2020-07-09 | ||
JP2020118174 | 2020-07-09 | ||
JP2020170985 | 2020-10-09 | ||
JP2020-170985 | 2020-10-09 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2022009694A1 true WO2022009694A1 (ja) | 2022-01-13 |
Family
ID=79553059
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2021/024098 WO2022009694A1 (ja) | 2020-07-09 | 2021-06-25 | 信号処理装置および方法、並びにプログラム |
Country Status (5)
Country | Link |
---|---|
US (1) | US20230253000A1 (ja) |
JP (1) | JPWO2022009694A1 (ja) |
CN (1) | CN115943461A (ja) |
DE (1) | DE112021003663T5 (ja) |
WO (1) | WO2022009694A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023286698A1 (ja) * | 2021-07-12 | 2023-01-19 | ソニーグループ株式会社 | 符号化装置および方法、復号装置および方法、並びにプログラム |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024197541A1 (zh) * | 2023-03-27 | 2024-10-03 | 北京小米移动软件有限公司 | 一种量化编码方法、装置、设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001154695A (ja) * | 1999-11-24 | 2001-06-08 | Victor Co Of Japan Ltd | オーディオ符号化装置及びその方法 |
JP2006139827A (ja) * | 2004-11-10 | 2006-06-01 | Victor Co Of Japan Ltd | 3次元音場情報記録装置及びプログラム |
JP2016530803A (ja) * | 2013-07-31 | 2016-09-29 | ドルビー ラボラトリーズ ライセンシング コーポレイション | 空間的に拡散したまたは大きなオーディオ・オブジェクトの処理 |
WO2016203994A1 (ja) * | 2015-06-19 | 2016-12-22 | ソニー株式会社 | 符号化装置および方法、復号装置および方法、並びにプログラム |
WO2016208406A1 (ja) * | 2015-06-24 | 2016-12-29 | ソニー株式会社 | 音声処理装置および方法、並びにプログラム |
JP2018522286A (ja) * | 2015-07-31 | 2018-08-09 | アップル インコーポレイテッド | エンコードされたオーディオ拡張メタデータベースのダイナミックレンジ制御 |
-
2021
- 2021-06-25 JP JP2022535018A patent/JPWO2022009694A1/ja active Pending
- 2021-06-25 WO PCT/JP2021/024098 patent/WO2022009694A1/ja active Application Filing
- 2021-06-25 DE DE112021003663.7T patent/DE112021003663T5/de active Pending
- 2021-06-25 US US18/013,217 patent/US20230253000A1/en active Pending
- 2021-06-25 CN CN202180039314.0A patent/CN115943461A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001154695A (ja) * | 1999-11-24 | 2001-06-08 | Victor Co Of Japan Ltd | オーディオ符号化装置及びその方法 |
JP2006139827A (ja) * | 2004-11-10 | 2006-06-01 | Victor Co Of Japan Ltd | 3次元音場情報記録装置及びプログラム |
JP2016530803A (ja) * | 2013-07-31 | 2016-09-29 | ドルビー ラボラトリーズ ライセンシング コーポレイション | 空間的に拡散したまたは大きなオーディオ・オブジェクトの処理 |
WO2016203994A1 (ja) * | 2015-06-19 | 2016-12-22 | ソニー株式会社 | 符号化装置および方法、復号装置および方法、並びにプログラム |
WO2016208406A1 (ja) * | 2015-06-24 | 2016-12-29 | ソニー株式会社 | 音声処理装置および方法、並びにプログラム |
JP2018522286A (ja) * | 2015-07-31 | 2018-08-09 | アップル インコーポレイテッド | エンコードされたオーディオ拡張メタデータベースのダイナミックレンジ制御 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023286698A1 (ja) * | 2021-07-12 | 2023-01-19 | ソニーグループ株式会社 | 符号化装置および方法、復号装置および方法、並びにプログラム |
Also Published As
Publication number | Publication date |
---|---|
JPWO2022009694A1 (ja) | 2022-01-13 |
CN115943461A (zh) | 2023-04-07 |
DE112021003663T5 (de) | 2023-04-27 |
US20230253000A1 (en) | 2023-08-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7543386B2 (ja) | 多様な再生環境のためのダイナミックレンジ制御 | |
JP6778781B2 (ja) | エンコードされたオーディオ拡張メタデータベースのダイナミックレンジ制御 | |
JP7273914B2 (ja) | 効率的なdrcプロファイル伝送 | |
JP5249408B2 (ja) | オーディオ信号の処理方法及び装置 | |
JP2024156955A (ja) | 効率的なdrcプロファイル伝送 | |
JP5319704B2 (ja) | オーディオ信号の処理方法及び装置 | |
US11887608B2 (en) | Methods, apparatus and systems for encoding and decoding of directional sound sources | |
US20220383885A1 (en) | Apparatus and method for audio encoding | |
WO2022009694A1 (ja) | 信号処理装置および方法、並びにプログラム | |
WO2022014326A1 (ja) | 信号処理装置および方法、並びにプログラム | |
JP5406276B2 (ja) | オーディオ信号の処理方法及び装置 | |
WO2023286698A1 (ja) | 符号化装置および方法、復号装置および方法、並びにプログラム | |
WO2021140959A1 (ja) | 符号化装置および方法、復号装置および方法、並びにプログラム | |
JP2021064013A (ja) | 復号装置および方法、並びにプログラム | |
RU2823537C1 (ru) | Устройство и способ кодирования аудио | |
WO2024024468A1 (ja) | 情報処理装置および方法、符号化装置、音声再生装置、並びにプログラム | |
JP2024159865A (ja) | 多様な再生環境のためのダイナミックレンジ制御 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 21838625 Country of ref document: EP Kind code of ref document: A1 |
|
ENP | Entry into the national phase |
Ref document number: 2022535018 Country of ref document: JP Kind code of ref document: A |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 21838625 Country of ref document: EP Kind code of ref document: A1 |