WO2017043309A1 - 音声処理装置および方法、符号化装置、並びにプログラム - Google Patents
音声処理装置および方法、符号化装置、並びにプログラム Download PDFInfo
- Publication number
- WO2017043309A1 WO2017043309A1 PCT/JP2016/074581 JP2016074581W WO2017043309A1 WO 2017043309 A1 WO2017043309 A1 WO 2017043309A1 JP 2016074581 W JP2016074581 W JP 2016074581W WO 2017043309 A1 WO2017043309 A1 WO 2017043309A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- diffuseness
- audio
- unit
- information
- sound
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 78
- 238000009877 rendering Methods 0.000 claims abstract description 57
- 238000003672 processing method Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 abstract description 33
- 238000005516 engineering process Methods 0.000 abstract description 21
- 239000013598 vector Substances 0.000 description 24
- 230000005540 biological transmission Effects 0.000 description 19
- 239000000284 extract Substances 0.000 description 7
- 238000004891 communication Methods 0.000 description 4
- 230000002238 attenuated effect Effects 0.000 description 3
- 230000008929 regeneration Effects 0.000 description 3
- 238000011069 regeneration method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000004091 panning Methods 0.000 description 2
- 238000002310 reflectometry Methods 0.000 description 2
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S5/00—Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation
- H04S5/02—Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation of the pseudo four-channel type, e.g. in which rear channel signals are derived from two-channel stereo signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
Definitions
- the present technology relates to a voice processing apparatus and method, an encoding apparatus, and a program, and more particularly, to a voice processing apparatus and method, an encoding apparatus, and a program that can perform audio reproduction with a higher degree of freedom.
- the sound that can be heard in real space may include not only the direct sound that reaches the ear directly from the sound source but also the reflected sound that the sound from the sound source reflects on the wall or the like and reaches the ear.
- the sound that can be heard in real space may include not only the direct sound that reaches the ear directly from the sound source but also the reflected sound that the sound from the sound source reflects on the wall or the like and reaches the ear.
- fireworks are fired in front of a person
- the direct sound and the reflected sound may be represented by different objects to reproduce the way the sound is heard in real space.
- the direct sound and the reflected sound exist as independent objects, but since there is no distinction between each object being a direct sound and a reflected sound, the sound of all objects is rendered on the playback side. Will be played.
- the present technology has been made in view of such a situation, and enables audio reproduction with a higher degree of freedom.
- the audio processing device includes an acquisition unit that acquires metadata including position information indicating a position of an audio object and Diffuseness information of the audio object; and the Diffuseness information is equal to or less than a predetermined threshold value
- the audio data of the audio object is used for playback, and for the audio object whose Diffuseness information is larger than the threshold, the audio data of the audio object is not used for playback or the audio data of the audio object
- a control unit that performs processing different from the case where the Diffuseness information is equal to or less than the threshold value and controls to use the information for reproduction is provided.
- the audio processing device may further include a gain control unit that performs gain adjustment as the processing for audio data of the audio object in which the Diffuseness information is larger than the threshold value.
- the audio processing apparatus may further include a rendering unit that performs a process of expanding a sound image as the process for audio data of the audio object having the Diffuseness information larger than the threshold value.
- the maximum value of the Diffuseness information indicates that the sound of the audio object is a reflected sound
- the minimum value of the Diffuseness information indicates that the sound of the audio object is a direct sound. be able to.
- the audio processing method or program acquires metadata including position information indicating a position of an audio object and Diffuseness information of the audio object, and the Diffuseness information is equal to or less than a predetermined threshold. Audio data of a certain audio object is used for reproduction, and for the audio object whose Diffuseness information is larger than the threshold, the audio data of the audio object is not used for reproduction, or the audio data of the audio object And performing a process different from that in the case where the Diffuseness information is equal to or less than the threshold value and controlling to use it for reproduction.
- metadata including position information indicating the position of an audio object and Diffuseness information of the audio object is acquired, and the Diffuseness information is less than or equal to a predetermined threshold value.
- the audio object that uses audio data for playback and the Diffuseness information is larger than the threshold the audio data of the audio object is not used for playback, or the Diffuseness information is not included in the audio data of the audio object.
- Control is performed so as to perform processing different from that in the case where the value is equal to or less than the threshold value and use it for reproduction.
- the encoding device includes an acquisition unit that acquires metadata including position information indicating a position of an audio object and Diffuseness information of the audio object; and the Diffuseness information is equal to or less than a predetermined threshold value
- the audio object of the audio object is encoded, and the audio object having the Diffuseness information larger than the threshold is provided with an encoding unit that does not encode the audio data of the audio object.
- metadata including position information indicating a position of an audio object and Diffuseness information of the audio object is acquired, and the Diffuseness information of the audio object having a predetermined threshold value or less is acquired.
- the Diffuseness information of the audio object having a predetermined threshold value or less is acquired. For audio objects in which audio data is encoded and the Diffuseness information is greater than the threshold, audio data of the audio object is not encoded.
- audio playback with a higher degree of freedom can be performed.
- the present technology makes it possible to realize audio reproduction with a higher degree of freedom when reproducing sound of an audio object based on object audio data and object metadata of the audio object.
- the audio object is also simply referred to as an object.
- this technology realizes audio playback with a higher degree of freedom by enabling direct audio object control and reflected sound object to be controlled separately during audio playback. Is to be able to.
- a process for reproducing the sound is performed based on the object audio data that is an audio signal for reproducing the sound of the object and the object metadata that is metadata about the object.
- the object metadata includes position information, gain information, and Diffuseness information as shown in FIG. 1, for example.
- the position information is information indicating the position of the object viewed from the sound listening position serving as a reference in the reproduction space.
- the position information includes a horizontal angle and a vertical angle of the object position viewed from the listening position, and a distance from the listening position to the object position.
- the gain information is a gain value for each object used when performing gain adjustment on the object audio data.
- the Diffuseness information is diffusive information indicating whether the sound of the object is a direct sound or a reflected sound.
- the Diffuseness information may be flag information indicating whether the sound is a direct sound or a reflected sound, or may be information indicating a proportion of the reflection component included in the sound of the object.
- the Diffuseness information is information indicating the proportion of reflection components, that is, information indicating the degree of likelihood of reflected sound, and a case where the Diffuseness information is a value between 0.0 and 1.0 will be described as an example.
- the object sound does not include a reflection component, and the object sound is a direct sound.
- the Diffuseness information is 1.0 which is the maximum value, the sound of the object is composed of only the reflection component, and the sound of the object is a reflected sound.
- the component included in the object audio data is a component of direct sound from the sound source. Is almost. In such a case, the Diffuseness information of the object is set to 0.0 or the like.
- the object audio data when audio data obtained by collecting with a microphone located at a certain distance from the sound source is used as object audio data, the object audio data includes only the direct sound component from the sound source. The component of the reflected sound should also be included. Therefore, in such a case, the Diffuseness information of the object is set to 1.0 or 0.5 according to the distance between the sound source and the microphone. Particularly in this case, the value of the Diffuseness information may be reduced as the distance between the sound source and the microphone is shorter.
- the object audio data when the audio data obtained by collecting the sound that is clearly heard from a direction different from the sound source with the microphone is used as the object audio data, the object audio data should be a reflected sound. Therefore, in such a case, the Diffuseness information of the object may be set to 1.0.
- each position in a region showing the spread of a sound image is set as an object position, and sound emitted from one sound source is expressed by object audio data of those objects.
- the object audio data of the object at the center position of the area showing the spread of the sound image includes only the direct sound component from the sound source, and the value of Diffuseness information is 0.0. .
- the object farther from the center position of the area showing the spread of the sound image has more reflected sound components included in the object audio data of the object. That is, the Diffuseness information value of the object is set to 0.5, 0.7, 1.0, etc., depending on the distance from the center position of the region showing the spread of the sound image.
- the value of Diffuseness information may be determined according to the intention of the audio producer.
- the maximum value 1.0 of the Diffuseness information indicates a reflected sound
- the minimum value 0.0 indicates a direct sound
- 0.0 indicates a reflected sound
- 1.0 indicates a direct sound. You may make it show.
- one piece of Diffuseness information is determined for one object
- one piece of Diffuseness information may be set for a plurality of objects.
- FIG. 2 is a diagram illustrating a configuration example of an embodiment of a voice processing device to which the present technology is applied.
- the audio processing device 11 is supplied with object audio data of one or more objects, which are audio data of contents, and object metadata of these objects.
- the audio processing device 11 performs rendering processing based on the object audio data and the object metadata, and supplies the audio data to the speaker array 12 including speakers of a plurality of channels to reproduce the content.
- the audio processing apparatus 11 includes an extraction unit 21, a determination unit 22, a switching unit 23, a gain control unit 24, and a rendering unit 25.
- the extraction unit 21 obtains object metadata of an object from the outside, extracts Diffuseness information from the object metadata, supplies it to the determination unit 22, and supplies the object metadata to the rendering unit 25.
- the determination unit 22 determines whether or not the sound of the object seems to be a reflected sound by comparing the Diffuseness information supplied from the extraction unit 21 and the Diffuseness threshold th1 supplied from the outside, and according to the determination result Then, the switching unit 23 is controlled. That is, the determination unit 22 determines whether or not the proportion of the reflection component included in the sound of the object is greater than a predetermined value.
- the Diffuseness information is larger than the Diffuseness threshold th1, the sound of the object is assumed to be a reflected sound, and the process for the reflected sound is performed on the object.
- the Diffuseness threshold th1 is a threshold for determining whether the object is to be processed for reflected sound in the subsequent stage, that is, whether it is a reflected sound.
- the Diffuseness threshold th1 is designated by the user or the like. For example, when the Diffuseness threshold th1 is 0.0, the processing for the reflected sound is performed on all objects whose Diffuseness information is other than 0.0.
- the switching unit 23 switches the output destination of the object audio data supplied from the outside according to the control of the determination unit 22.
- the switching unit 23 includes a switch 31 and switches the output destination of the object audio data by connecting the switch 31 to either the node 32 or the node 33.
- the switch 31 when the switch 31 is connected to the node 32, the object audio data is supplied to the rendering unit 25, and when the switch 31 is connected to the node 33, the object audio data is supplied to the gain control unit 24. .
- the object audio data is supplied to the gain control unit 24. Otherwise, that is, when the process for the direct sound is performed, the object audio data is directly It is supplied to the rendering unit 25.
- the gain control unit 24 performs gain control processing on the object audio data supplied from the switching unit 23 based on the reflection component gain supplied from the outside, that is, gain adjustment, and renders the object audio data subjected to gain adjustment to the rendering unit 25. To supply.
- the reflection component gain may be specified by the user or the like, or may be a predetermined constant.
- the object audio data is a silence signal for an object for which processing for reflected sound is performed, that is, an object whose Diffuseness information is larger than the Diffuseness threshold th1. Therefore, rendering reproduction is not substantially performed for such an object.
- the reflection component gain may be determined by the determination unit 22 according to the value of Diffuseness information.
- the determination unit 22 decreases the reflection component gain as the value of the Diffuseness information increases.
- the reflection component gain may be changed linearly according to the value of Diffuseness information.
- the rendering unit 25 performs a rendering process on the object audio data supplied from the switching unit 23 or the gain control unit 24 based on the object metadata supplied from the extraction unit 21. In addition, the rendering unit 25 supplies the audio data of each channel obtained as a result of the rendering process to each speaker of the speaker array 12 corresponding to those channels, and reproduces the sound.
- step S11 the extraction unit 21 acquires object metadata of the object from the outside, extracts Diffuseness information from the object metadata, supplies the information to the determination unit 22, and supplies the object metadata to the rendering unit 25.
- step S12 the determination unit 22 determines whether the Diffuseness information supplied from the extraction unit 21 is equal to or less than the Diffuseness threshold th1 supplied from the outside.
- step S12 If it is determined in step S12 that the object is not equal to or less than the Diffuseness threshold th1, that is, the sound of the object to be processed is likely to be reflected sound, and if it is determined that the object should be processed for reflected sound, the process is Proceed to S13.
- step S13 the switching unit 23 supplies object audio data supplied from the outside to the gain control unit 24.
- the determination unit 22 controls the switching unit 23 according to the determination processing result of step S12, and the switching unit 23 connects the switch 31 to the node 33 according to the control of the determination unit 22 and is supplied from the outside.
- the object audio data is supplied to the gain control unit 24.
- step S14 the gain control unit 24 performs gain control processing on the object audio data supplied from the switching unit 23 based on the reflection component gain supplied from the outside, and renders the object audio data obtained as a result thereof as a rendering unit 25. To supply.
- the gain of the object audio data is adjusted, that is, attenuated based on the reflection component gain. Therefore, for example, if the reflection component gain is set to 0.0, the sound of the reflected sound object is not used at the time of content reproduction, and only the direct sound is used for reproduction.
- the reflection component gain is set to a reasonably large value, the sound of the reflected sound object is also reproduced at a sufficient volume when the content is reproduced, so that realistic content reproduction including the reflection component is performed. It will be.
- the reflected sound may be emphasized by the reflection component gain.
- step S12 If it is determined in step S12 that the value is less than the Diffuseness threshold th1, that is, if it is determined that the object to be processed is to perform direct sound processing, the process proceeds to step S15.
- step S15 the switching unit 23 supplies the object audio data supplied from the outside to the rendering unit 25.
- the determination unit 22 controls the switching unit 23 according to the determination processing result of step S12, and the switching unit 23 connects the switch 31 to the node 32 according to the control of the determination unit 22 and is supplied from the outside.
- the object audio data is supplied to the rendering unit 25.
- step S14 When the gain control process is performed in step S14 or the object audio data is supplied to the rendering unit 25 in step S15, the rendering unit 25 performs the rendering process in step S16.
- the rendering unit 25 localizes the sound image of the object to a position indicated by the position information in the reproduction space based on the position information included in the object metadata supplied from the extraction unit 21.
- the gain value of each speaker, that is, each channel of the speaker array 12 is calculated by VBAP (Vector Base Amplitude Panning) or the like.
- the rendering unit 25 supplies the gain value calculated for each speaker and the gain value for each object indicated by the gain information included in the object metadata from the switching unit 23 or the gain control unit 24. Multiply audio data.
- the rendering unit 25 uses the audio data obtained as a result of the gain value multiplication processing as audio data to be supplied to each speaker.
- VBAP is described in detail in, for example, “Ville Pulkki,“ Virtual Sound Source Positioning Using Vector Base Amplitude Panning ”, Journal of AES, vol.45, no.6, pp.456-466, 1997”. Yes.
- step S17 the rendering unit 25 supplies the audio data of each speaker obtained by the rendering process to the corresponding speaker of the speaker array 12 to reproduce the sound, and the reproduction process ends. Thereby, the sound of the content in which the reflected sound is appropriately attenuated is reproduced. At this time, the sound image of the object is localized at the position indicated by the position information included in the object metadata.
- the audio processing device 11 compares the Diffuseness information with the Diffuseness threshold th1 and performs gain control processing on the object audio data according to the comparison result. That is, object audio data that seems to be a direct sound is used for sound reproduction as it is, and object audio data that seems to be a reflected sound is not used for reproduction, or is used for reproduction after being processed differently from the direct sound. To be controlled.
- the reflection component is appropriately attenuated to realize clear content reproduction with no reflection component or few reflection components, or the reproduction component containing the reflection component is realized by appropriately leaving the reflection component. You can do it.
- the object audio data to be processed by distinguishing between the reflected sound and the direct sound, it is possible to realize content reproduction with a higher degree of freedom. As a result, the user can reproduce the content according to his / her preference.
- the voice processing device is configured as shown in FIG. 4, for example.
- FIG. 4 portions corresponding to those in FIG. 2 are denoted with the same reference numerals, and description thereof will be omitted as appropriate.
- object metadata is supplied to the switching unit 23 via the extraction unit 21, and the switching unit 23 switches the output destination of the object metadata according to the control of the determination unit 22.
- the determination unit 22 is supplied with a Diffuseness threshold th2 for determining whether or not the rendering unit 25 performs the Spread process.
- the determination unit 22 compares the Diffuseness threshold th2 with the Diffuseness information. Then, the switching unit 23 is controlled.
- the Diffuseness threshold th2 may be specified by a user or the like, or may be a predetermined constant. Further, the Diffuseness threshold th2 may be recorded as audio metadata separately in a bitstream including object audio data and object metadata.
- the determination unit 22 when the Diffuseness information is larger than the Diffuseness threshold th2, it is assumed that the object is subjected to the Spread process. That is, the sound of the object is a reflected sound. Specifically, for example, when the Diffuseness threshold th2 is 0.0, the Spread processing is performed for all objects whose Diffuseness information is other than 0.0.
- the rendering unit 25 includes a vector calculation unit 71, a gain calculation unit 72, and a gain adjustment unit 73.
- the object metadata is supplied from the switching unit 23 to the vector calculation unit 71 and the gain calculation unit 72.
- the object metadata is supplied from the switching unit 23 to the gain calculating unit 72.
- the vector calculation unit 71 Based on the spread parameter supplied from the outside and the object metadata supplied from the switching unit 23, the vector calculation unit 71 has a plurality of positions in the region indicating the spread of the sound image from the object position as end points. A Spread vector is calculated and supplied to the gain calculation unit 72.
- the region indicating the spread of the sound image is a region indicating the range where the sound image of the object is spread.
- the center position of the sound image spread area is the position indicated by the position information included in the object metadata, and the range (size) of the sound image spread area, that is, the sound image spread degree is specified by the spread parameter. Is done. That is, the larger the spread parameter value, the wider the range in which the sound image spreads.
- the vector calculation unit 71 starts from the listening position of the reference sound in the reproduction space, and ends with a plurality of positions that are symmetrical in the vertical and horizontal directions in the region showing the sound image spread determined by the object metadata and the spread parameter. Calculate the Spread vector.
- the spread parameter may be specified by the user or the like, or may be a predetermined constant. Further, the spread parameter may be separately recorded as audio metadata in a bit stream including object audio data and object metadata.
- the value of the spread parameter may be determined by the determination unit 22 according to the Diffuseness information.
- the value of the spread parameter may be determined such that the smaller the Diffuseness information, that is, closer to 0.0, the smaller the value, and the larger the Diffuseness information, that is, the closer the value is to 1.0. In this case, the more the sound reflection component of the object is, the larger the region showing the spread of the sound image is, so it is possible to realize content reproduction with a more realistic feeling.
- the gain calculation unit 72 calculates a gain value for each speaker of the speaker array 12 by VBAP based on the Spread vector supplied from the vector calculation unit 71 and the object metadata supplied from the switching unit 23 as necessary. And supplied to the gain adjustment unit 73.
- the gain calculation unit 72 receives each position indicated by the Spread vector, that is, each end point position of the Spread vector, and the position indicated by the position information included in the object metadata. For each of these positions, the gain value for each speaker is calculated by VBAP. The gain calculation unit 72 adds the gain values calculated for the same speaker to obtain one gain value, normalizes the gain value obtained for each speaker, and includes the normalized gain value in the object metadata. Multiply the gain value for each object indicated by the gain information to obtain the final gain value of each speaker.
- the gain calculation unit 72 calculates a gain value for each speaker by VBAP for the position indicated by the position information included in the object metadata. Further, the gain calculation unit 72 multiplies the gain value for each speaker obtained by VBAP by the gain value for each object indicated by the gain information included in the object metadata, thereby obtaining the final gain of each speaker. Value.
- the gain adjustment unit 73 multiplies the object audio data supplied from the outside by the gain value of each speaker supplied from the gain calculation unit 72, and the audio data obtained as a result is supplied to each speaker. Data.
- the gain adjusting unit 73 supplies audio data of each speaker to each speaker constituting the speaker array 12 to reproduce sound.
- step S41 the extraction unit 21 obtains object metadata of the object from the outside, extracts Diffuseness information from the object metadata, supplies it to the determination unit 22, and supplies the object metadata to the switching unit 23.
- step S42 the determination unit 22 determines whether the Diffuseness information supplied from the extraction unit 21 is equal to or less than the Diffuseness threshold th2 supplied from the outside.
- step S42 If it is determined in step S42 that it is not less than the Diffuseness threshold th2, that is, if it is determined that the sound of the object to be processed is a reflected sound and that object should be subjected to the Spread process, the process proceeds to step S43. move on.
- step S43 the switching unit 23 supplies the object metadata supplied from the extraction unit 21 to the vector calculation unit 71 and the gain calculation unit 72.
- the determination unit 22 controls the switching unit 23 according to the result of the determination process in step S42, and the switching unit 23 connects the switch 31 to the node 33 according to the control of the determination unit 22, thereby enabling object metadata. Is supplied to the vector calculation unit 71 and the gain calculation unit 72.
- step S 44 the vector calculation unit 71 calculates a plurality of Spread vectors based on the spread parameters supplied from the outside and the object metadata supplied from the switching unit 23, and supplies them to the gain calculation unit 72.
- an area having a size determined by the spread parameter centered on the position indicated by the position information included in the object metadata is an area that indicates the spread of the sound image, and a Spread that indicates a plurality of symmetrical positions in the area.
- a vector is calculated.
- step S45 the gain calculation unit 72 calculates the gain value of each speaker, that is, each channel, based on the object metadata supplied from the switching unit 23 and the Spread vector supplied from the vector calculation unit 71, and the gain This is supplied to the adjustment unit 73.
- a gain value for each speaker is calculated by VBAP for each position. Then, after the gain values calculated for the same speaker are added to form one gain value, the gain value of each speaker is normalized, and the normalized gain value is further added to the gain information included in the object metadata. The gain value for each object shown is multiplied to obtain the final gain value of each speaker.
- the sound image of the object can be localized not over a single point but over the entire wide area.
- the Spread process of calculating the gain value of each speaker by obtaining the Spread vector that is, the process of expanding the sound image Done.
- step S45 When the process of step S45 is performed and the gain value is calculated, the process thereafter proceeds to step S48.
- step S42 when it is determined in step S42 that the value is less than the Diffuseness threshold th2, the switching unit 23 supplies the object metadata supplied from the extraction unit 21 to the gain calculation unit 72 in step S46.
- the determination unit 22 controls the switching unit 23 according to the result of the determination process in step S42, and the switching unit 23 connects the switch 31 to the node 32 according to the control of the determination unit 22, thereby enabling object metadata. Is supplied to the gain calculation unit 72.
- step S47 the gain calculation unit 72 calculates the gain value of each speaker based on the object metadata supplied from the switching unit 23, and supplies the gain value to the gain adjustment unit 73. That is, the gain value for each speaker is calculated by VBAP for the position indicated by the position information included in the object metadata, and the gain value for each object indicated by the gain information included in the object metadata is added to those gain values. Multiplication is performed to obtain the final gain value of each speaker.
- the Diffuseness information is equal to or less than the Diffuseness threshold th2 and the reflection component included in the sound of the object is small, the process of expanding the sound image is not performed and the gain value is calculated as usual.
- the gain value obtained in this way is used, the sound image of the object is localized at the position indicated by the position information.
- step S47 When the process of step S47 is performed and the gain value is calculated, the process proceeds to step S48.
- the gain adjustment unit 73 When the gain value is calculated by performing the process of step S45 or step S47, the gain adjustment unit 73, based on the gain value supplied from the gain calculation unit 72, in step S48, the object audio supplied from the outside. Adjust the data gain.
- the gain adjustment unit 73 multiplies the object audio data by the gain value of each speaker for each speaker, and uses the resulting audio data as audio data supplied to each speaker.
- step S49 the gain adjustment unit 73 supplies the audio data of each speaker to the corresponding speaker of the speaker array 12 to reproduce the sound, and the reproduction process ends.
- the sound image of the reflected sound is appropriately spread, and the sound of the content is reproduced so that the sound image of the direct sound is localized at the object position serving as the sound source.
- the sound processing device 61 compares the Diffuseness information with the Diffuseness threshold th2, performs the Spread process according to the comparison result, and adds the sound spread to the reflected sound object.
- object audio data that seems to be a direct sound is used for sound reproduction as it is, and object audio data that seems to be a reflected sound is subjected to a Spread process that is not applied to the direct sound and is used for reproduction. .
- the audio processing device 61 can realize content reproduction with a higher degree of freedom by enabling the object audio data to be processed by distinguishing between the reflected sound and the direct sound.
- the reflection component that is, the object of reflected sound
- the direct component that is, the object of direct sound. Therefore, when the data transmission band is not sufficiently secured, the data transmission amount can be suppressed by thinning out the objects to be transmitted based on the Diffuseness information included in the object metadata.
- an encoder to which the present technology is applied is configured, for example, as shown in FIG.
- the encoder 101 shown in FIG. 6 includes a transmission data thinning unit 111, an encoding unit 112, and a transmission unit 113.
- the encoder 101 supplies object audio data and object metadata of a plurality of, here, N objects, to the transmission data thinning unit 111. That is, N object audio data and N object metadata are supplied to the transmission data thinning unit 111.
- the transmission data thinning-out unit 111 thins out the object audio data and the object metadata based on a Diffuseness threshold th3 supplied from the outside, and supplies the thinned-out data to the encoding unit 112.
- the transmission data thinning unit 111 includes an extraction unit 121, a determination unit 122, a selection unit 123, and a selection unit 124.
- the extraction unit 121 obtains object metadata of an object from the outside, extracts Diffuseness information from the object metadata, supplies it to the determination unit 122, and supplies the object metadata to the selection unit 124.
- the determination unit 122 determines whether or not the object data is to be encoded by comparing the Diffuseness information supplied from the extraction unit 121 with the Diffuseness threshold th3 supplied from the outside, and the determination result Accordingly, the selection unit 123 and the selection unit 124 are controlled.
- the object data is the encoding target. This is because an audio object with small Diffuseness information and a small reflection component, that is, an object that seems to be a direct sound is likely to be a highly important object.
- the Diffuseness threshold th3 is determined by, for example, the status of the data transmission bandwidth, the user on the receiving side of the transmitted data, and the like.
- the Diffuseness threshold th3 is set to 0.0. In this case, only the data of the object of the direct sound is transmitted, so that the amount of data transmission can be suppressed and content reproduction with a high degree of freedom can be realized on the reproduction side.
- the selection unit 123 includes a switch, for example, and is turned on or off according to the control of the determination unit 122.
- the object audio data supplied from the outside is supplied to the encoding unit 112 according to its on / off state. That is, the selection unit 123 selects and outputs only the object to be encoded from the supplied object audio data.
- the selection unit 124 includes, for example, a switch, and is turned on or off in accordance with the control of the determination unit 122.
- the selection unit 124 supplies the object metadata supplied from the extraction unit 121 to the encoding unit 112 according to its own on or off state. That is, the selection unit 124 selects and outputs only those to be encoded from the supplied object metadata.
- the selection unit 123 and the selection unit 124 are configured to output the input data to the subsequent stage only when the selection unit 123 and the selection unit 124 are in the on state.
- the encoding unit 112 encodes the object audio data supplied from the selection unit 123 and the object metadata supplied from the selection unit 124 to generate a bit stream, and supplies the bit stream to the transmission unit 113.
- the sending unit 113 sends the bit stream supplied from the encoding unit 112 to another device via the communication network.
- step S81 the extraction unit 121 selects one object to be processed from among the N objects.
- step S82 the extraction unit 121 obtains object metadata of the object to be processed from the outside, extracts Diffuseness information from the object metadata, supplies it to the determination unit 122, and supplies the object metadata to the selection unit 124. Supply.
- step S83 the determination unit 122 determines whether the Diffuseness information supplied from the extraction unit 121 is equal to or less than the Diffuseness threshold th3 supplied from the outside.
- step S84 the determination unit 122 sets the data of the object to be processed as the encoding target. In this case, the determination unit 122 controls the selection unit 123 and the selection unit 124 to turn on the selection unit 123 and the selection unit 124.
- the selection unit 123 supplies the object audio data of the processing target object supplied from the outside to the encoding unit 112, and the selection unit 124 encodes the object metadata of the processing target object supplied from the extraction unit 121. 112.
- step S83 determines whether it is less than the Diffuseness threshold th3 or not less than the Diffuseness threshold th3. If it is determined in step S83 that it is not less than the Diffuseness threshold th3, the process of step S84 is skipped and the process proceeds to step S85.
- the determination unit 122 controls the selection unit 123 and the selection unit 124 and turns off the selection unit 123 and the selection unit 124, assuming that the data of the object to be processed is not the encoding target.
- the object audio data of the object to be processed is not supplied from the selection unit 123 to the encoding unit 112, and the object metadata of the object to be processed is not supplied from the selection unit 124 to the encoding unit 112.
- Diffuseness information is larger than the Diffuseness threshold th3 and data of an object with low importance is thinned out without being encoded.
- step S84 If it is determined in step S84 that the processing in step S84 has been performed or not equal to or less than the Diffuseness threshold th3 in step S83, the extraction unit 121 determines in step S85 whether all N objects have been processed.
- step S85 If it is determined in step S85 that all objects have not yet been processed, the process returns to step S81, and the above-described processes are repeated. That is, it is determined whether the next object is the object to be processed and is to be encoded.
- step S85 if it is determined in step S85 that all objects have been processed, the encoding unit 112 performs an encoding process in step S86.
- the encoding unit 112 encodes the object audio data supplied from the selection unit 123 and the object metadata supplied from the selection unit 124, and multiplexes the resulting data to generate a bitstream.
- the encoding unit 112 supplies the bit stream obtained in this way to the sending unit 113.
- step S87 the sending unit 113 sends the bit stream supplied from the encoding unit 112, and the encoding process ends.
- the encoder 101 compares the Diffuseness information and the Diffuseness threshold th3 for each object, and encodes the object audio data and the object metadata of the object according to the comparison result. That is, an object that seems to be a direct sound is used for content reproduction, and an object that seems to be a reflected sound is controlled to be discarded without being used for content reproduction.
- the amount of bit stream transmission can be reduced by comparing the Diffuseness information with the Diffuseness threshold th3 and thinning out the data of the object that seems to be low in importance.
- the encoder 101 when the data transmission bandwidth is not sufficiently secured, the selection of the object for transmitting data according to the sound reflectivity (diffusibility) of the object, that is, the degree of the reflected sound likelihood is selected. As a result, the amount of data transmission can be suppressed. Also, by selecting objects, audio playback with a higher degree of freedom can be realized.
- the reflection component object is generally considered to be less important than the direct component object. Therefore, when the processing capability of the playback-side device is not sufficiently high, the amount of computation during playback, that is, rendering processing is reduced by thinning out the objects to be played back based on the Diffuseness information included in the object metadata. It becomes possible.
- FIG. 8 a speech processing apparatus to which the present technology is applied is configured as shown in FIG. 8, for example.
- portions corresponding to those in FIG. 2 are denoted by the same reference numerals, and description thereof is omitted as appropriate.
- the audio processing device 151 shown in FIG. 8 has an object thinning unit 161 and a rendering unit 25.
- the audio processing device 151 supplies object audio data and object metadata of a plurality of, here, N objects, to the object thinning unit 161. That is, N object audio data and N object metadata are supplied to the object thinning unit 161.
- the object thinning unit 161 includes an extraction unit 21, a determination unit 22, a selection unit 171, and a selection unit 172.
- the extraction unit 21 acquires object metadata of an object from the outside, extracts Diffuseness information from the object metadata, supplies the extracted information to the determination unit 22, and supplies the object metadata to the selection unit 172.
- the determination unit 22 determines whether or not the object data is to be rendered by comparing the Diffuseness information supplied from the extraction unit 21 with the Diffuseness threshold th4 supplied from the outside, and the determination result is Accordingly, the selection unit 171 and the selection unit 172 are controlled.
- the object data is rendered. This is because a sound object with small Diffuseness information and a small reflection component is likely to be a highly important object.
- the Diffuseness information is larger than the Diffuseness threshold th4 and there is a high possibility that the sound object having many reflection components is an object having low importance, the data of the object is not subjected to rendering and is discarded. That is, an object that seems to be a reflected sound is not used for content playback.
- the Diffuseness threshold th4 is determined by, for example, the status of the processing load of the audio processing device 151 that is a playback device, the user, and the like.
- the Diffuseness threshold th4 is set to 0.0. In this case, only the data of the object of the direct sound is rendered, so that the calculation amount during the rendering process, that is, the processing load can be reduced.
- the selection unit 171 includes, for example, a switch, and is turned on or off according to the control of the determination unit 22.
- the selection unit 171 supplies the object audio data supplied from the outside to the rendering unit 25 according to the on / off state of the selection unit 171. That is, the selection unit 171 selects and outputs only the object to be rendered from the supplied object audio data.
- the selection unit 172 includes, for example, a switch, and is turned on or off in accordance with the control of the determination unit 22.
- the selection unit 172 supplies the object metadata supplied from the extraction unit 21 to the rendering unit 25 according to its own on or off state. That is, the selection unit 172 selects and outputs only those to be rendered from the supplied object metadata.
- the selection unit 171 and the selection unit 172 are configured to output the input data to the subsequent stage only when the selection unit 171 and the selection unit 172 are in the on state.
- step S111 the extraction unit 21 selects one object to be processed from among the N objects.
- step S112 the extraction unit 21 obtains object metadata of the object to be processed from the outside, extracts Diffuseness information from the object metadata, supplies it to the determination unit 22, and supplies the object metadata to the selection unit 172. Supply.
- step S113 the determination unit 22 determines whether the Diffuseness information supplied from the extraction unit 21 is equal to or less than the Diffuseness threshold th4 supplied from the outside.
- step S114 the determination unit 22 sets the data of the object to be processed as a rendering target.
- the determination unit 22 controls the selection unit 171 and the selection unit 172 to turn on the selection unit 171 and the selection unit 172.
- the selection unit 171 supplies the object audio data of the processing target object supplied from the outside to the rendering unit 25, and the selection unit 172 renders the object metadata of the processing target object supplied from the extraction unit 21 to the rendering unit. 25.
- step S113 determines whether it is less than the Diffuseness threshold th4 or not less than the Diffuseness threshold th4 or not less than the Diffuseness threshold th4 or not less than the Diffuseness threshold th4.
- the determination unit 22 controls the selection unit 171 and the selection unit 172 and turns off the selection unit 171 and the selection unit 172, assuming that the data of the processing target object is not the rendering target.
- the object audio data of the object to be processed is not supplied from the selection unit 171 to the rendering unit 25, and the object metadata of the object to be processed is not supplied from the selection unit 172 to the rendering unit 25.
- the data of the object whose Diffuseness information is larger than the Diffuseness threshold th4 and the importance is low is thinned out without being a rendering target.
- step S113 determines whether or not all N objects have been processed.
- step S115 If it is determined in step S115 that all objects have not yet been processed, the process returns to step S111, and the above-described process is repeated. That is, it is determined whether the next object is a processing target object and is a rendering target.
- step S115 if it is determined in step S115 that all objects have been processed, the rendering unit 25 performs rendering processing in step S116.
- the rendering unit 25 performs the same processing as in step S16 in FIG. 3, so that the object audio data supplied from the selection unit 171 and the object supplied from the selection unit 172 for each object to be rendered. Audio data for each speaker is generated based on the metadata. Then, the rendering unit 25 adds the audio data of the same speaker to the audio data of each speaker obtained for each object to obtain final audio data of the speaker.
- step S117 the rendering unit 25 supplies the audio data of each speaker obtained by the rendering process to the corresponding speaker of the speaker array 12 to reproduce the sound, and the reproduction process ends.
- the sound of the content is reproduced so that the sound of the object to be rendered is localized at the position of those objects.
- the audio processing device 151 compares the Diffuseness information and the Diffuseness threshold th4 for each object, and performs the object audio data rendering process according to the comparison result. That is, an object that seems to be a direct sound is used for content reproduction, and an object that seems to be a reflected sound is controlled to be discarded without being used for content reproduction.
- the amount of computation during the rendering process (processing amount ) Can be reduced.
- the amount of calculation is reduced by selecting objects to be rendered and replayed according to the sound reflectivity of the object, that is, the degree of likelihood of reflected sound. be able to. In other words, audio reproduction with a higher degree of freedom can be realized by selecting objects.
- the series of processes described above can be executed by hardware or can be executed by software.
- a program constituting the software is installed in the computer.
- the computer includes, for example, a general-purpose personal computer capable of executing various functions by installing a computer incorporated in dedicated hardware and various programs.
- FIG. 10 is a block diagram showing an example of the hardware configuration of a computer that executes the above-described series of processing by a program.
- a CPU Central Processing Unit
- ROM Read Only Memory
- RAM Random Access Memory
- An input / output interface 505 is further connected to the bus 504.
- An input unit 506, an output unit 507, a recording unit 508, a communication unit 509, and a drive 510 are connected to the input / output interface 505.
- the input unit 506 includes a keyboard, a mouse, a microphone, an image sensor, and the like.
- the output unit 507 includes a display, a speaker, and the like.
- the recording unit 508 includes a hard disk, a nonvolatile memory, and the like.
- the communication unit 509 includes a network interface or the like.
- the drive 510 drives a removable recording medium 511 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory.
- the CPU 501 loads the program recorded in the recording unit 508 to the RAM 503 via the input / output interface 505 and the bus 504 and executes the program, for example. Is performed.
- the program executed by the computer (CPU 501) can be provided by being recorded in a removable recording medium 511 as a package medium, for example.
- the program can be provided via a wired or wireless transmission medium such as a local area network, the Internet, or digital satellite broadcasting.
- the program can be installed in the recording unit 508 via the input / output interface 505 by attaching the removable recording medium 511 to the drive 510. Further, the program can be received by the communication unit 509 via a wired or wireless transmission medium and installed in the recording unit 508. In addition, the program can be installed in the ROM 502 or the recording unit 508 in advance.
- the program executed by the computer may be a program that is processed in time series in the order described in this specification, or in parallel or at a necessary timing such as when a call is made. It may be a program for processing.
- the present technology can take a cloud computing configuration in which one function is shared by a plurality of devices via a network and is jointly processed.
- each step described in the above flowchart can be executed by one device or can be shared by a plurality of devices.
- the plurality of processes included in the one step can be executed by being shared by a plurality of apparatuses in addition to being executed by one apparatus.
- the present technology can be configured as follows.
- An acquisition unit that acquires metadata including position information indicating a position of the audio object and Diffuseness information of the audio object;
- the audio data of the audio object whose Diffuseness information is less than or equal to a predetermined threshold is used for reproduction, and for the audio object whose Diffuseness information is larger than the threshold, the audio data of the audio object is not used for reproduction,
- a control unit that controls the audio data of the audio object to be used for reproduction by performing processing different from the case where the Diffuseness information is equal to or less than the threshold value.
- the audio processing device further comprising: a gain control unit that performs gain adjustment as the processing on audio data of the audio object in which the Diffuseness information is larger than the threshold.
- the audio processing apparatus further including: a rendering unit that performs a process of expanding a sound image as the process for audio data of the audio object in which the Diffuseness information is greater than the threshold value.
- the maximum value of the Diffuseness information indicates that the sound of the audio object is a reflected sound, and the minimum value of the Diffuseness information indicates that the sound of the audio object is a direct sound.
- the audio processing method includes a step of controlling the audio data of the audio object to be used for reproduction by performing processing different from the case where the Diffuseness information is equal to or less than the threshold value.
- the audio data of the audio object whose Diffuseness information is less than or equal to a predetermined threshold is used for reproduction, and for the audio object whose Diffuseness information is larger than the threshold, the audio data of the audio object is not used for reproduction,
- An acquisition unit that acquires metadata including position information indicating a position of the audio object and Diffuseness information of the audio object;
- An encoding unit that encodes audio data of the audio object whose Diffuseness information is less than or equal to a predetermined threshold, and for the audio object whose Diffuseness information is greater than the threshold, An encoding device provided.
- 11 speech processing device 21 extraction unit, 22 determination unit, 23 switching unit, 24 gain control unit, 25 rendering unit, 71 vector calculation unit, 72 gain calculation unit, 73 gain adjustment unit, 101 encoder, 111 send data decimation unit, 112 encoding part, 113 sending part, 161 object thinning part
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Stereophonic System (AREA)
Abstract
本技術は、より自由度の高いオーディオ再生を行うことができるようにする音声処理装置および方法、符号化装置、並びにプログラムに関する。 抽出部は、オブジェクトの位置情報と、Diffuseness情報とが含まれるオブジェクトメタデータを取得する。判定部は、オブジェクトメタデータに含まれるDiffuseness情報と、Diffuseness閾値とを比較して、Diffuseness情報がDiffuseness閾値以下である場合、オブジェクトオーディオデータをレンダリング部に供給させ、Diffuseness情報がDiffuseness閾値より大きい場合、オブジェクトオーディオデータをゲイン制御部に供給させる。本技術は音声処理装置に適用することができる。
Description
本技術は音声処理装置および方法、符号化装置、並びにプログラムに関し、特に、より自由度の高いオーディオ再生を行うことができるようにした音声処理装置および方法、符号化装置、並びにプログラムに関する。
従来、ISO/IEC 23008-3 “3D Audio”規格において、オブジェクトオーディオが採用されており、各オブジェクト音源が、そのオブジェクトの位置情報等のメタ情報に従ってレンダリング処理され、再生される(例えば、非特許文献1参照)。
一方、実空間において聞こえる音には、音源から直接耳に届く直接音だけでなく、音源からの音が壁などに反射して耳に届く反射音が存在する場合がある。具体的には、例えば人の前方で花火がなったとき、その人の前方から直接音が聞こえるだけでなく、その人の後方の壁から反射音が聞こえるようなケースがある。
ところで、オブジェクトオーディオにおいては、直接音と反射音をそれぞれ別のオブジェクトで表現することで、実空間における音の聞こえ方を再現する場合がある。
ここで、直接音と反射音はそれぞれ独立したオブジェクトとして存在しているが、それぞれのオブジェクトが直接音であるか反射音であるかの区別がないため、再生側では全てのオブジェクトの音声がレンダリング再生されることになる。
そのため、例えば直接音だけを再生したり、反射音のゲインを調整したりするなど、直接音のオブジェクトと反射音のオブジェクトを別々に制御することができず、自由度の高いオーディオ再生を行うことができなかった。
本技術は、このような状況に鑑みてなされたものであり、より自由度の高いオーディオ再生を行うことができるようにするものである。
本技術の第1の側面の音声処理装置は、オーディオオブジェクトの位置を示す位置情報と、前記オーディオオブジェクトのDiffuseness情報とが含まれるメタデータを取得する取得部と、前記Diffuseness情報が所定の閾値以下である前記オーディオオブジェクトのオーディオデータを再生に使用し、前記Diffuseness情報が前記閾値よりも大きい前記オーディオオブジェクトについては、前記オーディオオブジェクトのオーディオデータを再生に使用しないか、または前記オーディオオブジェクトのオーディオデータに対して前記Diffuseness情報が前記閾値以下である場合とは異なる処理を行って再生に使用するように制御する制御部とを備える。
音声処理装置には、前記Diffuseness情報が前記閾値よりも大きい前記オーディオオブジェクトのオーディオデータに対し、前記処理としてゲイン調整を行うゲイン制御部をさらに設けることができる。
音声処理装置には、前記Diffuseness情報が前記閾値よりも大きい前記オーディオオブジェクトのオーディオデータに対し、前記処理として音像を広げる処理を行うレンダリング部をさらに設けることができる。
前記Diffuseness情報の最大値は、前記オーディオオブジェクトの音声が反射音であることを示しており、前記Diffuseness情報の最小値は、前記オーディオオブジェクトの音声が直接音であることを示しているようにすることができる。
本技術の第1の側面の音声処理方法またはプログラムは、オーディオオブジェクトの位置を示す位置情報と、前記オーディオオブジェクトのDiffuseness情報とが含まれるメタデータを取得し、前記Diffuseness情報が所定の閾値以下である前記オーディオオブジェクトのオーディオデータを再生に使用し、前記Diffuseness情報が前記閾値よりも大きい前記オーディオオブジェクトについては、前記オーディオオブジェクトのオーディオデータを再生に使用しないか、または前記オーディオオブジェクトのオーディオデータに対して前記Diffuseness情報が前記閾値以下である場合とは異なる処理を行って再生に使用するように制御するステップを含む。
本技術の第1の側面においては、オーディオオブジェクトの位置を示す位置情報と、前記オーディオオブジェクトのDiffuseness情報とが含まれるメタデータが取得され、前記Diffuseness情報が所定の閾値以下である前記オーディオオブジェクトのオーディオデータを再生に使用し、前記Diffuseness情報が前記閾値よりも大きい前記オーディオオブジェクトについては、前記オーディオオブジェクトのオーディオデータを再生に使用しないか、または前記オーディオオブジェクトのオーディオデータに対して前記Diffuseness情報が前記閾値以下である場合とは異なる処理を行って再生に使用するように制御される。
本技術の第2の側面の符号化装置は、オーディオオブジェクトの位置を示す位置情報と、前記オーディオオブジェクトのDiffuseness情報とが含まれるメタデータを取得する取得部と、前記Diffuseness情報が所定の閾値以下である前記オーディオオブジェクトのオーディオデータを符号化し、前記Diffuseness情報が前記閾値よりも大きい前記オーディオオブジェクトについては、前記オーディオオブジェクトのオーディオデータを符号化しない符号化部とを備える。
本技術の第2の側面においては、オーディオオブジェクトの位置を示す位置情報と、前記オーディオオブジェクトのDiffuseness情報とが含まれるメタデータが取得され、前記Diffuseness情報が所定の閾値以下である前記オーディオオブジェクトのオーディオデータが符号化され、前記Diffuseness情報が前記閾値よりも大きい前記オーディオオブジェクトについては、前記オーディオオブジェクトのオーディオデータが符号化されない。
本技術の第1の側面および第2の側面によれば、より自由度の高いオーディオ再生を行うことができる。
なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載された何れかの効果であってもよい。
以下、図面を参照して、本技術を適用した実施の形態について説明する。
〈第1の実施の形態〉
〈オブジェクトメタデータについて〉
本技術は、オーディオオブジェクトのオブジェクトオーディオデータおよびオブジェクトメタデータに基づいて、そのオーディオオブジェクトの音声を再生する場合に、より自由度の高いオーディオ再生を実現することができるようにするものである。なお、以下では、オーディオオブジェクトを単にオブジェクトとも称することとする。
〈オブジェクトメタデータについて〉
本技術は、オーディオオブジェクトのオブジェクトオーディオデータおよびオブジェクトメタデータに基づいて、そのオーディオオブジェクトの音声を再生する場合に、より自由度の高いオーディオ再生を実現することができるようにするものである。なお、以下では、オーディオオブジェクトを単にオブジェクトとも称することとする。
より具体的には、本技術は直接音のオブジェクトと反射音のオブジェクトとで、オーディオ再生時の制御を別々に行うことができるようにすることで、より自由度の高いオーディオ再生を実現することができるようにするものである。
オブジェクトの音声の再生時には、オブジェクトの音声を再生するためのオーディオ信号であるオブジェクトオーディオデータと、オブジェクトに関するメタデータであるオブジェクトメタデータとに基づいて音声再生のための処理が行われる。
ここで、オブジェクトメタデータには、例えば図1に示すように位置情報、ゲイン情報、およびDiffuseness情報が含まれている。
位置情報は、再生空間における基準となる音声の聴取位置から見たオブジェクトの位置を示す情報である。例えば位置情報は、聴取位置から見たオブジェクト位置の水平方向角度および垂直方向角度と、聴取位置からオブジェクト位置までの距離とからなる。
また、ゲイン情報は、オブジェクトオーディオデータに対するゲイン調整を行うときに用いられるオブジェクトごとのゲイン値などとされる。
さらにDiffuseness情報は、オブジェクトの音声が直接音であるか、または反射音であるかを示す拡散性情報である。
例えばDiffuseness情報は、直接音であるか、または反射音であるかを示すフラグ情報とされてもよいし、オブジェクトの音に含まれる反射成分の割り合いを示す情報などとされてもよい。
以下では、Diffuseness情報は、反射成分の割り合いを示す情報、すなわち反射音らしさの度合いを示す情報であるものとし、Diffuseness情報が0.0乃至1.0の間の値とされる場合を例として説明する。
ここで、Diffuseness情報が最小値である0.0である場合には、オブジェクトの音声に反射成分は含まれておらず、オブジェクトの音声は直接音であるとされる。これに対して、Diffuseness情報が最大値である1.0である場合には、オブジェクトの音声は反射成分のみからなり、オブジェクトの音声は反射音であるとされる。
具体的には、例えば音源にマイクロホンを取り付けて収音することで得られたオーディオデータをオブジェクトのオブジェクトオーディオデータとする場合には、そのオブジェクトオーディオデータに含まれる成分は音源からの直接音の成分が殆どとなる。このような場合、オブジェクトのDiffuseness情報は0.0などとされる。
これに対して、例えば音源からある程度離れた位置にあるマイクロホンで収音して得られたオーディオデータをオブジェクトオーディオデータとする場合には、そのオブジェクトオーディオデータには音源からの直接音の成分だけでなく、その反射音の成分も含まれているはずである。そこで、このような場合、オブジェクトのDiffuseness情報は音源とマイクロホンとの距離に応じて1.0や0.5などとされる。特にこの場合には音源とマイクロホンとの距離が短いほどDiffuseness情報の値が小さくなるようにすればよい。また、明らかに音源とは異なる方向から聞こえてくる音をマイクロホンで収音して得られたオーディオデータをオブジェクトオーディオデータとする場合には、そのオブジェクトオーディオデータは反射音であるはずである。そこで、このような場合、オブジェクトのDiffuseness情報は1.0とすればよい。
さらに他の具体例として、例えば音像の広がりを示す領域内の各位置をオブジェクトの位置とし、それらのオブジェクトのオブジェクトオーディオデータによって、1つの音源から発せられた音声を表現する場合なども考えられる。
そのような場合、音像の広がりを示す領域の中心位置にあるオブジェクトのオブジェクトオーディオデータには、音源からの直接音の成分のみが含まれているものとされ、Diffuseness情報の値は0.0とされる。これに対して、音像の広がりを示す領域の中心位置から遠い位置にあるオブジェクトほど、そのオブジェクトのオブジェクトオーディオデータに含まれる反射音の成分が多くなるものとされる。すなわち、そのオブジェクトのDiffuseness情報の値は、音像の広がりを示す領域の中心位置からの距離に応じて、0.5や0.7、1.0などとされる。
さらに、人工的に生成された音声のオブジェクトについては、音声の制作者の意図に応じてDiffuseness情報の値を定めればよい。
なお、ここではDiffuseness情報の最大値である1.0が反射音を示しており、最小値である0.0が直接音を示している例について説明したが、0.0が反射音を示し、1.0が直接音を示すようにしてもよい。
また、以下では1つのオブジェクトに対して1つのDiffuseness情報が定められる例について説明するが、複数のオブジェクトに対して1つのDiffuseness情報が定められるようにしてもよい。
〈音声処理装置の構成例〉
次に、オブジェクトメタデータと、オブジェクトオーディオデータとを入力としてオーディオ再生を行う音声処理装置に本技術を適用した実施の形態について説明する。
次に、オブジェクトメタデータと、オブジェクトオーディオデータとを入力としてオーディオ再生を行う音声処理装置に本技術を適用した実施の形態について説明する。
図2は、本技術を適用した音声処理装置の一実施の形態の構成例を示す図である。
音声処理装置11には、コンテンツのオーディオデータである1または複数のオブジェクトのオブジェクトオーディオデータと、それらのオブジェクトのオブジェクトメタデータとが供給される。音声処理装置11は、それらのオブジェクトオーディオデータとオブジェクトメタデータとに基づいてレンダリング処理を行い、複数のチャンネルのスピーカからなるスピーカアレイ12にオーディオデータを供給してコンテンツを再生させる。
音声処理装置11は、抽出部21、判定部22、切替部23、ゲイン制御部24、およびレンダリング部25を有している。
抽出部21は、外部からオブジェクトのオブジェクトメタデータを取得し、そのオブジェクトメタデータからDiffuseness情報を抽出して判定部22に供給するとともに、オブジェクトメタデータをレンダリング部25に供給する。
判定部22は、抽出部21から供給されたDiffuseness情報と、外部から供給されたDiffuseness閾値th1とを比較することで、オブジェクトの音声が反射音らしいか否かを判定し、その判定結果に応じて切替部23を制御する。すなわち、判定部22では、オブジェクトの音声に含まれる反射成分の割り合いが所定値より大きいか否かが判定される。
ここでは、Diffuseness情報がDiffuseness閾値th1より大きい場合に、オブジェクトの音声は反射音らしいとされ、そのオブジェクトに対して反射音向けの処理が行われる。
また、Diffuseness閾値th1は、後段において反射音向けの処理を行うべきオブジェクトであるか、つまり反射音であるかを判別するための閾値であり、例えばDiffuseness閾値th1はユーザ等により指定される。例えばDiffuseness閾値th1が0.0である場合、Diffuseness情報が0.0以外の全てのオブジェクトに対して反射音向けの処理が行われることになる。
切替部23は、判定部22の制御に応じて、外部から供給されたオブジェクトオーディオデータの出力先を切り替える。
具体的には、切替部23はスイッチ31を有しており、スイッチ31をノード32またはノード33の何れかに接続することで、オブジェクトオーディオデータの出力先を切り替える。例えばスイッチ31がノード32に接続された場合には、オブジェクトオーディオデータはレンダリング部25に供給され、スイッチ31がノード33に接続された場合には、オブジェクトオーディオデータがゲイン制御部24に供給される。
ここでは、反射音向けの処理が行われる場合に、オブジェクトオーディオデータがゲイン制御部24に供給され、そうでない場合、つまり直接音向けの処理が行われる場合には、オブジェクトオーディオデータは、直接、レンダリング部25に供給される。
ゲイン制御部24は、外部から供給された反射成分ゲインに基づいて、切替部23から供給されたオブジェクトオーディオデータに対するゲイン制御処理、つまりゲイン調整を行い、ゲイン調整されたオブジェクトオーディオデータをレンダリング部25に供給する。
ここで、反射成分ゲインは、ユーザ等により指定されたものとしてもよいし、予め定められた定数としてもよい。例えば反射成分ゲインが0.0とされた場合には、反射音向けの処理を行うとされたオブジェクト、つまりDiffuseness情報がDiffuseness閾値th1より大きいオブジェクトについては、オブジェクトオーディオデータは無音信号となる。そのため、そのようなオブジェクトについては、実質的にレンダリング再生が行われないことになる。
また、反射成分ゲインは、Diffuseness情報の値に応じて判定部22により定められるようにしてもよい。そのような場合、例えば判定部22は、Diffuseness情報の値が大きいほど反射成分ゲインが小さくなるようにする。具体的には、例えばDiffuseness情報の値に応じて反射成分ゲインが線形に変化していくようにすればよい。
レンダリング部25は、抽出部21から供給されたオブジェクトメタデータに基づいて、切替部23またはゲイン制御部24から供給されたオブジェクトオーディオデータに対してレンダリング処理を行う。また、レンダリング部25は、レンダリング処理の結果として得られた各チャンネルのオーディオデータを、それらのチャンネルに対応するスピーカアレイ12の各スピーカに供給し、音声を再生させる。
〈再生処理の説明〉
次に、図2に示した音声処理装置11の動作について説明する。すなわち、以下、図3のフローチャートを参照して、音声処理装置11による再生処理について説明する。なお、この再生処理はオブジェクトごとに行われる。
次に、図2に示した音声処理装置11の動作について説明する。すなわち、以下、図3のフローチャートを参照して、音声処理装置11による再生処理について説明する。なお、この再生処理はオブジェクトごとに行われる。
ステップS11において、抽出部21は、外部からオブジェクトのオブジェクトメタデータを取得し、オブジェクトメタデータからDiffuseness情報を抽出して判定部22に供給するとともに、オブジェクトメタデータをレンダリング部25に供給する。
ステップS12において、判定部22は、抽出部21から供給されたDiffuseness情報が、外部から供給されたDiffuseness閾値th1以下であるか否かを判定する。
ステップS12においてDiffuseness閾値th1以下でないと判定された場合、つまり処理対象のオブジェクトの音声は反射音らしいため、そのオブジェクトが反射音向けの処理を行うべきものであると判定された場合、処理はステップS13へと進む。
ステップS13において、切替部23は、外部から供給されたオブジェクトオーディオデータをゲイン制御部24に供給する。
すなわち、判定部22は、ステップS12の判定処理の結果に応じて切替部23を制御し、切替部23は判定部22の制御に応じてスイッチ31をノード33に接続し、外部から供給されたオブジェクトオーディオデータをゲイン制御部24に供給する。
ステップS14において、ゲイン制御部24は外部から供給された反射成分ゲインに基づいて、切替部23から供給されたオブジェクトオーディオデータに対するゲイン制御処理を行い、その結果得られたオブジェクトオーディオデータをレンダリング部25に供給する。
例えばゲイン制御処理では、反射成分ゲインに基づいてオブジェクトオーディオデータのゲインが調整、つまり減衰される。したがって、例えば反射成分ゲインを0.0とすれば、反射音のオブジェクトについてはコンテンツ再生時にその音声が使用されず、直接音のみが再生に使用されることになる。
このように反射音のオブジェクトオーディオデータのゲイン調整を行うことで、反射成分のない、または反射成分の少ない、クリアな音声を再生することができるようになる。
これに対して、反射成分ゲインをそれなりに大きい値とすれば、反射音のオブジェクトについてもコンテンツ再生時にその音声が十分な音量で再生されるので、反射成分を含む臨場感のあるコンテンツ再生が行われることになる。なお、反射成分ゲインにより、反射音が強調されるようにしてもよい。
また、ステップS12において、Diffuseness閾値th1以下であると判定された場合、つまり処理対象のオブジェクトが直接音向けの処理を行うべきものであると判定された場合、処理はステップS15へと進む。
ステップS15において、切替部23は、外部から供給されたオブジェクトオーディオデータをレンダリング部25に供給する。
すなわち、判定部22は、ステップS12の判定処理の結果に応じて切替部23を制御し、切替部23は判定部22の制御に応じてスイッチ31をノード32に接続し、外部から供給されたオブジェクトオーディオデータをレンダリング部25に供給する。
ステップS14においてゲイン制御処理が行われたか、またはステップS15においてオブジェクトオーディオデータがレンダリング部25に供給されると、ステップS16において、レンダリング部25はレンダリング処理を行う。
具体的には、レンダリング部25は、抽出部21から供給されたオブジェクトメタデータに含まれている位置情報に基づいて、オブジェクトの音像が再生空間における位置情報により示される位置に定位するように、VBAP(Vector Base Amplitude Panning)等によりスピーカアレイ12の各スピーカ、つまり各チャンネルのゲイン値を算出する。
そして、レンダリング部25は、スピーカごとに算出したゲイン値と、オブジェクトメタデータに含まれているゲイン情報により示されるオブジェクトごとのゲイン値とを、切替部23またはゲイン制御部24から供給されたオブジェクトオーディオデータに乗算する。レンダリング部25は、ゲイン値の乗算処理の結果得られたオーディオデータを、それらの各スピーカに供給するオーディオデータとする。
なお、VBAPについては、例えば「Ville Pulkki, “Virtual Sound Source Positioning Using Vector Base Amplitude Panning”, Journal of AES, vol.45, no.6, pp.456-466, 1997」などに詳細に記載されている。
ステップS17において、レンダリング部25は、レンダリング処理により得られた各スピーカのオーディオデータを、スピーカアレイ12の対応するスピーカに供給して音声を再生させ、再生処理は終了する。これにより、反射音が適切に減衰されたコンテンツの音声が再生されることになる。このとき、オブジェクトの音像は、オブジェクトメタデータに含まれる位置情報により示される位置に定位することになる。
以上のようにして音声処理装置11は、Diffuseness情報とDiffuseness閾値th1とを比較し、その比較結果に応じてオブジェクトオーディオデータに対してゲイン制御処理を行う。つまり、直接音らしいオブジェクトオーディオデータについては、そのまま音声の再生に使用され、反射音らしいオブジェクトオーディオデータについては、再生に使用されないか、または直接音とは異なる処理が施されて再生に使用されるように制御される。
これにより、適宜反射成分を減衰させて反射成分のない、または反射成分の少ないクリアなコンテンツ再生を実現したり、反射成分を適切に残して、反射成分が含まれる臨場感のあるコンテンツ再生を実現したりすることができる。
すなわち、反射音と直接音とを区別してオブジェクトオーディオデータを処理することができるようにすることで、より自由度の高いコンテンツ再生を実現することができる。その結果、ユーザは自身の好みに応じてコンテンツを再生させることができる。
〈第2の実施の形態〉
〈音声処理装置の構成例〉
また、コンテンツ再生時に反射音のオブジェクトについて、音の広がりを再現する処理を制御できるようにしてもよい。
〈音声処理装置の構成例〉
また、コンテンツ再生時に反射音のオブジェクトについて、音の広がりを再現する処理を制御できるようにしてもよい。
例えばISO/IEC 23008-3 “3D Audio”規格では、オブジェクトのレンダリングにおいて、音の広がりを再現するSpread処理が採用されている。このSpread処理は、オブジェクトのレンダリングの際に、音の広がりを再現するために加えられる処理であるが、反射音は定位が明確でない方が臨場感がある場合がある。そこで、反射音のオブジェクトのレンダリングにおいてSpread処理を加えるようにすることで、より臨場感のある反射音を再現できるようにしもてよい。
そのような場合、音声処理装置は、例えば図4に示すように構成される。なお、図4において図2における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
図4に示す音声処理装置61は、抽出部21、判定部22、切替部23、およびレンダリング部25を有している。
この例では、オブジェクトメタデータが抽出部21を介して切替部23に供給され、切替部23は、判定部22の制御に応じてオブジェクトメタデータの出力先を切り替える。
また、判定部22には、レンダリング部25においてSpread処理を行うオブジェクトであるか否かを判別するためのDiffuseness閾値th2が供給され、判定部22は、このDiffuseness閾値th2とDiffuseness情報とを比較して切替部23を制御する。
ここで、Diffuseness閾値th2は、ユーザ等により指定されたものとしてもよいし、予め定められた定数とされるようにしてもよい。また、Diffuseness閾値th2は、別途、オブジェクトオーディオデータやオブジェクトメタデータが含まれるビットストリームにオーディオメタデータとして記録されているものであってもよい。
判定部22では、Diffuseness情報がDiffuseness閾値th2より大きい場合に、Spread処理が行われるオブジェクトであるとされる。つまり、オブジェクトの音声は反射音であるとされる。具体的には、例えばDiffuseness閾値th2が0.0である場合、Diffuseness情報が0.0以外である全てのオブジェクトについて、Spread処理が行われることになる。
レンダリング部25は、ベクトル算出部71、ゲイン算出部72、およびゲイン調整部73を有している。
レンダリング部25では、Diffuseness情報がDiffuseness閾値th2より大きい場合には、切替部23からベクトル算出部71およびゲイン算出部72にオブジェクトメタデータが供給される。これに対して、Diffuseness情報がDiffuseness閾値th2以下である場合には、切替部23からゲイン算出部72にオブジェクトメタデータが供給される。
ベクトル算出部71は、外部から供給されたスプレッドパラメタと、切替部23から供給されたオブジェクトメタデータとに基づいて、オブジェクト位置からの音像の広がりを示す領域内の位置を終点位置とする複数のSpreadベクトルを算出し、ゲイン算出部72に供給する。
ここで、音像の広がりを示す領域とは、オブジェクトの音像が広がる範囲を示す領域である。この音像の広がりを示す領域の中心位置はオブジェクトメタデータに含まれる位置情報により示される位置とされ、また音像の広がりを示す領域の範囲(大きさ)、すなわち音像の広がり度合いがスプレッドパラメタにより指定される。つまり、スプレッドパラメタの値が大きいほど、音像が広がる範囲が広くなる。
ベクトル算出部71は、再生空間における基準となる音声の聴取位置を始点とし、オブジェクトメタデータとスプレッドパラメタにより定まる音像の広がりを示す領域内の上下左右対称な複数の各位置を終点とする複数のSpreadベクトルを算出する。
なお、スプレッドパラメタは、ユーザ等により指定されたものであってもよいし、予め定められた定数であってもよい。また、スプレッドパラメタは、別途、オブジェクトオーディオデータやオブジェクトメタデータが含まれるビットストリームにオーディオメタデータとして記録されているものであってもよい。
さらに、スプレッドパラメタの値は、Diffuseness情報に応じて判定部22により定められるようにしてもよい。例えばスプレッドパラメタの値は、Diffuseness情報が小さい、つまり0.0に近いほど小さくなり、逆にDiffuseness情報が大きいほど、つまり1.0に近いほど大きくなるように定められてもよい。この場合、オブジェクトの音声の反射成分が多いほど音像の広がりを示す領域が大きくなるので、より臨場感のあるコンテンツ再生を実現することができる。
ゲイン算出部72は、必要に応じてベクトル算出部71から供給されたSpreadベクトルと、切替部23から供給されたオブジェクトメタデータとに基づいて、VBAPによりスピーカアレイ12のスピーカごとにゲイン値を算出し、ゲイン調整部73に供給する。
具体的には、ゲイン算出部72は、Spreadベクトルが供給された場合、Spreadベクトルにより示される位置のそれぞれ、つまりSpreadベクトルの終点位置のそれぞれと、オブジェクトメタデータに含まれる位置情報により示される位置とについて、それらの位置ごとにVBAPによりスピーカごとのゲイン値を算出する。そして、ゲイン算出部72は、同じスピーカについて算出したゲイン値を加算して1つのゲイン値とし、各スピーカごとに得られたゲイン値を正規化し、正規化されたゲイン値にオブジェクトメタデータに含まれるゲイン情報により示されるオブジェクトごとのゲイン値を乗算して、最終的な各スピーカのゲイン値とする。
また、ゲイン算出部72は、Spreadベクトルが供給されなかった場合、オブジェクトメタデータに含まれる位置情報により示される位置について、VBAPによりスピーカごとのゲイン値を算出する。さらに、ゲイン算出部72は、VBAPにより求めたスピーカごとのゲイン値と、オブジェクトメタデータに含まれているゲイン情報により示されるオブジェクトごとのゲイン値とを乗算して、最終的な各スピーカのゲイン値とする。
ゲイン調整部73は、ゲイン算出部72から供給された各スピーカのゲイン値を、外部から供給されたオブジェクトオーディオデータに乗算し、その結果得られたオーディオデータを、それらの各スピーカに供給するオーディオデータとする。ゲイン調整部73は、各スピーカのオーディオデータを、スピーカアレイ12を構成する各スピーカに供給して音声を再生させる。
〈再生処理の説明〉
次に、図4に示した音声処理装置61の動作について説明する。すなわち、以下、図5のフローチャートを参照して、音声処理装置61による再生処理について説明する。なお、この再生処理はオブジェクトごとに行われる。
次に、図4に示した音声処理装置61の動作について説明する。すなわち、以下、図5のフローチャートを参照して、音声処理装置61による再生処理について説明する。なお、この再生処理はオブジェクトごとに行われる。
ステップS41において、抽出部21は、外部からオブジェクトのオブジェクトメタデータを取得し、オブジェクトメタデータからDiffuseness情報を抽出して判定部22に供給するとともに、オブジェクトメタデータを切替部23に供給する。
ステップS42において、判定部22は、抽出部21から供給されたDiffuseness情報が、外部から供給されたDiffuseness閾値th2以下であるか否かを判定する。
ステップS42においてDiffuseness閾値th2以下でないと判定された場合、つまり処理対象のオブジェクトの音声が反射音であり、そのオブジェクトはSpread処理を行うべきものであると判定された場合、処理はステップS43へと進む。
ステップS43において、切替部23は、抽出部21から供給されたオブジェクトメタデータをベクトル算出部71およびゲイン算出部72に供給する。
すなわち、判定部22は、ステップS42の判定処理の結果に応じて切替部23を制御し、切替部23は判定部22の制御に応じてスイッチ31をノード33に接続することで、オブジェクトメタデータをベクトル算出部71およびゲイン算出部72に供給する。
ステップS44において、ベクトル算出部71は、外部から供給されたスプレッドパラメタと、切替部23から供給されたオブジェクトメタデータとに基づいて複数のSpreadベクトルを算出し、ゲイン算出部72に供給する。
例えばオブジェクトメタデータに含まれる位置情報により示される位置を中心とし、スプレッドパラメタにより定まる大きさの領域が音像の広がりを示す領域とされ、その領域内の上下左右対称な複数の各位置を示すSpreadベクトルが算出される。
ステップS45において、ゲイン算出部72は、切替部23から供給されたオブジェクトメタデータと、ベクトル算出部71から供給されたSpreadベクトルとに基づいて各スピーカ、つまり各チャンネルのゲイン値を算出し、ゲイン調整部73に供給する。
例えば各Spreadベクトルにより示される位置と、オブジェクトメタデータに含まれる位置情報により示される位置とについて、それらの位置ごとにVBAPによりスピーカごとのゲイン値が算出される。そして、同じスピーカについて算出したゲイン値が加算されて1つのゲイン値とされた後、各スピーカのゲイン値が正規化され、さらに正規化されたゲイン値に、オブジェクトメタデータに含まれるゲイン情報により示されるオブジェクトごとのゲイン値が乗算されて最終的な各スピーカのゲイン値とされる。
このようにして得られるゲイン値を用いれば、オブジェクトの音像を1点ではなく広がりのある領域全体に定位させることができる。
このようにDiffuseness情報がDiffuseness閾値th2よりも大きく、オブジェクトの音声に含まれる反射成分がある程度多い場合には、Spreadベクトルを求めて各スピーカのゲイン値を算出するSpread処理、つまり音像を広げる処理が行われる。
ステップS45の処理が行われてゲイン値が算出されると、その後、処理はステップS48に進む。
これに対して、ステップS42においてDiffuseness閾値th2以下であると判定された場合、ステップS46において切替部23は、抽出部21から供給されたオブジェクトメタデータをゲイン算出部72に供給する。
すなわち、判定部22は、ステップS42の判定処理の結果に応じて切替部23を制御し、切替部23は判定部22の制御に応じてスイッチ31をノード32に接続することで、オブジェクトメタデータをゲイン算出部72に供給する。
ステップS47において、ゲイン算出部72は、切替部23から供給されたオブジェクトメタデータに基づいて各スピーカのゲイン値を算出し、ゲイン調整部73に供給する。すなわち、オブジェクトメタデータに含まれる位置情報により示される位置について、VBAPによりスピーカごとのゲイン値が算出され、さらにそれらのゲイン値にオブジェクトメタデータに含まれるゲイン情報により示されるオブジェクトごとのゲイン値が乗算されて最終的な各スピーカのゲイン値とされる。
このようにDiffuseness情報がDiffuseness閾値th2以下であり、オブジェクトの音声に含まれる反射成分が少ない場合には、音像を広げる処理は行われず、通常通りゲイン値が算出される。このようにして得られるゲイン値を用いると、オブジェクトの音像は、位置情報により示される位置に定位する。
ステップS47の処理が行われてゲイン値が算出されると、その後、処理はステップS48に進む。
ステップS45またはステップS47の処理が行われてゲイン値が算出されると、ステップS48において、ゲイン調整部73は、ゲイン算出部72から供給されたゲイン値に基づいて、外部から供給されたオブジェクトオーディオデータのゲイン調整を行う。
すなわち、ゲイン調整部73は、スピーカごとに、それらのスピーカのゲイン値をオブジェクトオーディオデータに乗算し、その結果得られたオーディオデータを、それらの各スピーカに供給するオーディオデータとする。
ステップS49において、ゲイン調整部73は、各スピーカのオーディオデータを、スピーカアレイ12の対応するスピーカに供給して音声を再生させ、再生処理は終了する。これにより、反射音の音像は適切に広げられ、直接音の音像はその音源となるオブジェクト位置に定位するようにコンテンツの音声が再生されることになる。
以上のようにして音声処理装置61は、Diffuseness情報とDiffuseness閾値th2とを比較し、その比較結果に応じてSpread処理を行って、反射音のオブジェクトに音の広がりを加える。つまり、直接音らしいオブジェクトオーディオデータについては、そのまま音声の再生に使用され、反射音らしいオブジェクトオーディオデータについては、直接音には施されないSpread処理が施されて再生に使用されるように制御される。これにより、より臨場感のあるコンテンツ再生を実現することができる。
すなわち、音声処理装置61では、反射音と直接音とを区別してオブジェクトオーディオデータを処理することができるようにすることで、より自由度の高いコンテンツ再生を実現することができる。
〈第3の実施の形態〉
〈エンコーダの構成例〉
ところで、コンテンツを再生するためのオーディオデータとして、複数のオブジェクトのオーディオデータがある場合、コンテンツを再生するために必要となるデータの伝送量が多くなる。そこで、Diffuseness情報に基づいてオブジェクトの重要度を特定し、データ伝送量を抑制するようにしてもよい。
〈エンコーダの構成例〉
ところで、コンテンツを再生するためのオーディオデータとして、複数のオブジェクトのオーディオデータがある場合、コンテンツを再生するために必要となるデータの伝送量が多くなる。そこで、Diffuseness情報に基づいてオブジェクトの重要度を特定し、データ伝送量を抑制するようにしてもよい。
一般的に反射成分、つまり反射音のオブジェクトは、直接成分、つまり直接音のオブジェクトに比べて重要度は低いと考えられる。そこで、データ伝送の帯域が十分に確保されていない場合に、オブジェクトメタデータに含まれているDiffuseness情報に基づいて、伝送するオブジェクトを間引くようにすれば、データ伝送量を抑制することができる。
そのような場合、本技術を適用したエンコーダは、例えば図6に示すように構成される。
図6に示すエンコーダ101は、送出データ間引き部111、エンコード部112、および送出部113を有している。
エンコーダ101では、複数個、ここではN個のオブジェクトについて、それらのオブジェクトのオブジェクトオーディオデータとオブジェクトメタデータが送出データ間引き部111に供給される。すなわち、N個のオブジェクトオーディオデータと、N個のオブジェクトメタデータとが送出データ間引き部111に供給される。
送出データ間引き部111は、これらのオブジェクトオーディオデータとオブジェクトメタデータを、外部から供給されたDiffuseness閾値th3に基づいて間引きして、エンコード部112に供給する。
送出データ間引き部111は、抽出部121、判定部122、選択部123、および選択部124を有している。
抽出部121は、外部からオブジェクトのオブジェクトメタデータを取得し、オブジェクトメタデータからDiffuseness情報を抽出して判定部122に供給するとともに、オブジェクトメタデータを選択部124に供給する。
判定部122は、抽出部121から供給されたDiffuseness情報と、外部から供給されたDiffuseness閾値th3とを比較することで、オブジェクトのデータをエンコード対象とするか否かを判定し、その判定結果に応じて選択部123および選択部124を制御する。
具体的には、Diffuseness情報がDiffuseness閾値th3以下である場合、オブジェクトのデータがエンコード対象とされる。これは、Diffuseness情報が小さく反射成分が少ない音声のオブジェクト、つまり直接音らしいオブジェクトは重要度が高いオブジェクトである可能性が高いからである。
これに対してDiffuseness情報がDiffuseness閾値th3より大きく、反射成分の多い音声のオブジェクトは、重要度が低いオブジェクトである可能性が高いため、そのオブジェクトのデータはエンコード対象とされず、破棄される。すなわち、反射音らしいオブジェクトはコンテンツ再生には使用されずに破棄される。
ここで、Diffuseness閾値th3は、例えばデータ伝送の帯域幅の状況や、伝送されるデータの受信側のユーザ等により決定されたものとされる。
より具体的には、例えばユーザが反射音のないクリアなコンテンツ再生を要求した場合、反射成分の多い音声のオブジェクトは再生に不要なオブジェクトとなるので、Diffuseness閾値th3は0.0とされる。この場合、直接音のオブジェクトのデータのみが伝送されることになり、データ伝送量を抑制することができるとともに、再生側においても自由度の高いコンテンツ再生を実現することができる。
選択部123は、例えばスイッチからなり、判定部122の制御に従ってオンまたはオフし、外部から供給されたオブジェクトオーディオデータを、自身のオンまたはオフの状態に応じてエンコード部112に供給する。すなわち選択部123は、供給されたオブジェクトオーディオデータのなかから、エンコード対象とするものだけを選択して出力する。
選択部124は、例えばスイッチからなり、判定部122の制御に従ってオンまたはオフし、抽出部121から供給されたオブジェクトメタデータを、自身のオンまたはオフの状態に応じてエンコード部112に供給する。すなわち選択部124は、供給されたオブジェクトメタデータのなかから、エンコード対象とするものだけを選択して出力する。
ここでは、選択部123および選択部124は、自身がオンとなっている状態であるときにのみ、入力されたデータを後段へと出力するようになされている。
エンコード部112は、選択部123から供給されたオブジェクトオーディオデータと、選択部124から供給されたオブジェクトメタデータとをエンコード(符号化)してビットストリームを生成し、送出部113に供給する。
送出部113は、エンコード部112から供給されたビットストリームを、通信網を介して他の装置に送出する。
〈エンコード処理の説明〉
次に、図6に示したエンコーダ101の動作について説明する。すなわち、以下、図7のフローチャートを参照して、エンコーダ101によるエンコード処理について説明する。
次に、図6に示したエンコーダ101の動作について説明する。すなわち、以下、図7のフローチャートを参照して、エンコーダ101によるエンコード処理について説明する。
ステップS81において、抽出部121は、N個のオブジェクトのなかから処理対象とするオブジェクトを1つ選択する。
ステップS82において、抽出部121は、外部から処理対象のオブジェクトのオブジェクトメタデータを取得し、オブジェクトメタデータからDiffuseness情報を抽出して判定部122に供給するとともに、そのオブジェクトメタデータを選択部124に供給する。
ステップS83において、判定部122は、抽出部121から供給されたDiffuseness情報が、外部から供給されたDiffuseness閾値th3以下であるか否かを判定する。
ステップS83においてDiffuseness閾値th3以下であると判定された場合、ステップS84において、判定部122は処理対象のオブジェクトのデータをエンコード対象とする。この場合、判定部122は、選択部123および選択部124を制御して、それらの選択部123および選択部124をオンさせる。
これにより、選択部123は外部から供給された処理対象のオブジェクトのオブジェクトオーディオデータをエンコード部112に供給し、選択部124は抽出部121から供給された処理対象のオブジェクトのオブジェクトメタデータをエンコード部112に供給する。
このようにしてオブジェクトオーディオデータとオブジェクトメタデータが出力されると、その後、処理はステップS85へと進む。
これに対して、ステップS83においてDiffuseness閾値th3以下でないと判定された場合、ステップS84の処理はスキップされて処理はステップS85へと進む。
この場合、判定部122は、処理対象のオブジェクトのデータはエンコード対象ではないとして、選択部123および選択部124を制御し、それらの選択部123および選択部124をオフさせる。
この場合、処理対象のオブジェクトのオブジェクトオーディオデータは、選択部123からエンコード部112へは供給されず、また処理対象のオブジェクトのオブジェクトメタデータも選択部124からエンコード部112へは供給されない。
このような処理により、Diffuseness情報がDiffuseness閾値th3よりも大きく、重要度の低いオブジェクトのデータはエンコード対象とされずに間引かれることになる。
ステップS84の処理が行われたか、またはステップS83においてDiffuseness閾値th3以下でないと判定されると、ステップS85において、抽出部121は、N個の全てのオブジェクトを処理したか否かを判定する。
ステップS85においてまだ全てのオブジェクトを処理していないと判定された場合、処理はステップS81に戻り、上述した処理が繰り返し行われる。すなわち、次のオブジェクトが処理対象のオブジェクトとされて、エンコード対象とするかが決定される。
これに対して、ステップS85において全てのオブジェクトを処理したと判定された場合、ステップS86においてエンコード部112はエンコード処理を行う。
すなわち、エンコード部112は、選択部123から供給されたオブジェクトオーディオデータと、選択部124から供給されたオブジェクトメタデータとをエンコードし、その結果得られたデータを多重化してビットストリームを生成する。エンコード部112は、このようにして得られたビットストリームを送出部113に供給する。
ステップS87において、送出部113は、エンコード部112から供給されたビットストリームを送出し、エンコード処理は終了する。
以上のようにしてエンコーダ101は、オブジェクトごとにDiffuseness情報とDiffuseness閾値th3とを比較し、その比較結果に応じてオブジェクトのオブジェクトオーディオデータとオブジェクトメタデータとをエンコードする。すなわち、直接音らしいオブジェクトはコンテンツ再生に使用され、反射音らしいオブジェクトはコンテンツ再生に使用されずに破棄されるように制御される。
このようにDiffuseness情報とDiffuseness閾値th3とを比較し、重要度が低いと考えられる反射音らしいオブジェクトのデータを間引くことで、ビットストリームの伝送量を低減させることができる。特にエンコーダ101によれば、データ伝送帯域幅が十分に確保されていない場合などに、オブジェクトの音声の反射性(拡散性)、つまり反射音らしさの度合いに応じてデータを伝送するオブジェクトの取捨選択を行うことで、データ伝送量を抑制することができる。また、オブジェクトの取捨選択をすることによって、より自由度の高いオーディオ再生を実現することができる。
〈第4の実施の形態〉
〈音声処理装置の構成例〉
なお、第3の実施の形態ではエンコーダ101側においてオブジェクトの取捨選択を行い、データ伝送量を低減させる例について説明したが、コンテンツの再生側においてオブジェクトの取捨選択を行い、再生時の処理の演算量を抑制するようにしてもよい。
〈音声処理装置の構成例〉
なお、第3の実施の形態ではエンコーダ101側においてオブジェクトの取捨選択を行い、データ伝送量を低減させる例について説明したが、コンテンツの再生側においてオブジェクトの取捨選択を行い、再生時の処理の演算量を抑制するようにしてもよい。
上述したように、一般的に反射成分のオブジェクトは、直接成分のオブジェクトに比べて重要度は低いと考えられる。そこで、再生側の装置の処理能力が十分高くない場合に、オブジェクトメタデータに含まれるDiffuseness情報に基づいて、レンダリング再生するオブジェクトを間引くことで、再生時、つまりレンダリング処理時の演算量を低減させることが可能となる。
そのような場合、本技術を適用した音声処理装置は、例えば図8に示すように構成される。なお、図8において図2における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
図8に示す音声処理装置151は、オブジェクト間引き部161およびレンダリング部25を有している。
音声処理装置151では、複数個、ここではN個のオブジェクトについて、それらのオブジェクトのオブジェクトオーディオデータとオブジェクトメタデータがオブジェクト間引き部161に供給される。すなわち、N個のオブジェクトオーディオデータと、N個のオブジェクトメタデータとがオブジェクト間引き部161に供給される。
オブジェクト間引き部161は、抽出部21、判定部22、選択部171、および選択部172を有している。
抽出部21は、外部からオブジェクトのオブジェクトメタデータを取得し、そのオブジェクトメタデータからDiffuseness情報を抽出して判定部22に供給するとともに、オブジェクトメタデータを選択部172に供給する。
判定部22は、抽出部21から供給されたDiffuseness情報と、外部から供給されたDiffuseness閾値th4とを比較することで、オブジェクトのデータをレンダリング対象とするか否かを判定し、その判定結果に応じて選択部171および選択部172を制御する。
具体的には、Diffuseness情報がDiffuseness閾値th4以下である場合、オブジェクトのデータがレンダリング対象とされる。これは、Diffuseness情報が小さく反射成分が少ない音声のオブジェクトは重要度が高いオブジェクトである可能性が高いからである。
これに対してDiffuseness情報がDiffuseness閾値th4より大きく、反射成分の多い音声のオブジェクトは、重要度が低いオブジェクトである可能性が高いため、そのオブジェクトのデータはレンダリング対象とされず、破棄される。つまり、反射音らしいオブジェクトはコンテンツの再生には使用されない。
ここで、Diffuseness閾値th4は、例えば再生装置である音声処理装置151の処理負荷の状況や、ユーザ等により決定されたものとされる。
より具体的には、例えば音声処理装置151の処理負荷が高くなっており、直接音のオブジェクトのみを再生することで処理負荷を抑制したい場合には、Diffuseness閾値th4は0.0とされる。この場合、直接音のオブジェクトのデータのみがレンダリング処理されることになり、レンダリング処理時の演算量、つまり処理負荷を低減させることができる。
選択部171は、例えばスイッチからなり、判定部22の制御に従ってオンまたはオフし、外部から供給されたオブジェクトオーディオデータを、自身のオンまたはオフの状態に応じてレンダリング部25に供給する。すなわち選択部171は、供給されたオブジェクトオーディオデータのなかから、レンダリング対象とするものだけを選択して出力する。
選択部172は、例えばスイッチからなり、判定部22の制御に従ってオンまたはオフし、抽出部21から供給されたオブジェクトメタデータを、自身のオンまたはオフの状態に応じてレンダリング部25に供給する。すなわち選択部172は、供給されたオブジェクトメタデータのなかから、レンダリング対象とするものだけを選択して出力する。
ここでは、選択部171および選択部172は、自身がオンとなっている状態であるときにのみ、入力されたデータを後段へと出力するようになされている。
〈再生処理の説明〉
次に、図8に示した音声処理装置151の動作について説明する。すなわち、以下、図9のフローチャートを参照して、音声処理装置151による再生処理について説明する。
次に、図8に示した音声処理装置151の動作について説明する。すなわち、以下、図9のフローチャートを参照して、音声処理装置151による再生処理について説明する。
ステップS111において、抽出部21は、N個のオブジェクトのなかから処理対象とするオブジェクトを1つ選択する。
ステップS112において、抽出部21は、外部から処理対象のオブジェクトのオブジェクトメタデータを取得し、オブジェクトメタデータからDiffuseness情報を抽出して判定部22に供給するとともに、そのオブジェクトメタデータを選択部172に供給する。
ステップS113において、判定部22は、抽出部21から供給されたDiffuseness情報が、外部から供給されたDiffuseness閾値th4以下であるか否かを判定する。
ステップS113においてDiffuseness閾値th4以下であると判定された場合、ステップS114において、判定部22は処理対象のオブジェクトのデータをレンダリング対象とする。この場合、判定部22は、選択部171および選択部172を制御して、それらの選択部171および選択部172をオンさせる。
これにより、選択部171は外部から供給された処理対象のオブジェクトのオブジェクトオーディオデータをレンダリング部25に供給し、選択部172は抽出部21から供給された処理対象のオブジェクトのオブジェクトメタデータをレンダリング部25に供給する。
このようにしてオブジェクトオーディオデータとオブジェクトメタデータが出力されると、その後、処理はステップS115へと進む。
これに対して、ステップS113においてDiffuseness閾値th4以下でないと判定された場合、ステップS114の処理はスキップされて処理はステップS115へと進む。
この場合、判定部22は、処理対象のオブジェクトのデータはレンダリング対象ではないとして、選択部171および選択部172を制御し、それらの選択部171および選択部172をオフさせる。
この場合、処理対象のオブジェクトのオブジェクトオーディオデータは、選択部171からレンダリング部25へは供給されず、また処理対象のオブジェクトのオブジェクトメタデータも選択部172からレンダリング部25へは供給されない。
このような処理により、Diffuseness情報がDiffuseness閾値th4よりも大きく、重要度の低いオブジェクトのデータはレンダリング対象とされずに間引かれることになる。
ステップS114の処理が行われたか、またはステップS113においてDiffuseness閾値th4以下でないと判定されると、ステップS115において、抽出部21は、N個の全てのオブジェクトを処理したか否かを判定する。
ステップS115においてまだ全てのオブジェクトを処理していないと判定された場合、処理はステップS111に戻り、上述した処理が繰り返し行われる。すなわち、次のオブジェクトが処理対象のオブジェクトとされて、レンダリング対象とするかが決定される。
これに対して、ステップS115において全てのオブジェクトを処理したと判定された場合、ステップS116においてレンダリング部25はレンダリング処理を行う。
すなわち、レンダリング部25は、図3のステップS16と同様の処理を行うことで、レンダリング対象とされたオブジェクトごとに、選択部171から供給されたオブジェクトオーディオデータと、選択部172から供給されたオブジェクトメタデータとに基づいて、各スピーカのオーディオデータを生成する。そして、レンダリング部25は、オブジェクトごとに求めた各スピーカのオーディオデータについて、同じスピーカのオーディオデータを加算して、そのスピーカの最終的なオーディオデータとする。
ステップS117において、レンダリング部25は、レンダリング処理により得られた各スピーカのオーディオデータを、スピーカアレイ12の対応するスピーカに供給して音声を再生させ、再生処理は終了する。これにより、レンダリング対象とされたオブジェクトの音声が、それらのオブジェクトの位置に定位するようにコンテンツの音声が再生されることになる。
以上のようにして音声処理装置151は、オブジェクトごとにDiffuseness情報とDiffuseness閾値th4とを比較し、その比較結果に応じてオブジェクトのオブジェクトオーディオデータのレンダリング処理を行う。すなわち、直接音らしいオブジェクトはコンテンツ再生に使用され、反射音らしいオブジェクトはコンテンツ再生に使用されずに破棄されるように制御される。
このようにDiffuseness情報とDiffuseness閾値th4とを比較し、重要度が低いと考えられる反射音らしいオブジェクトをレンダリング対象から除外することで、つまり間引きを行うことで、レンダリング処理時の演算量(処理量)を低減させることができる。
特に音声処理装置151の処理能力が十分高くない場合などに、オブジェクトの音声の反射性、つまり反射音らしさの度合いに応じて、レンダリング再生するオブジェクトの取捨選択を行うことで、演算量を低減させることができる。換言すれば、オブジェクトの取捨選択をすることによって、より自由度の高いオーディオ再生を実現することができる。
ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
図10は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
コンピュータにおいて、CPU(Central Processing Unit)501,ROM(Read Only Memory)502,RAM(Random Access Memory)503は、バス504により相互に接続されている。
バス504には、さらに、入出力インターフェース505が接続されている。入出力インターフェース505には、入力部506、出力部507、記録部508、通信部509、及びドライブ510が接続されている。
入力部506は、キーボード、マウス、マイクロホン、撮像素子などよりなる。出力部507は、ディスプレイ、スピーカなどよりなる。記録部508は、ハードディスクや不揮発性のメモリなどよりなる。通信部509は、ネットワークインターフェースなどよりなる。ドライブ510は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体511を駆動する。
以上のように構成されるコンピュータでは、CPU501が、例えば、記録部508に記録されているプログラムを、入出力インターフェース505及びバス504を介して、RAM503にロードして実行することにより、上述した一連の処理が行われる。
コンピュータ(CPU501)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体511に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
コンピュータでは、プログラムは、リムーバブル記録媒体511をドライブ510に装着することにより、入出力インターフェース505を介して、記録部508にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部509で受信し、記録部508にインストールすることができる。その他、プログラムは、ROM502や記録部508に、あらかじめインストールしておくことができる。
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
さらに、本技術は、以下の構成とすることも可能である。
(1)
オーディオオブジェクトの位置を示す位置情報と、前記オーディオオブジェクトのDiffuseness情報とが含まれるメタデータを取得する取得部と、
前記Diffuseness情報が所定の閾値以下である前記オーディオオブジェクトのオーディオデータを再生に使用し、前記Diffuseness情報が前記閾値よりも大きい前記オーディオオブジェクトについては、前記オーディオオブジェクトのオーディオデータを再生に使用しないか、または前記オーディオオブジェクトのオーディオデータに対して前記Diffuseness情報が前記閾値以下である場合とは異なる処理を行って再生に使用するように制御する制御部と
を備える音声処理装置。
(2)
前記Diffuseness情報が前記閾値よりも大きい前記オーディオオブジェクトのオーディオデータに対し、前記処理としてゲイン調整を行うゲイン制御部をさらに備える
(1)に記載の音声処理装置。
(3)
前記Diffuseness情報が前記閾値よりも大きい前記オーディオオブジェクトのオーディオデータに対し、前記処理として音像を広げる処理を行うレンダリング部をさらに備える
(1)に記載の音声処理装置。
(4)
前記Diffuseness情報の最大値は、前記オーディオオブジェクトの音声が反射音であることを示しており、前記Diffuseness情報の最小値は、前記オーディオオブジェクトの音声が直接音であることを示している
(1)乃至(3)の何れか一項に記載の音声処理装置。
(5)
オーディオオブジェクトの位置を示す位置情報と、前記オーディオオブジェクトのDiffuseness情報とが含まれるメタデータを取得し、
前記Diffuseness情報が所定の閾値以下である前記オーディオオブジェクトのオーディオデータを再生に使用し、前記Diffuseness情報が前記閾値よりも大きい前記オーディオオブジェクトについては、前記オーディオオブジェクトのオーディオデータを再生に使用しないか、または前記オーディオオブジェクトのオーディオデータに対して前記Diffuseness情報が前記閾値以下である場合とは異なる処理を行って再生に使用するように制御する
ステップを含む音声処理方法。
(6)
オーディオオブジェクトの位置を示す位置情報と、前記オーディオオブジェクトのDiffuseness情報とが含まれるメタデータを取得し、
前記Diffuseness情報が所定の閾値以下である前記オーディオオブジェクトのオーディオデータを再生に使用し、前記Diffuseness情報が前記閾値よりも大きい前記オーディオオブジェクトについては、前記オーディオオブジェクトのオーディオデータを再生に使用しないか、または前記オーディオオブジェクトのオーディオデータに対して前記Diffuseness情報が前記閾値以下である場合とは異なる処理を行って再生に使用するように制御する
ステップを含む処理をコンピュータに実行させるプログラム。
(7)
オーディオオブジェクトの位置を示す位置情報と、前記オーディオオブジェクトのDiffuseness情報とが含まれるメタデータを取得する取得部と、
前記Diffuseness情報が所定の閾値以下である前記オーディオオブジェクトのオーディオデータを符号化し、前記Diffuseness情報が前記閾値よりも大きい前記オーディオオブジェクトについては、前記オーディオオブジェクトのオーディオデータを符号化しない符号化部と
を備える符号化装置。
オーディオオブジェクトの位置を示す位置情報と、前記オーディオオブジェクトのDiffuseness情報とが含まれるメタデータを取得する取得部と、
前記Diffuseness情報が所定の閾値以下である前記オーディオオブジェクトのオーディオデータを再生に使用し、前記Diffuseness情報が前記閾値よりも大きい前記オーディオオブジェクトについては、前記オーディオオブジェクトのオーディオデータを再生に使用しないか、または前記オーディオオブジェクトのオーディオデータに対して前記Diffuseness情報が前記閾値以下である場合とは異なる処理を行って再生に使用するように制御する制御部と
を備える音声処理装置。
(2)
前記Diffuseness情報が前記閾値よりも大きい前記オーディオオブジェクトのオーディオデータに対し、前記処理としてゲイン調整を行うゲイン制御部をさらに備える
(1)に記載の音声処理装置。
(3)
前記Diffuseness情報が前記閾値よりも大きい前記オーディオオブジェクトのオーディオデータに対し、前記処理として音像を広げる処理を行うレンダリング部をさらに備える
(1)に記載の音声処理装置。
(4)
前記Diffuseness情報の最大値は、前記オーディオオブジェクトの音声が反射音であることを示しており、前記Diffuseness情報の最小値は、前記オーディオオブジェクトの音声が直接音であることを示している
(1)乃至(3)の何れか一項に記載の音声処理装置。
(5)
オーディオオブジェクトの位置を示す位置情報と、前記オーディオオブジェクトのDiffuseness情報とが含まれるメタデータを取得し、
前記Diffuseness情報が所定の閾値以下である前記オーディオオブジェクトのオーディオデータを再生に使用し、前記Diffuseness情報が前記閾値よりも大きい前記オーディオオブジェクトについては、前記オーディオオブジェクトのオーディオデータを再生に使用しないか、または前記オーディオオブジェクトのオーディオデータに対して前記Diffuseness情報が前記閾値以下である場合とは異なる処理を行って再生に使用するように制御する
ステップを含む音声処理方法。
(6)
オーディオオブジェクトの位置を示す位置情報と、前記オーディオオブジェクトのDiffuseness情報とが含まれるメタデータを取得し、
前記Diffuseness情報が所定の閾値以下である前記オーディオオブジェクトのオーディオデータを再生に使用し、前記Diffuseness情報が前記閾値よりも大きい前記オーディオオブジェクトについては、前記オーディオオブジェクトのオーディオデータを再生に使用しないか、または前記オーディオオブジェクトのオーディオデータに対して前記Diffuseness情報が前記閾値以下である場合とは異なる処理を行って再生に使用するように制御する
ステップを含む処理をコンピュータに実行させるプログラム。
(7)
オーディオオブジェクトの位置を示す位置情報と、前記オーディオオブジェクトのDiffuseness情報とが含まれるメタデータを取得する取得部と、
前記Diffuseness情報が所定の閾値以下である前記オーディオオブジェクトのオーディオデータを符号化し、前記Diffuseness情報が前記閾値よりも大きい前記オーディオオブジェクトについては、前記オーディオオブジェクトのオーディオデータを符号化しない符号化部と
を備える符号化装置。
11 音声処理装置, 21 抽出部, 22 判定部, 23 切替部, 24 ゲイン制御部, 25 レンダリング部, 71 ベクトル算出部, 72 ゲイン算出部, 73 ゲイン調整部, 101 エンコーダ, 111 送出データ間引き部, 112 エンコード部, 113 送出部, 161 オブジェクト間引き部
Claims (7)
- オーディオオブジェクトの位置を示す位置情報と、前記オーディオオブジェクトのDiffuseness情報とが含まれるメタデータを取得する取得部と、
前記Diffuseness情報が所定の閾値以下である前記オーディオオブジェクトのオーディオデータを再生に使用し、前記Diffuseness情報が前記閾値よりも大きい前記オーディオオブジェクトについては、前記オーディオオブジェクトのオーディオデータを再生に使用しないか、または前記オーディオオブジェクトのオーディオデータに対して前記Diffuseness情報が前記閾値以下である場合とは異なる処理を行って再生に使用するように制御する制御部と
を備える音声処理装置。 - 前記Diffuseness情報が前記閾値よりも大きい前記オーディオオブジェクトのオーディオデータに対し、前記処理としてゲイン調整を行うゲイン制御部をさらに備える
請求項1に記載の音声処理装置。 - 前記Diffuseness情報が前記閾値よりも大きい前記オーディオオブジェクトのオーディオデータに対し、前記処理として音像を広げる処理を行うレンダリング部をさらに備える
請求項1に記載の音声処理装置。 - 前記Diffuseness情報の最大値は、前記オーディオオブジェクトの音声が反射音であることを示しており、前記Diffuseness情報の最小値は、前記オーディオオブジェクトの音声が直接音であることを示している
請求項1に記載の音声処理装置。 - オーディオオブジェクトの位置を示す位置情報と、前記オーディオオブジェクトのDiffuseness情報とが含まれるメタデータを取得し、
前記Diffuseness情報が所定の閾値以下である前記オーディオオブジェクトのオーディオデータを再生に使用し、前記Diffuseness情報が前記閾値よりも大きい前記オーディオオブジェクトについては、前記オーディオオブジェクトのオーディオデータを再生に使用しないか、または前記オーディオオブジェクトのオーディオデータに対して前記Diffuseness情報が前記閾値以下である場合とは異なる処理を行って再生に使用するように制御する
ステップを含む音声処理方法。 - オーディオオブジェクトの位置を示す位置情報と、前記オーディオオブジェクトのDiffuseness情報とが含まれるメタデータを取得し、
前記Diffuseness情報が所定の閾値以下である前記オーディオオブジェクトのオーディオデータを再生に使用し、前記Diffuseness情報が前記閾値よりも大きい前記オーディオオブジェクトについては、前記オーディオオブジェクトのオーディオデータを再生に使用しないか、または前記オーディオオブジェクトのオーディオデータに対して前記Diffuseness情報が前記閾値以下である場合とは異なる処理を行って再生に使用するように制御する
ステップを含む処理をコンピュータに実行させるプログラム。 - オーディオオブジェクトの位置を示す位置情報と、前記オーディオオブジェクトのDiffuseness情報とが含まれるメタデータを取得する取得部と、
前記Diffuseness情報が所定の閾値以下である前記オーディオオブジェクトのオーディオデータを符号化し、前記Diffuseness情報が前記閾値よりも大きい前記オーディオオブジェクトについては、前記オーディオオブジェクトのオーディオデータを符号化しない符号化部と
を備える符号化装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015-175388 | 2015-09-07 | ||
JP2015175388A JP2017055149A (ja) | 2015-09-07 | 2015-09-07 | 音声処理装置および方法、符号化装置、並びにプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2017043309A1 true WO2017043309A1 (ja) | 2017-03-16 |
Family
ID=58239363
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2016/074581 WO2017043309A1 (ja) | 2015-09-07 | 2016-08-24 | 音声処理装置および方法、符号化装置、並びにプログラム |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP2017055149A (ja) |
WO (1) | WO2017043309A1 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019078034A1 (ja) * | 2017-10-20 | 2019-04-25 | ソニー株式会社 | 信号処理装置および方法、並びにプログラム |
WO2019078035A1 (ja) * | 2017-10-20 | 2019-04-25 | ソニー株式会社 | 信号処理装置および方法、並びにプログラム |
RU2763785C2 (ru) * | 2017-04-25 | 2022-01-11 | Сони Корпорейшн | Способ и устройство обработки сигнала |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022017880A (ja) * | 2020-07-14 | 2022-01-26 | ソニーグループ株式会社 | 信号処理装置および方法、並びにプログラム |
JP2024057795A (ja) * | 2022-10-13 | 2024-04-25 | ヤマハ株式会社 | 音処理方法、音処理装置、および音処理プログラム |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013541275A (ja) * | 2010-09-08 | 2013-11-07 | ディーティーエス・インコーポレイテッド | 拡散音の空間的オーディオの符号化及び再生 |
JP2014204321A (ja) * | 2013-04-05 | 2014-10-27 | 日本放送協会 | 音響信号再生装置、音響信号作成装置 |
JP2015509212A (ja) * | 2012-01-19 | 2015-03-26 | コーニンクレッカ フィリップス エヌ ヴェ | 空間オーディオ・レンダリング及び符号化 |
-
2015
- 2015-09-07 JP JP2015175388A patent/JP2017055149A/ja active Pending
-
2016
- 2016-08-24 WO PCT/JP2016/074581 patent/WO2017043309A1/ja active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013541275A (ja) * | 2010-09-08 | 2013-11-07 | ディーティーエス・インコーポレイテッド | 拡散音の空間的オーディオの符号化及び再生 |
JP2015509212A (ja) * | 2012-01-19 | 2015-03-26 | コーニンクレッカ フィリップス エヌ ヴェ | 空間オーディオ・レンダリング及び符号化 |
JP2014204321A (ja) * | 2013-04-05 | 2014-10-27 | 日本放送協会 | 音響信号再生装置、音響信号作成装置 |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2763785C2 (ru) * | 2017-04-25 | 2022-01-11 | Сони Корпорейшн | Способ и устройство обработки сигнала |
JPWO2019078035A1 (ja) * | 2017-10-20 | 2020-11-12 | ソニー株式会社 | 信号処理装置および方法、並びにプログラム |
CN111213202A (zh) * | 2017-10-20 | 2020-05-29 | 索尼公司 | 信号处理装置和方法以及程序 |
WO2019078034A1 (ja) * | 2017-10-20 | 2019-04-25 | ソニー株式会社 | 信号処理装置および方法、並びにプログラム |
JPWO2019078034A1 (ja) * | 2017-10-20 | 2020-11-12 | ソニー株式会社 | 信号処理装置および方法、並びにプログラム |
US11109179B2 (en) | 2017-10-20 | 2021-08-31 | Sony Corporation | Signal processing device, method, and program |
WO2019078035A1 (ja) * | 2017-10-20 | 2019-04-25 | ソニー株式会社 | 信号処理装置および方法、並びにプログラム |
US11257478B2 (en) | 2017-10-20 | 2022-02-22 | Sony Corporation | Signal processing device, signal processing method, and program |
JP7272269B2 (ja) | 2017-10-20 | 2023-05-12 | ソニーグループ株式会社 | 信号処理装置および方法、並びにプログラム |
JP7294135B2 (ja) | 2017-10-20 | 2023-06-20 | ソニーグループ株式会社 | 信号処理装置および方法、並びにプログラム |
US11749252B2 (en) | 2017-10-20 | 2023-09-05 | Sony Group Corporation | Signal processing device, signal processing method, and program |
US11805383B2 (en) | 2017-10-20 | 2023-10-31 | Sony Group Corporation | Signal processing device, method, and program |
US12100381B2 (en) | 2017-10-20 | 2024-09-24 | Sony Group Corporation | Signal processing device, signal processing method, and program |
Also Published As
Publication number | Publication date |
---|---|
JP2017055149A (ja) | 2017-03-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108989953B (zh) | 空间上回避通过波束形成扬声器阵列产生的音频 | |
ES2907377T3 (es) | Aparato, procedimiento y programa informático para la codificación, la decodificación, el procesamiento de escenas y otros procedimientos relacionados con la codificación de audio espacial basada en DirAC | |
JP6012884B2 (ja) | 知覚的基準に基づいてオブジェクト・ベースのオーディオ・コンテンツをレンダリングするためのオブジェクト・クラスタリング | |
WO2017043309A1 (ja) | 音声処理装置および方法、符号化装置、並びにプログラム | |
RU2689438C2 (ru) | Устройство кодирования и способ кодирования, устройство декодирования и способ декодирования и программа | |
US20190057713A1 (en) | Methods and apparatus for decoding based on speech enhancement metadata | |
US11805383B2 (en) | Signal processing device, method, and program | |
JP6056625B2 (ja) | 情報処理装置、音声処理方法、及び音声処理プログラム | |
JP7459913B2 (ja) | 信号処理装置および方法、並びにプログラム | |
US11743646B2 (en) | Signal processing apparatus and method, and program to reduce calculation amount based on mute information | |
TW202038214A (zh) | 使用低階、中階及高階分量產生器用於編碼、解碼、場景處理及基於空間音訊編碼與DirAC有關的其他程序的裝置、方法及電腦程式 | |
WO2010105695A1 (en) | Multi channel audio coding | |
US11483669B2 (en) | Spatial audio parameters | |
JP7552617B2 (ja) | 信号処理装置および方法、並びにプログラム | |
JP2023072027A (ja) | 復号装置および方法、並びにプログラム | |
TW202305785A (zh) | 三維音訊訊號編碼方法、裝置、編碼器和系統 | |
JP2023500631A (ja) | 方向メタデータを使用するマルチチャネルオーディオ符号化及び復号化 | |
WO2024214318A1 (ja) | 情報処理装置および方法、並びにプログラム | |
JP2024518846A (ja) | 3次元オーディオ信号符号化方法および装置、ならびにエンコーダ | |
CN116830560A (zh) | 根据渲染信息进行回声参考生成和回声参考指标估计 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 16844172 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 16844172 Country of ref document: EP Kind code of ref document: A1 |