WO2021261235A1 - 信号処理装置および方法、並びにプログラム - Google Patents

信号処理装置および方法、並びにプログラム Download PDF

Info

Publication number
WO2021261235A1
WO2021261235A1 PCT/JP2021/021663 JP2021021663W WO2021261235A1 WO 2021261235 A1 WO2021261235 A1 WO 2021261235A1 JP 2021021663 W JP2021021663 W JP 2021021663W WO 2021261235 A1 WO2021261235 A1 WO 2021261235A1
Authority
WO
WIPO (PCT)
Prior art keywords
signal
audio signal
band
band expansion
processing
Prior art date
Application number
PCT/JP2021/021663
Other languages
English (en)
French (fr)
Inventor
弘幸 本間
徹 知念
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Priority to US18/001,719 priority Critical patent/US20230345195A1/en
Priority to JP2022531695A priority patent/JPWO2021261235A1/ja
Priority to EP21830134.9A priority patent/EP4171065A4/en
Priority to CN202180043091.5A priority patent/CN115836535A/zh
Publication of WO2021261235A1 publication Critical patent/WO2021261235A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/07Synergistic effects of band splitting and sub-band processing

Definitions

  • the present technology relates to signal processing devices and methods, and programs, and in particular, to signal processing devices and methods, and programs that enable high-quality audio reproduction even with low-cost devices.
  • object audio technology has been used in movies, games, etc., and a coding method that can handle object audio has also been developed.
  • MPEG Motion Picture Experts Group
  • 3D audio standard is known (see, for example, Non-Patent Document 1).
  • a moving sound source or the like is treated as an independent audio object (hereinafter, also simply referred to as an object), and the audio object is treated as an independent audio object. It is possible to encode the position information of the object together with the signal data as metadata.
  • the decoding side decodes the bitstream, and obtains an object signal which is an audio signal of the object and metadata including object position information indicating the position of the object in space.
  • a rendering process is performed to render the object signal to each of a plurality of virtual speakers virtually arranged in the space.
  • a method called three-dimensional VBAP Vector Based Amplitude Panning
  • VBAP Vector Based Amplitude Panning
  • HRTF Head Related Transfer Function
  • Non-Patent Document 1 a technique such as SBR (Spectral Band Replication) can be used as a technique for efficiently coding a high-resolution sound source.
  • SBR Spectrum Band Replication
  • the high frequency component of the spectrum is not encoded, and the average amplitude information of the high frequency subband signal is encoded and transmitted by the number of high frequency subbands.
  • a final output signal including a low frequency component and a high frequency component is generated based on the low frequency subband signal and the high frequency average amplitude information. This makes it possible to realize higher quality audio reproduction.
  • band expansion processing is performed in combination with rendering processing or HRTF processing for the above-mentioned object audio, band expansion processing is performed on the object signal of each object, and then rendering processing or HRTF processing is performed.
  • the bandwidth expansion processing is performed independently for the number of objects, so the processing load, that is, the amount of calculation increases. Further, after the band expansion processing, the rendering processing and the HRTF processing are performed on the signal having a higher sampling frequency obtained by the band expansion, so that the processing load is further increased.
  • low-cost devices such as low-cost processors and battery devices, that is, devices with low computing power and devices with low battery capacity, cannot expand the bandwidth, resulting in high-quality audio playback. You will not be able to do it.
  • This technology was made in view of such a situation, and enables high-quality audio reproduction even with a low-cost device.
  • the signal processing device of one aspect of the present technology performs predetermined signal processing on the first audio signal, the first band expansion information for band expansion of the first audio signal, and the first audio signal.
  • Band expansion based on either the acquisition unit for acquiring the second band expansion information for band expansion of the second audio signal obtained by the application, the first band expansion information, or the second band expansion information.
  • Band expansion is performed based on the selection unit for selecting whether to perform the above, the selected first band expansion information or the second band expansion information, and the first audio signal or the second audio signal. It is provided with a band expansion unit for generating a third audio signal.
  • a signal processing method or program includes a first audio signal, first band expansion information for band expansion of the first audio signal, and a predetermined signal to the first audio signal.
  • the second band expansion information for band expansion of the second audio signal obtained by performing the processing is acquired, and the band expansion is performed based on either the first band expansion information or the second band expansion information.
  • a third band expansion is performed based on the selected first band expansion information or the second band expansion information and the first audio signal or the second audio signal. Includes steps to generate an audio signal for.
  • the first audio signal, the first band expansion information for band expansion of the first audio signal, and the first audio signal can be obtained by performing predetermined signal processing.
  • the second band expansion information for band expansion of the second audio signal is acquired, and which of the first band expansion information and the second band expansion information is used for band expansion is selected.
  • the band expansion is performed based on the selected first band expansion information or the second band expansion information and the first audio signal or the second audio signal, and the third audio signal is generated. Generated.
  • This technology obtains high-frequency information for band expansion processing for virtual speaker signals and output audio signals in advance, in addition to high-frequency information for band expansion processing that is directly obtained from the object signal before encoding. Multiplexed and transmitted in the bit stream.
  • bitstream obtained by encoding with the MPEG-H Part 3: 3D audio standard coding method is decoded, and it is generally performed when the output audio signal of the object audio is generated. Processing will be explained.
  • an object signal which is an audio signal for reproducing the sound of an object (audio object) constituting the content, and metadata including object position information indicating the position of the object in space can be obtained.
  • the rendering processing unit 12 performs rendering processing for rendering an object signal to virtual speakers virtually arranged in space based on the object position information included in the metadata, and outputs the object signal from each virtual speaker.
  • a virtual speaker signal is generated to reproduce the sound.
  • the virtualization processing unit 13 performs virtualization processing based on the virtual speaker signal of each virtual speaker, and outputs sound from a playback device such as a headphone worn by the user or a speaker arranged in a real space.
  • the output audio signal is generated.
  • the virtualization process is a process for generating an audio signal to realize audio reproduction as if the channel configuration is different from the channel configuration in the actual playback environment.
  • the process of generating a signal is the virtualize process.
  • the virtualization process may be realized by any method, but in the following, the explanation will be continued assuming that the HRTF process is performed as the virtualize process.
  • the sound is output from the actual headphones or speakers based on the output audio signal obtained by the virtualization process, it is possible to realize audio reproduction as if the sound is being reproduced from the virtual speaker.
  • the speaker actually arranged in the real space will be referred to as a real speaker in particular.
  • a predetermined method of rendering such as VBAP described above is performed.
  • VBAP is one of the rendering methods generally called panning, and among the virtual speakers existing on the surface of the sphere whose origin is the user position, for the three virtual speakers closest to the object also existing on the surface of the sphere. Rendering is performed by distributing the gain.
  • FIG. 2 it is assumed that there is a user U11 who is a listener in a three-dimensional space, and three virtual speakers SP1 to virtual speakers SP3 are arranged in front of the user U11.
  • the position of the head of the user U11 is the origin O
  • the virtual speaker SP1 or the virtual speaker SP3 is located on the surface of the sphere centered on the origin O.
  • the gain is distributed to the virtual speaker SP1 to the virtual speaker SP3 around the position VSP1 for the object.
  • the position VSP1 is represented by a three-dimensional vector P having the origin O as the start point and the position VSP1 as the end point.
  • the vector P is a vector as shown in the following equation (1). It can be represented by the linear sum of L 1 to the vector L 3.
  • the triangular region TR11 surrounded by three virtual speakers on the surface of the sphere shown in FIG. 2 is called a mesh.
  • the virtual speaker signal of each virtual speaker can be obtained by performing the calculation of the following equation (3).
  • G (m, n) is multiplied by the object signal S (n, t) of the nth object in order to obtain the virtual speaker signal SP (m, t) for the mth virtual speaker. It shows the gain to be done. That is, the gain G (m, n) indicates the gain distributed to the m-th virtual speaker for the n-th object obtained by the above-mentioned equation (2).
  • the calculation of this formula (3) is the process with the highest calculation cost. That is, the operation of the equation (3) is the process with the largest amount of calculation.
  • FIG. 3 is an example in which a virtual speaker is arranged on a two-dimensional horizontal plane for the sake of simplicity.
  • FIG. 3 five virtual speakers SP11-1 to virtual speakers SP11-5 are arranged in a circular shape in a space.
  • the virtual speaker SP11-1 and the virtual speaker SP11-5 are also simply referred to as the virtual speaker SP11.
  • the user U21 who is a listener is located at the position surrounded by the five virtual speakers SP11, that is, at the center position of the circle in which the virtual speakers SP11 are arranged. Therefore, in the HRTF processing, an output audio signal is generated to realize audio reproduction as if the user U21 is listening to the sound output from each virtual speaker SP11.
  • the position where the user U21 is located is set as the listening position, and the sound based on the virtual speaker signal obtained by rendering to each of the five virtual speakers SP11 is reproduced by the headphones.
  • the sound output (radiated) from the virtual speaker SP11-1 based on the virtual speaker signal passes through the path shown by the arrow Q11 and reaches the eardrum of the left ear of the user U21. Therefore, the characteristics of the sound output from the virtual speaker SP11-1 should change depending on the spatial transmission characteristics from the virtual speaker SP11-1 to the left ear of the user U21, the shape of the face and ears of the user U21, and the reflection absorption characteristics. Is.
  • the spatial transmission characteristics from the virtual speaker SP11-1 to the left ear of the user U21, the shape of the face and ears of the user U21, the reflection absorption characteristics, etc. are added to the virtual speaker signal of the virtual speaker SP11-1.
  • the transmission function H_L_SP11 it is possible to obtain an output audio signal that reproduces the sound from the virtual speaker SP11-1 that would be heard by the user U21's left ear.
  • the sound output from the virtual speaker SP11-1 based on the virtual speaker signal passes through the path indicated by the arrow Q12 and reaches the eardrum of the right ear of the user U21. Therefore, the spatial transmission characteristics from the virtual speaker SP11-1 to the right ear of the user U21, the shape of the face and ears of the user U21, the reflection absorption characteristics, etc. are added to the virtual speaker signal of the virtual speaker SP11-1.
  • the transmission function H_R_SP11 we can obtain an output audio signal that reproduces the sound from the virtual speaker SP11-1 that would be heard by the user U21's right ear.
  • the transmission for the left ear of each virtual speaker is transmitted to each virtual speaker signal.
  • the function may be convoluted and the resulting signals may be added together to form the left channel output audio signal.
  • the transfer function for the right ear of each virtual speaker is convoluted with each virtual speaker signal, and the resulting signals are added together to obtain the output audio signal of the right channel. Just do it.
  • indicates the frequency
  • the virtual speaker signal of the frequency ⁇ of is shown.
  • the virtual speaker signal SP (m, ⁇ ) can be obtained by time-frequency conversion of the above-mentioned virtual speaker signal SP (m, t).
  • H_L (m, ⁇ ) is multiplied by the virtual speaker signal SP (m, ⁇ ) for the m-th virtual speaker for obtaining the output audio signal L ( ⁇ ) of the left channel.
  • the transfer function for the left ear is shown.
  • H_R (m, ⁇ ) shows the transfer function for the right ear.
  • the output audio signal is generated by performing the decoding process, the rendering process, and the HRTF process as described above, and the object audio is reproduced using headphones or a small number of real speakers, a large amount of calculation is required. In addition, this amount of calculation increases as the number of objects increases.
  • the high frequency component of the spectrum of the audio signal is not encoded, and the average of the high frequency subband signals of the high frequency band, which is the high frequency band.
  • the amplitude information is encoded by the number of high frequency subbands and transmitted to the decoding side.
  • the low-frequency subband signal which is an audio signal obtained by the decoding process (decoding)
  • the normalized signal is copied to the high-frequency subband ( Will be duplicated).
  • the signal obtained as a result is multiplied by the average amplitude information of each high-frequency subband to obtain a high-frequency subband signal, and the low-frequency subband signal and the high-frequency subband signal are subband-synthesized, and finally.
  • Output audio signal is
  • band expansion processing for example, audio reproduction of a high-resolution sound source having a sampling frequency of 96 kHz or higher can be performed.
  • the 96 kHz obtained by decoding is performed regardless of whether band expansion processing such as SBR is performed. Rendering and HRTF processing will be performed on the object signal. Therefore, when the number of objects and the number of virtual speakers are large, the calculation cost of these processes becomes enormous, and a high-performance processor and high power consumption are required.
  • FIG. 4 an example of processing performed when an output audio signal of 96 kHz is obtained by band expansion in object audio will be described.
  • the same reference numerals are given to the portions corresponding to those in FIG. 1, and the description thereof will be omitted.
  • the decoding processing unit 11 When the input bit stream is supplied, the decoding processing unit 11 performs demultiplexing and decoding processing, and the object signal obtained as a result and the object position information and high frequency information of the object are output.
  • the high frequency information is the average amplitude information of the high frequency subband signal obtained from the object signal before coding.
  • the high frequency information indicates the magnitude of each subband component on the high frequency side of the uncoded object signal having a higher sampling frequency corresponding to the object signal obtained by the decoding process, for band expansion.
  • Bandwidth expansion information Since SBR is used as an example here, the average amplitude information of the high-frequency subband signal is used as the band expansion information, but the band expansion information for the band expansion processing is before coding. It may be any information such as a representative value of the amplitude of each subband on the high frequency side of the object signal and information indicating the shape of the frequency envelope.
  • the object signal obtained by the decoding process has a sampling frequency of 48 kHz, for example, and in the following, such an object signal is also referred to as a low FS object signal.
  • the band expansion unit 41 After the decoding process, the band expansion unit 41 performs the band expansion process based on the high frequency information and the low FS object signal, and obtains an object signal having a higher sampling frequency.
  • an object signal having a sampling frequency of 96 kHz can be obtained by band expansion processing, and in the following, such an object signal will also be referred to as a high FS object signal.
  • the rendering processing unit 12 performs rendering processing based on the object position information obtained by the decoding processing and the high FS object signal obtained by the bandwidth expansion processing.
  • the rendering process obtains a virtual speaker signal having a sampling frequency of 96 kHz, and in the following, such a virtual speaker signal is also referred to as a high FS virtual speaker signal.
  • the virtualization processing unit 13 performs virtualization processing such as HRTF processing based on the high FS virtual speaker signal, and an output audio signal having a sampling frequency of 96 kHz is obtained.
  • FIG. 5 shows the frequency amplitude characteristic of a predetermined object signal.
  • the vertical axis indicates the amplitude (power), and the horizontal axis indicates the frequency.
  • the polygonal line L11 shows the frequency amplitude characteristic of the low FS object signal supplied to the band expansion unit 41.
  • This low FS object signal has a sampling frequency of 48 kHz, and the low FS object signal does not contain signal components in the frequency band of 24 kHz or higher.
  • the frequency band up to 24 kHz is divided into a plurality of low frequency subbands including the low frequency subband sb-8 to the low frequency subband sb-1, and the signal component of each of these low frequency subbands is divided. Is a low frequency subband signal.
  • the frequency band from 24 kHz to 48 kHz is divided into a high frequency subband sb to a high frequency subband sb + 13, and the signal component of each of these high frequency subbands is a high frequency subband signal.
  • the straight line L12 shows the average amplitude information supplied as the high frequency information of the high frequency subband sb
  • the straight line L13 shows the average supplied as the high frequency information of the high frequency subband sb + 1. It shows the amplitude information.
  • the low frequency subband signal is normalized by the average amplitude value of the low frequency subband signal, and the signal obtained by the normalization is copied (mapped) to the high frequency side.
  • the low-frequency subband as the copy source and the high-frequency subband as the copy destination of the low-frequency subband are predetermined by the extended frequency band and the like.
  • the low frequency subband signal of the low frequency subband sb-8 is normalized, and the signal obtained by the normalization is copied to the high frequency subband sb.
  • the signal after normalization of the low frequency subband signal of the low frequency subband sb-8 is modulated and converted into the signal of the frequency component of the high frequency subband sb.
  • the low frequency subband signal of the low frequency subband sb-7 is copied to the high frequency subband sb + 1 after normalization.
  • the high of each high-frequency subband is relative to the copied signal of each high-frequency subband.
  • the average amplitude information indicated by the region information is multiplied to generate a high frequency subband signal.
  • the average indicated by the straight line L12 is obtained by normalizing the low-frequency subband signal of the low-frequency subband sb-8 and copying it to the high-frequency subband sb.
  • the amplitude information is multiplied to obtain a high-frequency subband signal of the high-frequency subband sb.
  • each low-frequency subband signal and each high-frequency subband signal are input to a band synthesis filter for 96 kHz sampling and filtered (synthesized). , The resulting high FS object signal is output. That is, a high FS object signal with the sampling frequency upsampled to 96 kHz is obtained.
  • the band expansion process for generating the high FS object signal as described above is independently performed for each low FS object signal included in the input bit stream, that is, for each object. It will be done.
  • the rendering processing unit 12 must perform rendering processing of a high FS object signal of 96 kHz for each of the 32 objects.
  • the virtualization processing unit 13 in the subsequent stage must also perform HRTF processing (virtualization processing) of the 96 kHz high FS virtual speaker signal for the number of virtual speakers.
  • the processing load on the entire device becomes enormous. This is the same even when the sampling frequency of the audio signal obtained by the decoding process is 96 kHz without performing the band expansion process.
  • high-frequency information such as high-resolution, that is, a virtual speaker signal with a high sampling frequency is also used as an input bitstream in advance. It was made to be multiplexed and transmitted.
  • decoding processing, rendering processing, and HRTF processing with a high processing load are performed at a low sampling frequency, and the band expansion processing based on the transmitted high frequency information is performed for the final signal after the HRTF processing. It can be performed.
  • the overall processing load can be reduced, and high-quality audio reproduction can be realized even with a low-cost processor or battery.
  • FIG. 6 is a diagram showing a configuration example of an embodiment of a signal processing device to which the present technology is applied.
  • the same reference numerals are given to the portions corresponding to those in FIG. 4, and the description thereof will be omitted as appropriate.
  • the signal processing device 71 shown in FIG. 6 is composed of, for example, a smartphone or a personal computer, and has a decoding processing unit 11, a rendering processing unit 12, a virtualization processing unit 13, and a band expansion unit 41.
  • each process is performed in the order of decoding process, bandwidth expansion process, rendering process, and virtualization process.
  • each processing is performed in the order of decoding processing, rendering processing, virtualization processing, and band expansion processing. That is, the band expansion process is performed last.
  • the decoding processing unit 11 performs demultiplexing and decoding processing of the input bit stream.
  • the decoding processing unit 11 functions as an acquisition unit for acquiring the coded object signal of the object audio, the object position information, the high frequency information, and the like from a server or the like (not shown).
  • the decoding processing unit 11 supplies the high frequency information obtained by the demultiplexing and decoding processing (decoding processing) to the band expansion unit 41, and supplies the object position information and the object signal to the rendering processing unit 12.
  • the input bit stream contains high-frequency information corresponding to the output of the virtualize processing unit 13, and the decoding processing unit 11 supplies the high-frequency information to the band expansion unit 41.
  • the rendering processing unit 12 performs rendering processing such as VBAP based on the object position information and the object signal supplied from the decoding processing unit 11, and the virtual speaker signal obtained as a result is supplied to the virtualization processing unit 13. Will be done.
  • the virtualization processing unit 13 performs HRTF processing as virtualization processing. That is, in the virtualization processing unit 13, the convolution processing based on the virtual speaker signal supplied from the rendering processing unit 12 and the HRTF coefficient corresponding to the transfer function given in advance, and the addition of the resulting signals are added. The process is done as an HRTF process.
  • the virtualization processing unit 13 supplies the audio signal obtained by the HRTF processing to the band expansion unit 41.
  • the object signal supplied from the decoding processing unit 11 to the rendering processing unit 12 is a low FS object signal having a sampling frequency of 48 kHz.
  • the virtual speaker signal supplied from the rendering processing unit 12 to the virtualizing processing unit 13 is also a signal having a sampling frequency of 48 kHz, so that the audio supplied from the virtualizing processing unit 13 to the band expansion unit 41.
  • the sampling frequency of the signal is also 48kHz.
  • the audio signal supplied from the virtualization processing unit 13 to the band expansion unit 41 will also be referred to as a low FS audio signal.
  • a low FS audio signal is a drive signal that drives a playback device such as headphones or a real speaker to output sound, which is obtained by subjecting an object signal to signal processing such as rendering processing and virtualization processing. Is.
  • the band expansion unit 41 generates an output audio signal by performing band expansion processing on the low FS audio signal supplied from the virtualization processing unit 13 based on the high frequency information supplied from the decoding processing unit 11. , Output to the latter stage.
  • the output audio signal obtained by the band expansion unit 41 is, for example, a signal having a sampling frequency of 96 kHz.
  • the band expansion unit 41 of the signal processing device 71 needs high frequency information corresponding to the output of the virtualization processing unit 13, and the input bit stream includes such high frequency information. ..
  • FIG. 7 shows an example of syntax of the input bit stream supplied to the decoding processing unit 11.
  • number_objects indicates the total number of objects
  • object_compressed_data indicates an encoded (compressed) object signal
  • object_bwe_data indicates high frequency information for band expansion of each object.
  • object_bwe_data is high-frequency information consisting of average amplitude information of each high-frequency subband signal obtained from the object signal before encoding.
  • position_azimuth indicates the horizontal angle in the spherical coordinate system of the object
  • position_elevation indicates the vertical angle in the spherical coordinate system of the object
  • position_radius indicates the distance from the origin of the spherical coordinate system to the object ( Radius) is shown.
  • the information consisting of these horizontal angles, vertical angles, and distances is the object position information indicating the position of the object.
  • the input bitstream contains the encoded object signal, high frequency information, and object position information for the number of objects indicated by "num_objects".
  • number_vspk indicates the number of virtual speakers
  • vspk_bwe_data indicates high frequency information used when band expansion processing is performed on the virtual speaker signal.
  • This high frequency information is obtained by performing rendering processing on the object signal before encoding, for example, in each high frequency of the virtual speaker signal having a sampling frequency higher than the output of the rendering processing unit 12 of the signal processing device 71. This is the average amplitude information of the subband signal.
  • number_output indicates the number of output channels, that is, the number of channels of the output audio signal in the multi-channel configuration that is finally output.
  • Output_bwe_data indicates high frequency information for obtaining an output audio signal, that is, high frequency information used when band expansion processing is performed on the output of the virtualization processing unit 13.
  • This high-frequency information is an audio signal having a sampling frequency higher than that of the output of the virtualization processing unit 13 of the signal processing device 71, which is obtained by performing rendering processing and virtualization processing on the object signal before encoding, for example. It is the average amplitude information of each high region subband signal of.
  • the band expansion processing can be performed at the timing according to the computational resources of the signal processing device 71 and the like.
  • the high-frequency information indicated by "object_bwe_data" is used for the low FS object signal of each object obtained by the decoding process as shown in FIG. It is possible to perform band expansion processing.
  • band expansion processing is performed for each object, and then rendering processing and virtualization processing are performed at a high sampling frequency.
  • the object signal before encoding that is, the signal close to the original sound
  • the quality is higher than that in the case of performing the band expansion processing after the rendering processing or the virtualization processing.
  • Output audio signal can be obtained.
  • the decoding process, the rendering process, and the virtualize process are performed at a low sampling frequency as in the signal processing device 71, and then the high frequency information indicated by "output_bwe_data" is output. It can be used to perform band expansion processing for low FS audio signals. By doing so, the processing amount (processing load) can be significantly reduced as a whole.
  • the decoding process and the rendering process are performed at a low sampling frequency, and then the band expansion process for the virtual speaker signal is performed using the high frequency information indicated by "vspk_bwe_data". You may do it.
  • step S11 the decoding processing unit 11 performs demultiplexing and decoding processing on the supplied input bit stream, supplies the high frequency information obtained as a result to the band expansion unit 41, and also supplies the object position information and the object.
  • the signal is supplied to the rendering processing unit 12.
  • the high frequency information indicated by "output_bwe_data" shown in FIG. 7 is extracted from the input bit stream and supplied to the band expansion unit 41.
  • step S12 the rendering processing unit 12 performs rendering processing based on the object position information and the object signal supplied from the decoding processing unit 11, and supplies the virtual speaker signal obtained as a result to the virtualization processing unit 13.
  • VBAP or the like is performed as a rendering process.
  • step S13 the virtualization processing unit 13 performs the virtualization processing.
  • the HRTF process is performed as a virtualize process.
  • the virtualization processing unit 13 convolves the virtual speaker signal of each virtual speaker supplied from the rendering processing unit 12 with the HRTF coefficient of each virtual speaker held in advance, and the signal obtained as a result. Is performed as HRTF processing.
  • the virtualization processing unit 13 supplies the low FS audio signal obtained by the HRTF processing to the band expansion unit 41.
  • step S14 the band expansion unit 41 performs band expansion processing on the low FS audio signal supplied from the virtualization processing unit 13 based on the high frequency information supplied from the decoding processing unit 11, and is obtained as a result. Output the output audio signal is output to the subsequent stage. When the output audio signal is generated in this way, the signal generation process ends.
  • the signal processing device 71 performs band expansion processing using the high frequency information extracted (read) from the input bit stream, and generates an output audio signal.
  • the processing load in the signal processing device 71 that is, the amount of calculation can be reduced by performing the band expansion processing on the low FS audio signal obtained by performing the rendering processing and the HRTF processing. .. Therefore, even if the signal processing device 71 is a low-cost device, high-quality audio reproduction can be performed.
  • the configuration of the signal processing device 71 is as shown in FIG.
  • the parts corresponding to the case in FIG. 6 are designated by the same reference numerals, and the description thereof will be omitted as appropriate.
  • the signal processing device 71 shown in FIG. 9 has a decoding processing unit 11, a rendering processing unit 12, and a band expansion unit 41.
  • the configuration of the signal processing device 71 shown in FIG. 9 is different from the configuration of the signal processing device 71 of FIG. 6 in that the virtualization processing unit 13 is not provided, and is the same configuration as the signal processing device 71 of FIG. 6 in other respects. It has become.
  • step S14 is performed without the process of step S13.
  • the output audio signal is generated.
  • step S11 the decoding processing unit 11 extracts the high frequency information indicated by, for example, “vspk_bwe_data” shown in FIG. 7 from the input bit stream and supplies it to the band expansion unit 41. Further, when the rendering process is performed in step S12, the rendering process unit 12 supplies the obtained speaker signal to the band expansion unit 41.
  • This speaker signal corresponds to the virtual speaker signal obtained by the rendering processing unit 12 of FIG. 6, and is, for example, a low FS speaker signal having a sampling frequency of 48 kHz.
  • the band expansion unit 41 performs band expansion processing on the speaker signal supplied from the rendering processing unit 12 based on the high frequency information supplied from the decoding processing unit 11, and the output audio signal obtained as a result. Is output to the latter stage.
  • the processing load (calculation amount) of the entire signal processing device 71 can be reduced.
  • the encoder 201 shown in FIG. 10 has an object position information coding unit 211, a down supplement 212, an object signal coding unit 213, an object high frequency information calculation unit 214, a rendering processing unit 215, a speaker high frequency information calculation unit 216, and a virtualization process. It has a unit 217, a reproduction device high frequency information calculation unit 218, and a multiplexing unit 219.
  • the object signal of the object to be encoded and the object position information indicating the position of the object are input (supplied) to the encoder 201.
  • the object signal input to the encoder 201 is, for example, a signal having a sampling frequency of 96 kHz.
  • the object position information coding unit 211 encodes the input object position information and supplies it to the multiplexing unit 219.
  • the coded object position information for example, the coded object position information (object position data) including the horizontal angle “position_azimuth”, the vertical angle “position_elevation”, and the radius “position_radius” shown in FIG. 7 is obtained. can get.
  • the downsappler 212 performs downsampling processing, that is, band limitation, on the input object signal having a sampling frequency of 96 kHz, and supplies the object signal having a sampling frequency of 48 kHz obtained as a result to the object signal coding unit 213. ..
  • the object signal coding unit 213 encodes the 48 kHz object signal supplied from the downsupplier 212 and supplies it to the multiplexing unit 219. As a result, for example, the "object_compressed_data" shown in FIG. 7 is obtained as an encoded object signal.
  • the coding method in the object signal coding unit 213 may be an MPEG-H Part 3: 3D audio standard coding method, or may be another coding method. That is, it suffices as long as the coding method in the object signal coding unit 213 and the decoding method in the decoding processing unit 11 correspond to each other (of the same standard).
  • the object high-frequency information calculation unit 214 calculates high-frequency information (bandwidth expansion information) based on the input 96 kHz object signal, compresses and encodes the obtained high-frequency information, and supplies the obtained high-frequency information to the multiplexing unit 219. ..
  • the "object_bwe_data" shown in FIG. 7 can be obtained as encoded high-frequency information.
  • the high frequency information generated by the object high frequency information calculation unit 214 is, for example, the average amplitude information (average amplitude value) of each high frequency subband shown in FIG.
  • the object high frequency information calculation unit 214 performs filtering based on the band pass filter bank on the input 96 kHz object signal, and obtains the high frequency subband signal of each high frequency subband. Then, the object high-frequency information calculation unit 214 generates high-frequency information by calculating the average amplitude value of the time frame of each of those high-frequency subband signals.
  • the rendering processing unit 215 performs rendering processing such as VBAP based on the input object position information and the object signal of 96 kHz, and the virtual speaker signal obtained as a result is used as the speaker high frequency information calculation unit 216 and the virtualize processing unit 217. Supply to.
  • the rendering process in the rendering process section 215 is not limited to VBAP but any other rendering process as long as it is the same process as in the rendering process section 12 of the signal processing device 71 on the decoding side (reproduction side). There may be.
  • the speaker high-frequency information calculation unit 216 calculates high-frequency information based on the virtual speaker signal of each channel supplied from the rendering processing unit 215, that is, each virtual speaker, and compresses and encodes the obtained high-frequency information. It is supplied to the multiplexing unit 219.
  • the speaker high frequency information calculation unit 216 high frequency information is generated from the virtual speaker signal by the same method as in the case of the object high frequency information calculation unit 214.
  • "vspk_bwe_data" shown in FIG. 7 can be obtained as high-frequency information for the encoded virtual speaker signal.
  • the number of speakers and the speaker arrangement on the reproduction side, that is, the signal processing device 71 side are the same as the number of speakers and the speaker arrangement for the virtual speaker signal obtained by the rendering processing unit 215. In this case, it is used for band expansion processing in the signal processing device 71.
  • the high frequency information generated by the speaker high frequency information calculation unit 216 is used by the band expansion unit 41.
  • the virtualization processing unit 217 performs virtualization processing such as HRTF processing on the virtual speaker signal supplied from the rendering processing unit 215, and supplies the device reproduction signal obtained as a result to the reproduction device high frequency information calculation unit 218. do.
  • the device reproduction signal referred to here is an audio signal for reproducing object audio mainly with headphones or a plurality of speakers, that is, a drive signal of the reproduction device.
  • the device playback signal is a stereo signal for headphones (stereo drive signal).
  • the device reproduction signal is a speaker reproduction signal (speaker drive signal) supplied to the speaker.
  • the device reproduction signal is different from the virtual speaker signal obtained by the rendering processing unit 215, and in addition to the HRTF processing, transoral processing is performed according to the number and arrangement of actual speakers to generate the device reproduction signal.
  • HRTF processing and transoral processing are performed as virtualization processing.
  • Generating high frequency information from the device reproduction signal obtained in this way means that, for example, the number of speakers and speaker arrangement on the reproduction side are the number of speakers and speaker arrangement for the virtual speaker signal obtained by the rendering processing unit 215. Especially useful when different from.
  • the reproduction device high-frequency information calculation unit 218 calculates the high-frequency information based on the device reproduction signal supplied from the virtualization processing unit 217, compresses and encodes the obtained high-frequency information, and supplies the obtained high-frequency information to the multiplexing unit 219. do.
  • the reproduction device high-frequency information calculation unit 218 generates high-frequency information from the device reproduction signal by the same method as in the case of the object high-frequency information calculation unit 214.
  • the "output_bwe_data" shown in FIG. 7 can be obtained as high-frequency information for the encoded device reproduction signal, that is, for the low FS audio signal.
  • high-frequency information calculation unit 218 not only one of the high-frequency information assuming headphone reproduction and the high-frequency information assuming speaker reproduction, but both of them are generated in the multiplexing unit 219. It may be supplied. Further, even when speaker reproduction is assumed, high frequency information may be generated for each channel configuration such as 2 channels or 5.1 channels.
  • the multiplexing unit 219 is a coded object position information supplied from the object position information coding unit 211, a coded object signal supplied from the object signal coding unit 213, and an object high frequency information calculation unit 214.
  • the multiplexing unit 219 outputs an output bit stream obtained by multiplexing object position information, object signals, and high frequency information. This output bit stream is input to the signal processing device 71 as an input bit stream.
  • step S41 the object position information coding unit 211 encodes the input object position information and supplies it to the multiplexing unit 219.
  • the down supplement 212 downsamples the input object signal and supplies it to the object signal coding unit 213.
  • step S42 the object signal coding unit 213 encodes the object signal supplied from the downsupplier 212 and supplies it to the multiplexing unit 219.
  • step S43 the object high frequency information calculation unit 214 calculates high frequency information based on the input object signal, compresses and encodes the obtained high frequency information, and supplies the obtained high frequency information to the multiplexing unit 219.
  • step S44 the rendering processing unit 215 performs rendering processing based on the input object position information and the object signal, and supplies the virtual speaker signal obtained as a result to the speaker high frequency information calculation unit 216 and the virtualization processing unit 217. do.
  • step S45 the speaker high-frequency information calculation unit 216 calculates the high-frequency information based on the virtual speaker signal supplied from the rendering processing unit 215, compresses and encodes the obtained high-frequency information, and causes the multiplexing unit 219. Supply.
  • step S46 the virtualization processing unit 217 performs virtualization processing such as HRTF processing on the virtual speaker signal supplied from the rendering processing unit 215, and the device reproduction signal obtained as a result is used as the reproduction device high frequency information calculation unit. Supply to 218.
  • step S47 the reproduction device high frequency information calculation unit 218 calculates the high frequency information based on the device reproduction signal supplied from the virtualization processing unit 217, compresses and encodes the obtained high frequency information, and is a multiplexing unit. Supply to 219.
  • step S48 the multiplexing unit 219 calculates the coded object position information supplied from the object position information coding unit 211, the coded object signal supplied from the object signal coding unit 213, and the object high frequency information calculation.
  • the multiplexing unit 219 outputs the output bit stream obtained by the multiplexing, and the coding process ends.
  • the encoder 201 calculates not only the high frequency information of the object signal but also the high frequency information of the virtual speaker signal and the device reproduction signal and stores it in the output bit stream. By doing so, on the decoding side of the output bit stream, the band expansion process can be performed at a desired timing, and the amount of calculation can be reduced. As a result, even a low-cost device can perform band expansion processing and perform high-quality audio reproduction.
  • ⁇ Modification 1 of the first embodiment> ⁇ Configuration example of signal processing device>
  • the object signal may be used. In some cases, it may be possible to perform rendering processing and virtualization processing after performing band expansion processing.
  • the signal processing device 71 may select at what timing the band expansion processing should be performed.
  • the signal processing device 71 is configured as shown in FIG. 12, for example.
  • the parts corresponding to the case in FIG. 6 are designated by the same reference numerals, and the description thereof will be omitted as appropriate.
  • the signal processing device 71 shown in FIG. 12 has a decoding processing unit 11, a band expansion unit 251, a rendering processing unit 12, a virtualization processing unit 13, and a band expansion unit 41. Further, the decoding processing unit 11 is also provided with a selection unit 261.
  • the configuration of the signal processing device 71 shown in FIG. 12 is different from the signal processing device 71 of FIG. 6 in that a band expansion unit 251 and a selection unit 261 are newly provided, and is different from the signal processing device 71 of FIG. 6 in other respects. It has the same configuration.
  • the selection unit 261 performs selection processing for selecting whether to perform band expansion processing based on the high frequency information for the object signal or the high frequency information for the low FS audio signal. That is, the band expansion processing is performed on the object signal using the high frequency information for the object signal, or the band expansion processing is performed on the low FS audio signal using the high frequency information for the low FS audio signal. It is selected whether to do it.
  • This selection process includes, for example, the current computational resources of the signal processing device 71, the amount of power consumed in each process from the decoding process to the band expansion process of the signal processing device 71, and the current battery balance of the signal processing device 71. It is done based on the amount, the playback time of the content based on the output audio signal, and so on.
  • the total power consumption required until the end of content playback can be known from the content playback time and the power consumption in each process, so when the battery level exceeds the total power consumption, Band expansion processing using high frequency information for the object signal is selected.
  • the band expansion process using the high frequency information for the low FS audio signal even during the playback of the content.
  • the switch is made to.
  • crossfade processing may be appropriately performed on the output audio signal.
  • band expansion processing using high-frequency information for low FS audio signals is selected from the start of content playback.
  • the decoding processing unit 11 outputs the high frequency information and the object signal obtained by the decoding processing according to the selection result in the selection unit 261.
  • the decoding processing unit 11 transfers the high frequency information for the low FS audio signal obtained by the decoding processing to the band expansion unit 41.
  • the object position information and the object signal are supplied to the rendering processing unit 12.
  • the decoding processing unit 11 uses the high frequency information for the object signal and the object signal obtained by the decoding processing as the band expansion unit. While supplying to 251, the object position information is supplied to the rendering processing unit 12.
  • the band expansion unit 251 performs band expansion processing based on the high frequency information for the object signal supplied from the decoding processing unit 11 and the object signal, and renders the object signal having a higher sampling frequency obtained as a result in the rendering processing unit. Supply to 12.
  • step S71 the decoding processing unit 11 performs demultiplexing and decoding processing on the supplied input bit stream.
  • step S72 the selection unit 261 is subjected to the rendering process and the virtualization process based on at least one of the computational resources of the signal processing device 71, the power consumption in each process, the remaining battery level, and the reproduction time of the content. Also determines whether or not to perform band expansion processing first. That is, which of the high-frequency information for the object signal and the high-frequency information for the low FS audio signal is used for band expansion processing is selected.
  • step S72 If it is determined in step S72 that the band expansion process is to be performed first, that is, if the band expansion process using the high frequency information for the object signal is selected, the process proceeds to step S73.
  • the decoding processing unit 11 supplies the high frequency information for the object signal obtained by the decoding processing and the object signal to the band expansion unit 251 and supplies the object position information to the rendering processing unit 12.
  • step S73 the band expansion unit 251 performs band expansion processing based on the high frequency information and the object signal supplied from the decoding processing unit 11, and the resulting object signal having a higher sampling frequency, that is, a high FS object.
  • the signal is supplied to the rendering processing unit 12.
  • step S73 the same processing as in step S14 of FIG. 8 is performed.
  • the high frequency information "object_bwe_data" shown in FIG. 7 is used as the high frequency information for the object signal, and the band expansion processing is performed.
  • step S74 the rendering processing unit 12 performs rendering processing such as VBAP based on the object position information supplied from the decoding processing unit 11 and the high FS object signal supplied from the band expansion unit 251, and is obtained as a result.
  • the high FS virtual speaker signal is supplied to the virtualization processing unit 13.
  • step S75 the virtualization processing unit 13 performs the virtualization processing based on the high FS virtual speaker signal supplied from the rendering processing unit 12 and the HRTF coefficient held in advance.
  • step S75 the same processing as in step S13 of FIG. 8 is performed.
  • the virtualization processing unit 13 outputs the audio signal obtained by the virtualization processing as an output audio signal in the subsequent stage, and the signal generation processing is completed.
  • step S72 when it is determined in step S72 that the band expansion process is not performed first, that is, when the band expansion process using the high frequency information for the low FS audio signal is selected, the process is then performed in step S76. Proceed to.
  • the decoding processing unit 11 supplies the high frequency information for the low FS audio signal obtained by the decoding processing to the band expansion unit 41, and supplies the object position information and the object signal to the rendering processing unit 12.
  • step S78 for example, the high frequency information “output_bwe_data” shown in FIG. 7 is used to perform the band expansion process.
  • the signal generation processing described above is performed at predetermined time intervals such as for each frame of the content, that is, the object signal.
  • the signal processing device 71 selects which high-frequency information is used for band expansion processing, performs each processing in the processing order according to the selection result, and generates an output audio signal. By doing so, it is possible to perform band expansion processing according to computational resources and the remaining battery level, and generate an output audio signal. Therefore, it is possible to reduce the amount of calculation as needed and perform high-quality audio reproduction even with a low-cost device.
  • the signal processing device 71 shown in FIG. 12 may be further provided with a band expansion unit that performs band expansion processing on the virtual speaker signal.
  • the band expansion unit performs band expansion processing on the virtual speaker signal supplied from the rendering processing unit 12 based on the high frequency information for the virtual speaker signal supplied from the decoding processing unit 11.
  • the virtual speaker signal having a higher sampling frequency obtained as a result is supplied to the virtualization processing unit 13.
  • the selection unit 261 selects whether to perform band expansion processing on the object signal, band expansion processing on the virtual speaker signal, or band expansion processing on the low FS audio signal. Can be done.
  • the object signal obtained by the decoding process in the signal processing device 71 is a low FS object signal having a sampling frequency of 48 kHz.
  • the low FS object signal obtained by the decoding process is subjected to rendering processing and virtualization processing, and then band expansion processing is performed to generate an output audio signal having a sampling frequency of 96 kHz. ..
  • the sampling frequency of the object signal obtained by the decoding process may be 96 kHz, which is the same as the output audio signal, or a sampling frequency higher than that of the output audio signal.
  • the signal processing device 71 is configured as shown in FIG. 14, for example.
  • the parts corresponding to the case in FIG. 6 are designated by the same reference numerals, and the description thereof will be omitted.
  • the signal processing device 71 shown in FIG. 14 has a decoding processing unit 11, a rendering processing unit 12, a virtualization processing unit 13, and a band expansion unit 41. Further, the decoding processing unit 11 is provided with a band limiting unit 281 for band limiting the object signal, that is, downsampling.
  • the configuration of the signal processing device 71 shown in FIG. 14 is different from the signal processing device 71 of FIG. 6 in that a band limiting unit 281 is newly provided, and is the same configuration as the signal processing device 71 of FIG. 6 in other respects. ing.
  • the decoding processing unit 11 when the decoding processing unit 11 performs demultiplexing and decoding processing of the input bit stream, for example, an object signal having a sampling frequency of 96 kHz can be obtained.
  • the band limiting unit 281 of the decoding processing unit 11 generates a low FS object signal having a sampling frequency of 48kHz by band limiting the object signal having a sampling frequency of 96kHz obtained by the decoding processing. For example, here, downsampling is performed as a band limitation process.
  • the decoding processing unit 11 supplies the low FS object signal obtained by the band limitation and the object position information obtained by the decoding processing to the rendering processing unit 12.
  • MDCT Modified Discrete Cosine Transform
  • the band limiting unit 281 generates a low FS object signal with a sampling frequency of 48 kHz by partially inverse transforming the MDCT coefficient (spectral data) as an object signal (IMDCT (Inverse Discrete Cosine Transform)). Then, it is supplied to the rendering processing unit 12.
  • IMDCT Inverse Discrete Cosine Transform
  • the band expansion process using the high frequency information in the band expansion unit 41 is performed only for reducing the amount of calculation in the signal processing device 71. Will be done.
  • the object signal obtained by the decoding process is a 96 kHz signal
  • a low FS object signal is once generated, and rendering and virtualization processes are performed at a sampling frequency of 48 kHz, resulting in a large amount of calculation. Can be reduced.
  • all processing that is, rendering processing and virtualization processing may be performed at a sampling frequency of 96 kHz, and such processing may be performed on the original sound. It is also preferable from the viewpoint of fidelity.
  • the selection unit 261 may be provided in the decoding processing unit 11.
  • the selection unit 261 monitors the computational resources of the signal processing device 71 and the remaining battery level, and performs rendering processing and virtualization processing at a sampling frequency of 96 kHz so as not to perform band expansion processing. Alternatively, select whether to generate a low FS object signal and perform rendering processing or virtualization processing at a sampling frequency of 48 kHz.
  • the decoding processing section 11 when band limitation is performed by the band limiting section 281, the decoding processing section 11 generates high frequency information for a low FS audio signal based on the 96 kHz object signal obtained by the decoding process, and the band expansion section It may be supplied to 41.
  • the band limiting unit 281 may be provided in the decoding processing unit 11 of the signal processing device 71 shown in FIG.
  • the signal processing device 71 is configured as shown in FIG. 15, for example.
  • the same reference numerals are given to the portions corresponding to those in FIGS. 9 or 14, and the description thereof will be omitted as appropriate.
  • the signal processing device 71 has a decoding processing unit 11, a rendering processing unit 12, and a band expansion unit 41, and the decoding processing unit 11 is provided with a band limiting unit 281.
  • the band limiting unit 281 band-limits the 96 kHz object signal obtained by the decoding process and generates a 48 kHz low FS object signal.
  • the low FS object signal thus obtained is supplied to the rendering processing unit 12 together with the object position information.
  • the decoding processing unit 11 even if the decoding processing unit 11 generates high frequency information for the low FS speaker signal based on the 96kHz object signal obtained by the decoding processing and supplies it to the band expansion unit 41. good.
  • the band limiting unit 281 may be provided in the decoding processing unit 11 of the signal processing device 71 shown in FIG.
  • the low FS object signal obtained by the band limitation in the band limiting section 281 is supplied to the rendering processing section 12, and then the rendering process, the virtualization process, and the band expansion process are performed. Therefore, in such a case, for example, in the selection unit 261, the band expansion unit 251 performs the band expansion and then the rendering process and the virtualize process, or the band limit is performed and then the rendering process, the virtualize process, and the band expansion. It is selected whether to perform processing or rendering processing, virtualization processing, and bandwidth expansion processing without bandwidth limitation.
  • band expansion processing is performed on the decoding side (reproduction side) by using the high frequency information for the signal after signal processing such as rendering processing and virtualization processing instead of the high frequency information of the object signal.
  • decoding processing, rendering processing, and virtualization processing can be performed at a low sampling frequency, and the amount of calculation can be significantly reduced.
  • a low-cost processor can be adopted, the power consumption of the processor can be reduced, and a mobile device such as a smartphone can continuously play a high-resolution sound source for a longer period of time. ..
  • the series of processes described above can be executed by hardware or software.
  • the programs constituting the software are installed on the computer.
  • the computer includes a computer embedded in dedicated hardware and, for example, a general-purpose personal computer capable of executing various functions by installing various programs.
  • FIG. 16 is a block diagram showing a configuration example of computer hardware that executes the above-mentioned series of processes programmatically.
  • the CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • An input / output interface 505 is further connected to the bus 504.
  • An input unit 506, an output unit 507, a recording unit 508, a communication unit 509, and a drive 510 are connected to the input / output interface 505.
  • the input unit 506 includes a keyboard, a mouse, a microphone, an image pickup device, and the like.
  • the output unit 507 includes a display, a speaker, and the like.
  • the recording unit 508 includes a hard disk, a non-volatile memory, and the like.
  • the communication unit 509 includes a network interface and the like.
  • the drive 510 drives a removable recording medium 511 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory.
  • the CPU 501 loads the program recorded in the recording unit 508 into the RAM 503 via the input / output interface 505 and the bus 504 and executes the above-mentioned series. Is processed.
  • the program executed by the computer can be recorded and provided on a removable recording medium 511 as a package medium or the like, for example. Programs can also be provided via wired or wireless transmission media such as local area networks, the Internet, and digital satellite broadcasts.
  • the program can be installed in the recording unit 508 via the input / output interface 505 by mounting the removable recording medium 511 in the drive 510. Further, the program can be received by the communication unit 509 and installed in the recording unit 508 via a wired or wireless transmission medium. In addition, the program can be pre-installed in the ROM 502 or the recording unit 508.
  • the program executed by the computer may be a program in which processing is performed in chronological order according to the order described in the present specification, in parallel, or at a necessary timing such as when a call is made. It may be a program in which processing is performed.
  • the embodiment of the present technology is not limited to the above-described embodiment, and various changes can be made without departing from the gist of the present technology.
  • this technology can take a cloud computing configuration in which one function is shared by multiple devices via a network and processed jointly.
  • each step described in the above flowchart can be executed by one device or shared by a plurality of devices.
  • the plurality of processes included in the one step can be executed by one device or shared by a plurality of devices.
  • this technology can also have the following configurations.
  • the band of the first audio signal, the first band expansion information for band expansion of the first audio signal, and the band of the second audio signal obtained by subjecting the first audio signal to predetermined signal processing.
  • Band expansion is performed based on the selected first band expansion information or the second band expansion information and the first audio signal or the second audio signal to generate a third audio signal.
  • the selection unit includes the first band expansion information based on at least one of the computational resources of the signal processing device, the amount of power consumption, the remaining amount of power, and the reproduction time of the content based on the third audio signal.
  • the signal processing apparatus wherein the band expansion is selected based on which of the second band expansion information.
  • the first audio signal is an object signal of object audio.
  • the signal processing device according to (1) or (2), wherein the predetermined signal processing includes at least one of rendering processing and virtualization processing to a virtual speaker.
  • the second audio signal is a virtual speaker signal of a virtual speaker obtained by the rendering process, or a drive signal of a reproduction device obtained by the virtualization process.
  • the signal processing device wherein the playback device is a speaker or headphones.
  • the second band expansion information is high-frequency information of a virtual speaker signal having a sampling frequency higher than that of the virtual speaker signal corresponding to the virtual speaker signal, or sampling higher than the drive signal corresponding to the drive signal.
  • the signal processing device according to (4) or (5) which is high-frequency information of a frequency drive signal.
  • the first band expansion information is any one of (1) to (6), which is high-frequency information of an audio signal having a sampling frequency higher than that of the first audio signal, which corresponds to the first audio signal.
  • the signal processing apparatus according to any one of (1) to (5), further comprising a signal processing unit that performs the predetermined signal processing. (9) Further, a band limiting unit for band limiting the first audio signal is provided.
  • the signal processing device performs the predetermined signal processing on the audio signal obtained by the band limitation.
  • the signal processing device performs the predetermined signal processing on the audio signal obtained by the band limitation.
  • the signal processing device performs the acquisition unit generates the second band expansion information based on the first audio signal.
  • the signal processing device The band of the first audio signal, the first band expansion information for band expansion of the first audio signal, and the band of the second audio signal obtained by subjecting the first audio signal to predetermined signal processing. Get the second bandwidth expansion information for expansion, Select whether to perform band expansion based on the first band expansion information or the second band expansion information. Band expansion is performed based on the selected first band expansion information or the second band expansion information and the first audio signal or the second audio signal to generate a third audio signal. Signal processing method.
  • the band of the first audio signal, the first band expansion information for band expansion of the first audio signal, and the band of the second audio signal obtained by subjecting the first audio signal to predetermined signal processing. Get the second bandwidth expansion information for expansion, Select whether to perform band expansion based on the first band expansion information or the second band expansion information. Band expansion is performed based on the selected first band expansion information or the second band expansion information and the first audio signal or the second audio signal to generate a third audio signal.
  • a program that causes a computer to perform processing that includes steps.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)

Abstract

本技術は、低コストな装置でも高品質なオーディオ再生を行うことができるようにする信号処理装置および方法、並びにプログラムに関する。 信号処理装置は、第1のオーディオ信号と、第1のオーディオ信号の帯域拡張のための第1の帯域拡張情報と、第1のオーディオ信号に所定の信号処理を施して得られる第2のオーディオ信号の帯域拡張のための第2の帯域拡張情報とを取得する取得部と、第1の帯域拡張情報と第2の帯域拡張情報の何れに基づき帯域拡張を行うかを選択する選択部と、選択された第1の帯域拡張情報または第2の帯域拡張情報と、第1のオーディオ信号または第2のオーディオ信号とに基づいて帯域拡張を行い、第3のオーディオ信号を生成する帯域拡張部とを備える。本技術は信号処理装置に適用することができる。

Description

信号処理装置および方法、並びにプログラム
 本技術は、信号処理装置および方法、並びにプログラムに関し、特に、低コストな装置でも高品質なオーディオ再生を行うことができるようにした信号処理装置および方法、並びにプログラムに関する。
 従来、映画やゲーム等でオブジェクトオーディオ技術が使われ、オブジェクトオーディオを扱える符号化方式も開発されている。具体的には、例えば国際標準規格であるMPEG(Moving Picture Experts Group)-H Part 3:3D audio規格などが知られている(例えば、非特許文献1参照)。
 このような符号化方式では、従来の2チャネルステレオ方式や5.1チャネル等のマルチチャネルステレオ方式とともに、移動する音源等を独立したオーディオオブジェクト(以下、単にオブジェクトとも称する)として扱い、オーディオオブジェクトの信号データとともにオブジェクトの位置情報をメタデータとして符号化することが可能である。
 これにより、スピーカの数や配置の異なる様々な視聴環境で再生を行うことができる。また、従来の符号化方式では困難であった特定の音源の音の音量調整や、特定の音源の音に対するエフェクトの追加など、特定の音源の音を再生時に加工することが容易にできる。
 このような符号化方式では、復号側においてビットストリームに対するデコードが行われ、オブジェクトのオーディオ信号であるオブジェクト信号と、空間内におけるオブジェクトの位置を示すオブジェクト位置情報を含むメタデータとが得られる。
 そして、オブジェクト位置情報に基づいて、空間内に仮想的に配置された複数の各仮想スピーカにオブジェクト信号をレンダリングするレンダリング処理が行われる。例えば非特許文献1の規格では、レンダリング処理に3次元VBAP(Vector Based Amplitude Panning)(以下、単にVBAPと称する)と呼ばれる方式が用いられる。
 また、レンダリング処理により、各仮想スピーカに対応する仮想スピーカ信号が得られると、それらの仮想スピーカ信号に基づいてHRTF(Head Related Transfer Function)処理が行われる。このHRTF処理では、あたかも仮想スピーカから音が再生されているかのように実際のヘッドフォンやスピーカから音を出力させるための出力オーディオ信号が生成される。
 このようなオブジェクトオーディオを実際に再生する場合、空間上に実際のスピーカを多数配置できるときには、仮想スピーカ信号に基づく再生が行われる。また、多数のスピーカを配置することができず、ヘッドフォンやサウンドバーなどの小数のスピーカでオブジェクトオーディオを再生するときには、上述の出力オーディオ信号に基づく再生が行われる。
 一方で、近年、ストレージ価格の下落やネットワークの広帯域化により、サンプリング周波数が96kHz以上の、いわゆるハイレゾ音源、すなわちハイレゾリューション音源が楽しめるようになってきている。
 非特許文献1に記載の符号化方式では、ハイレゾ音源を効率的に符号化するための技術として、SBR(Spectral Band Replication)等の技術を用いることができる。
 例えばSBRにおいては、符号化側では、スペクトルの高域成分は符号化されずに、高域サブバンド信号の平均振幅情報が高域サブバンドの個数分だけ符号化されて伝送される。
 そして、復号側においては、低域サブバンド信号と、高域の平均振幅情報とに基づいて、低域成分と高域成分とが含まれる最終的な出力信号が生成される。これにより、より高品質なオーディオ再生を実現することができる。
 この手法では、人間は高域信号成分の位相変化には鈍感で、その周波数包絡の概形がもとの信号に近い場合、その差を知覚できないという聴覚特性が利用されており、このような手法は、一般的に帯域拡張技術として広く知られている。
INTERNATIONAL STANDARD ISO/IEC 23008-3 Second edition 2019-02 Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio
 ところで、上述のオブジェクトオーディオについて、レンダリング処理やHRTF処理と組み合わせて帯域拡張を行う場合、各オブジェクトのオブジェクト信号に対して帯域拡張処理が行われてから、レンダリング処理やHRTF処理が行われる。
 この場合、帯域拡張処理はオブジェクトの数だけ独立に行われるため、処理負荷、すなわち演算量が多くなってしまう。また、帯域拡張処理後には、帯域拡張により得られた、よりサンプリング周波数の高い信号を対象としてレンダリング処理やHRTF処理が行われるため、さらに処理負荷が増大してしまう。
 そうすると、低コストなプロセッサやバッテリの装置、すなわち演算処理能力が低い装置や、バッテリ容量が少ない装置など、低コストな装置では帯域拡張を行うことができず、結果として高品質なオーディオ再生を行うことができなくなってしまう。
 本技術は、このような状況に鑑みてなされたものであり、低コストな装置でも高品質なオーディオ再生を行うことができるようにするものである。
 本技術の一側面の信号処理装置は、第1のオーディオ信号と、前記第1のオーディオ信号の帯域拡張のための第1の帯域拡張情報と、前記第1のオーディオ信号に所定の信号処理を施して得られる第2のオーディオ信号の帯域拡張のための第2の帯域拡張情報とを取得する取得部と、前記第1の帯域拡張情報と前記第2の帯域拡張情報の何れに基づき帯域拡張を行うかを選択する選択部と、選択された前記第1の帯域拡張情報または前記第2の帯域拡張情報と、前記第1のオーディオ信号または前記第2のオーディオ信号とに基づいて帯域拡張を行い、第3のオーディオ信号を生成する帯域拡張部とを備える。
 本技術の一側面の信号処理方法またはプログラムは、第1のオーディオ信号と、前記第1のオーディオ信号の帯域拡張のための第1の帯域拡張情報と、前記第1のオーディオ信号に所定の信号処理を施して得られる第2のオーディオ信号の帯域拡張のための第2の帯域拡張情報とを取得し、前記第1の帯域拡張情報と前記第2の帯域拡張情報の何れに基づき帯域拡張を行うかを選択し、選択された前記第1の帯域拡張情報または前記第2の帯域拡張情報と、前記第1のオーディオ信号または前記第2のオーディオ信号とに基づいて帯域拡張を行い、第3のオーディオ信号を生成するステップを含む。
 本技術の一側面においては、第1のオーディオ信号と、前記第1のオーディオ信号の帯域拡張のための第1の帯域拡張情報と、前記第1のオーディオ信号に所定の信号処理を施して得られる第2のオーディオ信号の帯域拡張のための第2の帯域拡張情報とが取得され、前記第1の帯域拡張情報と前記第2の帯域拡張情報の何れに基づき帯域拡張を行うかが選択され、選択された前記第1の帯域拡張情報または前記第2の帯域拡張情報と、前記第1のオーディオ信号または前記第2のオーディオ信号とに基づいて帯域拡張が行われ、第3のオーディオ信号が生成される。
出力オーディオ信号の生成について説明する図である。 VBAPについて説明する図である。 HRTF処理について説明する図である。 帯域拡張処理について説明する図である。 帯域拡張処理について説明する図である。 信号処理装置の構成例を示す図である。 入力ビットストリームのシンタックス例を示す図である。 信号生成処理を説明するフローチャートである。 信号処理装置の構成例を示す図である。 エンコーダの構成例を示す図である。 符号化処理を説明するフローチャートである。 信号処理装置の構成例を示す図である。 信号生成処理を説明するフローチャートである。 信号処理装置の構成例を示す図である。 信号処理装置の構成例を示す図である。 コンピュータの構成例を示す図である。
 以下、図面を参照して、本技術を適用した実施の形態について説明する。
〈第1の実施の形態〉
〈本技術について〉
 本技術は、符号化前のオブジェクト信号から直接得られる、帯域拡張処理のための高域情報とは別に、予め仮想スピーカ信号や出力オーディオ信号を対象とした帯域拡張処理のための高域情報をビットストリーム中に多重化して伝送するようにした。
 これにより、処理負荷の高いデコード処理やレンダリング処理、バーチャライズ処理を低いサンプリング周波数で行い、その後、高域情報に基づいて帯域拡張処理を行うようにすることができ、全体として演算量を低減させることができる。その結果、低コストな装置でも、より高いサンプリング周波数の出力オーディオ信号に基づく、高品質なオーディオ再生を行うことができる。
 まず、MPEG-H Part 3:3D audio規格の符号化方式での符号化により得られたビットストリームに対して復号(デコード)を行い、オブジェクトオーディオの出力オーディオ信号を生成するときに行われる一般的な処理について説明する。
 例えば図1に示すように、符号化(エンコード)により得られた入力ビットストリームがデコード処理部11に入力されると、その入力ビットストリームに対して非多重化およびデコード処理が行われる。
 デコード処理によって、コンテンツを構成するオブジェクト(オーディオオブジェクト)の音を再生するためのオーディオ信号であるオブジェクト信号と、そのオブジェクトの空間内の位置を示すオブジェクト位置情報を含むメタデータとが得られる。
 続いて、レンダリング処理部12では、メタデータに含まれるオブジェクト位置情報に基づいて、空間内に仮想的に配置された仮想スピーカにオブジェクト信号をレンダリングするレンダリング処理が行われ、各仮想スピーカから出力される音を再生するための仮想スピーカ信号が生成される。
 さらに、バーチャライズ処理部13では、各仮想スピーカの仮想スピーカ信号に基づいてバーチャライズ処理が行われ、ユーザが装着するヘッドフォンや実空間に配置されたスピーカなどの再生装置から音を出力させるための出力オーディオ信号が生成される。
 バーチャライズ処理とは、実際の再生環境でのチャネル構成とは異なるチャネル構成で再生が行われているかのようなオーディオ再生を実現するためのオーディオ信号を生成する処理である。
 例えば、この例では、実際にはヘッドフォン等の再生装置から音が出力されているのにもかかわらず、あたかも各仮想スピーカから音が出力されているかのようなオーディオ再生を実現するための出力オーディオ信号を生成する処理がバーチャライズ処理である。
 バーチャライズ処理は、どのような手法により実現されてもよいが、以下ではバーチャライズ処理としてHRTF処理が行われるものとして説明を続ける。
 バーチャライズ処理で得られた出力オーディオ信号に基づいて、実際のヘッドフォンやスピーカから音を出力すれば、あたかも仮想スピーカから音が再生されているかのようなオーディオ再生を実現することができる。なお、以下では、実空間に実際に配置されるスピーカを特に実スピーカとも称することとする。
 このようなオブジェクトオーディオを再生する場合、空間内に多数の実スピーカを配置できるときには、レンダリング処理の出力をそのまま実スピーカで再生することができる。
 これに対して、空間内に多数の実スピーカを配置できないときには、HRTF処理を行ってヘッドフォンや、サウンドバーなどの少数の実スピーカによって再生を行うことになる。一般的には、ヘッドフォンや少数の実スピーカによって再生を行うことが多い。
 ここで、一般的なレンダリング処理とHRTF処理について、さらに説明を行う。
 例えばレンダリング時には、上述したVBAPなどの所定の方式のレンダリング処理が行われる。VBAPは一般的にパニングと呼ばれるレンダリング手法の1つで、ユーザ位置を原点とする球表面上に存在する仮想スピーカのうち、同じく球表面上に存在するオブジェクトに最も近い3個の仮想スピーカに対しゲインを分配することでレンダリングを行うものである。
 例えば図2に示すように、3次元空間に受聴者であるユーザU11がおり、そのユーザU11の前方に3つの仮想スピーカSP1乃至仮想スピーカSP3が配置されているとする。
 ここでは、ユーザU11の頭部の位置を原点Oとし、その原点Oを中心とする球の表面上に仮想スピーカSP1乃至仮想スピーカSP3が位置しているとする。
 いま、球表面上における仮想スピーカSP1乃至仮想スピーカSP3に囲まれる領域TR11内にオブジェクトが存在しており、そのオブジェクトの位置VSP1に音像を定位させることを考えるとする。
 そのような場合、VBAPではオブジェクトについて、位置VSP1の周囲にある仮想スピーカSP1乃至仮想スピーカSP3に対してゲインが分配されることになる。
 具体的には、原点Oを基準(原点)とする3次元座標系において、原点Oを始点とし、位置VSP1を終点とする3次元のベクトルPにより位置VSP1を表すこととする。
 また、原点Oを始点とし、各仮想スピーカSP1乃至仮想スピーカSP3の位置を終点とする3次元のベクトルをベクトルL1乃至ベクトルL3とすると、ベクトルPは次式(1)に示すようにベクトルL1乃至ベクトルL3の線形和によって表すことができる。
Figure JPOXMLDOC01-appb-M000001
 ここで、式(1)においてベクトルL1乃至ベクトルL3に乗算されている係数g1乃至係数g3を算出し、これらの係数g1乃至係数g3を、仮想スピーカSP1乃至仮想スピーカSP3のそれぞれから出力する音のゲインとすれば、位置VSP1に音像を定位させることができる。
 例えば係数g1乃至係数g3を要素とするベクトルをg123=[g1,g2,g3]とし、ベクトルL1乃至ベクトルL3を要素とするベクトルをL123=[L1,L2,L3]とすると、上述した式(1)を変形して次式(2)を得ることができる。
Figure JPOXMLDOC01-appb-M000002
 このような式(2)を計算して求めた係数g1乃至係数g3をゲインとして用いて、オブジェクト信号に基づく音を各仮想スピーカSP1乃至仮想スピーカSP3から出力すれば、位置VSP1に音像を定位させることができる。
 なお、各仮想スピーカSP1乃至仮想スピーカSP3の配置位置は固定されており、それらの仮想スピーカの位置を示す情報は既知であるため、逆行列であるL123 -1は事前に求めておくことができる。
 図2に示した球表面上における、3個の仮想スピーカにより囲まれる三角形の領域TR11はメッシュと呼ばれている。空間内に配置された多数の仮想スピーカを組み合わせて複数のメッシュを構成することで、オブジェクトの音を空間内の任意の位置に定位させることが可能である。
 このように、各オブジェクトに対して仮想スピーカのゲインが求められると、次式(3)の演算を行うことで、各仮想スピーカの仮想スピーカ信号を得ることができる。
Figure JPOXMLDOC01-appb-M000003
 なお、式(3)においてSP(m,t)は、M個の仮想スピーカのうちのm番目(但し、m=0,1,…,M-1)の仮想スピーカの時刻tにおける仮想スピーカ信号を示している。また、式(3)においてS(n,t)はN個のオブジェクトのうちのn番目(但し、n=0,1,…,N-1)のオブジェクトの時刻tにおけるオブジェクト信号を示している。
 さらに式(3)においてG(m,n)は、m番目の仮想スピーカについての仮想スピーカ信号SP(m,t)を得るための、n番目のオブジェクトのオブジェクト信号S(n,t)に乗算されるゲインを示している。すなわち、ゲインG(m,n)は、上述した式(2)により求められた、n番目のオブジェクトについてのm番目の仮想スピーカに分配されたゲインを示している。
 レンダリング処理では、この式(3)の計算が最も計算コストがかかる処理となる。すなわち、式(3)の演算が最も演算量の多い処理となる。
 次に、式(3)の演算により得られた仮想スピーカ信号に基づく音をヘッドフォンまたは少数の実スピーカで再生する場合に行われるHRTF処理の例について図3を参照して説明する。なお、図3では説明を簡単にするため、2次元の水平面上に仮想スピーカが配置された例となっている。
 図3では、空間内に5個の仮想スピーカSP11-1乃至仮想スピーカSP11-5が円形状に並べられて配置されている。以下、仮想スピーカSP11-1乃至仮想スピーカSP11-5を特に区別する必要のない場合、単に仮想スピーカSP11とも称することとする。
 また、図3では5個の仮想スピーカSP11に囲まれる位置、すなわち仮想スピーカSP11が配置された円の中心位置に受聴者であるユーザU21が位置している。したがって、HRTF処理では、あたかもユーザU21が各仮想スピーカSP11から出力される音を聞いているかのようなオーディオ再生を実現するための出力オーディオ信号が生成される。
 特に、この例ではユーザU21がいる位置を聴取位置として、5個の各仮想スピーカSP11へのレンダリングにより得られた仮想スピーカ信号に基づく音をヘッドフォンにより再生することとする。
 そのような場合、例えば仮想スピーカ信号に基づいて仮想スピーカSP11-1から出力(放射)された音は矢印Q11に示す経路を通り、ユーザU21の左耳の鼓膜に到達する。そのため、仮想スピーカSP11-1から出力された音の特性は、仮想スピーカSP11-1からユーザU21の左耳までの空間伝達特性、ユーザU21の顔や耳の形状や反射吸収特性などにより変化するはずである。
 そこで、仮想スピーカSP11-1の仮想スピーカ信号に対して、仮想スピーカSP11-1からユーザU21の左耳までの空間伝達特性、およびユーザU21の顔や耳の形状、反射吸収特性などが加味された伝達関数H_L_SP11を畳み込めば、ユーザU21の左耳で聞こえるであろう仮想スピーカSP11-1からの音を再生する出力オーディオ信号を得ることができる。
 同様に、例えば仮想スピーカ信号に基づいて仮想スピーカSP11-1から出力された音は矢印Q12に示す経路を通り、ユーザU21の右耳の鼓膜に到達する。したがって、仮想スピーカSP11-1の仮想スピーカ信号に対して、仮想スピーカSP11-1からユーザU21の右耳までの空間伝達特性、およびユーザU21の顔や耳の形状、反射吸収特性などが加味された伝達関数H_R_SP11を畳み込めば、ユーザU21の右耳で聞こえるであろう仮想スピーカSP11-1からの音を再生する出力オーディオ信号を得ることができる。
 これらのことから、最終的に5個の仮想スピーカSP11の仮想スピーカ信号に基づく音をヘッドフォンで再生するときには、左チャネルについては、各仮想スピーカ信号に対して、各仮想スピーカの左耳用の伝達関数を畳み込んで、その結果得られた各信号を足し合わせて左チャネルの出力オーディオ信号とすればよい。
 同様に、右チャネルについては、各仮想スピーカ信号に対して、各仮想スピーカの右耳用の伝達関数を畳み込んで、その結果得られた各信号を足し合わせて右チャネルの出力オーディオ信号とすればよい。
 なお、再生に用いる再生装置がヘッドフォンではなく実スピーカである場合にも、ヘッドフォンにおける場合と同様のHRTF処理が行われる。しかし、この場合にはスピーカからの音は空間伝搬によりユーザの左右の両耳に到達するため、クロストークが考慮された処理が行われることになる。このような処理はトランスオーラル処理とも呼ばれている。
 一般的には周波数表現された左耳用、つまり左チャネルの出力オーディオ信号をL(ω)とし、周波数表現された右耳用、つまり右チャネルの出力オーディオ信号をR(ω)とすると、これらのL(ω)およびR(ω)は次式(4)を計算することで得ることができる。
Figure JPOXMLDOC01-appb-M000004
 なお、式(4)においてωは周波数を示しており、SP(m,ω)はM個の仮想スピーカのうちのm番目(但し、m=0,1,…,M-1)の仮想スピーカの周波数ωの仮想スピーカ信号を示している。仮想スピーカ信号SP(m,ω)は、上述した仮想スピーカ信号SP(m,t)を時間周波数変換することにより得ることができる。
 また、式(4)においてH_L(m,ω)は、左チャネルの出力オーディオ信号L(ω)を得るための、m番目の仮想スピーカについての仮想スピーカ信号SP(m,ω)に乗算される左耳用の伝達関数を示している。同様にH_R(m,ω)は右耳用の伝達関数を示している。
 これらのHRTFの伝達関数H_L(m,ω)や伝達関数H_R(m,ω)を時間領域のインパルス応答として表現する場合、少なくとも1秒程度の長さが必要となる。そのため、例えば仮想スピーカ信号のサンプリング周波数が48kHzである場合には、48000タップの畳み込みを行わなければならず、伝達関数の畳み込みにFFT(Fast Fourier Transform)を用いた高速演算手法を用いてもなお多くの演算量が必要となる。
 以上のようにデコード処理、レンダリング処理、およびHRTF処理を行って出力オーディオ信号を生成し、ヘッドフォンや少数個の実スピーカを用いてオブジェクトオーディオを再生する場合、多くの演算量が必要となる。また、この演算量はオブジェクトの数が増えると、その分だけさらに多くなる。
 次に、帯域拡張処理について説明する。
 一般的な帯域拡張処理、すなわちSBRでは、符号化側において、オーディオ信号のスペクトルの高域成分は符号化されずに、高域の周波数帯域である高域サブバンドの高域サブバンド信号の平均振幅情報が高域サブバンドの個数分符号化され、復号側へと伝送される。
 また、復号側では、デコード処理(復号)により得られたオーディオ信号である低域サブバンド信号が、その平均振幅で正規化された後、正規化された信号が高域サブバンドへとコピー(複製)される。そして、その結果得られた信号に各高域サブバンドの平均振幅情報が乗算されて高域サブバンド信号とされ、低域サブバンド信号と高域サブバンド信号とがサブバンド合成されて、最終的な出力オーディオ信号とされる。
 このような帯域拡張処理により、例えばサンプリング周波数が96kHz以上のハイレゾ音源のオーディオ再生を行うことができる。
 しかし、例えば一般的なステレオのオーディオとは異なり、オブジェクトオーディオにおいてサンプリング周波数が96kHzの信号を処理する場合、SBR等の帯域拡張処理が行われるか否かによらず、復号により得られた96kHzのオブジェクト信号に対して、レンダリング処理やHRTF処理が行われることになる。そのため、オブジェクト数や仮想スピーカ数が多い場合、それらの処理の計算コストは莫大なものとなり、高性能のプロセッサと高い消費電力が必要となる。
 ここで、図4を参照して、オブジェクトオーディオにおいて帯域拡張により96kHzの出力オーディオ信号を得る場合に行われる処理例について説明する。なお、図4において図1における場合と対応する部分には同一の符号を付してあり、その説明は省略する。
 入力ビットストリームが供給されると、デコード処理部11で非多重化およびデコード処理が行われ、その結果得られたオブジェクト信号と、オブジェクトのオブジェクト位置情報および高域情報とが出力される。
 例えば高域情報は、符号化前のオブジェクト信号から得られる高域サブバンド信号の平均振幅情報である。
 換言すれば高域情報は、デコード処理で得られるオブジェクト信号に対応する、よりサンプリング周波数の高い符号化前のオブジェクト信号の高域側の各サブバンド成分の大きさを示す、帯域拡張のための帯域拡張情報である。なお、ここではSBRを例として説明を行っているため、帯域拡張情報として高域サブバンド信号の平均振幅情報が用いられているが、帯域拡張処理のための帯域拡張情報は、符号化前のオブジェクト信号の高域側の各サブバンドの振幅の代表値や、周波数包絡の形状を示す情報など、どのようなものであってもよい。
 また、ここでは、デコード処理により得られるオブジェクト信号は、例えばサンプリング周波数が48kHzのものであるとし、以下では、そのようなオブジェクト信号を低FSオブジェクト信号とも称することとする。
 デコード処理後、帯域拡張部41では、高域情報と低FSオブジェクト信号とに基づいて帯域拡張処理が行われ、よりサンプリング周波数の高いオブジェクト信号が得られる。この例では、帯域拡張処理により、例えばサンプリング周波数が96kHzであるオブジェクト信号が得られることとし、以下では、そのようなオブジェクト信号を高FSオブジェクト信号とも称することとする。
 また、レンダリング処理部12では、デコード処理により得られたオブジェクト位置情報と、帯域拡張処理により得られた高FSオブジェクト信号とに基づいてレンダリング処理が行われる。特に、この例ではレンダリング処理により、サンプリング周波数が96kHzである仮想スピーカ信号が得られ、以下では、そのような仮想スピーカ信号を高FS仮想スピーカ信号とも称する。
 さらに、その後、バーチャライズ処理部13において、高FS仮想スピーカ信号に基づいてHRTF処理等のバーチャライズ処理が行われ、サンプリング周波数が96kHzである出力オーディオ信号が得られる。
 ここで、図5を参照して、一般的な帯域拡張処理について説明する。
 図5は、所定のオブジェクト信号の周波数振幅特性を示している。なお、図5において縦軸は振幅(パワー)を示しており、横軸は周波数を示している。
 例えば折れ線L11は、帯域拡張部41に供給される低FSオブジェクト信号の周波数振幅特性を示している。この低FSオブジェクト信号は、サンプリング周波数が48kHzであり、低FSオブジェクト信号には24kHz以上の周波数帯域の信号成分は含まれていない。
 ここでは、例えば24kHzまでの周波数帯域が、低域サブバンドsb-8乃至低域サブバンドsb-1を含む複数の低域サブバンドに分割されており、それらの各低域サブバンドの信号成分が低域サブバンド信号である。同様に、24kHzから48kHzまでの周波数帯域が、高域サブバンドsb乃至高域サブバンドsb+13に分割されており、それらの各高域サブバンドの信号成分が高域サブバンド信号である。
 また、帯域拡張部41には、各高域サブバンドsb乃至高域サブバンドsb+13について、それらの高域サブバンドの平均振幅情報を示す高域情報が供給される。
 例えば図5では、直線L12は、高域サブバンドsbの高域情報として供給される平均振幅情報を示しており、直線L13は、高域サブバンドsb+1の高域情報として供給される平均振幅情報を示している。
 帯域拡張部41では、低域サブバンド信号が、その低域サブバンド信号の平均振幅値で正規化され、正規化により得られた信号が高域側へとコピー(マッピング)される。ここで、コピー元となる低域サブバンドと、その低域サブバンドのコピー先となる高域サブバンドは拡張周波数帯域等により予め定められている。
 例えば低域サブバンドsb-8の低域サブバンド信号が正規化され、正規化により得られた信号が、高域サブバンドsbへとコピーされる。
 より具体的には、低域サブバンドsb-8の低域サブバンド信号の正規化後の信号に対して変調処理が行われ、高域サブバンドsbの周波数成分の信号へと変換される。
 同様に、例えば低域サブバンドsb-7の低域サブバンド信号は、正規化後、高域サブバンドsb+1へとコピーされる。
 このようにして正規化された低域サブバンド信号が高域サブバンドへとコピー(マッピング)されると、各高域サブバンドのコピーされた信号に対し、それらの各高域サブバンドの高域情報により示される平均振幅情報が乗算され、高域サブバンド信号が生成される。
 例えば高域サブバンドsbでは、低域サブバンドsb-8の低域サブバンド信号を正規化して高域サブバンドsbへとコピーすることにより得られた信号に対して、直線L12により示される平均振幅情報が乗算され、高域サブバンドsbの高域サブバンド信号とされる。
 各高域サブバンドについて、高域サブバンド信号が得られると、その後、各低域サブバンド信号と、各高域サブバンド信号とが96kHzサンプリングの帯域合成フィルタに入力されてフィルタリング(合成)され、その結果得られた高FSオブジェクト信号が出力される。すなわち、サンプリング周波数が96kHzへとアップサンプリングされた、高FSオブジェクト信号が得られる。
 図4に示した例では、帯域拡張部41において、以上のような高FSオブジェクト信号を生成する帯域拡張処理が、入力ビットストリームに含まれる低FSオブジェクト信号ごとに、すなわちオブジェクトごとに独立して行われる。
 したがって、例えばオブジェクト数が32個である場合、レンダリング処理部12では、32個の各オブジェクトについて、96kHzの高FSオブジェクト信号のレンダリング処理を行わなければならない。
 同様に、その後段のバーチャライズ処理部13においても、仮想スピーカ数分だけ、96kHzの高FS仮想スピーカ信号のHRTF処理(バーチャライズ処理)を行わなければならない。
 その結果、装置全体における処理負荷は莫大なものとなってしまう。これは、帯域拡張処理を行わず、デコード処理により得られるオーディオ信号のサンプリング周波数が96kHzである場合でも同様である。
 そこで、本技術では、符号化前のオブジェクト信号から直接得られる各高域サブバンドの高域情報とは別に、予めハイレゾ、すなわち高いサンプリング周波数の仮想スピーカ信号等の高域情報も入力ビットストリームに多重化して伝送するようにした。
 このようにすることで、例えば処理負荷の高いデコード処理、レンダリング処理、HRTF処理を低いサンプリング周波数で行い、HRTF処理後の最終的な信号に対して、伝送された高域情報に基づく帯域拡張処理を行うことができる。これにより、全体における処理負荷を低減させ、低コストなプロセッサやバッテリでも高品質なオーディオ再生を実現することができるようになる。
〈信号処理装置の構成例〉
 図6は、本技術を適用した信号処理装置の一実施の形態の構成例を示す図である。なお、図6において図4における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
 図6に示す信号処理装置71は、例えばスマートフォンやパーソナルコンピュータなどからなり、デコード処理部11、レンダリング処理部12、バーチャライズ処理部13、および帯域拡張部41を有している。
 図4に示した例ではデコード処理、帯域拡張処理、レンダリング処理、およびバーチャライズ処理の順で各処理が行われる。
 これに対して、信号処理装置71では、デコード処理、レンダリング処理、バーチャライズ処理、および帯域拡張処理の順に各処理(信号処理)が行われる。すなわち、帯域拡張処理が最後に行われる。
 したがって信号処理装置71では、まずデコード処理部11において入力ビットストリームの非多重化およびデコード処理が行われる。この場合、デコード処理部11は、図示せぬサーバ等から、オブジェクトオーディオの符号化されたオブジェクト信号や、オブジェクト位置情報、高域情報などを取得する取得部として機能するということができる。
 デコード処理部11は、非多重化およびデコード処理(復号処理)により得られた高域情報を帯域拡張部41に供給するとともに、オブジェクト位置情報およびオブジェクト信号をレンダリング処理部12に供給する。
 ここで、入力ビットストリームには、バーチャライズ処理部13の出力に対応した高域情報が含まれており、デコード処理部11は、その高域情報を帯域拡張部41に供給する。
 また、レンダリング処理部12では、デコード処理部11から供給されたオブジェクト位置情報およびオブジェクト信号に基づいてVBAP等のレンダリング処理が行われ、その結果得られた仮想スピーカ信号がバーチャライズ処理部13に供給される。
 バーチャライズ処理部13では、バーチャライズ処理としてHRTF処理が行われる。すなわち、バーチャライズ処理部13では、レンダリング処理部12から供給された仮想スピーカ信号と、事前に与えられた伝達関数に対応するHRTF係数とに基づく畳み込み処理と、その結果得られる信号を足し合わせる加算処理がHRTF処理として行われる。バーチャライズ処理部13は、HRTF処理により得られたオーディオ信号を帯域拡張部41に供給する。
 この例では、例えばデコード処理部11からレンダリング処理部12に供給されるオブジェクト信号は、サンプリング周波数が48kHzである低FSオブジェクト信号とされる。
 そのような場合、レンダリング処理部12からバーチャライズ処理部13に供給される仮想スピーカ信号もサンプリング周波数が48kHzである信号となるので、バーチャライズ処理部13から帯域拡張部41へと供給されるオーディオ信号のサンプリング周波数も48kHzとなる。
 以下では、バーチャライズ処理部13から帯域拡張部41へと供給されるオーディオ信号を、特に低FSオーディオ信号とも称することとする。このような低FSオーディオ信号は、オブジェクト信号に対してレンダリング処理やバーチャライズ処理等の信号処理を施すことにより得られた、ヘッドフォンや実スピーカなどの再生装置を駆動させて音を出力させる駆動信号である。
 帯域拡張部41では、デコード処理部11から供給された高域情報に基づいて、バーチャライズ処理部13から供給された低FSオーディオ信号に対して帯域拡張処理を行うことで出力オーディオ信号を生成し、後段に出力する。帯域拡張部41で得られる出力オーディオ信号は、例えばサンプリング周波数が96kHzである信号とされる。
〈入力ビットストリームのシンタックス例〉
 上述したように、信号処理装置71の帯域拡張部41では、バーチャライズ処理部13の出力に対応した高域情報が必要となり、入力ビットストリームには、そのような高域情報が含まれている。
 ここで、デコード処理部11に供給される入力ビットストリームのシンタックス例を図7に示す。
 図7において「num_objects」はオブジェクトの総数を示しており、「object_compressed_data」は符号化(圧縮)されたオブジェクト信号を示しており、「object_bwe_data」は各オブジェクトの帯域拡張のための高域情報を示している。
 この高域情報は、例えば図4を参照して説明したように、デコード処理により得られた低FSオブジェクト信号に対して帯域拡張処理を行う場合に用いられるものである。すなわち、「object_bwe_data」は、符号化前のオブジェクト信号から得られる各高域サブバンド信号の平均振幅情報からなる高域情報である。
 また、「position_azimuth」はオブジェクトの球面座標系における水平角度を示しており、「position_elevation」はオブジェクトの球面座標系における垂直角度を示しており、「position_radius」は球面座標系原点からオブジェクトまでの距離(半径)を示している。ここでは、これらの水平角度、垂直角度、および距離からなる情報がオブジェクトの位置を示すオブジェクト位置情報となっている。
 したがって、この例では、「num_objects」により示されるオブジェクト数分だけ、符号化されたオブジェクト信号、高域情報、およびオブジェクト位置情報が入力ビットストリームに含まれている。
 また、図7において「num_vspk」は、仮想スピーカの数を示しており、「vspk_bwe_data」は仮想スピーカ信号に対して帯域拡張処理を行う場合に用いられる高域情報を示している。
 この高域情報は、例えば符号化前のオブジェクト信号に対してレンダリング処理を行うことで得られた、信号処理装置71のレンダリング処理部12の出力よりもサンプリング周波数が高い仮想スピーカ信号の各高域サブバンド信号の平均振幅情報である。
 さらに、「num_output」は出力チャネル数、すなわち最終的に出力するマルチチャネル構成の出力オーディオ信号のチャネル数を示している。「output_bwe_data」は出力オーディオ信号を得るための高域情報、すなわちバーチャライズ処理部13の出力に対して帯域拡張処理を行う場合に用いられる高域情報を示している。
 この高域情報は、例えば符号化前のオブジェクト信号に対してレンダリング処理およびバーチャライズ処理を行うことで得られた、信号処理装置71のバーチャライズ処理部13の出力よりもサンプリング周波数が高いオーディオ信号の各高域サブバンド信号の平均振幅情報である。
 このように、図7に示す例では、帯域拡張処理を行うタイミングに応じて、複数の高域情報が入力ビットストリームに含まれている。したがって、信号処理装置71の計算資源等に応じたタイミングで帯域拡張処理を行うことができる。
 具体的には、例えば計算資源に余裕がある場合、「object_bwe_data」により示される高域情報を用いて、図4に示したようにデコード処理により得られた、各オブジェクトの低FSオブジェクト信号に対して帯域拡張処理を行うようにすることができる。
 この場合、オブジェクトごとに帯域拡張処理が行われ、その後、高いサンプリング周波数で、レンダリング処理やバーチャライズ処理が行われる。
 特に、この場合には、符号化前のオブジェクト信号、つまり原音に近い信号を帯域拡張処理により得ることができるので、レンダリング処理後やバーチャライズ処理後に帯域拡張処理を行う場合よりも、より高品質な出力オーディオ信号を得ることができる。
 一方、例えば計算資源に余裕がない場合には、信号処理装置71のように、低いサンプリング周波数でデコード処理、レンダリング処理、およびバーチャライズ処理を行い、その後、「output_bwe_data」により示される高域情報を用いて、低FSオーディオ信号に対する帯域拡張処理を行うようにすることができる。このようにすれば、全体として処理量(処理負荷)を大幅に削減することができる。
 その他、例えば再生装置がスピーカである場合には、デコード処理とレンダリング処理を低いサンプリング周波数で行い、その後、「vspk_bwe_data」により示される高域情報を用いて、仮想スピーカ信号に対する帯域拡張処理を行うようにしてもよい。
 以上のように、1つの入力ビットストリーム内に「object_bwe_data」や「output_bwe_data」、「vspk_bwe_data」などの複数の高域情報が含まれるようにすると、圧縮効率を下げることになる。しかし、それらの高域情報のデータ量は、符号化されたオブジェクト信号「object_compressed_data」のデータ量と比較して極めて少ないため、データ量の増加分と比較して、より大きい処理負荷削減効果を得ることができる。
〈信号生成処理の説明〉
 次に、図6に示した信号処理装置71の動作について説明する。すなわち、以下、図8のフローチャートを参照して、信号処理装置71による信号生成処理について説明する。
 ステップS11においてデコード処理部11は、供給された入力ビットストリームに対して非多重化およびデコード処理を行い、その結果得られた高域情報を帯域拡張部41に供給するとともに、オブジェクト位置情報およびオブジェクト信号をレンダリング処理部12に供給する。
 ここでは、例えば図7に示した「output_bwe_data」により示される高域情報が入力ビットストリームから抽出され、帯域拡張部41へと供給される。
 ステップS12においてレンダリング処理部12は、デコード処理部11から供給されたオブジェクト位置情報およびオブジェクト信号に基づいてレンダリング処理を行い、その結果得られた仮想スピーカ信号をバーチャライズ処理部13に供給する。例えばステップS12では、VBAP等がレンダリング処理として行われる。
 ステップS13においてバーチャライズ処理部13はバーチャライズ処理を行う。例えばステップS13では、HRTF処理がバーチャライズ処理として行われる。
 この場合、バーチャライズ処理部13は、レンダリング処理部12から供給された各仮想スピーカの仮想スピーカ信号と、予め保持している各仮想スピーカのHRTF係数とを畳み込んで、その結果得られた信号を加算する処理をHRTF処理として行う。バーチャライズ処理部13は、HRTF処理により得られた低FSオーディオ信号を帯域拡張部41に供給する。
 ステップS14において帯域拡張部41は、デコード処理部11から供給された高域情報に基づいて、バーチャライズ処理部13から供給された低FSオーディオ信号に対して帯域拡張処理を行い、その結果得られた出力オーディオ信号を後段に出力する。このようにして出力オーディオ信号が生成されると、信号生成処理は終了する。
 以上のようにして信号処理装置71は、入力ビットストリームから抽出された(読み出された)高域情報を用いて帯域拡張処理を行い、出力オーディオ信号を生成する。
 この場合、レンダリング処理やHRTF処理が行われて得られた低FSオーディオ信号に対して帯域拡張処理を行うようにすることで、信号処理装置71における処理負荷、すなわち演算量を低減させることができる。したがって、信号処理装置71が低コストな装置であっても高品質なオーディオ再生を行うことができる。
〈信号処理装置の構成例〉
 なお、帯域拡張部41で得られた出力オーディオ信号の出力先、つまり再生装置がヘッドフォンではなくスピーカであるときには、レンダリング処理部12で得られた仮想スピーカ信号に対して帯域拡張処理を行うようにすることができる。
 そのような場合、信号処理装置71の構成は図9に示すようになる。なお、図9において図6における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
 図9に示す信号処理装置71は、デコード処理部11、レンダリング処理部12、および帯域拡張部41を有している。
 図9に示す信号処理装置71の構成は、バーチャライズ処理部13が設けられていない点で図6の信号処理装置71の構成と異なり、その他の点では図6の信号処理装置71と同じ構成となっている。
 したがって、図9に示す信号処理装置71では、図8を参照して説明したステップS11およびステップS12の処理が行われた後、ステップS13の処理は行われずに、ステップS14の処理が行われて出力オーディオ信号が生成される。
 そのため、ステップS11では、デコード処理部11は、入力ビットストリームから、例えば図7に示した「vspk_bwe_data」により示される高域情報を抽出し、帯域拡張部41に供給する。また、ステップS12でレンダリング処理が行われると、レンダリング処理部12は、得られたスピーカ信号を帯域拡張部41に供給する。このスピーカ信号は、図6のレンダリング処理部12で得られる仮想スピーカ信号に対応し、例えばサンプリング周波数が48kHzである低FSスピーカ信号である。
 さらに、帯域拡張部41は、デコード処理部11から供給された高域情報に基づいて、レンダリング処理部12から供給されたスピーカ信号に対して帯域拡張処理を行い、その結果得られた出力オーディオ信号を後段に出力する。
 このように、帯域拡張処理の前にレンダリング処理を行う場合においても、信号処理装置71全体での処理負荷(演算量)を低減させることができる。
〈エンコーダの構成例〉
 続いて、図7に示した入力ビットストリームを生成するエンコーダ(符号化装置)について説明する。そのようなエンコーダは、例えば図10に示すように構成される。
 図10に示すエンコーダ201は、オブジェクト位置情報符号化部211、ダウンサプラ212、オブジェクト信号符号化部213、オブジェクト高域情報計算部214、レンダリング処理部215、スピーカ高域情報計算部216、バーチャライズ処理部217、再生装置高域情報計算部218、および多重化部219を有している。
 エンコーダ201には、符号化対象となるオブジェクトのオブジェクト信号と、そのオブジェクトの位置を示すオブジェクト位置情報とが入力(供給)される。ここでは、エンコーダ201に入力されるオブジェクト信号は、例えばサンプリング周波数が96kHzの信号であるものとする。
 オブジェクト位置情報符号化部211は、入力されたオブジェクト位置情報を符号化し、多重化部219に供給する。
 これにより、符号化されたオブジェクト位置情報として、例えば図7に示した水平角度「position_azimuth」、垂直角度「position_elevation」、および半径「position_radius」からなる符号化されたオブジェクト位置情報(オブジェクト位置データ)が得られる。
 ダウンサプラ212は、入力されたサンプリング周波数が96kHzのオブジェクト信号に対してダウンサンプリング処理、すなわち帯域制限を行い、その結果得られたサンプリング周波数が48kHzであるオブジェクト信号をオブジェクト信号符号化部213に供給する。
 オブジェクト信号符号化部213は、ダウンサプラ212から供給された48kHzのオブジェクト信号を符号化して多重化部219に供給する。これにより、例えば図7に示した「object_compressed_data」が符号化されたオブジェクト信号として得られる。
 なお、オブジェクト信号符号化部213での符号化方式は、MPEG-H Part 3:3D audio規格の符号化方式であってもよいし、その他の符号化方式であってもよい。すなわち、オブジェクト信号符号化部213での符号化方式とデコード処理部11での復号方式とが対応するもの(同一規格のもの)であればよい。
 オブジェクト高域情報計算部214は、入力された96kHzのオブジェクト信号に基づいて高域情報(帯域拡張情報)を計算するとともに、得られた高域情報を圧縮符号化し、多重化部219に供給する。これにより、例えば図7に示した「object_bwe_data」が符号化された高域情報として得られる。
 オブジェクト高域情報計算部214で生成される高域情報は、例えば図5に示した各高域サブバンドの平均振幅情報(平均振幅値)である。
 例えばオブジェクト高域情報計算部214は、入力された96kHzのオブジェクト信号に対して帯域通過フィルタバンクに基づくフィルタリングを行って、各高域サブバンドの高域サブバンド信号を得る。そして、オブジェクト高域情報計算部214は、それらの各高域サブバンド信号の時間フレームの平均振幅値を計算することにより、高域情報を生成する。
 レンダリング処理部215は、入力されたオブジェクト位置情報および96kHzのオブジェクト信号に基づいてVBAP等のレンダリング処理を行い、その結果得られた仮想スピーカ信号をスピーカ高域情報計算部216およびバーチャライズ処理部217に供給する。
 なお、レンダリング処理部215でのレンダリング処理は、復号側(再生側)である信号処理装置71のレンダリング処理部12における場合と同じ処理であれば、VBAPに限らず他のどのようなレンダリング処理であってもよい。
 スピーカ高域情報計算部216は、レンダリング処理部215から供給された各チャネル、すなわち各仮想スピーカの仮想スピーカ信号に基づいて高域情報を計算するとともに、得られた高域情報を圧縮符号化し、多重化部219に供給する。
 例えばスピーカ高域情報計算部216では、オブジェクト高域情報計算部214における場合と同様の手法により、仮想スピーカ信号から高域情報が生成される。これにより、例えば図7に示した「vspk_bwe_data」が符号化された仮想スピーカ信号用の高域情報として得られる。
 このようにして得られる高域情報は、例えば再生側、つまり信号処理装置71側におけるスピーカ数およびスピーカ配置が、レンダリング処理部215で得られる仮想スピーカ信号についてのスピーカ数およびスピーカ配置と同じである場合、信号処理装置71での帯域拡張処理に用いられる。例えば信号処理装置71が図9に示した構成とされる場合、スピーカ高域情報計算部216で生成された高域情報が帯域拡張部41で利用される。
 バーチャライズ処理部217は、レンダリング処理部215から供給された仮想スピーカ信号に対してHRTF処理等のバーチャライズ処理を行い、その結果得られた装置再生信号を再生装置高域情報計算部218に供給する。
 なお、ここでいう装置再生信号とは、主にヘッドフォンや複数のスピーカでオブジェクトオーディオを再生するためのオーディオ信号、つまり再生装置の駆動信号である。
 例えばヘッドフォン再生を想定する場合には、装置再生信号はヘッドフォン用のステレオ信号(ステレオの駆動信号)である。
 また、例えばスピーカ再生を想定する場合には、装置再生信号はスピーカに供給されるスピーカ再生信号(スピーカの駆動信号)である。
 この場合、装置再生信号はレンダリング処理部215で得られる仮想スピーカ信号とは異なり、HRTF処理に加え実スピーカの数や配置に応じてトランスオーラル処理が行われて装置再生信号が生成されることが多い。すなわち、HRTF処理とトランスオーラル処理がバーチャライズ処理として行われる。
 このようにして得られた装置再生信号から後段で高域情報を生成することは、例えば再生側におけるスピーカ数およびスピーカ配置が、レンダリング処理部215で得られる仮想スピーカ信号についてのスピーカ数およびスピーカ配置と異なる場合に特に有用である。
 再生装置高域情報計算部218は、バーチャライズ処理部217から供給された装置再生信号に基づいて高域情報を計算するとともに、得られた高域情報を圧縮符号化し、多重化部219に供給する。
 例えば再生装置高域情報計算部218では、オブジェクト高域情報計算部214における場合と同様の手法により、装置再生信号から高域情報を生成する。これにより、例えば図7に示した「output_bwe_data」が符号化された装置再生信号用、つまり低FSオーディオ信号用の高域情報として得られる。
 なお、再生装置高域情報計算部218では、ヘッドフォン再生を想定した高域情報と、スピーカ再生を想定した高域情報の何れか一方だけでなく、それらの両方が生成されて多重化部219に供給されるようにしてもよい。また、スピーカ再生を想定した場合でも、例えば2チャネルや5.1チャネルなど、チャネル構成ごとに高域情報が生成されてもよい。
 多重化部219は、オブジェクト位置情報符号化部211から供給された符号化されたオブジェクト位置情報、オブジェクト信号符号化部213から供給された符号化されたオブジェクト信号、オブジェクト高域情報計算部214から供給された符号化された高域情報、スピーカ高域情報計算部216から供給された符号化された高域情報、および再生装置高域情報計算部218から供給された符号化された高域情報を多重化する。
 多重化部219は、オブジェクト位置情報やオブジェクト信号、高域情報を多重化して得られた出力ビットストリームを出力する。この出力ビットストリームは、入力ビットストリームとして信号処理装置71に入力される。
〈符号化処理の説明〉
 次に、エンコーダ201の動作について説明する。すなわち、以下、図11のフローチャートを参照して、エンコーダ201による符号化処理について説明する。
 ステップS41においてオブジェクト位置情報符号化部211は、入力されたオブジェクト位置情報を符号化し、多重化部219に供給する。
 また、ダウンサプラ212は、入力されたオブジェクト信号をダウンサンプリングしてオブジェクト信号符号化部213に供給する。
 ステップS42においてオブジェクト信号符号化部213は、ダウンサプラ212から供給されたオブジェクト信号を符号化して多重化部219に供給する。
 ステップS43においてオブジェクト高域情報計算部214は、入力されたオブジェクト信号に基づいて高域情報を計算するとともに、得られた高域情報を圧縮符号化し、多重化部219に供給する。
 ステップS44においてレンダリング処理部215は、入力されたオブジェクト位置情報およびオブジェクト信号に基づいてレンダリング処理を行い、その結果得られた仮想スピーカ信号をスピーカ高域情報計算部216およびバーチャライズ処理部217に供給する。
 ステップS45においてスピーカ高域情報計算部216は、レンダリング処理部215から供給された仮想スピーカ信号に基づいて高域情報を計算するとともに、得られた高域情報を圧縮符号化し、多重化部219に供給する。
 ステップS46においてバーチャライズ処理部217は、レンダリング処理部215から供給された仮想スピーカ信号に対してHRTF処理等のバーチャライズ処理を行い、その結果得られた装置再生信号を再生装置高域情報計算部218に供給する。
 ステップS47において再生装置高域情報計算部218は、バーチャライズ処理部217から供給された装置再生信号に基づいて高域情報を計算するとともに、得られた高域情報を圧縮符号化し、多重化部219に供給する。
 ステップS48において多重化部219は、オブジェクト位置情報符号化部211から供給された符号化されたオブジェクト位置情報、オブジェクト信号符号化部213から供給された符号化されたオブジェクト信号、オブジェクト高域情報計算部214から供給された符号化された高域情報、スピーカ高域情報計算部216から供給された符号化された高域情報、および再生装置高域情報計算部218から供給された符号化された高域情報を多重化する。
 多重化部219は、多重化により得られた出力ビットストリームを出力し、符号化処理は終了する。
 以上のようにしてエンコーダ201は、オブジェクト信号の高域情報だけでなく、仮想スピーカ信号や装置再生信号の高域情報も計算し、出力ビットストリームに格納する。このようにすることで、出力ビットストリームの復号側においては、所望のタイミングで帯域拡張処理を行うことができ、演算量を低減させることができる。これにより、低コストな装置でも帯域拡張処理を行い、高品質なオーディオ再生を行うことができるようになる。
〈第1の実施の形態の変形例1〉
〈信号処理装置の構成例〉
 なお、信号処理装置71の処理能力や計算資源(計算リソース)の余裕の有無、バッテリ残量(電力残量)、各処理での消費電力量、コンテンツの再生時間などによっては、オブジェクト信号に対して帯域拡張処理を行ってから、レンダリング処理やバーチャライズ処理を行うことができる場合もある。
 そこで、信号処理装置71側において、どのタイミングで帯域拡張処理を行うのかを選択するようにしてもよい。そのような場合、信号処理装置71は、例えば図12に示すように構成される。なお、図12において図6における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
 図12に示す信号処理装置71は、デコード処理部11、帯域拡張部251、レンダリング処理部12、バーチャライズ処理部13、および帯域拡張部41を有している。また、デコード処理部11には、選択部261も設けられている。
 図12に示す信号処理装置71の構成は、新たに帯域拡張部251および選択部261が設けられた点で図6の信号処理装置71と異なり、その他の点では図6の信号処理装置71と同じ構成となっている。
 選択部261は、オブジェクト信号用の高域情報と、低FSオーディオ信号用の高域情報の何れに基づき帯域拡張処理を行うかを選択する選択処理を行う。すなわち、オブジェクト信号用の高域情報を用いて、オブジェクト信号に対して帯域拡張処理を行うか、または低FSオーディオ信号用の高域情報を用いて、低FSオーディオ信号に対して帯域拡張処理を行うかが選択される。
 この選択処理は、例えば信号処理装置71における現時点での計算資源や、信号処理装置71でのデコード処理から帯域拡張処理までの各処理での消費電力量、信号処理装置71の現時点でのバッテリ残量、出力オーディオ信号に基づくコンテンツの再生時間などに基づいて行われる。
 具体的には、例えばコンテンツの再生時間と各処理での消費電力量から、コンテンツ再生終了までに必要となる総消費電力量が分かるので、その総消費電力量以上にバッテリ残量があるときには、オブジェクト信号用の高域情報を用いた帯域拡張処理が選択される。
 この場合、例えば何らかの理由によりバッテリ残量が少なくなってしまったときや、計算資源に余裕がなくなってしまったときには、コンテンツの再生途中でも低FSオーディオ信号用の高域情報を用いた帯域拡張処理へと切り替えが行われる。なお、このような帯域拡張処理の切り替え時には、適宜、出力オーディオ信号に対するクロスフェード処理を行うようにすればよい。
 また、例えばコンテンツ再生前から計算資源やバッテリ残量に余裕がない場合には、コンテンツ再生開始時から低FSオーディオ信号用の高域情報を用いた帯域拡張処理が選択される。
 デコード処理部11は、選択部261での選択結果に応じて、デコード処理により得られた高域情報やオブジェクト信号を出力する。
 すなわち、デコード処理部11は、低FSオーディオ信号用の高域情報を用いた帯域拡張処理が選択された場合、デコード処理により得られた低FSオーディオ信号用の高域情報を帯域拡張部41に供給するとともに、オブジェクト位置情報およびオブジェクト信号をレンダリング処理部12に供給する。
 これに対して、デコード処理部11は、オブジェクト信号用の高域情報を用いた帯域拡張処理が選択された場合、デコード処理により得られたオブジェクト信号用の高域情報およびオブジェクト信号を帯域拡張部251に供給するとともに、オブジェクト位置情報をレンダリング処理部12に供給する。
 帯域拡張部251は、デコード処理部11から供給されたオブジェクト信号用の高域情報およびオブジェクト信号に基づいて帯域拡張処理を行い、その結果得られた、より高いサンプリング周波数のオブジェクト信号をレンダリング処理部12に供給する。
〈信号生成処理の説明〉
 次に、図12に示した信号処理装置71の動作について説明する。すなわち、以下、図13のフローチャートを参照して、図12の信号処理装置71により行われる信号生成処理について説明する。
 ステップS71においてデコード処理部11は、供給された入力ビットストリームに対して非多重化およびデコード処理を行う。
 ステップS72において選択部261は、信号処理装置71の計算資源、各処理での消費電力量、バッテリ残量、およびコンテンツの再生時間の少なくとも何れか1つに基づいて、レンダリング処理およびバーチャライズ処理よりも先に帯域拡張処理を行うか否かを判定する。すなわち、オブジェクト信号用の高域情報と、低FSオーディオ信号用の高域情報とのうちの何れの高域情報を用いた帯域拡張処理を行うかが選択される。
 ステップS72において先に帯域拡張処理を行うと判定された場合、すなわちオブジェクト信号用の高域情報を用いた帯域拡張処理が選択された場合、その後、処理はステップS73へと進む。
 この場合、デコード処理部11は、デコード処理により得られたオブジェクト信号用の高域情報およびオブジェクト信号を帯域拡張部251に供給するとともに、オブジェクト位置情報をレンダリング処理部12に供給する。
 ステップS73において帯域拡張部251は、デコード処理部11から供給された高域情報およびオブジェクト信号に基づいて帯域拡張処理を行い、その結果得られた、より高いサンプリング周波数のオブジェクト信号、すなわち高FSオブジェクト信号をレンダリング処理部12に供給する。
 ステップS73では、図8のステップS14と同様の処理が行われる。但し、この場合、例えばオブジェクト信号用の高域情報として、図7に示した高域情報「object_bwe_data」が用いられて帯域拡張処理が行われる。
 ステップS74においてレンダリング処理部12は、デコード処理部11から供給されたオブジェクト位置情報と、帯域拡張部251から供給された高FSオブジェクト信号とに基づいてVBAP等のレンダリング処理を行い、その結果得られた高FS仮想スピーカ信号をバーチャライズ処理部13に供給する。
 ステップS75においてバーチャライズ処理部13は、レンダリング処理部12から供給された高FS仮想スピーカ信号と、予め保持しているHRTF係数とに基づいてバーチャライズ処理を行う。ステップS75では、図8のステップS13と同様の処理が行われる。
 バーチャライズ処理部13は、バーチャライズ処理により得られたオーディオ信号を出力オーディオ信号として後段に出力し、信号生成処理は終了する。
 これに対して、ステップS72において先に帯域拡張処理を行わないと判定された場合、すなわち低FSオーディオ信号用の高域情報を用いた帯域拡張処理が選択された場合、その後、処理はステップS76へと進む。
 この場合、デコード処理部11は、デコード処理により得られた低FSオーディオ信号用の高域情報を帯域拡張部41に供給するとともに、オブジェクト位置情報およびオブジェクト信号をレンダリング処理部12に供給する。
 そして、その後、ステップS76乃至ステップS78の処理が行われて信号生成処理は終了するが、これらの処理は図8のステップS12乃至ステップS14の処理と同様であるので、その説明は省略する。この場合、ステップS78では、例えば図7に示した高域情報「output_bwe_data」が用いられて帯域拡張処理が行われる。
 信号処理装置71では、以上において説明した信号生成処理がコンテンツ、すなわちオブジェクト信号のフレームごとなど、所定の時間間隔で行われる。
 以上のようにして信号処理装置71は、何れの高域情報を用いて帯域拡張処理を行うかを選択し、その選択結果に応じた処理順序で各処理を行い、出力オーディオ信号を生成する。このようにすることで、計算資源やバッテリ残量に応じて帯域拡張処理を行い、出力オーディオ信号を生成することができる。したがって、必要に応じて演算量を低減させ、低コストな装置でも高品質なオーディオ再生を行うことができる。
 なお、図12に示した信号処理装置71において、仮想スピーカ信号に対して帯域拡張処理を行う帯域拡張部がさらに設けられるようにしてもよい。
 そのような場合、帯域拡張部は、デコード処理部11から供給された仮想スピーカ信号用の高域情報に基づいて、レンダリング処理部12から供給された仮想スピーカ信号に対して帯域拡張処理を行い、その結果得られたより高いサンプリング周波数の仮想スピーカ信号をバーチャライズ処理部13に供給する。
 したがって、選択部261は、オブジェクト信号に対して帯域拡張処理を行うか、仮想スピーカ信号に対して帯域拡張処理を行うか、または低FSオーディオ信号に対して帯域拡張処理を行うかを選択することができる。
〈第2の実施の形態〉
〈信号処理装置の構成例〉
 ところで、以上においては信号処理装置71でのデコード処理により得られるオブジェクト信号は、サンプリング周波数が48kHzの低FSオブジェクト信号である例について説明した。この例では、デコード処理により得られた低FSオブジェクト信号に対してレンダリング処理およびバーチャライズ処理が行われ、その後、帯域拡張処理が行われて、サンプリング周波数が96kHzである出力オーディオ信号が生成される。
 しかし、これに限らず、例えばデコード処理により得られるオブジェクト信号のサンプリング周波数が、出力オーディオ信号と同じ96kHzや、出力オーディオ信号のものよりもさらに高いサンプリング周波数であってもよい。
 そのような場合、信号処理装置71は、例えば図14に示すように構成される。なお、図14において図6における場合と対応する部分には同一の符号を付してあり、その説明は省略する。
 図14に示す信号処理装置71は、デコード処理部11、レンダリング処理部12、バーチャライズ処理部13、および帯域拡張部41を有している。また、デコード処理部11には、オブジェクト信号の帯域制限、すなわちダウンサンプリングを行う帯域制限部281が設けられている。
 図14に示す信号処理装置71の構成は、新たに帯域制限部281が設けられた点で図6の信号処理装置71と異なり、その他の点では図6の信号処理装置71と同じ構成となっている。
 図14の例では、デコード処理部11で入力ビットストリームの非多重化およびデコード処理を行うと、例えばサンプリング周波数が96kHzであるオブジェクト信号が得られる。
 そこでデコード処理部11の帯域制限部281は、デコード処理により得られたサンプリング周波数が96kHzであるオブジェクト信号に対して帯域制限を行うことで、サンプリング周波数が48kHzである低FSオブジェクト信号を生成する。例えば、ここでは帯域制限の処理として、ダウンサンプリングが行われる。
 デコード処理部11は、帯域制限により得られた低FSオブジェクト信号と、デコード処理により得られたオブジェクト位置情報とをレンダリング処理部12に供給する。
 また、例えばMPEG-H Part 3:3D audio規格での符号化方式のように、MDCT(Modified Discrete Cosine Transform)(修正離散コサイン変換)を用いて時間周波数変換を行う方式であれば、ダウンサンプリングすることなく、低FSオブジェクト信号を得ることができる。
 そのような場合、帯域制限部281は、オブジェクト信号としてのMDCT係数(スペクトルデータ)を部分的に逆変換(IMDCT(Inverse Discrete Cosine Transform))することでサンプリング周波数が48kHzの低FSオブジェクト信号を生成し、レンダリング処理部12に供給する。なお、IMDCTにより、より低いサンプリング周波数の信号を得る技術については、例えば特開2001-285073号公報などに詳細に記載されている。
 以上のようにしてデコード処理部11からレンダリング処理部12に対して、低FSオブジェクト信号およびオブジェクト位置情報が供給されると、その後は、図8のステップS12乃至ステップS14と同様の処理が行われて、出力オーディオ信号が生成される。この場合、サンプリング周波数が48kHzの信号に対してレンダリング処理およびバーチャライズ処理が行われる。
 この実施の形態では、デコード処理により得られるオブジェクト信号が96kHzの信号であるので、帯域拡張部41での高域情報を用いた帯域拡張処理は、信号処理装置71における演算量削減のためだけに行われる。
 以上のように、デコード処理により得られるオブジェクト信号が96kHzの信号である場合でも、一旦、低FSオブジェクト信号を生成し、サンプリング周波数48kHzでレンダリング処理やバーチャライズ処理を行うことで、大幅に演算量を削減することができる。
 なお、信号処理装置71の計算資源に大幅な余裕がある場合には、全ての処理、すなわちレンダリング処理やバーチャライズ処理をサンプリング周波数96kHzで行うようにしてもよく、そのようにすることは原音の忠実度の観点からも好ましい。
 さらに、図12に示した例のようにデコード処理部11に選択部261を設けるようにしてもよい。
 そのような場合、選択部261が信号処理装置71の計算資源やバッテリ残量を監視しながら、サンプリング周波数96kHzのままレンダリング処理やバーチャライズ処理を行い、帯域拡張処理を行わないようにするか、または低FSオブジェクト信号を生成し、サンプリング周波数48kHzでレンダリング処理やバーチャライズ処理を行うかを選択する。
 その他、例えば帯域拡張部41で出力オーディオ信号に対してクロスフェード処理などを行うことで、レンダリング処理やバーチャライズ処理をサンプリング周波数96kHzのまま行うか、サンプリング周波数48kHzで行うかを動的に切り替えるようにしてもよい。
 さらに、例えば帯域制限部281で帯域制限が行われる場合、デコード処理部11がデコード処理により得られた96kHzのオブジェクト信号に基づいて、低FSオーディオ信号用の高域情報を生成し、帯域拡張部41に供給するようにしてもよい。
 また、図14における場合と同様に、例えば図9に示した信号処理装置71のデコード処理部11にも帯域制限部281が設けられるようにしてもよい。
 そのような場合、信号処理装置71は、例えば図15に示すように構成される。なお、図15において図9または図14における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
 図15に示す例では、信号処理装置71は、デコード処理部11、レンダリング処理部12、および帯域拡張部41を有しており、デコード処理部11には帯域制限部281が設けられている。
 この場合、帯域制限部281は、デコード処理により得られた96kHzのオブジェクト信号に対して帯域制限を行い、48kHzの低FSオブジェクト信号を生成する。このようにして得られた低FSオブジェクト信号は、オブジェクト位置情報とともにレンダリング処理部12へと供給される。
 また、この例においてもデコード処理部11が、デコード処理により得られた96kHzのオブジェクト信号に基づいて、低FSスピーカ信号用の高域情報を生成し、帯域拡張部41に供給するようにしてもよい。
 その他、図12に示した信号処理装置71のデコード処理部11に帯域制限部281が設けられるようにしてもよい。そのような場合、例えば帯域制限部281での帯域制限により得られた低FSオブジェクト信号がレンダリング処理部12に供給され、その後、レンダリング処理、バーチャライズ処理、および帯域拡張処理が行われる。したがって、このような場合、例えば選択部261では、帯域拡張部251で帯域拡張を行ってからレンダリング処理およびバーチャライズ処理を行うか、帯域制限を行ってからレンダリング処理、バーチャライズ処理、および帯域拡張処理を行うか、または帯域制限を行わずにレンダリング処理、バーチャライズ処理、および帯域拡張処理を行うかが選択される。
 以上のように、本技術によれば、復号側(再生側)においてオブジェクト信号の高域情報ではなく、レンダリング処理やバーチャライズ処理といった信号処理後の信号に対する高域情報を用いて帯域拡張処理を行うことで、デコード処理やレンダリング処理、バーチャライズ処理を低いサンプリング周波数で行い、演算量を大幅に削減することができる。これにより、例えば低コストのプロセッサを採用したり、プロセッサの電力使用量を低減させたりすることができ、スマートフォンなどの携帯機器で、より長時間、ハイレゾ音源の連続再生を行うことが可能となる。
〈コンピュータの構成例〉
 ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
 図16は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
 コンピュータにおいて、CPU(Central Processing Unit)501,ROM(Read Only Memory)502,RAM(Random Access Memory)503は、バス504により相互に接続されている。
 バス504には、さらに、入出力インターフェース505が接続されている。入出力インターフェース505には、入力部506、出力部507、記録部508、通信部509、及びドライブ510が接続されている。
 入力部506は、キーボード、マウス、マイクロホン、撮像素子などよりなる。出力部507は、ディスプレイ、スピーカなどよりなる。記録部508は、ハードディスクや不揮発性のメモリなどよりなる。通信部509は、ネットワークインターフェースなどよりなる。ドライブ510は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体511を駆動する。
 以上のように構成されるコンピュータでは、CPU501が、例えば、記録部508に記録されているプログラムを、入出力インターフェース505及びバス504を介して、RAM503にロードして実行することにより、上述した一連の処理が行われる。
 コンピュータ(CPU501)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体511に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
 コンピュータでは、プログラムは、リムーバブル記録媒体511をドライブ510に装着することにより、入出力インターフェース505を介して、記録部508にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部509で受信し、記録部508にインストールすることができる。その他、プログラムは、ROM502や記録部508に、あらかじめインストールしておくことができる。
 なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
 また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
 例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
 また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、本技術は、以下の構成とすることも可能である。
(1)
 第1のオーディオ信号と、前記第1のオーディオ信号の帯域拡張のための第1の帯域拡張情報と、前記第1のオーディオ信号に所定の信号処理を施して得られる第2のオーディオ信号の帯域拡張のための第2の帯域拡張情報とを取得する取得部と、
 前記第1の帯域拡張情報と前記第2の帯域拡張情報の何れに基づき帯域拡張を行うかを選択する選択部と、
 選択された前記第1の帯域拡張情報または前記第2の帯域拡張情報と、前記第1のオーディオ信号または前記第2のオーディオ信号とに基づいて帯域拡張を行い、第3のオーディオ信号を生成する帯域拡張部と
 を備える信号処理装置。
(2)
 前記選択部は、前記信号処理装置の計算資源、消費電力量、電力残量、および前記第3のオーディオ信号に基づくコンテンツの再生時間の少なくとも何れかに基づいて、前記第1の帯域拡張情報と前記第2の帯域拡張情報の何れに基づき帯域拡張を行うかを選択する
 (1)に記載の信号処理装置。
(3)
 前記第1のオーディオ信号は、オブジェクトオーディオのオブジェクト信号であり、
 前記所定の信号処理は、仮想スピーカへのレンダリング処理またはバーチャライズ処理の少なくとも一方を含む
 (1)または(2)に記載の信号処理装置。
(4)
 前記第2のオーディオ信号は、前記レンダリング処理により得られた仮想スピーカの仮想スピーカ信号、または前記バーチャライズ処理により得られた再生装置の駆動信号である
 (3)に記載の信号処理装置。
(5)
 前記再生装置は、スピーカまたはヘッドフォンである
 (4)に記載の信号処理装置。
(6)
 前記第2の帯域拡張情報は、前記仮想スピーカ信号に対応する、前記仮想スピーカ信号よりも高いサンプリング周波数の仮想スピーカ信号の高域情報、または前記駆動信号に対応する、前記駆動信号よりも高いサンプリング周波数の駆動信号の高域情報である
 (4)または(5)に記載の信号処理装置。
(7)
 前記第1の帯域拡張情報は、前記第1のオーディオ信号に対応する、前記第1のオーディオ信号よりも高いサンプリング周波数のオーディオ信号の高域情報である
 (1)乃至(6)の何れか一項に記載の信号処理装置。
(8)
 前記所定の信号処理を行う信号処理部をさらに備える
 (1)乃至(5)の何れか一項に記載の信号処理装置。
(9)
 前記第1のオーディオ信号に対する帯域制限を行う帯域制限部をさらに備え、
 前記信号処理部は、前記帯域制限により得られたオーディオ信号に対して前記所定の信号処理を行う
 (8)に記載の信号処理装置。
(10)
 前記取得部は、前記第1のオーディオ信号に基づいて前記第2の帯域拡張情報を生成する
 (9)に記載の信号処理装置。
(11)
 信号処理装置が、
 第1のオーディオ信号と、前記第1のオーディオ信号の帯域拡張のための第1の帯域拡張情報と、前記第1のオーディオ信号に所定の信号処理を施して得られる第2のオーディオ信号の帯域拡張のための第2の帯域拡張情報とを取得し、
 前記第1の帯域拡張情報と前記第2の帯域拡張情報の何れに基づき帯域拡張を行うかを選択し、
 選択された前記第1の帯域拡張情報または前記第2の帯域拡張情報と、前記第1のオーディオ信号または前記第2のオーディオ信号とに基づいて帯域拡張を行い、第3のオーディオ信号を生成する
 信号処理方法。
(12)
 第1のオーディオ信号と、前記第1のオーディオ信号の帯域拡張のための第1の帯域拡張情報と、前記第1のオーディオ信号に所定の信号処理を施して得られる第2のオーディオ信号の帯域拡張のための第2の帯域拡張情報とを取得し、
 前記第1の帯域拡張情報と前記第2の帯域拡張情報の何れに基づき帯域拡張を行うかを選択し、
 選択された前記第1の帯域拡張情報または前記第2の帯域拡張情報と、前記第1のオーディオ信号または前記第2のオーディオ信号とに基づいて帯域拡張を行い、第3のオーディオ信号を生成する
 ステップを含む処理をコンピュータに実行させるプログラム。
 11 デコード処理部, 12 レンダリング処理部, 13 バーチャライズ処理部, 41 帯域拡張部, 71 信号処理装置, 201 エンコーダ, 211 オブジェクト位置情報符号化部, 214 オブジェクト高域情報計算部, 216 スピーカ高域情報計算部, 218 再生装置高域情報計算部, 261 選択部, 281 帯域制限部

Claims (12)

  1.  第1のオーディオ信号と、前記第1のオーディオ信号の帯域拡張のための第1の帯域拡張情報と、前記第1のオーディオ信号に所定の信号処理を施して得られる第2のオーディオ信号の帯域拡張のための第2の帯域拡張情報とを取得する取得部と、
     前記第1の帯域拡張情報と前記第2の帯域拡張情報の何れに基づき帯域拡張を行うかを選択する選択部と、
     選択された前記第1の帯域拡張情報または前記第2の帯域拡張情報と、前記第1のオーディオ信号または前記第2のオーディオ信号とに基づいて帯域拡張を行い、第3のオーディオ信号を生成する帯域拡張部と
     を備える信号処理装置。
  2.  前記選択部は、前記信号処理装置の計算資源、消費電力量、電力残量、および前記第3のオーディオ信号に基づくコンテンツの再生時間の少なくとも何れかに基づいて、前記第1の帯域拡張情報と前記第2の帯域拡張情報の何れに基づき帯域拡張を行うかを選択する
     請求項1に記載の信号処理装置。
  3.  前記第1のオーディオ信号は、オブジェクトオーディオのオブジェクト信号であり、
     前記所定の信号処理は、仮想スピーカへのレンダリング処理またはバーチャライズ処理の少なくとも一方を含む
     請求項1に記載の信号処理装置。
  4.  前記第2のオーディオ信号は、前記レンダリング処理により得られた仮想スピーカの仮想スピーカ信号、または前記バーチャライズ処理により得られた再生装置の駆動信号である
     請求項3に記載の信号処理装置。
  5.  前記再生装置は、スピーカまたはヘッドフォンである
     請求項4に記載の信号処理装置。
  6.  前記第2の帯域拡張情報は、前記仮想スピーカ信号に対応する、前記仮想スピーカ信号よりも高いサンプリング周波数の仮想スピーカ信号の高域情報、または前記駆動信号に対応する、前記駆動信号よりも高いサンプリング周波数の駆動信号の高域情報である
     請求項4に記載の信号処理装置。
  7.  前記第1の帯域拡張情報は、前記第1のオーディオ信号に対応する、前記第1のオーディオ信号よりも高いサンプリング周波数のオーディオ信号の高域情報である
     請求項1に記載の信号処理装置。
  8.  前記所定の信号処理を行う信号処理部をさらに備える
     請求項1に記載の信号処理装置。
  9.  前記第1のオーディオ信号に対する帯域制限を行う帯域制限部をさらに備え、
     前記信号処理部は、前記帯域制限により得られたオーディオ信号に対して前記所定の信号処理を行う
     請求項8に記載の信号処理装置。
  10.  前記取得部は、前記第1のオーディオ信号に基づいて前記第2の帯域拡張情報を生成する
     請求項9に記載の信号処理装置。
  11.  信号処理装置が、
     第1のオーディオ信号と、前記第1のオーディオ信号の帯域拡張のための第1の帯域拡張情報と、前記第1のオーディオ信号に所定の信号処理を施して得られる第2のオーディオ信号の帯域拡張のための第2の帯域拡張情報とを取得し、
     前記第1の帯域拡張情報と前記第2の帯域拡張情報の何れに基づき帯域拡張を行うかを選択し、
     選択された前記第1の帯域拡張情報または前記第2の帯域拡張情報と、前記第1のオーディオ信号または前記第2のオーディオ信号とに基づいて帯域拡張を行い、第3のオーディオ信号を生成する
     信号処理方法。
  12.  第1のオーディオ信号と、前記第1のオーディオ信号の帯域拡張のための第1の帯域拡張情報と、前記第1のオーディオ信号に所定の信号処理を施して得られる第2のオーディオ信号の帯域拡張のための第2の帯域拡張情報とを取得し、
     前記第1の帯域拡張情報と前記第2の帯域拡張情報の何れに基づき帯域拡張を行うかを選択し、
     選択された前記第1の帯域拡張情報または前記第2の帯域拡張情報と、前記第1のオーディオ信号または前記第2のオーディオ信号とに基づいて帯域拡張を行い、第3のオーディオ信号を生成する
     ステップを含む処理をコンピュータに実行させるプログラム。
PCT/JP2021/021663 2020-06-22 2021-06-08 信号処理装置および方法、並びにプログラム WO2021261235A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
US18/001,719 US20230345195A1 (en) 2020-06-22 2021-06-08 Signal processing apparatus, method, and program
JP2022531695A JPWO2021261235A1 (ja) 2020-06-22 2021-06-08
EP21830134.9A EP4171065A4 (en) 2020-06-22 2021-06-08 SIGNAL PROCESSING DEVICE AND METHOD AND PROGRAM
CN202180043091.5A CN115836535A (zh) 2020-06-22 2021-06-08 信号处理装置、方法和程序

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020-106972 2020-06-22
JP2020106972 2020-06-22

Publications (1)

Publication Number Publication Date
WO2021261235A1 true WO2021261235A1 (ja) 2021-12-30

Family

ID=79282562

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/021663 WO2021261235A1 (ja) 2020-06-22 2021-06-08 信号処理装置および方法、並びにプログラム

Country Status (5)

Country Link
US (1) US20230345195A1 (ja)
EP (1) EP4171065A4 (ja)
JP (1) JPWO2021261235A1 (ja)
CN (1) CN115836535A (ja)
WO (1) WO2021261235A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001285073A (ja) 2000-03-29 2001-10-12 Sony Corp 信号処理装置及び方法
JP2006323037A (ja) * 2005-05-18 2006-11-30 Matsushita Electric Ind Co Ltd オーディオ信号復号化装置
JP2011528129A (ja) * 2008-07-17 2011-11-10 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 切り換え可能なバイパスを有するオーディオ符号化/復号化方式

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6218855B2 (ja) * 2013-01-29 2017-10-25 フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. 摩擦音または破擦音のオンセットまたはオフセットの時間的近接性における増大した時間分解能を使用するオーディオエンコーダ、オーディオデコーダ、システム、方法およびコンピュータプログラム
EP3067890B1 (en) * 2013-01-29 2018-01-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder, method for providing an encoded audio information, method for providing a decoded audio information, computer program and encoded representation using a signal-adaptive bandwidth extension

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001285073A (ja) 2000-03-29 2001-10-12 Sony Corp 信号処理装置及び方法
JP2006323037A (ja) * 2005-05-18 2006-11-30 Matsushita Electric Ind Co Ltd オーディオ信号復号化装置
JP2011528129A (ja) * 2008-07-17 2011-11-10 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 切り換え可能なバイパスを有するオーディオ符号化/復号化方式

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio", INTERNATIONAL STANDARD ISO/IEC 23008-3 SECOND EDITION, February 2019 (2019-02-01)
See also references of EP4171065A4

Also Published As

Publication number Publication date
US20230345195A1 (en) 2023-10-26
JPWO2021261235A1 (ja) 2021-12-30
EP4171065A4 (en) 2023-12-13
EP4171065A1 (en) 2023-04-26
CN115836535A (zh) 2023-03-21

Similar Documents

Publication Publication Date Title
KR102294767B1 (ko) 고채널 카운트 멀티채널 오디오에 대한 멀티플렛 기반 매트릭스 믹싱
JP4944902B2 (ja) バイノーラルオーディオ信号の復号制御
US9071920B2 (en) Binaural decoder to output spatial stereo sound and a decoding method thereof
US9794686B2 (en) Controllable playback system offering hierarchical playback options
KR100928311B1 (ko) 오디오 피스 또는 오디오 데이터스트림의 인코딩된스테레오 신호를 생성하는 장치 및 방법
KR100913091B1 (ko) 부호화/복호화 장치 및 방법
US9219972B2 (en) Efficient audio coding having reduced bit rate for ambient signals and decoding using same
JP6612337B2 (ja) 高次アンビソニックオーディオデータのスケーラブルコーディングのためのレイヤのシグナリング
CN105340009A (zh) 声场的经分解表示的压缩
KR20070086851A (ko) 오브젝트-기반 사이드 정보를 갖는 공간 오디오의파라메트릭 코딩
JP2017534910A (ja) 高次アンビソニックオーディオデータのスケーラブルコーディングのためのチャネルのシグナリング
JP7447798B2 (ja) 信号処理装置および方法、並びにプログラム
WO2021261235A1 (ja) 信号処理装置および方法、並びにプログラム
WO2022050087A1 (ja) 信号処理装置および方法、学習装置および方法、並びにプログラム
KR102677399B1 (ko) 신호 처리 장치 및 방법, 그리고 프로그램
WO2022034805A1 (ja) 信号処理装置および方法、並びにオーディオ再生システム
JP6846822B2 (ja) オーディオ信号処理装置、オーディオ信号処理方法、およびオーディオ信号処理プログラム
Wang Soundfield analysis and synthesis: recording, reproduction and compression.

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21830134

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022531695

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2021830134

Country of ref document: EP

Effective date: 20230123