WO2022050087A1 - 信号処理装置および方法、学習装置および方法、並びにプログラム - Google Patents

信号処理装置および方法、学習装置および方法、並びにプログラム Download PDF

Info

Publication number
WO2022050087A1
WO2022050087A1 PCT/JP2021/030599 JP2021030599W WO2022050087A1 WO 2022050087 A1 WO2022050087 A1 WO 2022050087A1 JP 2021030599 W JP2021030599 W JP 2021030599W WO 2022050087 A1 WO2022050087 A1 WO 2022050087A1
Authority
WO
WIPO (PCT)
Prior art keywords
frequency information
coefficient
signal
high frequency
audio signal
Prior art date
Application number
PCT/JP2021/030599
Other languages
English (en)
French (fr)
Inventor
弘幸 本間
徹 知念
明文 河野
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Priority to MX2023002255A priority Critical patent/MX2023002255A/es
Priority to JP2022546230A priority patent/JPWO2022050087A1/ja
Priority to US18/023,183 priority patent/US20230300557A1/en
Priority to BR112023003488A priority patent/BR112023003488A2/pt
Priority to KR1020237005227A priority patent/KR20230060502A/ko
Priority to CN202180052388.8A priority patent/CN116018641A/zh
Priority to EP21864145.4A priority patent/EP4210048A4/en
Publication of WO2022050087A1 publication Critical patent/WO2022050087A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/307Frequency adjustment, e.g. tone control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • G10L21/0388Details of processing therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/07Synergistic effects of band splitting and sub-band processing

Definitions

  • the present technology relates to signal processing devices and methods, learning devices and methods, and programs, and in particular, signal processing devices and methods, learning devices and methods that enable high-quality audio reproduction even in low-cost devices. And about the program.
  • object audio technology has been used in movies, games, etc., and a coding method that can handle object audio has also been developed.
  • MPEG Motion Picture Experts Group
  • 3D audio standard is known (see, for example, Non-Patent Document 1).
  • a moving sound source or the like is treated as an independent audio object (hereinafter, also simply referred to as an object), and the audio object is treated as an independent audio object. It is possible to encode the position information of the object together with the signal data as metadata.
  • the decoding side decodes the bitstream, and obtains an object signal which is an audio signal of the object and metadata including object position information indicating the position of the object in space.
  • a rendering process is performed to render the object signal to each of a plurality of virtual speakers virtually arranged in the space.
  • a method called three-dimensional VBAP Vector Based Amplitude Panning
  • VBAP Vector Based Amplitude Panning
  • HRTF Head Related Transfer Function
  • Non-Patent Document 1 a technique such as SBR (Spectral Band Replication) can be used as a technique for efficiently coding a high-resolution sound source.
  • SBR Spectrum Band Replication
  • the high frequency component of the spectrum is not encoded, and the average amplitude information of the high frequency subband signal is encoded and transmitted by the number of high frequency subbands.
  • a final output signal including a low frequency component and a high frequency component is generated based on the low frequency subband signal and the high frequency average amplitude information. This makes it possible to realize higher quality audio reproduction.
  • band expansion processing is performed in combination with rendering processing or HRTF processing for the above-mentioned object audio, band expansion processing is performed on the object signal of each object, and then rendering processing or HRTF processing is performed.
  • the bandwidth expansion processing is performed independently for the number of objects, so the processing load, that is, the amount of calculation increases. Further, after the band expansion process, the rendering process and the HRTF process are performed on the signal having a higher sampling frequency obtained by the band expansion, so that the processing load is further increased.
  • low-cost devices such as low-cost processors and battery devices, that is, devices with low computing power and devices with low battery capacity cannot expand the bandwidth, resulting in high-quality audio playback. You will not be able to do it.
  • This technology was made in view of such a situation, and enables high-quality audio reproduction even with a low-cost device.
  • the signal processing device of the first aspect of the present technology demultiplexes the input bit stream into the first audio signal, the metadata of the first audio signal, and the first high frequency information for band expansion.
  • the decoding processing unit to be converted, the second audio signal obtained by performing signal processing based on the first audio signal and the metadata, and the first high frequency information generated based on the first high frequency information. It is provided with a band expansion unit that performs band expansion processing based on the high frequency information of 2 and generates an output audio signal.
  • the signal processing method or program of the first aspect of the present technology converts an input bit stream into a first audio signal, metadata of the first audio signal, and first high frequency information for band expansion.
  • a second audio signal obtained by demultiplexing and performing signal processing based on the first audio signal and the metadata, and a second high generated based on the first high frequency information. It includes a step of performing band expansion processing based on the region information and generating an output audio signal.
  • the input bit stream is demultiplexed into a first audio signal, metadata of the first audio signal, and first high frequency information for band expansion.
  • the first audio signal, the second audio signal obtained by performing signal processing based on the metadata, and the second high frequency information generated based on the first high frequency information.
  • Band expansion processing is performed based on this, and an output audio signal is generated.
  • the learning device of the second aspect of the present technology is based on the second audio signal generated by the signal processing based on the first audio signal and the first coefficient, and the first high region for band expansion.
  • a second for band expansion based on a first high frequency information calculator that generates information and a third audio signal generated by the signal processing based on the first audio signal and the second coefficient.
  • the second high frequency information calculation unit Based on the second high frequency information calculation unit that generates the high frequency information of 2, the first coefficient, the second coefficient, the first high frequency information, and the second high frequency information.
  • the learning method or program of the second aspect of the present technology is based on the second audio signal generated by signal processing based on the first audio signal and the first coefficient, and the first for band expansion. Generates high frequency information and generates second high frequency information for band expansion based on the third audio signal generated by the signal processing based on the first audio signal and the second coefficient. Then, based on the first coefficient, the second coefficient, the first high frequency information, and the second high frequency information, learning is performed using the second high frequency information as teacher data. A step of generating coefficient data for obtaining the second high frequency information from the first coefficient, the second coefficient, and the first high frequency information is included.
  • the first high frequency information for band expansion is based on the second audio signal generated by the signal processing based on the first audio signal and the first coefficient.
  • the second high frequency information for band expansion is generated, said first.
  • learning is performed using the second high frequency information as teacher data, and the first The coefficient data for obtaining the second high frequency information is generated from the coefficient of the above, the second coefficient, and the first high frequency information.
  • This technology multiplexes and transmits general-purpose high-frequency information for band expansion processing for HRTF output signals in a bitstream in advance, and on the decoding side, a personal HRTF coefficient and a general-purpose HRTF coefficient. And based on the high frequency information, the high frequency information corresponding to the personal HRTF coefficient is generated.
  • bitstream obtained by encoding with the MPEG-H Part 3: 3D audio standard coding method is decoded, and it is generally performed when the output audio signal of the object audio is generated. Processing will be explained.
  • an object signal which is an audio signal for reproducing the sound of an object (audio object) constituting the content, and metadata including object position information indicating the position of the object in space can be obtained.
  • the rendering processing unit 12 performs rendering processing for rendering an object signal to virtual speakers virtually arranged in space based on the object position information included in the metadata, and outputs the object signals from each virtual speaker.
  • a virtual speaker signal is generated to reproduce the sound.
  • the virtualization processing unit 13 performs virtualization processing based on the virtual speaker signal of each virtual speaker, and outputs sound from a playback device such as a headphone worn by the user or a speaker arranged in a real space.
  • the output audio signal is generated.
  • the virtualization process is a process for generating an audio signal to realize audio reproduction as if the channel configuration is different from the channel configuration in the actual playback environment.
  • the process of generating a signal is the virtualize process.
  • the virtualization process may be realized by any method, but in the following, the explanation will be continued assuming that the HRTF process is performed as the virtualize process.
  • the sound is output from the actual headphones or speakers based on the output audio signal obtained by the virtualization process, it is possible to realize audio reproduction as if the sound is being reproduced from the virtual speaker.
  • the speaker actually arranged in the real space will be referred to as a real speaker in particular.
  • a predetermined method of rendering such as VBAP described above is performed.
  • VBAP is one of the rendering methods generally called panning, and among the virtual speakers existing on the surface of the sphere whose origin is the user position, for the three virtual speakers closest to the object also existing on the surface of the sphere. Rendering is performed by distributing the gain.
  • FIG. 2 it is assumed that there is a user U11 who is a listener in a three-dimensional space, and three virtual speakers SP1 to virtual speakers SP3 are arranged in front of the user U11.
  • the position of the head of the user U11 is the origin O
  • the virtual speaker SP1 or the virtual speaker SP3 is located on the surface of the sphere centered on the origin O.
  • the gain is distributed to the virtual speaker SP1 to the virtual speaker SP3 around the position VSP1 for the object.
  • the position VSP1 is represented by a three-dimensional vector P having the origin O as the start point and the position VSP1 as the end point.
  • the vector P is a vector as shown in the following equation (1). It can be represented by the linear sum of L 1 to the vector L 3 .
  • the coefficients g 1 to the coefficient g 3 multiplied by the vectors L 1 to L 3 are calculated, and these coefficients g 1 to the coefficient g 3 are used in the virtual speaker SP1 to the virtual speaker SP3. If the gain of the sound output from each is used, the sound image can be localized at the position VSP1.
  • the triangular region TR11 surrounded by three virtual speakers on the surface of the sphere shown in FIG. 2 is called a mesh.
  • the virtual speaker signal of each virtual speaker can be obtained by performing the calculation of the following equation (3).
  • G (m, n) is multiplied by the object signal S (n, t) of the nth object in order to obtain the virtual speaker signal SP (m, t) for the mth virtual speaker. It shows the gain to be done. That is, the gain G (m, n) indicates the gain distributed to the m-th virtual speaker for the n-th object obtained by the above-mentioned equation (2).
  • the calculation of this formula (3) is the process with the highest calculation cost. That is, the operation of the equation (3) is the process with the largest amount of calculation.
  • FIG. 3 is an example in which a virtual speaker is arranged on a two-dimensional horizontal plane for the sake of simplicity.
  • FIG. 3 five virtual speakers SP11-1 to virtual speakers SP11-5 are arranged in a circular shape in a space.
  • the virtual speaker SP11-1 and the virtual speaker SP11-5 are also simply referred to as the virtual speaker SP11.
  • the user U21 who is a listener is located at a position surrounded by five virtual speakers SP11, that is, at the center position of a circle in which the virtual speakers SP11 are arranged. Therefore, in the HRTF processing, an output audio signal is generated to realize audio reproduction as if the user U21 is listening to the sound output from each virtual speaker SP11.
  • the position where the user U21 is located is set as the listening position, and the sound based on the virtual speaker signal obtained by rendering to each of the five virtual speakers SP11 is reproduced by the headphones.
  • the sound output (radiated) from the virtual speaker SP11-1 based on the virtual speaker signal passes through the path shown by the arrow Q11 and reaches the eardrum of the left ear of the user U21. Therefore, the characteristics of the sound output from the virtual speaker SP11-1 should change depending on the spatial transmission characteristics from the virtual speaker SP11-1 to the left ear of the user U21, the shape of the face and ears of the user U21, and the reflection absorption characteristics. Is.
  • the spatial transmission characteristics from the virtual speaker SP11-1 to the left ear of the user U21, the shape of the face and ears of the user U21, the reflection absorption characteristics, etc. are added to the virtual speaker signal of the virtual speaker SP11-1.
  • the transmission function H_L_SP11 we can obtain an output audio signal that reproduces the sound from the virtual speaker SP11-1 that would be heard by the user U21's left ear.
  • the sound output from the virtual speaker SP11-1 based on the virtual speaker signal passes through the path indicated by the arrow Q12 and reaches the eardrum of the right ear of the user U21. Therefore, the spatial transmission characteristics from the virtual speaker SP11-1 to the right ear of the user U21, the shape of the face and ears of the user U21, the reflection absorption characteristics, etc. are added to the virtual speaker signal of the virtual speaker SP11-1.
  • the transmission function H_R_SP11 we can obtain an output audio signal that reproduces the sound from the virtual speaker SP11-1 that would be heard by the user U21's right ear.
  • the transmission for the left ear of each virtual speaker is transmitted to each virtual speaker signal.
  • the function may be convoluted and the resulting signals may be added together to form the left channel output audio signal.
  • the transfer function for the right ear of each virtual speaker is convoluted with each virtual speaker signal, and the resulting signals are added together to obtain the output audio signal of the right channel. Just do it.
  • indicates the frequency
  • the virtual speaker signal of the frequency ⁇ of is shown.
  • the virtual speaker signal SP (m, ⁇ ) can be obtained by time-frequency converting the above-mentioned virtual speaker signal SP (m, t).
  • H_L (m, ⁇ ) is multiplied by the virtual speaker signal SP (m, ⁇ ) for the m-th virtual speaker for obtaining the output audio signal L ( ⁇ ) of the left channel.
  • the transfer function for the left ear is shown.
  • H_R (m, ⁇ ) shows the transfer function for the right ear.
  • the output audio signal is generated by performing the decoding process, the rendering process, and the HRTF process as described above, and the object audio is reproduced using headphones or a small number of real speakers, a large amount of calculation is required. In addition, this amount of calculation increases as the number of objects increases.
  • the high frequency component of the spectrum of the audio signal is not encoded, and the average of the high frequency subband signals of the high frequency band, which is the high frequency band.
  • the amplitude information is encoded by the number of high-frequency subbands and transmitted to the decoding side.
  • the low-frequency subband signal which is an audio signal obtained by the decoding process (decoding)
  • the normalized signal is copied to the high-frequency subband ( Will be duplicated).
  • the signal obtained as a result is multiplied by the average amplitude information of each high-frequency subband to obtain a high-frequency subband signal, and the low-frequency subband signal and the high-frequency subband signal are subband-synthesized, and finally.
  • Output audio signal is
  • band expansion processing for example, audio reproduction of a high-resolution sound source having a sampling frequency of 96 kHz or higher can be performed.
  • the 96 kHz obtained by decoding is performed regardless of whether band expansion processing such as SBR is performed. Rendering and HRTF processing will be performed on the object signal. Therefore, when the number of objects and the number of virtual speakers are large, the calculation cost of these processes becomes enormous, and a high-performance processor and high power consumption are required.
  • FIG. 4 an example of processing performed when an output audio signal of 96 kHz is obtained by band expansion in object audio will be described.
  • the same reference numerals are given to the portions corresponding to those in FIG. 1, and the description thereof will be omitted.
  • the decoding processing unit 11 When the input bit stream is supplied, the decoding processing unit 11 performs demultiplexing and decoding processing, and the object signal obtained as a result and the object position information and high frequency information of the object are output.
  • the high frequency information is the average amplitude information of the high frequency subband signal obtained from the object signal before encoding.
  • the high frequency information indicates the magnitude of each subband component on the high frequency side of the uncoded object signal having a higher sampling frequency corresponding to the object signal obtained by the decoding process, for band expansion.
  • Bandwidth expansion information Since SBR is used as an example here, the average amplitude information of the high-frequency subband signal is used as the band expansion information, but the band expansion information for the band expansion processing is before coding. It may be any information such as a representative value of the amplitude of each subband on the high frequency side of the object signal and information indicating the shape of the frequency envelope.
  • the object signal obtained by the decoding process has a sampling frequency of 48 kHz, for example, and in the following, such an object signal is also referred to as a low FS object signal.
  • the band expansion unit 41 After the decoding process, the band expansion unit 41 performs the band expansion process based on the high frequency information and the low FS object signal, and obtains an object signal having a higher sampling frequency.
  • an object signal having a sampling frequency of 96 kHz can be obtained by band expansion processing, and in the following, such an object signal will also be referred to as a high FS object signal.
  • the rendering processing unit 12 performs rendering processing based on the object position information obtained by the decoding processing and the high FS object signal obtained by the bandwidth expansion processing.
  • the rendering process obtains a virtual speaker signal having a sampling frequency of 96 kHz, and in the following, such a virtual speaker signal is also referred to as a high FS virtual speaker signal.
  • the virtualization processing unit 13 performs virtualization processing such as HRTF processing based on the high FS virtual speaker signal, and an output audio signal having a sampling frequency of 96 kHz is obtained.
  • FIG. 5 shows the frequency amplitude characteristic of a predetermined object signal.
  • the vertical axis indicates the amplitude (power), and the horizontal axis indicates the frequency.
  • the polygonal line L11 shows the frequency amplitude characteristic of the low FS object signal supplied to the band expansion unit 41.
  • This low FS object signal has a sampling frequency of 48 kHz, and the low FS object signal does not contain signal components in the frequency band of 24 kHz or higher.
  • the frequency band up to 24 kHz is divided into a plurality of low frequency subbands including the low frequency subband sb-8 to the low frequency subband sb-1, and the signal component of each of these low frequency subbands is divided. Is a low frequency subband signal.
  • the frequency band from 24 kHz to 48 kHz is divided into a high frequency subband sb to a high frequency subband sb + 13, and the signal component of each of these high frequency subbands is a high frequency subband signal.
  • the straight line L12 shows the average amplitude information supplied as the high frequency information of the high frequency subband sb
  • the straight line L13 shows the average supplied as the high frequency information of the high frequency subband sb + 1. It shows the amplitude information.
  • the low frequency subband signal is normalized by the average amplitude value of the low frequency subband signal, and the signal obtained by the normalization is copied (mapped) to the high frequency side.
  • the low frequency subband as the copy source and the high frequency subband as the copy destination of the low frequency subband are predetermined by the extended frequency band and the like.
  • the low frequency subband signal of the low frequency subband sb-8 is normalized, and the signal obtained by the normalization is copied to the high frequency subband sb.
  • the signal after normalization of the low frequency subband signal of the low frequency subband sb-8 is modulated and converted into the signal of the frequency component of the high frequency subband sb.
  • the low frequency subband signal of the low frequency subband sb-7 is copied to the high frequency subband sb + 1 after normalization.
  • the high of each high-frequency subband is relative to the copied signal of each high-frequency subband.
  • the average amplitude information indicated by the region information is multiplied to generate a high frequency subband signal.
  • the average indicated by the straight line L12 is obtained by normalizing the low-frequency subband signal of the low-frequency subband sb-8 and copying it to the high-frequency subband sb.
  • the amplitude information is multiplied to obtain a high-frequency subband signal of the high-frequency subband sb.
  • each low-frequency subband signal and each high-frequency subband signal are input to a band synthesis filter for 96 kHz sampling and filtered (synthesized).
  • the resulting high FS object signal is output. That is, a high FS object signal whose sampling frequency is upsampled (band expanded) to 96 kHz can be obtained.
  • the band expansion process for generating the high FS object signal as described above is independently performed for each low FS object signal included in the input bit stream, that is, for each object. It will be done.
  • the rendering processing unit 12 must perform rendering processing of a high FS object signal of 96 kHz for each of the 32 objects.
  • the virtualization processing unit 13 in the subsequent stage must also perform HRTF processing (virtualization processing) of the 96 kHz high FS virtual speaker signal for the number of virtual speakers.
  • the processing load on the entire device becomes enormous. This is the same even when the sampling frequency of the audio signal obtained by the decoding process is 96 kHz without performing the band expansion process.
  • decoding processing, rendering processing, and HRTF processing with a high processing load are performed at a low sampling frequency, and the band expansion processing based on the transmitted high frequency information is performed for the final signal after the HRTF processing. It can be performed.
  • the overall processing load can be reduced, and high-quality audio reproduction can be realized even with a low-cost processor or battery.
  • the signal processing device on the decoding side can be configured as shown in FIG. 6, for example.
  • FIG. 6 the same reference numerals are given to the portions corresponding to those in FIG. 4, and the description thereof will be omitted as appropriate.
  • the signal processing device 71 shown in FIG. 6 is composed of, for example, a smartphone or a personal computer, and has a decoding processing unit 11, a rendering processing unit 12, a virtualization processing unit 13, and a band expansion unit 41.
  • each process is performed in the order of decoding process, bandwidth expansion process, rendering process, and virtualization process.
  • each processing is performed in the order of decoding processing, rendering processing, virtualization processing, and band expansion processing. That is, the band expansion process is performed last.
  • the decoding processing unit 11 performs demultiplexing and decoding processing of the input bit stream.
  • the decoding processing unit 11 supplies the high frequency information obtained by the demultiplexing and decoding processing (decoding processing) to the band expansion unit 41, and supplies the object position information and the object signal to the rendering processing unit 12.
  • the input bit stream contains high-frequency information corresponding to the output of the virtualize processing unit 13, and the decoding processing unit 11 supplies the high-frequency information to the band expansion unit 41.
  • the rendering processing unit 12 performs rendering processing such as VBAP based on the object position information and the object signal supplied from the decoding processing unit 11, and the virtual speaker signal obtained as a result is supplied to the virtualization processing unit 13. Will be done.
  • the virtualization processing unit 13 performs HRTF processing as virtualization processing. That is, in the virtualization processing unit 13, the convolution processing based on the virtual speaker signal supplied from the rendering processing unit 12 and the HRTF coefficient corresponding to the transfer function given in advance, and the addition of the resulting signals are added. The process is performed as an HRTF process.
  • the virtualization processing unit 13 supplies the audio signal obtained by the HRTF processing to the band expansion unit 41.
  • the object signal supplied from the decoding processing unit 11 to the rendering processing unit 12 is a low FS object signal having a sampling frequency of 48 kHz.
  • the virtual speaker signal supplied from the rendering processing unit 12 to the virtualizing processing unit 13 is also a signal having a sampling frequency of 48 kHz, so that the audio supplied from the virtualizing processing unit 13 to the band expansion unit 41.
  • the sampling frequency of the signal is also 48kHz.
  • the audio signal supplied from the virtualization processing unit 13 to the band expansion unit 41 will also be referred to as a low FS audio signal in particular.
  • a low FS audio signal is a drive signal that drives a playback device such as headphones or a real speaker to output sound, which is obtained by subjecting an object signal to signal processing such as rendering processing and virtualization processing. Is.
  • the band expansion unit 41 generates an output audio signal by performing band expansion processing on the low FS audio signal supplied from the virtualization processing unit 13 based on the high frequency information supplied from the decoding processing unit 11. , Output to the latter stage.
  • the output audio signal obtained by the band expansion unit 41 is, for example, a signal having a sampling frequency of 96 kHz.
  • the HRTF coefficient used for the HRTF process as the virtualize process largely depends on the shape of the ear and face of the individual user who is the listener.
  • the general-purpose HRTF coefficient measured or generated for the average human ear or face shape will also be referred to as the general-purpose HRTF coefficient.
  • the HRTF coefficient corresponding to the shape of the ear or face of the individual user, which is measured or generated for the individual user, that is, the HRTF coefficient for each individual user will be referred to as a personal HRTF coefficient in particular.
  • the personal HRTF coefficient is not limited to the one measured or generated for each individual user, but the user's ears and face are roughly selected from a plurality of HRTF coefficients measured or generated for each shape of the ear or face. It may be an HRTF coefficient suitable for the individual user, which is selected based on information about the individual user such as the shape, age, and gender of the face.
  • each user has a different HRTF coefficient suitable for that user.
  • the high frequency information used in the band expansion unit 41 also corresponds to the personal HRTF coefficient. Is desirable.
  • the high-frequency information contained in the input bitstream is general-purpose high-frequency information that assumes that the audio signal obtained by performing HRTF processing using the general-purpose HRTF coefficient is subjected to band expansion processing. It has become.
  • personal high-frequency information is generated on the playback device side (decoding side) using general-purpose high-frequency information premised on the general-purpose HRTF coefficient, general-purpose HRTF coefficient, and personal HRTF coefficient. I made it.
  • high processing load decoding processing, rendering processing, and HRTF processing are performed at a low sampling frequency, and the final signal after HRTF processing is subjected to band expansion processing based on the generated personal high-frequency information. You will be able to. Therefore, it is possible to reduce the overall processing load and realize high-quality audio reproduction even with a low-cost processor or battery.
  • FIG. 7 is a diagram showing a configuration example of an embodiment of the signal processing device 101 to which the present technology is applied.
  • the same reference numerals are given to the portions corresponding to those in FIG. 6, and the description thereof will be omitted as appropriate.
  • the signal processing device 101 includes, for example, a smartphone or a personal computer, and includes a decoding processing unit 11, a rendering processing unit 12, a virtualization processing unit 13, a personal high-frequency information generation unit 121, an HRTF coefficient recording unit 122, and a band expansion unit. Has 41.
  • the configuration of the signal processing device 101 is different from the configuration of the signal processing device 71 in that a personal high frequency information generation unit 121 and an HRTF coefficient recording unit 122 are newly provided, and is the same configuration as the signal processing device 71 in other respects. It has become.
  • the decoding processing unit 11 acquires an input bit stream including encoded object signals of object audio, metadata including object position information, general-purpose high frequency information, etc. from a server or the like (not shown). (Receive).
  • the general-purpose high-frequency information included in the input bitstream is basically the same as the high-frequency information included in the input bitstream acquired by the decoding processing unit 11 of the signal processing device 71.
  • the decoding processing unit 11 demultiplexes the input bit stream acquired by receiving or the like into encoded object signals, metadata, and general-purpose high-frequency information, and also demultiplexes the encoded object signals and metadata. Decode.
  • the decoding processing unit 11 supplies the general-purpose high-frequency information obtained by demultiplexing and decoding the input bit stream to the personal high-frequency information generation unit 121, and supplies the object position information and the object signal to the rendering processing unit 12. Supply.
  • the input bit stream contains general-purpose high-frequency information corresponding to the output of the virtualize processing unit 13 when the virtualize processing unit 13 performs HRTF processing using the general-purpose HRTF coefficient. That is, the general-purpose high-frequency information is high-frequency information for band expansion of the HRTF output signal obtained by performing HRTF processing using the general-purpose HRTF coefficient.
  • the rendering processing unit 12 performs rendering processing such as VBAP based on the object position information and the object signal supplied from the decoding processing unit 11, and supplies the virtual speaker signal obtained as a result to the virtualization processing unit 13.
  • the virtualization processing unit 13 is based on the virtual speaker signal supplied from the rendering processing unit 12 and the personal HRTF coefficient corresponding to the transfer function given in advance, which is supplied from the HRTF coefficient recording unit 122.
  • the HRTF process is performed as the rise process, and the audio signal obtained as a result is supplied to the band expansion unit 41.
  • the convolution processing of the virtual speaker signal for each virtual speaker and the personal HRTF coefficient, and the addition processing of adding the signals obtained by the convolution processing for each virtual speaker are performed.
  • the HRTF output signal is a drive signal obtained by subjecting an object signal to signal processing such as rendering processing and virtualization processing to drive a playback device such as headphones to output sound.
  • the object signal supplied from the decoding processing unit 11 to the rendering processing unit 12 is a low FS object signal having a sampling frequency of 48 kHz.
  • the virtual speaker signal supplied from the rendering processing unit 12 to the virtualizing processing unit 13 is also a signal having a sampling frequency of 48 kHz, and therefore the HRTF supplied from the virtualizing processing unit 13 to the band expansion unit 41.
  • the sampling frequency of the output signal is also 48kHz.
  • the rendering processing unit 12 and the virtualizing processing unit 13 perform signal processing including rendering processing and virtualizing processing based on the metadata (object position information), personal HRTF coefficient, and object signal, and perform HRTF. It can be said that it functions as a signal processing unit that generates an output signal.
  • the signal processing may include at least virtualization processing.
  • the personal high frequency information generation unit 121 is based on the general-purpose high frequency information supplied from the decoding processing unit 11 and the general-purpose HRTF coefficient and personal HRTF coefficient supplied from the HRTF coefficient recording unit 122. Is generated and supplied to the band expansion unit 41.
  • This personal high frequency information is high frequency information for band expansion of the HRTF output signal obtained by performing HRTF processing using the personal HRTF coefficient.
  • the HRTF coefficient recording unit 122 records (holds) a general-purpose HRTF coefficient or a personal HRTF coefficient that has been recorded in advance or acquired from an external device as needed.
  • the HRTF coefficient recording unit 122 supplies the recorded personal HRTF coefficient to the virtualization processing unit 13, and supplies the recorded general-purpose HRTF coefficient and personal HRTF coefficient to the personal high-frequency information generation unit 121. Or something.
  • the general-purpose HRTF coefficient is stored in advance in the recording area of the playback device, the general-purpose HRTF coefficient is also recorded in advance in the HRTF coefficient recording unit 122 of the signal processing device 101 that functions as the playback device in this example as well. Can be done.
  • the personal HRTF coefficient can be obtained from a server or the like on the network.
  • the signal processing device 101 itself that functions as a playback device or a terminal device such as a smartphone connected to the signal processing device 101 generates image data such as a user's face image and ear image by shooting.
  • image data such as a user's face image and ear image by shooting.
  • the signal processing device 101 transmits the image data obtained about the user to the server, and the server performs conversion processing on the held HRTF coefficient based on the image data received from the signal processing device 101, and the individual user.
  • HRTF coefficient for personal use is generated and transmitted to the signal processing device 101.
  • the HRTF coefficient recording unit 122 acquires and records the personal HRTF coefficient transmitted from the server and received by the signal processing device 101 in this way.
  • the band expansion unit 41 outputs by performing band expansion processing on the HRTF output signal supplied from the virtualization processing unit 13 based on the personal high frequency information supplied from the personal high frequency information generation unit 121. Generates an audio signal and outputs it to the subsequent stage.
  • the output audio signal obtained by the band expansion unit 41 is, for example, a signal having a sampling frequency of 96 kHz.
  • the personal high-frequency information generation unit 121 generates personal high-frequency information based on the general-purpose high-frequency information, the general-purpose HRTF coefficient, and the personal HRTF coefficient.
  • the general-purpose high-frequency information is multiplexed in the input bit stream, and the personal HRTF coefficient and the general-purpose HRTF coefficient acquired by the personal high-frequency information generation unit 121 by some method are used for personal use. High frequency information is generated.
  • the generation of personal high-frequency information by the personal high-frequency information generation unit 121 may be realized by any method, but as an example, a deep learning technique such as DNN (Deep Neural Network) is used. It can be realized.
  • DNN Deep Neural Network
  • the personal high frequency information generation unit 121 is based on the coefficients constituting the DNN generated in advance by machine learning, the general-purpose high frequency information to be input to the DNN, the general-purpose HRTF coefficient, and the personal HRTF coefficient. By performing calculations with a neural network), personal high-frequency information is generated.
  • the personal high frequency information generation unit 121 is configured as shown in FIG. 8, for example.
  • the personal high-frequency information generation unit 121 has an MLP (Multi-Layer Perceptron) 151, an MLP152, an RNN (Recurrent Neural Network) 153, a feature amount synthesis unit 154, and an MLP155.
  • MLP Multi-Layer Perceptron
  • RNN Recurrent Neural Network
  • MLP 151 is an MLP composed of three or more layers of non-linearly activated nodes, that is, an input layer, an output layer, and one or more hidden layers. MLP is one of the commonly used techniques in DNN.
  • the MLP 151 uses the general-purpose HRTF coefficient supplied from the HRTF coefficient recording unit 122 as a vector gh_in as an input of the MLP, and performs arithmetic processing based on the vector gh_in to obtain a vector gh_out which is data indicating some characteristics of the general-purpose HRTF coefficient. It is generated (calculated) and supplied to the feature amount synthesizing unit 154.
  • the vector gh_in that is the input of the MLP may be the general-purpose HRTF coefficient itself, or it may be a feature quantity obtained by performing some preprocessing on the general-purpose HRTF coefficient in order to reduce the computational resources of the subsequent stage. good.
  • the MLP152 is composed of the same MLP as the MLP151, and the personal HRTF coefficient supplied from the HRTF coefficient recording unit 122 is set as a vector ph_in as an input of the MLP, and the arithmetic processing based on the vector ph_in is performed to obtain the personal HRTF coefficient.
  • a vector ph_out which is data indicating some feature, is generated and supplied to the feature amount synthesizing unit 154.
  • the vector ph_in may also be the personal HRTF coefficient itself, or may be a feature quantity obtained by applying some kind of preprocessing to the personal HRTF coefficient.
  • the RNN153 is generally composed of, for example, an RNN composed of three layers, an input layer, a hidden layer, and an output layer.
  • the output of the hidden layer is fed back to the input of the hidden layer, and the RNN has a neural network structure suitable for time series data.
  • LSTM Long Short Term Memory
  • the RNN 153 is a vector ge_in (n) that inputs general-purpose high-frequency information supplied from the decoding processing unit 11, and performs arithmetic processing based on the vector ge_in (n) to show some features of the general-purpose high-frequency information.
  • the vector ge_out (n) is generated (calculated) and supplied to the feature amount synthesizing unit 154.
  • n in the vector ge_in (n) and the vector ge_out (n) represents the index of the time frame of the object signal.
  • a vector ge_in (n) for a plurality of frames is used to generate personal high frequency information for one frame.
  • the feature amount synthesizing unit 154 generates one vector co_out (n) by vector-connecting the vector gh_out supplied from MLP151, the vector ph_out supplied from MLP152, and the vector ge_out (n) supplied from RNN153. And supply to MLP155.
  • the vector co_out (n) may be generated by any other method.
  • the feature amount synthesis may be performed by a method called max-pooling so that the vector is synthesized into a compact size that can sufficiently express the features.
  • the MLP 155 is composed of, for example, an input layer, an output layer, and an MLP having one or more hidden layers, and performs arithmetic processing based on the vector co_out (n) supplied from the feature amount synthesizing unit 154, and the resulting vector is obtained.
  • pe_out (n) is supplied to the band expansion unit 41 as personal high frequency information.
  • the coefficients that make up MLP and RNN such as MLP151, MLP152, RNN153, and MLP155 that make up the DNN that functions as the personal high-frequency information generation unit 121 as described above are obtained by performing machine learning using teacher data in advance. Obtainable.
  • FIG. 9 shows an example of the syntax of the input bit stream supplied to the decoding processing unit 11, that is, an example of the format of the input bit stream.
  • number_objects indicates the total number of objects
  • object_compressed_data indicates an encoded (compressed) object signal
  • position_azimuth indicates the horizontal angle in the spherical coordinate system of the object
  • position_elevation indicates the vertical angle in the spherical coordinate system of the object
  • position_radius indicates the distance from the origin of the spherical coordinate system to the object ( Radius) is shown.
  • the information consisting of these horizontal angles, vertical angles, and distances is the object position information indicating the position of the object.
  • the input bitstream contains the encoded object signal and the object position information for the number of objects indicated by "num_objects".
  • number_output indicates the number of output channels, that is, the number of channels of the HRTF output signal
  • output_bwe_data indicates general-purpose high-frequency information. Therefore, in this example, general-purpose high-frequency information is stored for each channel of the HRTF output signal.
  • step S11 the decoding processing unit 11 performs demultiplexing and decoding processing on the supplied input bit stream, supplies the general-purpose high-frequency information obtained as a result to the personal high-frequency information generation unit 121, and at the same time, The object position information and the object signal are supplied to the rendering processing unit 12.
  • the general-purpose high-frequency information indicated by "output_bwe_data" shown in FIG. 9 is extracted from the input bit stream and supplied to the personal high-frequency information generation unit 121.
  • step S12 the rendering processing unit 12 performs rendering processing based on the object position information and the object signal supplied from the decoding processing unit 11, and supplies the virtual speaker signal obtained as a result to the virtualization processing unit 13.
  • VBAP or the like is performed as a rendering process.
  • step S13 the virtualization processing unit 13 performs the virtualization processing.
  • the HRTF process is performed as a virtualize process.
  • the virtualization processing unit 13 folds the virtual speaker signal of each virtual speaker supplied from the rendering processing unit 12 and the personal HRTF coefficient of each virtual speaker for each channel supplied from the HRTF coefficient recording unit 122.
  • the process of adding the resulting signal for each channel is performed as HRTF processing.
  • the virtualization processing unit 13 supplies the HRTF output signal obtained by the HRTF processing to the band expansion unit 41.
  • step S14 the personal high frequency information generation unit 121 is personalized based on the general-purpose high frequency information supplied from the decoding processing unit 11 and the general-purpose HRTF coefficient and personal HRTF coefficient supplied from the HRTF coefficient recording unit 122. High frequency information is generated and supplied to the band expansion unit 41.
  • step S14 personal high frequency information is generated by MLP 151 to MLP 155 of the personal high frequency information generation unit 121 constituting the DNN.
  • the MLP 151 performs arithmetic processing based on the general-purpose HRTF coefficient supplied from the HRTF coefficient recording unit 122, that is, the vector gh_in, and supplies the vector gh_out obtained as a result to the feature quantity synthesizing unit 154.
  • the MLP152 performs arithmetic processing based on the personal HRTF coefficient supplied from the HRTF coefficient recording unit 122, that is, the vector ph_in, and supplies the resulting vector ph_out to the feature amount synthesizing unit 154.
  • the RNN 153 performs arithmetic processing based on the general-purpose high frequency information supplied from the decoding processing unit 11, that is, the vector ge_in (n), and supplies the vector ge_out (n) obtained as a result to the feature amount synthesizing unit 154.
  • the feature amount synthesizing unit 154 vector-connects the vector gh_out supplied from MLP151, the vector ph_out supplied from MLP152, and the vector ge_out (n) supplied from RNN153, and the resulting vector co_out (n) is connected. ) Is supplied to MLP155.
  • the MLP 155 performs arithmetic processing based on the vector co_out (n) supplied from the feature amount synthesizing unit 154, and supplies the vector pe_out (n) obtained as a result to the band expansion unit 41 as personal high frequency information.
  • step S15 the band expansion unit 41 performs band expansion processing on the HRTF output signal supplied from the virtualize processing unit 13 based on the personal high frequency information supplied from the personal high frequency information generation unit 121. , The output audio signal obtained as a result is output to the subsequent stage. When the output audio signal is generated in this way, the signal generation process ends.
  • the signal processing device 101 generates personal high frequency information using the general-purpose high frequency information extracted (read) from the input bit stream, and uses the personal high frequency information to band. Performs extended processing to generate an output audio signal.
  • the processing load in the signal processing device 101 that is, the amount of calculation is reduced by performing the band expansion processing on the HRTF output signal having a low sampling frequency obtained by performing the rendering processing and the HRTF processing. Can be made to.
  • a high-quality output audio signal can be obtained by generating personal high-frequency information corresponding to the personal HRTF coefficient used for HRTF processing and performing band expansion processing.
  • the signal processing device 101 is a low-cost device, high-quality audio reproduction can be performed.
  • Such a learning device is configured, for example, as shown in FIG.
  • the learning device 201 includes a rendering processing unit 211, a personal HRTF processing unit 212, a personal high-frequency information calculation unit 213, a general-purpose HRTF processing unit 214, a general-purpose high-frequency information calculation unit 215, and a personal high-frequency information learning unit 216.
  • a rendering processing unit 211 a personal HRTF processing unit 212, a personal high-frequency information calculation unit 213, a general-purpose HRTF processing unit 214, a general-purpose high-frequency information calculation unit 215, and a personal high-frequency information learning unit 216.
  • the rendering processing unit 211 performs the same rendering processing as in the rendering processing unit 12 based on the supplied object position information and the object signal, and the virtual speaker signal obtained as a result is used by the personal HRTF processing unit 212 and the personal HRTF processing unit 212. It is supplied to the general-purpose HRTF processing unit 214.
  • the virtual speaker signal that is the output of the rendering processing unit 211 that is, the object signal that is the input of the rendering processing unit 211 is high. Region information must be included.
  • the HRTF output signal which is the output of the virtualization processing unit 13 of the signal processing device 101
  • the sampling frequency of the object signal input to the rendering processing unit 211 is 96 kHz or the like.
  • the rendering processing unit 211 performs rendering processing such as VBAP at a sampling frequency of 96 kHz, and generates a virtual speaker signal having a sampling frequency of 96 kHz.
  • the HRTF output signal which is the output of the virtualization processing unit 13, will be described as a signal having a sampling frequency of 48 kHz, but in the present technology, the sampling frequency of each signal is limited to this example. It's not a thing.
  • the sampling frequency of the HRTF output signal may be 44.1 kHz
  • the sampling frequency of the object signal input to the rendering processing unit 211 may be 88.2 kHz.
  • the personal HRTF processing unit 212 performs HRTF processing (hereinafter, also referred to as personal HRTF processing in particular) based on the supplied personal HRTF coefficient and the virtual speaker signal supplied from the rendering processing unit 211, and the result is The obtained personal HRTF output signal is supplied to the personal high frequency information calculation unit 213.
  • the personal HRTF output signal obtained by personal HRTF processing is a signal with a sampling frequency of 96 kHz.
  • the rendering processing unit 211 and the personal HRTF processing unit 212 are signals including rendering processing and virtualization processing (personal HRTF processing) based on metadata (object position information), personal HRTF coefficients, and object signals. It can be said that it functions as one signal processing unit that performs processing and generates a personal HRTF output signal.
  • the signal processing may include at least virtualization processing.
  • the personal high frequency information calculation unit 213 generates (calculates) personal high frequency information based on the personal HRTF output signal supplied from the personal HRTF processing unit 212, and learns the obtained personal high frequency information. It is supplied to the personal high-frequency information learning unit 216 as teacher data at the time.
  • the average amplitude value of each high frequency subband of the personal HRTF output signal is obtained as personal high frequency information.
  • the time frame of the high-frequency subband signal can be obtained by calculating the average amplitude value.
  • the general-purpose HRTF processing unit 214 performs HRTF processing (hereinafter, also referred to as a general-purpose HRTF processing in particular) based on the supplied general-purpose HRTF coefficient and the virtual speaker signal supplied from the rendering processing unit 211, and is obtained as a result.
  • the general-purpose HRTF output signal is supplied to the general-purpose high-frequency information calculation unit 215.
  • the general-purpose HRTF output signal is a signal with a sampling frequency of 96 kHz.
  • the rendering processing unit 211 and the general-purpose HRTF processing unit 214 perform signal processing including rendering processing and virtualization processing (general-purpose HRTF processing) based on metadata (object position information), general-purpose HRTF coefficient, and object signal. It can be said that it functions as one signal processing unit that generates a general-purpose HRTF output signal.
  • the signal processing may include at least virtualization processing.
  • the general-purpose high-frequency information calculation unit 215 generates (calculates) general-purpose high-frequency information based on the general-purpose HRTF output signal supplied from the general-purpose HRTF processing unit 214, and supplies it to the personal high-frequency information learning unit 216.
  • the general-purpose high-frequency information calculation unit 215 the same calculation as in the case of the personal high-frequency information calculation unit 213 is performed, and general-purpose high-frequency information is generated.
  • the input bit stream contains the same general-purpose high-frequency information obtained by the general-purpose high-frequency information calculation unit 215 as "output_bwe_data" shown in FIG.
  • the processing performed by the general-purpose HRTF processing unit 214 and the general-purpose high-frequency information calculation unit 215 is paired with the processing performed by the personal HRTF processing unit 212 and the personal high-frequency information calculation unit 213.
  • the processing is basically the same processing.
  • the input of the personal HRTF processing unit 212 is the personal HRTF coefficient
  • the input of the general-purpose HRTF processing unit 214 is the general-purpose HRTF coefficient. That is, only the input HRTF coefficients are different.
  • the personal high-frequency information learning unit 216 has the general-purpose HRTF coefficient and the personal HRTF coefficient supplied, the personal high-frequency information supplied from the personal high-frequency information calculation unit 213, and the general-purpose high-frequency information calculation unit 215. Learning (machine learning) is performed based on the supplied general-purpose high-frequency information, and the personal high-frequency information generation coefficient data obtained as a result is output.
  • the personal high frequency information learning unit 216 machine learning using personal high frequency information as teacher data is performed, and personal high frequency information is obtained from general-purpose HRTF coefficient, personal HRTF coefficient, and general-purpose high frequency information. Personal high frequency information generation coefficient data to be generated is generated.
  • each coefficient constituting the personal high frequency information generation coefficient data thus obtained is used in MLP151, MLP152, RNN153, and MLP155 of the personal high frequency information generation unit 121 in FIG. 8, it is based on the learning result. It is possible to generate personal high frequency information.
  • the learning process performed by the personal high-frequency information learning unit 216 is the vector pe_out (n) output as the processing result of the personal high-frequency information generation unit 121 and the personal high-frequency information as teacher data. It is done by evaluating the error with the vector tpe_out (n). That is, learning is performed so that the error between the vector pe_out (n) and the vector tpe_out (n) is minimized.
  • the initial value of the weighting coefficient of each element such as MLP151 that constitutes DNN is generally random, and the method of adjusting each coefficient according to the error evaluation is also an error such as BPTT (BackPropagationThroughTime).
  • BPTT BackPropagationThroughTime
  • Various methods based on the backpropagation method can be applied.
  • step S41 the rendering processing unit 211 performs rendering processing based on the supplied object position information and the object signal, and supplies the virtual speaker signal obtained as a result to the personal HRTF processing unit 212 and the general-purpose HRTF processing unit 214. do.
  • step S42 the personal HRTF processing unit 212 performs personal HRTF processing based on the supplied personal HRTF coefficient and the virtual speaker signal supplied from the rendering processing unit 211, and the personal HRTF obtained as a result.
  • the output signal is supplied to the personal high frequency information calculation unit 213.
  • step S43 the personal high frequency information calculation unit 213 calculates the personal high frequency information based on the personal HRTF output signal supplied from the personal HRTF processing unit 212, and teaches the obtained personal high frequency information. It is supplied as data to the personal high frequency information learning unit 216.
  • step S44 the general-purpose HRTF processing unit 214 performs general-purpose HRTF processing based on the supplied general-purpose HRTF coefficient and the virtual speaker signal supplied from the rendering processing unit 211, and the general-purpose HRTF output signal obtained as a result is general-purpose. It is supplied to the high frequency information calculation unit 215.
  • step S45 the general-purpose high-frequency information calculation unit 215 calculates general-purpose high-frequency information based on the general-purpose HRTF output signal supplied from the general-purpose HRTF processing unit 214, and supplies it to the personal high-frequency information learning unit 216.
  • step S46 the personal high-frequency information learning unit 216 calculates the general-purpose HRTF coefficient and the personal HRTF coefficient supplied, the personal high-frequency information supplied from the personal high-frequency information calculation unit 213, and the general-purpose high-frequency information calculation. Learning is performed based on the general-purpose high-frequency information supplied from the unit 215, and personal high-frequency information generation coefficient data is generated.
  • the learning device 201 performs learning based on the general-purpose HRTF coefficient, the personal HRTF coefficient, and the object signal, and generates the personal high-frequency information generation coefficient data.
  • the personal high frequency information generation unit 121 from the input general-purpose high-frequency information, general-purpose HRTF coefficient, and personal HRTF coefficient, appropriate personal high-frequency information corresponding to the personal HRTF coefficient is obtained. Can be obtained by prediction.
  • the encoder 301 shown in FIG. 13 includes an object position information coding unit 311, a downsuppler 312, an object signal coding unit 313, a rendering processing unit 314, a general-purpose HRTF processing unit 315, a general-purpose high-frequency information calculation unit 316, and a multiplexing unit 317. have.
  • the object signal of the object to be encoded and the object position information indicating the position of the object are input (supplied) to the encoder 301.
  • the object signal input to the encoder 301 is, for example, a signal having a sampling frequency of 96 kHz (FS96K object signal).
  • the object position information coding unit 311 encodes the input object position information and supplies it to the multiplexing unit 317.
  • the coded object position information for example, the coded object position information (object position data) including the horizontal angle “position_azimuth”, the vertical angle “position_elevation”, and the radius “position_radius” shown in FIG. 9 is obtained. can get.
  • the downsappler 312 performs downsampling processing, that is, band limitation, on an object signal whose input sampling frequency is 96 kHz, and object signal encodes an object signal (FS48K object signal) whose sampling frequency is 48 kHz as a result. Supply to unit 313.
  • the object signal coding unit 313 encodes the 48 kHz object signal supplied from the downsuppler 312 and supplies it to the multiplexing unit 317. As a result, for example, the "object_compressed_data" shown in FIG. 9 is obtained as an encoded object signal.
  • the coding method in the object signal coding unit 313 may be an MPEG-H Part 3: 3D audio standard coding method, or may be another coding method. That is, it suffices as long as the coding method in the object signal coding unit 313 and the decoding method in the decoding processing unit 11 correspond to each other (of the same standard).
  • the rendering processing unit 314 performs rendering processing such as VBAP based on the input object position information and the object signal of 96 kHz, and supplies the virtual speaker signal obtained as a result to the general-purpose HRTF processing unit 315.
  • the rendering process in the rendering process section 314 is not limited to VBAP but any other rendering process as long as it is the same process as in the rendering process section 12 of the signal processing device 101 on the decoding side (reproduction side). There may be.
  • the general-purpose HRTF processing unit 315 performs HRTF processing using the general-purpose HRTF coefficient on the virtual speaker signal supplied from the rendering processing unit 314, and calculates the 96 kHz general-purpose HRTF output signal obtained as a result for general-purpose high-frequency information calculation. Supply to unit 316.
  • the general-purpose HRTF processing unit 315 performs the same processing as the general-purpose HRTF processing in the general-purpose HRTF processing unit 214 of FIG.
  • the general-purpose high-frequency information calculation unit 316 calculates general-purpose high-frequency information based on the general-purpose HRTF output signal supplied from the general-purpose HRTF processing unit 315, compresses and encodes the obtained general-purpose high-frequency information, and multiplexes the multiplexing unit 317. Supply to.
  • the general-purpose high-frequency information generated by the general-purpose high-frequency information calculation unit 316 is, for example, the average amplitude information (average amplitude value) of each high-frequency subband shown in FIG.
  • the general-purpose high-frequency information calculation unit 316 performs filtering based on the bandpass filter bank on the input 96 kHz general-purpose HRTF output signal to obtain a high-frequency subband signal of each high-frequency subband. Then, the general-purpose high-frequency information calculation unit 316 generates general-purpose high-frequency information by calculating the average amplitude value of the time frame of each of those high-frequency subband signals.
  • output_bwe_data shown in FIG. 9 can be obtained as encoded general-purpose high-frequency information.
  • the multiplexing unit 317 includes coded object position information supplied from the object position information coding unit 311, coded object signal supplied from the object signal coding unit 313, and general-purpose high-frequency information calculation unit 316. Multiplexes the coded general-purpose high-frequency information supplied from.
  • the multiplexing unit 317 outputs an output bit stream obtained by multiplexing object position information, object signals, and general-purpose high-frequency information. This output bit stream is input to the signal processing device 101 as an input bit stream.
  • step S71 the object position information coding unit 311 encodes the input object position information and supplies it to the multiplexing unit 317.
  • step S72 the down supplement 312 downsamples the input object signal and supplies it to the object signal coding unit 313.
  • step S73 the object signal coding unit 313 encodes the object signal supplied from the downsupplier 312 and supplies it to the multiplexing unit 317.
  • step S74 the rendering processing unit 314 performs rendering processing based on the input object position information and the object signal, and supplies the virtual speaker signal obtained as a result to the general-purpose HRTF processing unit 315.
  • step S75 the general-purpose HRTF processing unit 315 performs HRTF processing using the general-purpose HRTF coefficient on the virtual speaker signal supplied from the rendering processing unit 314, and the general-purpose HRTF output signal obtained as a result is used as general-purpose high-frequency information. It is supplied to the calculation unit 316.
  • step S76 the general-purpose high-frequency information calculation unit 316 calculates general-purpose high-frequency information based on the general-purpose HRTF output signal supplied from the general-purpose HRTF processing unit 315, and compresses and encodes the obtained general-purpose high-frequency information to multiplex. It is supplied to the chemical unit 317.
  • the multiplexing unit 317 includes coded object position information supplied from the object position information coding unit 311, coded object signal supplied from the object signal coding unit 313, and general-purpose high-frequency information.
  • the coded general-purpose high frequency information supplied from the calculation unit 316 is multiplexed.
  • the multiplexing unit 317 outputs the output bit stream obtained by the multiplexing, and the coding process ends.
  • the encoder 301 calculates general-purpose high-frequency information and stores it in the output bit stream.
  • an HRTF output signal may be generated from an audio signal (hereinafter, also referred to as a channel signal) of each channel based channel, and the band of the HRTF output signal may be expanded.
  • the signal processing device 101 is not provided with the rendering processing unit 12, and the input bit stream contains the encoded channel signal.
  • the channel signal of each channel of the multi-channel configuration obtained by the decoding processing unit 11 performing demultiplexing and decoding processing on the input bit stream is supplied to the virtualization processing unit 13.
  • the channel signal of each of these channels corresponds to the virtual speaker signal of each virtual speaker.
  • the virtualization processing unit 13 convolves the channel signal supplied from the decoding processing unit 11 and the personal HRTF coefficient for each channel supplied from the HRTF coefficient recording unit 122, and adds the resulting signal. Process as HRTF process.
  • the virtualization processing unit 13 supplies the HRTF output signal obtained by such HRTF processing to the band expansion unit 41.
  • the learning device 201 is not provided with the rendering processing unit 211, and the sampling frequency is high, that is, the channel signal including high frequency information. Is supplied to the personal HRTF processing unit 212 and the general-purpose HRTF processing unit 214.
  • the rendering processing unit 12 may perform HOA (High Order Ambisonics) rendering processing.
  • HOA High Order Ambisonics
  • the rendering processing unit 12 performs rendering processing based on the ambisonic format supplied from the decoding processing unit 11, that is, the audio signal in the spherical harmonic region, and generates a virtual speaker signal in the spherical harmonic region. , Supply to the virtualize processing unit 13.
  • the virtualization processing unit 13 HRTF in the spherical harmonic region based on the virtual speaker signal in the spherical harmonic region supplied from the rendering processing unit 12 and the personal HRTF coefficient in the spherical harmonic region supplied from the HRTF coefficient recording unit 122. Processing is performed, and the HRTF output signal obtained as a result is supplied to the band expansion unit 41. At this time, the HRTF output signal in the spherical harmonic region may be supplied to the band expansion unit 41, or the HRTF output signal in the time region obtained by performing conversion or the like as necessary may be supplied to the band expansion unit 41. It may be supplied.
  • the encoder 301 since it is not necessary to multiplex the personal high frequency information in the input bit stream, the storage consumption of the server or the like, that is, the encoder 301 can be suppressed, and the encoding process (encoding) by the encoder 301 can be suppressed. It is also possible to suppress an increase in the processing time of the processing).
  • decoding processing, rendering processing, and virtualization processing can be performed at a low sampling frequency, and the amount of calculation can be significantly reduced.
  • a low-cost processor can be adopted, the power consumption of the processor can be reduced, and a mobile device such as a smartphone can continuously play a high-resolution sound source for a longer period of time. ..
  • the series of processes described above can be executed by hardware or software.
  • the programs constituting the software are installed on the computer.
  • the computer includes a computer embedded in dedicated hardware and, for example, a general-purpose personal computer capable of executing various functions by installing various programs.
  • FIG. 15 is a block diagram showing a configuration example of computer hardware that executes the above-mentioned series of processes programmatically.
  • the CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • An input / output interface 505 is further connected to the bus 504.
  • An input unit 506, an output unit 507, a recording unit 508, a communication unit 509, and a drive 510 are connected to the input / output interface 505.
  • the input unit 506 includes a keyboard, a mouse, a microphone, an image pickup device, and the like.
  • the output unit 507 includes a display, a speaker, and the like.
  • the recording unit 508 includes a hard disk, a non-volatile memory, and the like.
  • the communication unit 509 includes a network interface and the like.
  • the drive 510 drives a removable recording medium 511 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory.
  • the CPU 501 loads the program recorded in the recording unit 508 into the RAM 503 via the input / output interface 505 and the bus 504 and executes the above-mentioned series. Is processed.
  • the program executed by the computer (CPU501) can be recorded and provided on a removable recording medium 511 as a package medium or the like, for example.
  • the program can also be provided via a wired or wireless transmission medium such as a local area network, the Internet, or digital satellite broadcasting.
  • the program can be installed in the recording unit 508 via the input / output interface 505 by mounting the removable recording medium 511 in the drive 510. Further, the program can be received by the communication unit 509 and installed in the recording unit 508 via a wired or wireless transmission medium. In addition, the program can be pre-installed in the ROM 502 or the recording unit 508.
  • the program executed by the computer may be a program in which processing is performed in chronological order according to the order described in the present specification, in parallel, or at a necessary timing such as when a call is made. It may be a program in which processing is performed.
  • the embodiment of the present technology is not limited to the above-described embodiment, and various changes can be made without departing from the gist of the present technology.
  • this technology can take a cloud computing configuration in which one function is shared by multiple devices via a network and processed jointly.
  • each step described in the above flowchart can be executed by one device or shared by a plurality of devices.
  • the plurality of processes included in the one step can be executed by one device or shared by a plurality of devices.
  • this technology can also have the following configurations.
  • a decoding processing unit that demultiplexes the input bitstream into the first audio signal, the metadata of the first audio signal, and the first high frequency information for bandwidth expansion.
  • the first audio signal, the second audio signal obtained by performing signal processing based on the metadata, and the second high frequency information generated based on the first high frequency information A signal processing device including a band expansion unit that performs band expansion processing based on the above and generates an output audio signal.
  • the first high frequency information is high frequency information for band expansion of the second audio signal obtained by performing the signal processing using the first coefficient.
  • the second high-frequency information is high-frequency information for band expansion of the second audio signal obtained by performing the signal processing using the second coefficient.
  • the band expansion unit includes the second audio signal obtained by performing the signal processing based on the first audio signal, the metadata, and the second coefficient, and the second high frequency band.
  • the signal processing apparatus according to (2) which performs the band expansion processing based on the information.
  • the signal processing according to (3) wherein the high frequency information generation unit generates the second high frequency information based on the first high frequency information, the first coefficient, and the second coefficient.
  • the high-frequency information generation unit performs an operation based on a coefficient generated in advance by machine learning, the first high-frequency information, the first coefficient, and the second coefficient, thereby performing the second.
  • the signal processing apparatus which generates high-frequency information of.
  • the signal processing device according to (5), wherein the calculation is a calculation by a neural network.
  • the signal processing device according to any one of (3) to (6), wherein the first coefficient is a general-purpose coefficient and the second coefficient is a coefficient for each user.
  • the signal processing apparatus according to (7), wherein the first coefficient and the second coefficient are HRTF coefficients.
  • the signal processing apparatus according to any one of (3) to (8), further comprising a coefficient recording unit for recording the first coefficient.
  • the signal processing apparatus according to any one of (1) to (9), further comprising a signal processing unit that performs the signal processing to generate the second audio signal.
  • the signal processing apparatus according to (10), wherein the signal processing is a process including a virtualization process.
  • the signal processing apparatus according to (11), wherein the signal processing is a process including a rendering process.
  • the signal processing device according to any one of (1) to (12), wherein the first audio signal is an object signal of an audio object or a channel-based audio signal.
  • the signal processing device The input bitstream is demultiplexed into the first audio signal, the metadata of the first audio signal, and the first high frequency information for bandwidth expansion.
  • the first audio signal, the second audio signal obtained by performing signal processing based on the metadata, and the second high frequency information generated based on the first high frequency information A signal processing method that performs band expansion processing based on this and generates an output audio signal.
  • the input bitstream is demultiplexed into the first audio signal, the metadata of the first audio signal, and the first high frequency information for bandwidth expansion.
  • the first audio signal, the second audio signal obtained by performing signal processing based on the metadata, and the second high frequency information generated based on the first high frequency information A program that causes a computer to perform processing that includes steps to generate an output audio signal by performing band expansion processing based on the above.
  • a first high frequency information calculator that generates first high frequency information for bandwidth expansion based on a second audio signal generated by signal processing based on a first audio signal and a first coefficient.
  • the learning unit Based on the first coefficient, the second coefficient, the first high frequency information, and the second high frequency information, learning is performed using the second high frequency information as teacher data, and the first A learning device including a coefficient of 1, the second coefficient, and a high-frequency information learning unit that generates coefficient data for obtaining the second high-frequency information from the first high-frequency information.
  • the coefficient data is a coefficient constituting a neural network.
  • the first coefficient is a general-purpose coefficient and the second coefficient is a coefficient for each user.
  • the signal processing is a process including a virtualization process, and is a process including a virtualize process.
  • the learning device wherein the first coefficient and the second coefficient are HRTF coefficients.
  • the signal processing is a process including a rendering process.
  • the learning device according to any one of (16) to (19), wherein the first audio signal is an object signal of an audio object or a channel-based audio signal.
  • the learning device Based on the second audio signal generated by the signal processing based on the first audio signal and the first coefficient, the first high frequency information for band expansion is generated.
  • the second high frequency information for band expansion is generated.
  • the second coefficient, the first high frequency information, and the second high frequency information learning is performed using the second high frequency information as teacher data, and the first A learning method for generating coefficient data for obtaining the second high-frequency information from the coefficient of 1, the second coefficient, and the first high-frequency information.
  • the first high frequency information for band expansion is generated.
  • the second high frequency information for band expansion is generated.
  • learning is performed using the second high frequency information as teacher data, and the first A program that causes a computer to perform a process including a step of generating coefficient data for obtaining the second high frequency information from the coefficient of 1, the second coefficient, and the first high frequency information.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Stereophonic System (AREA)
  • Telephone Function (AREA)

Abstract

本技術は、低コストな装置でも高品質なオーディオ再生を行うことができるようにする信号処理装置および方法、学習装置および方法、並びにプログラムに関する。 信号処理装置は、入力ビットストリームを第1のオーディオ信号と、第1のオーディオ信号のメタデータと、帯域拡張のための第1の高域情報とに非多重化するデコード処理部と、第1のオーディオ信号およびメタデータに基づいて信号処理を行うことで得られた第2のオーディオ信号と、第1の高域情報に基づいて生成された第2の高域情報とに基づいて帯域拡張処理を行い、出力オーディオ信号を生成する帯域拡張部とを備える。本技術はスマートフォンに適用することができる。

Description

信号処理装置および方法、学習装置および方法、並びにプログラム
 本技術は、信号処理装置および方法、学習装置および方法、並びにプログラムに関し、特に、低コストな装置でも高品質なオーディオ再生を行うことができるようにした信号処理装置および方法、学習装置および方法、並びにプログラムに関する。
 従来、映画やゲーム等でオブジェクトオーディオ技術が使われ、オブジェクトオーディオを扱える符号化方式も開発されている。具体的には、例えば国際標準規格であるMPEG(Moving Picture Experts Group)-H Part 3:3D audio規格などが知られている(例えば、非特許文献1参照)。
 このような符号化方式では、従来の2チャネルステレオ方式や5.1チャネル等のマルチチャネルステレオ方式とともに、移動する音源等を独立したオーディオオブジェクト(以下、単にオブジェクトとも称する)として扱い、オーディオオブジェクトの信号データとともにオブジェクトの位置情報をメタデータとして符号化することが可能である。
 これにより、スピーカの数や配置の異なる様々な視聴環境で再生を行うことができる。また、従来の符号化方式では困難であった特定の音源の音の音量調整や、特定の音源の音に対するエフェクトの追加など、特定の音源の音を再生時に加工することが容易にできる。
 このような符号化方式では、復号側においてビットストリームに対するデコードが行われ、オブジェクトのオーディオ信号であるオブジェクト信号と、空間内におけるオブジェクトの位置を示すオブジェクト位置情報を含むメタデータとが得られる。
 そして、オブジェクト位置情報に基づいて、空間内に仮想的に配置された複数の各仮想スピーカにオブジェクト信号をレンダリングするレンダリング処理が行われる。例えば非特許文献1の規格では、レンダリング処理に3次元VBAP(Vector Based Amplitude Panning)(以下、単にVBAPと称する)と呼ばれる方式が用いられる。
 また、レンダリング処理により、各仮想スピーカに対応する仮想スピーカ信号が得られると、それらの仮想スピーカ信号に基づいてHRTF(Head Related Transfer Function)処理が行われる。このHRTF処理では、あたかも仮想スピーカから音が再生されているかのように実際のヘッドフォンやスピーカから音を出力させるための出力オーディオ信号が生成される。
 このようなオブジェクトオーディオを実際に再生する場合、空間上に実際のスピーカを多数配置できるときには、仮想スピーカ信号に基づく再生が行われる。また、多数のスピーカを配置することができず、ヘッドフォンやサウンドバーなどの少数のスピーカでオブジェクトオーディオを再生するときには、上述の出力オーディオ信号に基づく再生が行われる。
 一方で、近年、ストレージ価格の下落やネットワークの広帯域化により、サンプリング周波数が96kHz以上の、いわゆるハイレゾ音源、すなわちハイレゾリューション音源が楽しめるようになってきている。
 非特許文献1に記載の符号化方式では、ハイレゾ音源を効率的に符号化するための技術として、SBR(Spectral Band Replication)等の技術を用いることができる。
 例えばSBRにおいては、符号化側では、スペクトルの高域成分は符号化されずに、高域サブバンド信号の平均振幅情報が高域サブバンドの個数分だけ符号化されて伝送される。
 そして、復号側においては、低域サブバンド信号と、高域の平均振幅情報とに基づいて、低域成分と高域成分とが含まれる最終的な出力信号が生成される。これにより、より高品質なオーディオ再生を実現することができる。
 この手法では、人間は高域信号成分の位相変化には鈍感で、その周波数包絡の概形がもとの信号に近い場合、その差を知覚できないという聴覚特性が利用されており、このような手法は、一般的に帯域拡張技術として広く知られている。
INTERNATIONAL STANDARD ISO/IEC 23008-3 Second edition 2019-02 Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio
 ところで、上述のオブジェクトオーディオについて、レンダリング処理やHRTF処理と組み合わせて帯域拡張を行う場合、各オブジェクトのオブジェクト信号に対して帯域拡張処理が行われてから、レンダリング処理やHRTF処理が行われる。
 この場合、帯域拡張処理はオブジェクトの数だけ独立に行われるため、処理負荷、すなわち演算量が多くなってしまう。また、帯域拡張処理後には、帯域拡張により得られた、よりサンプリング周波数の高い信号を対象としてレンダリング処理やHRTF処理が行われるため、さらに処理負荷が増大してしまう。
 そうすると、低コストなプロセッサやバッテリの装置、すなわち演算処理能力が低い装置や、バッテリ容量が少ない装置など、低コストな装置では帯域拡張を行うことができず、結果として高品質なオーディオ再生を行うことができなくなってしまう。
 本技術は、このような状況に鑑みてなされたものであり、低コストな装置でも高品質なオーディオ再生を行うことができるようにするものである。
 本技術の第1の側面の信号処理装置は、入力ビットストリームを第1のオーディオ信号と、前記第1のオーディオ信号のメタデータと、帯域拡張のための第1の高域情報とに非多重化するデコード処理部と、前記第1のオーディオ信号および前記メタデータに基づいて信号処理を行うことで得られた第2のオーディオ信号と、前記第1の高域情報に基づいて生成された第2の高域情報とに基づいて帯域拡張処理を行い、出力オーディオ信号を生成する帯域拡張部とを備える。
 本技術の第1の側面の信号処理方法またはプログラムは、入力ビットストリームを第1のオーディオ信号と、前記第1のオーディオ信号のメタデータと、帯域拡張のための第1の高域情報とに非多重化し、前記第1のオーディオ信号および前記メタデータに基づいて信号処理を行うことで得られた第2のオーディオ信号と、前記第1の高域情報に基づいて生成された第2の高域情報とに基づいて帯域拡張処理を行い、出力オーディオ信号を生成するステップを含む。
 本技術の第1の側面においては、入力ビットストリームが第1のオーディオ信号と、前記第1のオーディオ信号のメタデータと、帯域拡張のための第1の高域情報とに非多重化され、前記第1のオーディオ信号および前記メタデータに基づいて信号処理を行うことで得られた第2のオーディオ信号と、前記第1の高域情報に基づいて生成された第2の高域情報とに基づいて帯域拡張処理が行われ、出力オーディオ信号が生成される。
 本技術の第2の側面の学習装置は、第1のオーディオ信号と第1の係数とに基づく信号処理により生成された第2のオーディオ信号に基づいて、帯域拡張のための第1の高域情報を生成する第1の高域情報計算部と、前記第1のオーディオ信号と第2の係数とに基づく前記信号処理により生成された第3のオーディオ信号に基づいて、帯域拡張のための第2の高域情報を生成する第2の高域情報計算部と、前記第1の係数、前記第2の係数、前記第1の高域情報、および前記第2の高域情報に基づいて、前記第2の高域情報を教師データとする学習を行い、前記第1の係数、前記第2の係数、および前記第1の高域情報から前記第2の高域情報を得るための係数データを生成する高域情報学習部とを備える。
 本技術の第2の側面の学習方法またはプログラムは、第1のオーディオ信号と第1の係数とに基づく信号処理により生成された第2のオーディオ信号に基づいて、帯域拡張のための第1の高域情報を生成し、前記第1のオーディオ信号と第2の係数とに基づく前記信号処理により生成された第3のオーディオ信号に基づいて、帯域拡張のための第2の高域情報を生成し、前記第1の係数、前記第2の係数、前記第1の高域情報、および前記第2の高域情報に基づいて、前記第2の高域情報を教師データとする学習を行い、前記第1の係数、前記第2の係数、および前記第1の高域情報から前記第2の高域情報を得るための係数データを生成するステップを含む。
 本技術の第2の側面においては、第1のオーディオ信号と第1の係数とに基づく信号処理により生成された第2のオーディオ信号に基づいて、帯域拡張のための第1の高域情報が生成され、前記第1のオーディオ信号と第2の係数とに基づく前記信号処理により生成された第3のオーディオ信号に基づいて、帯域拡張のための第2の高域情報が生成され、前記第1の係数、前記第2の係数、前記第1の高域情報、および前記第2の高域情報に基づいて、前記第2の高域情報を教師データとする学習が行われ、前記第1の係数、前記第2の係数、および前記第1の高域情報から前記第2の高域情報を得るための係数データが生成される。
出力オーディオ信号の生成について説明する図である。 VBAPについて説明する図である。 HRTF処理について説明する図である。 帯域拡張処理について説明する図である。 帯域拡張処理について説明する図である。 信号処理装置の構成例を示す図である。 本技術を適用した信号処理装置の構成例を示す図である。 個人用高域情報生成部の構成例を示す図である。 入力ビットストリームのシンタックス例を示す図である。 信号生成処理を説明するフローチャートである。 学習装置の構成例を示す図である。 学習処理を説明するフローチャートである。 エンコーダの構成例を示す図である。 符号化処理を説明するフローチャートである。 コンピュータの構成例を示す図である。
 以下、図面を参照して、本技術を適用した実施の形態について説明する。
〈第1の実施の形態〉
〈本技術について〉
 本技術は、予めHRTF出力信号を対象とした帯域拡張処理のための汎用の高域情報をビットストリーム中に多重化して伝送するとともに、復号側において、個人用のHRTF係数と、汎用のHRTF係数および高域情報とに基づいて、個人用のHRTF係数に対応する高域情報を生成するようにした。
 これにより、処理負荷の高いデコード処理やレンダリング処理、バーチャライズ処理を低いサンプリング周波数で行い、その後、個人用のHRTF係数に対応する高域情報に基づいて帯域拡張処理を行うようにすることができ、全体として演算量を低減させることができる。その結果、低コストな装置でも、より高いサンプリング周波数の出力オーディオ信号に基づく、高品質なオーディオ再生を行うことができる。
 特に、本技術では、復号側で個人用のHRTF係数に対応する高域情報を生成することで、符号化側でユーザ個人ごとに高域情報を用意する必要がなくなる。また、復号側では個人用のHRTF係数に対応する高域情報を生成することで、汎用の高域情報を用いる場合よりも、より高品質なオーディオ再生を行うことができる。
 それでは、以下、本技術について、より詳細に説明する。
 まず、MPEG-H Part 3:3D audio規格の符号化方式での符号化により得られたビットストリームに対して復号(デコード)を行い、オブジェクトオーディオの出力オーディオ信号を生成するときに行われる一般的な処理について説明する。
 例えば図1に示すように、符号化(エンコード)により得られた入力ビットストリームがデコード処理部11に入力されると、その入力ビットストリームに対して非多重化およびデコード処理が行われる。
 デコード処理によって、コンテンツを構成するオブジェクト(オーディオオブジェクト)の音を再生するためのオーディオ信号であるオブジェクト信号と、そのオブジェクトの空間内の位置を示すオブジェクト位置情報を含むメタデータとが得られる。
 続いて、レンダリング処理部12では、メタデータに含まれるオブジェクト位置情報に基づいて、空間内に仮想的に配置された仮想スピーカにオブジェクト信号をレンダリングするレンダリング処理が行われ、各仮想スピーカから出力される音を再生するための仮想スピーカ信号が生成される。
 さらに、バーチャライズ処理部13では、各仮想スピーカの仮想スピーカ信号に基づいてバーチャライズ処理が行われ、ユーザが装着するヘッドフォンや実空間に配置されたスピーカなどの再生装置から音を出力させるための出力オーディオ信号が生成される。
 バーチャライズ処理とは、実際の再生環境でのチャネル構成とは異なるチャネル構成で再生が行われているかのようなオーディオ再生を実現するためのオーディオ信号を生成する処理である。
 例えば、この例では、実際にはヘッドフォン等の再生装置から音が出力されているのにもかかわらず、あたかも各仮想スピーカから音が出力されているかのようなオーディオ再生を実現するための出力オーディオ信号を生成する処理がバーチャライズ処理である。
 バーチャライズ処理は、どのような手法により実現されてもよいが、以下ではバーチャライズ処理としてHRTF処理が行われるものとして説明を続ける。
 バーチャライズ処理で得られた出力オーディオ信号に基づいて、実際のヘッドフォンやスピーカから音を出力すれば、あたかも仮想スピーカから音が再生されているかのようなオーディオ再生を実現することができる。なお、以下では、実空間に実際に配置されるスピーカを特に実スピーカとも称することとする。
 このようなオブジェクトオーディオを再生する場合、空間内に多数の実スピーカを配置できるときには、レンダリング処理の出力をそのまま実スピーカで再生することができる。
 これに対して、空間内に多数の実スピーカを配置できないときには、HRTF処理を行ってヘッドフォンや、サウンドバーなどの少数の実スピーカによって再生を行うことになる。一般的には、ヘッドフォンや少数の実スピーカによって再生を行うことが多い。
 ここで、一般的なレンダリング処理とHRTF処理について、さらに説明を行う。
 例えばレンダリング時には、上述したVBAPなどの所定の方式のレンダリング処理が行われる。VBAPは一般的にパニングと呼ばれるレンダリング手法の1つで、ユーザ位置を原点とする球表面上に存在する仮想スピーカのうち、同じく球表面上に存在するオブジェクトに最も近い3個の仮想スピーカに対しゲインを分配することでレンダリングを行うものである。
 例えば図2に示すように、3次元空間に受聴者であるユーザU11がおり、そのユーザU11の前方に3つの仮想スピーカSP1乃至仮想スピーカSP3が配置されているとする。
 ここでは、ユーザU11の頭部の位置を原点Oとし、その原点Oを中心とする球の表面上に仮想スピーカSP1乃至仮想スピーカSP3が位置しているとする。
 いま、球表面上における仮想スピーカSP1乃至仮想スピーカSP3に囲まれる領域TR11内にオブジェクトが存在しており、そのオブジェクトの位置VSP1に音像を定位させることを考えるとする。
 そのような場合、VBAPではオブジェクトについて、位置VSP1の周囲にある仮想スピーカSP1乃至仮想スピーカSP3に対してゲインが分配されることになる。
 具体的には、原点Oを基準(原点)とする3次元座標系において、原点Oを始点とし、位置VSP1を終点とする3次元のベクトルPにより位置VSP1を表すこととする。
 また、原点Oを始点とし、各仮想スピーカSP1乃至仮想スピーカSP3の位置を終点とする3次元のベクトルをベクトルL1乃至ベクトルL3とすると、ベクトルPは次式(1)に示すようにベクトルL1乃至ベクトルL3の線形和によって表すことができる。
Figure JPOXMLDOC01-appb-M000001
 ここで、式(1)においてベクトルL1乃至ベクトルL3に乗算されている係数g1乃至係数g3を算出し、これらの係数g1乃至係数g3を、仮想スピーカSP1乃至仮想スピーカSP3のそれぞれから出力する音のゲインとすれば、位置VSP1に音像を定位させることができる。
 例えば係数g1乃至係数g3を要素とするベクトルをg123=[g1,g2,g3]とし、ベクトルL1乃至ベクトルL3を要素とするベクトルをL123=[L1,L2,L3]とすると、上述した式(1)を変形して次式(2)を得ることができる。
Figure JPOXMLDOC01-appb-M000002
 このような式(2)を計算して求めた係数g1乃至係数g3をゲインとして用いて、オブジェクト信号に基づく音を各仮想スピーカSP1乃至仮想スピーカSP3から出力すれば、位置VSP1に音像を定位させることができる。
 なお、各仮想スピーカSP1乃至仮想スピーカSP3の配置位置は固定されており、それらの仮想スピーカの位置を示す情報は既知であるため、逆行列であるL123 -1は事前に求めておくことができる。
 図2に示した球表面上における、3個の仮想スピーカにより囲まれる三角形の領域TR11はメッシュと呼ばれている。空間内に配置された多数の仮想スピーカを組み合わせて複数のメッシュを構成することで、オブジェクトの音を空間内の任意の位置に定位させることが可能である。
 このように、各オブジェクトに対して仮想スピーカのゲインが求められると、次式(3)の演算を行うことで、各仮想スピーカの仮想スピーカ信号を得ることができる。
Figure JPOXMLDOC01-appb-M000003
 なお、式(3)においてSP(m,t)は、M個の仮想スピーカのうちのm番目(但し、m=0,1,…,M-1)の仮想スピーカの時刻tにおける仮想スピーカ信号を示している。また、式(3)においてS(n,t)はN個のオブジェクトのうちのn番目(但し、n=0,1,…,N-1)のオブジェクトの時刻tにおけるオブジェクト信号を示している。
 さらに式(3)においてG(m,n)は、m番目の仮想スピーカについての仮想スピーカ信号SP(m,t)を得るための、n番目のオブジェクトのオブジェクト信号S(n,t)に乗算されるゲインを示している。すなわち、ゲインG(m,n)は、上述した式(2)により求められた、n番目のオブジェクトについてのm番目の仮想スピーカに分配されたゲインを示している。
 レンダリング処理では、この式(3)の計算が最も計算コストがかかる処理となる。すなわち、式(3)の演算が最も演算量の多い処理となる。
 次に、式(3)の演算により得られた仮想スピーカ信号に基づく音をヘッドフォンまたは少数の実スピーカで再生する場合に行われるHRTF処理の例について図3を参照して説明する。なお、図3では説明を簡単にするため、2次元の水平面上に仮想スピーカが配置された例となっている。
 図3では、空間内に5個の仮想スピーカSP11-1乃至仮想スピーカSP11-5が円形状に並べられて配置されている。以下、仮想スピーカSP11-1乃至仮想スピーカSP11-5を特に区別する必要のない場合、単に仮想スピーカSP11とも称することとする。
 また、図3では5個の仮想スピーカSP11に囲まれる位置、すなわち仮想スピーカSP11が配置された円の中心位置に受聴者であるユーザU21が位置している。したがって、HRTF処理では、あたかもユーザU21が各仮想スピーカSP11から出力される音を聞いているかのようなオーディオ再生を実現するための出力オーディオ信号が生成される。
 特に、この例ではユーザU21がいる位置を聴取位置として、5個の各仮想スピーカSP11へのレンダリングにより得られた仮想スピーカ信号に基づく音をヘッドフォンにより再生することとする。
 そのような場合、例えば仮想スピーカ信号に基づいて仮想スピーカSP11-1から出力(放射)された音は矢印Q11に示す経路を通り、ユーザU21の左耳の鼓膜に到達する。そのため、仮想スピーカSP11-1から出力された音の特性は、仮想スピーカSP11-1からユーザU21の左耳までの空間伝達特性、ユーザU21の顔や耳の形状や反射吸収特性などにより変化するはずである。
 そこで、仮想スピーカSP11-1の仮想スピーカ信号に対して、仮想スピーカSP11-1からユーザU21の左耳までの空間伝達特性、およびユーザU21の顔や耳の形状、反射吸収特性などが加味された伝達関数H_L_SP11を畳み込めば、ユーザU21の左耳で聞こえるであろう仮想スピーカSP11-1からの音を再生する出力オーディオ信号を得ることができる。
 同様に、例えば仮想スピーカ信号に基づいて仮想スピーカSP11-1から出力された音は矢印Q12に示す経路を通り、ユーザU21の右耳の鼓膜に到達する。したがって、仮想スピーカSP11-1の仮想スピーカ信号に対して、仮想スピーカSP11-1からユーザU21の右耳までの空間伝達特性、およびユーザU21の顔や耳の形状、反射吸収特性などが加味された伝達関数H_R_SP11を畳み込めば、ユーザU21の右耳で聞こえるであろう仮想スピーカSP11-1からの音を再生する出力オーディオ信号を得ることができる。
 これらのことから、最終的に5個の仮想スピーカSP11の仮想スピーカ信号に基づく音をヘッドフォンで再生するときには、左チャネルについては、各仮想スピーカ信号に対して、各仮想スピーカの左耳用の伝達関数を畳み込んで、その結果得られた各信号を足し合わせて左チャネルの出力オーディオ信号とすればよい。
 同様に、右チャネルについては、各仮想スピーカ信号に対して、各仮想スピーカの右耳用の伝達関数を畳み込んで、その結果得られた各信号を足し合わせて右チャネルの出力オーディオ信号とすればよい。
 なお、再生に用いる再生装置がヘッドフォンではなく実スピーカである場合にも、ヘッドフォンにおける場合と同様のHRTF処理が行われる。しかし、この場合にはスピーカからの音は空間伝搬によりユーザの左右の両耳に到達するため、クロストークが考慮された処理が行われることになる。このような処理はトランスオーラル処理とも呼ばれている。
 一般的には周波数表現された左耳用、つまり左チャネルの出力オーディオ信号をL(ω)とし、周波数表現された右耳用、つまり右チャネルの出力オーディオ信号をR(ω)とすると、これらのL(ω)およびR(ω)は次式(4)を計算することで得ることができる。
Figure JPOXMLDOC01-appb-M000004
 なお、式(4)においてωは周波数を示しており、SP(m,ω)はM個の仮想スピーカのうちのm番目(但し、m=0,1,…,M-1)の仮想スピーカの周波数ωの仮想スピーカ信号を示している。仮想スピーカ信号SP(m,ω)は、上述した仮想スピーカ信号SP(m,t)を時間周波数変換することにより得ることができる。
 また、式(4)においてH_L(m,ω)は、左チャネルの出力オーディオ信号L(ω)を得るための、m番目の仮想スピーカについての仮想スピーカ信号SP(m,ω)に乗算される左耳用の伝達関数を示している。同様にH_R(m,ω)は右耳用の伝達関数を示している。
 これらのHRTFの伝達関数H_L(m,ω)や伝達関数H_R(m,ω)を時間領域のインパルス応答として表現する場合、少なくとも1秒程度の長さが必要となる。そのため、例えば仮想スピーカ信号のサンプリング周波数が48kHzである場合には、48000タップの畳み込みを行わなければならず、伝達関数の畳み込みにFFT(Fast Fourier Transform)を用いた高速演算手法を用いてもなお多くの演算量が必要となる。
 以上のようにデコード処理、レンダリング処理、およびHRTF処理を行って出力オーディオ信号を生成し、ヘッドフォンや少数個の実スピーカを用いてオブジェクトオーディオを再生する場合、多くの演算量が必要となる。また、この演算量はオブジェクトの数が増えると、その分だけさらに多くなる。
 次に、帯域拡張処理について説明する。
 一般的な帯域拡張処理、すなわちSBRでは、符号化側において、オーディオ信号のスペクトルの高域成分は符号化されずに、高域の周波数帯域である高域サブバンドの高域サブバンド信号の平均振幅情報が高域サブバンドの個数分符号化され、復号側へと伝送される。
 また、復号側では、デコード処理(復号)により得られたオーディオ信号である低域サブバンド信号が、その平均振幅で正規化された後、正規化された信号が高域サブバンドへとコピー(複製)される。そして、その結果得られた信号に各高域サブバンドの平均振幅情報が乗算されて高域サブバンド信号とされ、低域サブバンド信号と高域サブバンド信号とがサブバンド合成されて、最終的な出力オーディオ信号とされる。
 このような帯域拡張処理により、例えばサンプリング周波数が96kHz以上のハイレゾ音源のオーディオ再生を行うことができる。
 しかし、例えば一般的なステレオのオーディオとは異なり、オブジェクトオーディオにおいてサンプリング周波数が96kHzの信号を処理する場合、SBR等の帯域拡張処理が行われるか否かによらず、復号により得られた96kHzのオブジェクト信号に対して、レンダリング処理やHRTF処理が行われることになる。そのため、オブジェクト数や仮想スピーカ数が多い場合、それらの処理の計算コストは莫大なものとなり、高性能のプロセッサと高い消費電力が必要となる。
 ここで、図4を参照して、オブジェクトオーディオにおいて帯域拡張により96kHzの出力オーディオ信号を得る場合に行われる処理例について説明する。なお、図4において図1における場合と対応する部分には同一の符号を付してあり、その説明は省略する。
 入力ビットストリームが供給されると、デコード処理部11で非多重化およびデコード処理が行われ、その結果得られたオブジェクト信号と、オブジェクトのオブジェクト位置情報および高域情報とが出力される。
 例えば高域情報は、符号化前のオブジェクト信号から得られる高域サブバンド信号の平均振幅情報である。
 換言すれば高域情報は、デコード処理で得られるオブジェクト信号に対応する、よりサンプリング周波数の高い符号化前のオブジェクト信号の高域側の各サブバンド成分の大きさを示す、帯域拡張のための帯域拡張情報である。なお、ここではSBRを例として説明を行っているため、帯域拡張情報として高域サブバンド信号の平均振幅情報が用いられているが、帯域拡張処理のための帯域拡張情報は、符号化前のオブジェクト信号の高域側の各サブバンドの振幅の代表値や、周波数包絡の形状を示す情報など、どのようなものであってもよい。
 また、ここでは、デコード処理により得られるオブジェクト信号は、例えばサンプリング周波数が48kHzのものであるとし、以下では、そのようなオブジェクト信号を低FSオブジェクト信号とも称することとする。
 デコード処理後、帯域拡張部41では、高域情報と低FSオブジェクト信号とに基づいて帯域拡張処理が行われ、よりサンプリング周波数の高いオブジェクト信号が得られる。この例では、帯域拡張処理により、例えばサンプリング周波数が96kHzであるオブジェクト信号が得られることとし、以下では、そのようなオブジェクト信号を高FSオブジェクト信号とも称することとする。
 また、レンダリング処理部12では、デコード処理により得られたオブジェクト位置情報と、帯域拡張処理により得られた高FSオブジェクト信号とに基づいてレンダリング処理が行われる。特に、この例ではレンダリング処理により、サンプリング周波数が96kHzである仮想スピーカ信号が得られ、以下では、そのような仮想スピーカ信号を高FS仮想スピーカ信号とも称する。
 さらに、その後、バーチャライズ処理部13において、高FS仮想スピーカ信号に基づいてHRTF処理等のバーチャライズ処理が行われ、サンプリング周波数が96kHzである出力オーディオ信号が得られる。
 ここで、図5を参照して、一般的な帯域拡張処理について説明する。
 図5は、所定のオブジェクト信号の周波数振幅特性を示している。なお、図5において縦軸は振幅(パワー)を示しており、横軸は周波数を示している。
 例えば折れ線L11は、帯域拡張部41に供給される低FSオブジェクト信号の周波数振幅特性を示している。この低FSオブジェクト信号は、サンプリング周波数が48kHzであり、低FSオブジェクト信号には24kHz以上の周波数帯域の信号成分は含まれていない。
 ここでは、例えば24kHzまでの周波数帯域が、低域サブバンドsb-8乃至低域サブバンドsb-1を含む複数の低域サブバンドに分割されており、それらの各低域サブバンドの信号成分が低域サブバンド信号である。同様に、24kHzから48kHzまでの周波数帯域が、高域サブバンドsb乃至高域サブバンドsb+13に分割されており、それらの各高域サブバンドの信号成分が高域サブバンド信号である。
 また、帯域拡張部41には、各高域サブバンドsb乃至高域サブバンドsb+13について、それらの高域サブバンドの平均振幅情報を示す高域情報が供給される。
 例えば図5では、直線L12は、高域サブバンドsbの高域情報として供給される平均振幅情報を示しており、直線L13は、高域サブバンドsb+1の高域情報として供給される平均振幅情報を示している。
 帯域拡張部41では、低域サブバンド信号が、その低域サブバンド信号の平均振幅値で正規化され、正規化により得られた信号が高域側へとコピー(マッピング)される。ここで、コピー元となる低域サブバンドと、その低域サブバンドのコピー先となる高域サブバンドは拡張周波数帯域等により予め定められている。
 例えば低域サブバンドsb-8の低域サブバンド信号が正規化され、正規化により得られた信号が、高域サブバンドsbへとコピーされる。
 より具体的には、低域サブバンドsb-8の低域サブバンド信号の正規化後の信号に対して変調処理が行われ、高域サブバンドsbの周波数成分の信号へと変換される。
 同様に、例えば低域サブバンドsb-7の低域サブバンド信号は、正規化後、高域サブバンドsb+1へとコピーされる。
 このようにして正規化された低域サブバンド信号が高域サブバンドへとコピー(マッピング)されると、各高域サブバンドのコピーされた信号に対し、それらの各高域サブバンドの高域情報により示される平均振幅情報が乗算され、高域サブバンド信号が生成される。
 例えば高域サブバンドsbでは、低域サブバンドsb-8の低域サブバンド信号を正規化して高域サブバンドsbへとコピーすることにより得られた信号に対して、直線L12により示される平均振幅情報が乗算され、高域サブバンドsbの高域サブバンド信号とされる。
 各高域サブバンドについて、高域サブバンド信号が得られると、その後、各低域サブバンド信号と、各高域サブバンド信号とが96kHzサンプリングの帯域合成フィルタに入力されてフィルタリング(合成)され、その結果得られた高FSオブジェクト信号が出力される。すなわち、サンプリング周波数が96kHzへとアップサンプリング(帯域拡張)された、高FSオブジェクト信号が得られる。
 図4に示した例では、帯域拡張部41において、以上のような高FSオブジェクト信号を生成する帯域拡張処理が、入力ビットストリームに含まれる低FSオブジェクト信号ごとに、すなわちオブジェクトごとに独立して行われる。
 したがって、例えばオブジェクト数が32個である場合、レンダリング処理部12では、32個の各オブジェクトについて、96kHzの高FSオブジェクト信号のレンダリング処理を行わなければならない。
 同様に、その後段のバーチャライズ処理部13においても、仮想スピーカ数分だけ、96kHzの高FS仮想スピーカ信号のHRTF処理(バーチャライズ処理)を行わなければならない。
 その結果、装置全体における処理負荷は莫大なものとなってしまう。これは、帯域拡張処理を行わず、デコード処理により得られるオーディオ信号のサンプリング周波数が96kHzである場合でも同様である。
 そこで、ハイレゾ、すなわち高いサンプリング周波数のバーチャライズ処理後の信号の高域情報を符号化時に予め計算し、入力ビットストリームに多重化して伝送することが考えられる。
 このようにすることで、例えば処理負荷の高いデコード処理、レンダリング処理、HRTF処理を低いサンプリング周波数で行い、HRTF処理後の最終的な信号に対して、伝送された高域情報に基づく帯域拡張処理を行うことができる。これにより、全体における処理負荷を低減させ、低コストなプロセッサやバッテリでも高品質なオーディオ再生を実現することができる。
 そのような場合、復号側の信号処理装置を、例えば図6に示す構成とすることができる。なお、図6において図4における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
 図6に示す信号処理装置71は、例えばスマートフォンやパーソナルコンピュータなどからなり、デコード処理部11、レンダリング処理部12、バーチャライズ処理部13、および帯域拡張部41を有している。
 図4に示した例ではデコード処理、帯域拡張処理、レンダリング処理、およびバーチャライズ処理の順で各処理が行われる。
 これに対して、信号処理装置71では、デコード処理、レンダリング処理、バーチャライズ処理、および帯域拡張処理の順に各処理(信号処理)が行われる。すなわち、帯域拡張処理が最後に行われる。
 したがって信号処理装置71では、まずデコード処理部11において入力ビットストリームの非多重化およびデコード処理が行われる。
 デコード処理部11は、非多重化およびデコード処理(復号処理)により得られた高域情報を帯域拡張部41に供給するとともに、オブジェクト位置情報およびオブジェクト信号をレンダリング処理部12に供給する。
 ここで、入力ビットストリームには、バーチャライズ処理部13の出力に対応した高域情報が含まれており、デコード処理部11は、その高域情報を帯域拡張部41に供給する。
 また、レンダリング処理部12では、デコード処理部11から供給されたオブジェクト位置情報およびオブジェクト信号に基づいてVBAP等のレンダリング処理が行われ、その結果得られた仮想スピーカ信号がバーチャライズ処理部13に供給される。
 バーチャライズ処理部13では、バーチャライズ処理としてHRTF処理が行われる。すなわち、バーチャライズ処理部13では、レンダリング処理部12から供給された仮想スピーカ信号と、事前に与えられた伝達関数に対応するHRTF係数とに基づく畳み込み処理と、その結果得られる信号を足し合わせる加算処理がHRTF処理として行われる。バーチャライズ処理部13は、HRTF処理により得られたオーディオ信号を帯域拡張部41に供給する。
 この例では、例えばデコード処理部11からレンダリング処理部12に供給されるオブジェクト信号は、サンプリング周波数が48kHzである低FSオブジェクト信号とされる。
 そのような場合、レンダリング処理部12からバーチャライズ処理部13に供給される仮想スピーカ信号もサンプリング周波数が48kHzである信号となるので、バーチャライズ処理部13から帯域拡張部41へと供給されるオーディオ信号のサンプリング周波数も48kHzとなる。
 以下では、バーチャライズ処理部13から帯域拡張部41へと供給されるオーディオ信号を、特に低FSオーディオ信号とも称することとする。このような低FSオーディオ信号は、オブジェクト信号に対してレンダリング処理やバーチャライズ処理等の信号処理を施すことにより得られた、ヘッドフォンや実スピーカなどの再生装置を駆動させて音を出力させる駆動信号である。
 帯域拡張部41は、デコード処理部11から供給された高域情報に基づいて、バーチャライズ処理部13から供給された低FSオーディオ信号に対して帯域拡張処理を行うことで出力オーディオ信号を生成し、後段に出力する。帯域拡張部41で得られる出力オーディオ信号は、例えばサンプリング周波数が96kHzである信号とされる。
 ところで、バーチャライズ処理としてのHRTF処理に用いられるHRTF係数は、受聴者であるユーザ個人の耳や顔の形状に大きく依存することがよく知られている。
 一般的な仮想サラウンド対応のヘッドフォンなどでは、ユーザ個人に適した個人用HRTF係数を取得することが困難であるため、平均的な耳や顔の形状のための汎用的なHRTF係数、すなわち、いわゆる汎用HRTF係数が多く用いられている。
 しかし、汎用のHRTF係数を用いた場合、個人用HRTF係数を用いた場合と比較して、音源の定位感や音質そのものが大きく劣ることが知られている。
 そのため、ユーザ個人に適したHRTF係数をより簡単に取得する測定方法なども提案されており、そのような測定手法は、例えば国際公開第2018/110269号などに詳細に記載されている。
 以下では、人の平均的な耳や顔の形状について測定または生成された、汎用的なHRTF係数を、特に汎用HRTF係数とも称することとする。
 また、以下、ユーザ個人について測定または生成された、ユーザ個人の耳や顔の形状に対応するHRTF係数、つまりユーザ個人ごとのHRTF係数を、特に個人用HRTF係数とも称することとする。
 なお、個人用HRTF係数は、ユーザ個人について測定または生成されたものに限らず、耳や顔の形状ごとなどに測定または生成された複数のHRTF係数のなかから、ユーザの大よその耳や顔の形状や年齢、性別等のユーザ個人に関する情報に基づいて選択された、ユーザ個人に適したHRTF係数であってもよい。
 以上のように、ユーザごとに、そのユーザに適したHRTF係数は異なる。
 例えば、図6に示した信号処理装置71のバーチャライズ処理部13で、個人用HRTF係数を利用することとすると、帯域拡張部41で利用される高域情報も個人用HRTF係数に対応したものとすることが望ましい。
 しかしながら、入力ビットストリームに含まれている高域情報は、汎用HRTF係数を用いてHRTF処理を行うことで得られるオーディオ信号に対して帯域拡張処理を行うことを想定したものである汎用高域情報となっている。
 そのため、個人用HRTF係数を用いてHRTF処理を行うことで得られるオーディオ信号に対して、入力ビットストリームに含まれている高域情報をそのまま用いて帯域拡張処理を行うと、得られる出力オーディオ信号に大きな音質劣化が生じてしまうことがある。
 一方で、予め個人用HRTF係数を用いることを前提とした、ユーザごと、つまり個人用HRTF係数ごとに生成した高域情報(個人用高域情報)を入力ビットストリームに格納して伝送することは運用上、容易ではない。
 これは、オブジェクトオーディオを再生するユーザ(個人)それぞれのために入力ビットストリームを用意したり、個人用HRTF係数ごとに、それらの個人用HRTF係数に対応する個人用高域情報を用意したりする必要があるからである。また、そのようにすると、オブジェクトオーディオ(入力ビットストリーム)を配信する側、つまり符号化側のサーバ等のストレージ容量も圧迫されてしまう。
 そこで、本技術では、汎用HRTF係数を前提とした汎用高域情報と、汎用HRTF係数と、個人用HRTF係数とを用いて、個人用高域情報を再生装置側(復号側)で生成するようにした。
 これにより、例えば処理負荷の高いデコード処理、レンダリング処理、HRTF処理を低いサンプリング周波数で行い、HRTF処理後の最終的な信号に対して、生成された個人用高域情報に基づく帯域拡張処理を行うことができるようになる。したがって、全体における処理負荷を低減させ、低コストなプロセッサやバッテリでも高品質なオーディオ再生を実現することができる。
〈信号処理装置の構成例〉
 図7は、本技術を適用した信号処理装置101の一実施の形態の構成例を示す図である。なお、図7において図6における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
 信号処理装置101は、例えばスマートフォンやパーソナルコンピュータなどからなり、デコード処理部11、レンダリング処理部12、バーチャライズ処理部13、個人用高域情報生成部121、HRTF係数記録部122、および帯域拡張部41を有している。
 信号処理装置101の構成は、新たに個人用高域情報生成部121およびHRTF係数記録部122を設けた点で信号処理装置71の構成と異なり、その他の点では信号処理装置71と同じ構成となっている。
 デコード処理部11は、図示せぬサーバ等から、オブジェクトオーディオの符号化されたオブジェクト信号や、オブジェクト位置情報等が含まれたメタデータ、汎用高域情報などが含まれている入力ビットストリームを取得(受信)する。
 入力ビットストリームに含まれている汎用高域情報は、基本的には信号処理装置71のデコード処理部11が取得する入力ビットストリームに含まれている高域情報と同じものとなっている。
 デコード処理部11は、受信するなどして取得した入力ビットストリームを、符号化されたオブジェクト信号やメタデータ、汎用高域情報に非多重化するとともに、符号化されているオブジェクト信号やメタデータをデコードする。
 デコード処理部11は、入力ビットストリームに対する非多重化およびデコード処理により得られた汎用高域情報を個人用高域情報生成部121に供給するとともに、オブジェクト位置情報およびオブジェクト信号をレンダリング処理部12に供給する。
 ここで、入力ビットストリームには、汎用HRTF係数を用いてバーチャライズ処理部13でHRTF処理を行ったときのバーチャライズ処理部13の出力に対応した汎用高域情報が含まれている。すなわち、汎用高域情報は、汎用HRTF係数を用いてHRTF処理を行うことで得られるHRTF出力信号の帯域拡張のための高域情報である。
 レンダリング処理部12は、デコード処理部11から供給されたオブジェクト位置情報およびオブジェクト信号に基づいてVBAP等のレンダリング処理を行い、その結果得られた仮想スピーカ信号をバーチャライズ処理部13に供給する。
 バーチャライズ処理部13は、レンダリング処理部12から供給された仮想スピーカ信号と、HRTF係数記録部122から供給された、事前に与えられた伝達関数に対応する個人用HRTF係数とに基づいて、バーチャライズ処理としてHRTF処理を行い、その結果得られたオーディオ信号を帯域拡張部41に供給する。
 例えばHRTF処理では、仮想スピーカごとの仮想スピーカ信号と個人用HRTF係数との畳み込み処理、およびそれらの仮想スピーカごとの畳み込み処理により得られた信号を足し合わせる加算処理が行われる。
 なお、以下、バーチャライズ処理部13でのHRTF処理により得られたオーディオ信号を、特にHRTF出力信号とも称することとする。HRTF出力信号は、オブジェクト信号に対してレンダリング処理やバーチャライズ処理等の信号処理を施すことにより得られた、ヘッドフォン等の再生装置を駆動させて音を出力させる駆動信号である。
 信号処理装置101では、例えばデコード処理部11からレンダリング処理部12に供給されるオブジェクト信号は、サンプリング周波数が48kHzである低FSオブジェクト信号とされる。
 そのような場合、レンダリング処理部12からバーチャライズ処理部13に供給される仮想スピーカ信号もサンプリング周波数が48kHzである信号となるので、バーチャライズ処理部13から帯域拡張部41へと供給されるHRTF出力信号のサンプリング周波数も48kHzとなる。
 信号処理装置101では、レンダリング処理部12およびバーチャライズ処理部13が、メタデータ(オブジェクト位置情報)や個人用HRTF係数、オブジェクト信号に基づいてレンダリング処理やバーチャライズ処理を含む信号処理を行い、HRTF出力信号を生成する信号処理部として機能するということができる。この場合、信号処理には、少なくともバーチャライズ処理が含まれていればよい。
 個人用高域情報生成部121は、デコード処理部11から供給された汎用高域情報と、HRTF係数記録部122から供給された汎用HRTF係数および個人用HRTF係数とに基づいて個人用高域情報を生成し、帯域拡張部41に供給する。
 この個人用高域情報は、個人用HRTF係数を用いてHRTF処理を行うことで得られるHRTF出力信号の帯域拡張のための高域情報である。
 HRTF係数記録部122は、予め記録されているか、または必要に応じて外部の装置から取得した汎用HRTF係数や個人用HRTF係数を記録(保持)する。
 HRTF係数記録部122は、記録している個人用HRTF係数をバーチャライズ処理部13に供給したり、記録している汎用HRTF係数および個人用HRTF係数を個人用高域情報生成部121に供給したりする。
 一般的に、汎用HRTF係数は予め再生装置の記録領域内に格納されているため、この例でも汎用HRTF係数が再生装置として機能する信号処理装置101のHRTF係数記録部122に予め記録されているようにすることができる。
 また、個人用HRTF係数は、ネットワーク上のサーバ等から取得されるようにすることができる。
 そのような場合、例えば再生装置として機能する信号処理装置101自身や、信号処理装置101に接続された、スマートフォン等の端末装置により、ユーザの顔画像や耳画像等の画像データが撮影により生成される。
 そして、信号処理装置101は、ユーザについて得られた画像データをサーバに送信し、サーバは信号処理装置101から受信した画像データに基づいて、保持しているHRTF係数に対する変換処理を行ってユーザ個人の個人用HRTF係数を生成し、信号処理装置101に送信する。HRTF係数記録部122は、このようにしてサーバから送信され、信号処理装置101により受信された個人用HRTF係数を取得し、記録する。
 帯域拡張部41は、個人用高域情報生成部121から供給された個人用高域情報に基づいて、バーチャライズ処理部13から供給されたHRTF出力信号に対して帯域拡張処理を行うことで出力オーディオ信号を生成し、後段に出力する。帯域拡張部41で得られる出力オーディオ信号は、例えばサンプリング周波数が96kHzである信号とされる。
〈個人用高域情報生成部の構成例〉
 上述のように、個人用高域情報生成部121では、汎用高域情報と、汎用HRTF係数と、個人用HRTF係数とに基づいて個人用高域情報が生成される。
 本来であれば、入力ビットストリーム内に個人用高域情報を多重化すべきであるが、そのようにすると、サーバ上で各ユーザの個人用の入力ビットストリームを保持することになり、サーバのストレージ容量の観点から好ましくない。
 したがって本技術では、入力ビットストリーム内には汎用高域情報が多重化され、何らかの方法により個人用高域情報生成部121により取得された個人用HRTF係数と汎用HRTF係数が用いられて、個人用高域情報が生成される。
 個人用高域情報生成部121での個人用高域情報の生成は、どのような方法により実現されてもよいが、一例として、例えばDNN(Deep Neural Network)のような深層学習技術を用いて実現することができる。
 ここで、個人用高域情報生成部121がDNNにより構成される場合を例として説明する。
 例えば個人用高域情報生成部121は、予め機械学習により生成されたDNNを構成する係数と、DNNの入力となる汎用高域情報、汎用HRTF係数、および個人用HRTF係数とに基づく、DNN(ニューラルネットワーク)による演算を行うことで、個人用高域情報を生成する。
 そのような場合、個人用高域情報生成部121は、例えば図8に示すように構成される。
 個人用高域情報生成部121は、MLP(Multi-Layer Perceptron)151、MLP152、RNN(Recurrent Neural Network)153、特徴量合成部154、およびMLP155を有している。
 MLP151は、非線形的に活性化されるノードの3つ以上の層、すなわち入力層と出力層と1つ以上の隠れ層とから構成されるMLPである。MLPはDNNにおいて一般的に用いられる技術の中の1つである。
 MLP151は、HRTF係数記録部122から供給された汎用HRTF係数をMLPの入力とするベクトルgh_inとし、ベクトルgh_inに基づく演算処理を行うことで、汎用HRTF係数の何らかの特徴を示すデータであるベクトルgh_outを生成(算出)し、特徴量合成部154に供給する。
 なお、MLPの入力となるベクトルgh_inは、汎用HRTF係数そのものでもよいし、後段の計算資源を削減するために、汎用HRTF係数に対して何らかの前処理を行うことで得られる特徴量であってもよい。
 MLP152は、MLP151と同様のMLPからなり、HRTF係数記録部122から供給された個人用HRTF係数をMLPの入力とするベクトルph_inとし、ベクトルph_inに基づく演算処理を行うことで、個人用HRTF係数の何らかの特徴を示すデータであるベクトルph_outを生成し、特徴量合成部154に供給する。
 なお、ベクトルph_inも個人用HRTF係数そのものであってもよいし、何らかの前処理を個人用HRTF係数に対して施すことにより得られる特徴量であってもよい。
 RNN153は、例えば一般的に入力層、隠れ層、出力層の3層で構成されるRNNからなる。このRNNでは、例えば隠れ層の出力が隠れ層の入力にフィードバックされるようになっており、RNNは、時系列のデータに対して適したニューラルネットワークの構造となっている。
 なお、ここでは個人用高域情報の生成にRNNを用いる例について説明するが、本技術は、個人用高域情報生成部121としてのDNNの構成に依存するものではなく、RNNに代えて、例えばより長期の時系列データに適したニューラルネットワークの構造であるLSTM(Long Short Term Memory)などを用いるようにしてもよい。
 RNN153は、デコード処理部11から供給された汎用高域情報を入力とするベクトルge_in(n)とし、ベクトルge_in(n)に基づく演算処理を行うことで、汎用高域情報の何らかの特徴を示すデータであるベクトルge_out(n)を生成(算出)し、特徴量合成部154に供給する。
 なお、ベクトルge_in(n)およびベクトルge_out(n)におけるnは、オブジェクト信号の時間フレームのインデックスを表している。特にRNN153では、1フレーム分の個人用高域情報を生成するために、複数フレーム分のベクトルge_in(n)が用いられる。
 特徴量合成部154は、MLP151から供給されたベクトルgh_out、MLP152から供給されたベクトルph_out、およびRNN153から供給されたベクトルge_out(n)をベクトル連結することで、1つのベクトルco_out(n)を生成し、MLP155に供給する。
 なお、ここでは特徴量合成部154における特徴量合成の手法としてベクトル連結を用いているが、これに限らず、他のどのような手法によりベクトルco_out(n)を生成してもよい。例えば特徴量合成部154において、max-poolingと呼ばれる手法により特徴量合成を行い、特徴が十分表現できるコンパクトなサイズにベクトルが合成されるようにしてもよい。
 MLP155は、例えば入力層、出力層、および1以上の隠れ層を有するMLPからなり、特徴量合成部154から供給されたベクトルco_out(n)に基づいて演算処理を行い、その結果得られたベクトルpe_out(n)を個人用高域情報として帯域拡張部41に供給する。
 以上のような個人用高域情報生成部121として機能するDNNを構成するMLP151、MLP152、RNN153、MLP155などのMLPやRNNを構成する係数は、事前に教師データを用いて機械学習を行うことにより得ることができる。
〈入力ビットストリームのシンタックス例〉
 信号処理装置101では、個人用高域情報の生成のために汎用高域情報が必要であり、入力ビットストリームには、汎用高域情報が格納されている。
 ここで、デコード処理部11に供給される入力ビットストリームのシンタックス例、すなわち入力ビットストリームのフォーマット例を図9に示す。
 図9において「num_objects」はオブジェクトの総数を示しており、「object_compressed_data」は符号化(圧縮)されたオブジェクト信号を示している。
 また、「position_azimuth」はオブジェクトの球面座標系における水平角度を示しており、「position_elevation」はオブジェクトの球面座標系における垂直角度を示しており、「position_radius」は球面座標系原点からオブジェクトまでの距離(半径)を示している。ここでは、これらの水平角度、垂直角度、および距離からなる情報がオブジェクトの位置を示すオブジェクト位置情報となっている。
 したがって、この例では、「num_objects」により示されるオブジェクト数分だけ、符号化されたオブジェクト信号、およびオブジェクト位置情報が入力ビットストリームに含まれている。
 また、図9において「num_output」は、出力チャネル数、つまりHRTF出力信号のチャネル数を示しており、「output_bwe_data」は汎用高域情報を示している。したがって、この例では、HRTF出力信号のチャネルごとに汎用高域情報が格納されている。
〈信号生成処理の説明〉
 次に、信号処理装置101の動作について説明する。すなわち、以下、図10のフローチャートを参照して、信号処理装置101による信号生成処理について説明する。
 ステップS11においてデコード処理部11は、供給された入力ビットストリームに対して非多重化およびデコード処理を行い、その結果得られた汎用高域情報を個人用高域情報生成部121に供給するとともに、オブジェクト位置情報およびオブジェクト信号をレンダリング処理部12に供給する。
 ここでは、例えば図9に示した「output_bwe_data」により示される汎用高域情報が入力ビットストリームから抽出され、個人用高域情報生成部121へと供給される。
 ステップS12においてレンダリング処理部12は、デコード処理部11から供給されたオブジェクト位置情報およびオブジェクト信号に基づいてレンダリング処理を行い、その結果得られた仮想スピーカ信号をバーチャライズ処理部13に供給する。例えばステップS12では、VBAP等がレンダリング処理として行われる。
 ステップS13においてバーチャライズ処理部13はバーチャライズ処理を行う。例えばステップS13では、HRTF処理がバーチャライズ処理として行われる。
 この場合、バーチャライズ処理部13は、レンダリング処理部12から供給された各仮想スピーカの仮想スピーカ信号と、HRTF係数記録部122から供給されたチャネルごとの各仮想スピーカの個人用HRTF係数とを畳み込んで、その結果得られた信号をチャネルごとに加算する処理をHRTF処理として行う。バーチャライズ処理部13は、HRTF処理により得られたHRTF出力信号を帯域拡張部41に供給する。
 ステップS14において個人用高域情報生成部121は、デコード処理部11から供給された汎用高域情報と、HRTF係数記録部122から供給された汎用HRTF係数および個人用HRTF係数とに基づいて個人用高域情報を生成し、帯域拡張部41に供給する。
 例えばステップS14では、DNNを構成する個人用高域情報生成部121のMLP151乃至MLP155により、個人用高域情報が生成される。
 具体的には、MLP151は、HRTF係数記録部122から供給された汎用HRTF係数、すなわちベクトルgh_inに基づいて演算処理を行い、その結果得られたベクトルgh_outを特徴量合成部154に供給する。
 MLP152は、HRTF係数記録部122から供給された個人用HRTF係数、すなわちベクトルph_inに基づいて演算処理を行い、その結果得られたベクトルph_outを特徴量合成部154に供給する。
 RNN153は、デコード処理部11から供給された汎用高域情報、すなわちベクトルge_in(n)に基づいて演算処理を行い、その結果得られたベクトルge_out(n)を特徴量合成部154に供給する。
 また、特徴量合成部154は、MLP151から供給されたベクトルgh_out、MLP152から供給されたベクトルph_out、およびRNN153から供給されたベクトルge_out(n)をベクトル連結し、その結果得られたベクトルco_out(n)をMLP155に供給する。
 MLP155は、特徴量合成部154から供給されたベクトルco_out(n)に基づいて演算処理を行い、その結果得られたベクトルpe_out(n)を個人用高域情報として帯域拡張部41に供給する。
 ステップS15において帯域拡張部41は、個人用高域情報生成部121から供給された個人用高域情報に基づいて、バーチャライズ処理部13から供給されたHRTF出力信号に対して帯域拡張処理を行い、その結果得られた出力オーディオ信号を後段に出力する。このようにして出力オーディオ信号が生成されると、信号生成処理は終了する。
 以上のようにして信号処理装置101は、入力ビットストリームから抽出された(読み出された)汎用高域情報を用いて個人用高域情報を生成し、その個人用高域情報を用いて帯域拡張処理を行って出力オーディオ信号を生成する。
 この場合、レンダリング処理やHRTF処理が行われて得られた、低いサンプリング周波数のHRTF出力信号に対して帯域拡張処理を行うようにすることで、信号処理装置101における処理負荷、すなわち演算量を低減させることができる。
 しかも、HRTF処理に用いられる個人用HRTF係数に対応する個人用高域情報を生成して帯域拡張処理を行うことで、高品質な出力オーディオ信号を得ることができる。
 したがって、信号処理装置101が低コストな装置であっても高品質なオーディオ再生を行うことができる。
〈学習装置の構成例〉
 次に、個人用高域情報生成部121としてのDNN(ニューラルネットワーク)を構成する係数、すなわちMLP151、MLP152、RNN153、およびMLP155を構成する係数を、個人用高域情報生成係数データとして生成する学習装置について説明する。
 そのような学習装置は、例えば図11に示すように構成される。
 学習装置201は、レンダリング処理部211、個人用HRTF処理部212、個人用高域情報計算部213、汎用HRTF処理部214、汎用高域情報計算部215、および個人用高域情報学習部216を有している。
 レンダリング処理部211は、供給されたオブジェクト位置情報とオブジェクト信号とに基づいて、レンダリング処理部12における場合と同様のレンダリング処理を行い、その結果得られた仮想スピーカ信号を個人用HRTF処理部212および汎用HRTF処理部214に供給する。
 なお、レンダリング処理部211の後段において、教師データとして個人用高域情報が必要となるため、レンダリング処理部211の出力である仮想スピーカ信号、すなわちレンダリング処理部211の入力となるオブジェクト信号には高域情報が含まれている必要がある。
 例えば、信号処理装置101のバーチャライズ処理部13の出力であるHRTF出力信号がサンプリング周波数48kHzの信号であるとすると、レンダリング処理部211に入力されるオブジェクト信号のサンプリング周波数は96kHzなどとされる。
 この場合、レンダリング処理部211では、サンプリング周波数96kHzでVBAP等のレンダリング処理が行われ、サンプリング周波数が96kHzである仮想スピーカ信号が生成される。
 なお、以下においては、バーチャライズ処理部13の出力であるHRTF出力信号がサンプリング周波数48kHzの信号であるものとして説明を行うが、本技術では、各信号のサンプリング周波数は、この例に制限されるものではない。例えばHRTF出力信号のサンプリング周波数が44.1kHzであり、レンダリング処理部211に入力されるオブジェクト信号のサンプリング周波数が88.2kHzであってもよい。
 個人用HRTF処理部212は、供給された個人用HRTF係数と、レンダリング処理部211から供給された仮想スピーカ信号とに基づいてHRTF処理(以下、特に個人用HRTF処理とも称する)を行い、その結果得られた個人用HRTF出力信号を個人用高域情報計算部213に供給する。個人用HRTF処理で得られる個人用HRTF出力信号は、サンプリング周波数が96kHzの信号である。
 この例では、レンダリング処理部211および個人用HRTF処理部212が、メタデータ(オブジェクト位置情報)や個人用HRTF係数、オブジェクト信号に基づいてレンダリング処理やバーチャライズ処理(個人用HRTF処理)を含む信号処理を行い、個人用HRTF出力信号を生成する1つの信号処理部として機能するということができる。この場合、信号処理には、少なくともバーチャライズ処理が含まれていればよい。
 個人用高域情報計算部213は、個人用HRTF処理部212から供給された個人用HRTF出力信号に基づいて個人用高域情報を生成(計算)し、得られた個人用高域情報を学習時の教師データとして個人用高域情報学習部216に供給する。
 例えば個人用高域情報計算部213では、図5を参照して説明したように、個人用HRTF出力信号の各高域サブバンドの平均振幅値が個人用高域情報として求められる。
 すなわち、サンプリング周波数が96kHzである個人用HRTF出力信号に対して、帯域通過フィルタバンクを適用して各高域サブバンドの高域サブバンド信号を生成した後、高域サブバンド信号の時間フレームの平均振幅値を計算することで個人用高域情報を得ることができる。
 汎用HRTF処理部214は、供給された汎用HRTF係数と、レンダリング処理部211から供給された仮想スピーカ信号とに基づいてHRTF処理(以下、特に汎用HRTF処理とも称する)を行い、その結果得られた汎用HRTF出力信号を汎用高域情報計算部215に供給する。汎用HRTF出力信号は、サンプリング周波数が96kHzの信号である。
 この例では、レンダリング処理部211および汎用HRTF処理部214が、メタデータ(オブジェクト位置情報)や汎用HRTF係数、オブジェクト信号に基づいてレンダリング処理やバーチャライズ処理(汎用HRTF処理)を含む信号処理を行い、汎用HRTF出力信号を生成する1つの信号処理部として機能するということができる。この場合、信号処理には、少なくともバーチャライズ処理が含まれていればよい。
 汎用高域情報計算部215は、汎用HRTF処理部214から供給された汎用HRTF出力信号に基づいて汎用高域情報を生成(計算)し、個人用高域情報学習部216に供給する。汎用高域情報計算部215では、個人用高域情報計算部213における場合と同様の計算が行われ、汎用高域情報が生成される。
 入力ビットストリームには、汎用高域情報計算部215で得られる汎用高域情報と同様のものが図9に示した「output_bwe_data」として含まれている。
 なお、汎用HRTF処理部214および汎用高域情報計算部215において行われる処理は、個人用HRTF処理部212および個人用高域情報計算部213において行われる処理と対をなすものであり、これらの処理は基本的には同じ処理である。
 これらの処理の違いは、個人用HRTF処理部212の入力が個人用HRTF係数であるのに対して、汎用HRTF処理部214の入力が汎用HRTF係数である点のみである。つまり、入力されるHRTF係数のみが異なっている。
 個人用高域情報学習部216は、供給された汎用HRTF係数および個人用HRTF係数と、個人用高域情報計算部213から供給された個人用高域情報と、汎用高域情報計算部215から供給された汎用高域情報とに基づいて学習(機械学習)を行い、その結果得られた個人用高域情報生成係数データを出力する。
 特に、個人用高域情報学習部216では、個人用高域情報を教師データとする機械学習が行われ、汎用HRTF係数、個人用HRTF係数、および汎用高域情報から、個人用高域情報を生成するための個人用高域情報生成係数データが生成される。
 このようにして得られた個人用高域情報生成係数データを構成する各係数を、図8の個人用高域情報生成部121のMLP151、MLP152、RNN153、およびMLP155で用いれば、学習結果に基づく個人用高域情報の生成が可能となる。
 例えば個人用高域情報学習部216で行われる学習処理は、個人用高域情報生成部121での処理結果として出力されるベクトルpe_out(n)と、教師データとしての個人用高域情報であるベクトルtpe_out(n)との誤差を評価することによって行われる。すなわち、ベクトルpe_out(n)とベクトルtpe_out(n)との誤差が最小となるように学習が行われる。
 DNNを構成するMLP151等の各要素の重み係数の初期値はランダムであるのが一般的であり、誤差評価に応じて各係数を調整する手法についてもBPTT(Back Propagation Through Time)のような誤差逆伝播法に基づく様々な手法を適用することができる。
〈学習処理の説明〉
 続いて、学習装置201の動作について説明する。すなわち、以下、図12のフローチャートを参照して、学習装置201による学習処理について説明する。
 ステップS41においてレンダリング処理部211は、供給されたオブジェクト位置情報とオブジェクト信号とに基づいてレンダリング処理を行い、その結果得られた仮想スピーカ信号を個人用HRTF処理部212および汎用HRTF処理部214に供給する。
 ステップS42において個人用HRTF処理部212は、供給された個人用HRTF係数と、レンダリング処理部211から供給された仮想スピーカ信号とに基づいて個人用HRTF処理を行い、その結果得られた個人用HRTF出力信号を個人用高域情報計算部213に供給する。
 ステップS43において個人用高域情報計算部213は、個人用HRTF処理部212から供給された個人用HRTF出力信号に基づいて個人用高域情報を計算し、得られた個人用高域情報を教師データとして個人用高域情報学習部216に供給する。
 ステップS44において汎用HRTF処理部214は、供給された汎用HRTF係数と、レンダリング処理部211から供給された仮想スピーカ信号とに基づいて汎用HRTF処理を行い、その結果得られた汎用HRTF出力信号を汎用高域情報計算部215に供給する。
 ステップS45において汎用高域情報計算部215は、汎用HRTF処理部214から供給された汎用HRTF出力信号に基づいて汎用高域情報を計算し、個人用高域情報学習部216に供給する。
 ステップS46において個人用高域情報学習部216は、供給された汎用HRTF係数および個人用HRTF係数と、個人用高域情報計算部213から供給された個人用高域情報と、汎用高域情報計算部215から供給された汎用高域情報とに基づいて学習を行い、個人用高域情報生成係数データを生成する。
 学習時には、汎用高域情報、汎用HRTF係数、および個人用HRTF係数を入力とし、教師データである個人用高域情報を出力とするDNNを実現するための個人用高域情報生成係数データが生成される。このようにして個人用高域情報生成係数データが生成されると、学習処理は終了する。
 以上のようにして学習装置201は、汎用HRTF係数や個人用HRTF係数、オブジェクト信号に基づいて学習を行い、個人用高域情報生成係数データを生成する。
 このようにすることで、個人用高域情報生成部121では、入力された汎用高域情報、汎用HRTF係数、および個人用HRTF係数から、個人用HRTF係数に対応する適切な個人用高域情報を予測により得ることができるようになる。
〈エンコーダの構成例〉
 続いて、図9に示したフォーマットの入力ビットストリームを生成するエンコーダ(符号化装置)について説明する。そのようなエンコーダは、例えば図13に示すように構成される。
 図13に示すエンコーダ301は、オブジェクト位置情報符号化部311、ダウンサプラ312、オブジェクト信号符号化部313、レンダリング処理部314、汎用HRTF処理部315、汎用高域情報計算部316、および多重化部317を有している。
 エンコーダ301には、符号化対象となるオブジェクトのオブジェクト信号と、そのオブジェクトの位置を示すオブジェクト位置情報とが入力(供給)される。
 ここでは、エンコーダ301に入力されるオブジェクト信号は、例えばサンプリング周波数が96kHzの信号(FS96Kオブジェクト信号)であるものとする。
 オブジェクト位置情報符号化部311は、入力されたオブジェクト位置情報を符号化し、多重化部317に供給する。
 これにより、符号化されたオブジェクト位置情報として、例えば図9に示した水平角度「position_azimuth」、垂直角度「position_elevation」、および半径「position_radius」からなる符号化されたオブジェクト位置情報(オブジェクト位置データ)が得られる。
 ダウンサプラ312は、入力されたサンプリング周波数が96kHzのオブジェクト信号に対してダウンサンプリング処理、すなわち帯域制限を行い、その結果得られたサンプリング周波数が48kHzであるオブジェクト信号(FS48Kオブジェクト信号)をオブジェクト信号符号化部313に供給する。
 オブジェクト信号符号化部313は、ダウンサプラ312から供給された48kHzのオブジェクト信号を符号化して多重化部317に供給する。これにより、例えば図9に示した「object_compressed_data」が符号化されたオブジェクト信号として得られる。
 なお、オブジェクト信号符号化部313での符号化方式は、MPEG-H Part 3:3D audio規格の符号化方式であってもよいし、その他の符号化方式であってもよい。すなわち、オブジェクト信号符号化部313での符号化方式とデコード処理部11での復号方式とが対応するもの(同一規格のもの)であればよい。
 レンダリング処理部314は、入力されたオブジェクト位置情報および96kHzのオブジェクト信号に基づいてVBAP等のレンダリング処理を行い、その結果得られた仮想スピーカ信号を汎用HRTF処理部315に供給する。
 なお、レンダリング処理部314でのレンダリング処理は、復号側(再生側)である信号処理装置101のレンダリング処理部12における場合と同じ処理であれば、VBAPに限らず他のどのようなレンダリング処理であってもよい。
 汎用HRTF処理部315は、レンダリング処理部314から供給された仮想スピーカ信号に対して、汎用HRTF係数を用いたHRTF処理を行い、その結果得られた96kHzの汎用HRTF出力信号を汎用高域情報計算部316に供給する。
 汎用HRTF処理部315では、図11の汎用HRTF処理部214における汎用HRTF処理と同様の処理が行われる。
 汎用高域情報計算部316は、汎用HRTF処理部315から供給された汎用HRTF出力信号に基づいて汎用高域情報を計算するとともに、得られた汎用高域情報を圧縮符号化し、多重化部317に供給する。
 汎用高域情報計算部316で生成される汎用高域情報は、例えば図5に示した各高域サブバンドの平均振幅情報(平均振幅値)である。
 例えば汎用高域情報計算部316は、入力された96kHzの汎用HRTF出力信号に対して帯域通過フィルタバンクに基づくフィルタリングを行って、各高域サブバンドの高域サブバンド信号を得る。そして、汎用高域情報計算部316は、それらの各高域サブバンド信号の時間フレームの平均振幅値を計算することにより、汎用高域情報を生成する。
 これにより、例えば図9に示した「output_bwe_data」が符号化された汎用高域情報として得られる。
 多重化部317は、オブジェクト位置情報符号化部311から供給された符号化されたオブジェクト位置情報、オブジェクト信号符号化部313から供給された符号化されたオブジェクト信号、および汎用高域情報計算部316から供給された符号化された汎用高域情報を多重化する。
 多重化部317は、オブジェクト位置情報やオブジェクト信号、汎用高域情報を多重化して得られた出力ビットストリームを出力する。この出力ビットストリームは、入力ビットストリームとして信号処理装置101に入力される。
〈符号化処理の説明〉
 次に、エンコーダ301の動作について説明する。すなわち、以下、図14のフローチャートを参照して、エンコーダ301による符号化処理について説明する。
 ステップS71においてオブジェクト位置情報符号化部311は、入力されたオブジェクト位置情報を符号化し、多重化部317に供給する。
 ステップS72においてダウンサプラ312は、入力されたオブジェクト信号をダウンサンプリングしてオブジェクト信号符号化部313に供給する。
 ステップS73においてオブジェクト信号符号化部313は、ダウンサプラ312から供給されたオブジェクト信号を符号化して多重化部317に供給する。
 ステップS74においてレンダリング処理部314は、入力されたオブジェクト位置情報およびオブジェクト信号に基づいてレンダリング処理を行い、その結果得られた仮想スピーカ信号を汎用HRTF処理部315に供給する。
 ステップS75において汎用HRTF処理部315は、レンダリング処理部314から供給された仮想スピーカ信号に対して、汎用HRTF係数を用いたHRTF処理を行い、その結果得られた汎用HRTF出力信号を汎用高域情報計算部316に供給する。
 ステップS76において汎用高域情報計算部316は、汎用HRTF処理部315から供給された汎用HRTF出力信号に基づいて汎用高域情報を計算するとともに、得られた汎用高域情報を圧縮符号化し、多重化部317に供給する。
 ステップS77において多重化部317は、オブジェクト位置情報符号化部311から供給された符号化されたオブジェクト位置情報、オブジェクト信号符号化部313から供給された符号化されたオブジェクト信号、および汎用高域情報計算部316から供給された符号化された汎用高域情報を多重化する。
 多重化部317は、多重化により得られた出力ビットストリームを出力し、符号化処理は終了する。
 以上のようにしてエンコーダ301は、汎用高域情報を計算し、出力ビットストリームに格納する。
 このようにすることで、出力ビットストリームの復号側においては、汎用高域情報を用いて個人用高域情報を生成することができる。これにより、復号側では、低コストな装置でも、高品質なオーディオ再生を行うことができるようになる。
 なお、以上においてはオーディオオブジェクトのオブジェクト信号から、帯域拡張の対象となるHRTF出力信号が生成される例について説明した。
 しかし、これに限らず、例えばチャネルベースの各チャネルのオーディオ信号(以下、チャネル信号とも称する)からHRTF出力信号を生成し、そのHRTF出力信号を帯域拡張するようにしてもよい。
 そのような場合、信号処理装置101にはレンダリング処理部12は設けられず、入力ビットストリームには、符号化されたチャネル信号が含まれている。
 そして、入力ビットストリームに対してデコード処理部11が非多重化およびデコード処理を行うことで得られたマルチチャネル構成の各チャネルのチャネル信号がバーチャライズ処理部13に供給される。これらの各チャネルのチャネル信号は、各仮想スピーカの仮想スピーカ信号に対応する。
 バーチャライズ処理部13は、デコード処理部11から供給されたチャネル信号と、HRTF係数記録部122から供給されたチャネルごとの個人用HRTF係数とを畳み込んで、その結果得られた信号を加算する処理をHRTF処理として行う。バーチャライズ処理部13は、このようなHRTF処理により得られたHRTF出力信号を帯域拡張部41へと供給する。
 また、信号処理装置101でチャネル信号からHRTF出力信号が生成される場合には、学習装置201には、レンダリング処理部211が設けられず、サンプリング周波数が高い、つまり高域情報が含まれるチャネル信号が個人用HRTF処理部212および汎用HRTF処理部214に供給される。
 その他、例えばレンダリング処理部12で、HOA(High Order Ambisonics)のレンダリング処理が行われるようにしてもよい。
 そのような場合、例えばレンダリング処理部12は、デコード処理部11から供給されたアンビソニックス形式、すなわち球面調和領域のオーディオ信号に基づいてレンダリング処理を行って、球面調和領域の仮想スピーカ信号を生成し、バーチャライズ処理部13に供給する。
 バーチャライズ処理部13は、レンダリング処理部12から供給された球面調和領域の仮想スピーカ信号と、HRTF係数記録部122から供給された球面調和領域の個人用HRTF係数とに基づいて球面調和領域でHRTF処理を行い、その結果得られたHRTF出力信号を帯域拡張部41に供給する。このとき、球面調和領域のHRTF出力信号が帯域拡張部41に供給されるようにしてもよいし、必要に応じて変換等を行うことで得られる時間領域のHRTF出力信号が帯域拡張部41に供給されるようにしてもよい。
 以上のように、本技術によれば、復号側(再生側)においてオブジェクト信号の高域情報ではなく、個人用HRTF処理後の信号に対する個人用高域情報を用いて帯域拡張処理を行うことができる。
 しかも、この場合、入力ビットストリームに個人用高域情報を多重化する必要がないので、サーバ等、つまりエンコーダ301のストレージ消費量を抑制することができ、かつエンコーダ301での符号化処理(エンコード処理)の処理時間の増加も抑制できる。
 また、再生装置側、つまり信号処理装置101側では、デコード処理やレンダリング処理、バーチャライズ処理を低いサンプリング周波数で行い、演算量を大幅に削減することができる。これにより、例えば低コストのプロセッサを採用したり、プロセッサの電力使用量を低減させたりすることができ、スマートフォンなどの携帯機器で、より長時間、ハイレゾ音源の連続再生を行うことが可能となる。
〈コンピュータの構成例〉
 ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
 図15は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
 コンピュータにおいて、CPU(Central Processing Unit)501,ROM(Read Only Memory)502,RAM(Random Access Memory)503は、バス504により相互に接続されている。
 バス504には、さらに、入出力インターフェース505が接続されている。入出力インターフェース505には、入力部506、出力部507、記録部508、通信部509、及びドライブ510が接続されている。
 入力部506は、キーボード、マウス、マイクロフォン、撮像素子などよりなる。出力部507は、ディスプレイ、スピーカなどよりなる。記録部508は、ハードディスクや不揮発性のメモリなどよりなる。通信部509は、ネットワークインターフェースなどよりなる。ドライブ510は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体511を駆動する。
 以上のように構成されるコンピュータでは、CPU501が、例えば、記録部508に記録されているプログラムを、入出力インターフェース505及びバス504を介して、RAM503にロードして実行することにより、上述した一連の処理が行われる。
 コンピュータ(CPU501)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体511に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
 コンピュータでは、プログラムは、リムーバブル記録媒体511をドライブ510に装着することにより、入出力インターフェース505を介して、記録部508にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部509で受信し、記録部508にインストールすることができる。その他、プログラムは、ROM502や記録部508に、あらかじめインストールしておくことができる。
 なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
 また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
 例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
 また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、本技術は、以下の構成とすることも可能である。
(1)
 入力ビットストリームを第1のオーディオ信号と、前記第1のオーディオ信号のメタデータと、帯域拡張のための第1の高域情報とに非多重化するデコード処理部と、
 前記第1のオーディオ信号および前記メタデータに基づいて信号処理を行うことで得られた第2のオーディオ信号と、前記第1の高域情報に基づいて生成された第2の高域情報とに基づいて帯域拡張処理を行い、出力オーディオ信号を生成する帯域拡張部と
 を備える信号処理装置。
(2)
 前記第1の高域情報に基づいて前記第2の高域情報を生成する高域情報生成部をさらに備える
 (1)に記載の信号処理装置。
(3)
 前記第1の高域情報は、第1の係数を用いて前記信号処理を行うことで得られる前記第2のオーディオ信号の帯域拡張のための高域情報であり、
 前記第2の高域情報は、第2の係数を用いて前記信号処理を行うことで得られる前記第2のオーディオ信号の帯域拡張のための高域情報であり、
 前記帯域拡張部は、前記第1のオーディオ信号、前記メタデータ、および前記第2の係数に基づいて前記信号処理を行うことで得られた前記第2のオーディオ信号と、前記第2の高域情報とに基づいて前記帯域拡張処理を行う
 (2)に記載の信号処理装置。
(4)
 前記高域情報生成部は、前記第1の高域情報、前記第1の係数、および前記第2の係数に基づいて、前記第2の高域情報を生成する
 (3)に記載の信号処理装置。
(5)
 前記高域情報生成部は、予め機械学習により生成された係数と、前記第1の高域情報、前記第1の係数、および前記第2の係数とに基づく演算を行うことで、前記第2の高域情報を生成する
 (3)または(4)に記載の信号処理装置。
(6)
 前記演算は、ニューラルネットワークによる演算である
 (5)に記載の信号処理装置。
(7)
 前記第1の係数は汎用の係数であり、前記第2の係数はユーザごとの係数である
 (3)乃至(6)の何れか一項に記載の信号処理装置。
(8)
 前記第1の係数および前記第2の係数はHRTF係数である
 (7)に記載の信号処理装置。
(9)
 前記第1の係数を記録する係数記録部をさらに備える
 (3)乃至(8)の何れか一項に記載の信号処理装置。
(10)
 前記信号処理を行って前記第2のオーディオ信号を生成する信号処理部をさらに備える
 (1)乃至(9)の何れか一項に記載の信号処理装置。
(11)
 前記信号処理は、バーチャライズ処理を含む処理である
 (10)に記載の信号処理装置。
(12)
 前記信号処理は、レンダリング処理を含む処理である
 (11)に記載の信号処理装置。
(13)
 前記第1のオーディオ信号は、オーディオオブジェクトのオブジェクト信号、またはチャネルベースのオーディオ信号である
 (1)乃至(12)の何れか一項に記載の信号処理装置。
(14)
 信号処理装置が、
 入力ビットストリームを第1のオーディオ信号と、前記第1のオーディオ信号のメタデータと、帯域拡張のための第1の高域情報とに非多重化し、
 前記第1のオーディオ信号および前記メタデータに基づいて信号処理を行うことで得られた第2のオーディオ信号と、前記第1の高域情報に基づいて生成された第2の高域情報とに基づいて帯域拡張処理を行い、出力オーディオ信号を生成する
 信号処理方法。
(15)
 入力ビットストリームを第1のオーディオ信号と、前記第1のオーディオ信号のメタデータと、帯域拡張のための第1の高域情報とに非多重化し、
 前記第1のオーディオ信号および前記メタデータに基づいて信号処理を行うことで得られた第2のオーディオ信号と、前記第1の高域情報に基づいて生成された第2の高域情報とに基づいて帯域拡張処理を行い、出力オーディオ信号を生成する
 ステップを含む処理をコンピュータに実行させるプログラム。
(16)
 第1のオーディオ信号と第1の係数とに基づく信号処理により生成された第2のオーディオ信号に基づいて、帯域拡張のための第1の高域情報を生成する第1の高域情報計算部と、
 前記第1のオーディオ信号と第2の係数とに基づく前記信号処理により生成された第3のオーディオ信号に基づいて、帯域拡張のための第2の高域情報を生成する第2の高域情報計算部と、
 前記第1の係数、前記第2の係数、前記第1の高域情報、および前記第2の高域情報に基づいて、前記第2の高域情報を教師データとする学習を行い、前記第1の係数、前記第2の係数、および前記第1の高域情報から前記第2の高域情報を得るための係数データを生成する高域情報学習部と
 を備える学習装置。
(17)
 前記係数データは、ニューラルネットワークを構成する係数である
 (16)に記載の学習装置。
(18)
 前記第1の係数は汎用の係数であり、前記第2の係数はユーザごとの係数である
 (16)または(17)に記載の学習装置。
(19)
 前記信号処理は、バーチャライズ処理を含む処理であり、
 前記第1の係数および前記第2の係数はHRTF係数である
 (18)に記載の学習装置。
(20)
 前記信号処理は、レンダリング処理を含む処理である
 (19)に記載の学習装置。
(21)
 前記第1のオーディオ信号は、オーディオオブジェクトのオブジェクト信号、またはチャネルベースのオーディオ信号である
 (16)乃至(19)の何れか一項に記載の学習装置。
(22)
 学習装置が、
 第1のオーディオ信号と第1の係数とに基づく信号処理により生成された第2のオーディオ信号に基づいて、帯域拡張のための第1の高域情報を生成し、
 前記第1のオーディオ信号と第2の係数とに基づく前記信号処理により生成された第3のオーディオ信号に基づいて、帯域拡張のための第2の高域情報を生成し、
 前記第1の係数、前記第2の係数、前記第1の高域情報、および前記第2の高域情報に基づいて、前記第2の高域情報を教師データとする学習を行い、前記第1の係数、前記第2の係数、および前記第1の高域情報から前記第2の高域情報を得るための係数データを生成する
 学習方法。
(23)
 第1のオーディオ信号と第1の係数とに基づく信号処理により生成された第2のオーディオ信号に基づいて、帯域拡張のための第1の高域情報を生成し、
 前記第1のオーディオ信号と第2の係数とに基づく前記信号処理により生成された第3のオーディオ信号に基づいて、帯域拡張のための第2の高域情報を生成し、
 前記第1の係数、前記第2の係数、前記第1の高域情報、および前記第2の高域情報に基づいて、前記第2の高域情報を教師データとする学習を行い、前記第1の係数、前記第2の係数、および前記第1の高域情報から前記第2の高域情報を得るための係数データを生成する
 ステップを含む処理をコンピュータに実行させるプログラム。
 11 デコード処理部, 12 レンダリング処理部, 13 バーチャライズ処理部, 41 帯域拡張部, 101 信号処理装置, 121 個人用高域情報生成部

Claims (20)

  1.  入力ビットストリームを第1のオーディオ信号と、前記第1のオーディオ信号のメタデータと、帯域拡張のための第1の高域情報とに非多重化するデコード処理部と、
     前記第1のオーディオ信号および前記メタデータに基づいて信号処理を行うことで得られた第2のオーディオ信号と、前記第1の高域情報に基づいて生成された第2の高域情報とに基づいて帯域拡張処理を行い、出力オーディオ信号を生成する帯域拡張部と
     を備える信号処理装置。
  2.  前記第1の高域情報に基づいて前記第2の高域情報を生成する高域情報生成部をさらに備える
     請求項1に記載の信号処理装置。
  3.  前記第1の高域情報は、第1の係数を用いて前記信号処理を行うことで得られる前記第2のオーディオ信号の帯域拡張のための高域情報であり、
     前記第2の高域情報は、第2の係数を用いて前記信号処理を行うことで得られる前記第2のオーディオ信号の帯域拡張のための高域情報であり、
     前記帯域拡張部は、前記第1のオーディオ信号、前記メタデータ、および前記第2の係数に基づいて前記信号処理を行うことで得られた前記第2のオーディオ信号と、前記第2の高域情報とに基づいて前記帯域拡張処理を行う
     請求項2に記載の信号処理装置。
  4.  前記高域情報生成部は、前記第1の高域情報、前記第1の係数、および前記第2の係数に基づいて、前記第2の高域情報を生成する
     請求項3に記載の信号処理装置。
  5.  前記高域情報生成部は、予め機械学習により生成された係数と、前記第1の高域情報、前記第1の係数、および前記第2の係数とに基づく演算を行うことで、前記第2の高域情報を生成する
     請求項3に記載の信号処理装置。
  6.  前記演算は、ニューラルネットワークによる演算である
     請求項5に記載の信号処理装置。
  7.  前記第1の係数は汎用の係数であり、前記第2の係数はユーザごとの係数である
     請求項3に記載の信号処理装置。
  8.  前記第1の係数および前記第2の係数はHRTF係数である
     請求項7に記載の信号処理装置。
  9.  前記信号処理を行って前記第2のオーディオ信号を生成する信号処理部をさらに備える
     請求項1に記載の信号処理装置。
  10.  前記信号処理は、バーチャライズ処理またはレンダリング処理を含む処理である
     請求項9に記載の信号処理装置。
  11.  前記第1のオーディオ信号は、オーディオオブジェクトのオブジェクト信号、またはチャネルベースのオーディオ信号である
     請求項1に記載の信号処理装置。
  12.  信号処理装置が、
     入力ビットストリームを第1のオーディオ信号と、前記第1のオーディオ信号のメタデータと、帯域拡張のための第1の高域情報とに非多重化し、
     前記第1のオーディオ信号および前記メタデータに基づいて信号処理を行うことで得られた第2のオーディオ信号と、前記第1の高域情報に基づいて生成された第2の高域情報とに基づいて帯域拡張処理を行い、出力オーディオ信号を生成する
     信号処理方法。
  13.  入力ビットストリームを第1のオーディオ信号と、前記第1のオーディオ信号のメタデータと、帯域拡張のための第1の高域情報とに非多重化し、
     前記第1のオーディオ信号および前記メタデータに基づいて信号処理を行うことで得られた第2のオーディオ信号と、前記第1の高域情報に基づいて生成された第2の高域情報とに基づいて帯域拡張処理を行い、出力オーディオ信号を生成する
     ステップを含む処理をコンピュータに実行させるプログラム。
  14.  第1のオーディオ信号と第1の係数とに基づく信号処理により生成された第2のオーディオ信号に基づいて、帯域拡張のための第1の高域情報を生成する第1の高域情報計算部と、
     前記第1のオーディオ信号と第2の係数とに基づく前記信号処理により生成された第3のオーディオ信号に基づいて、帯域拡張のための第2の高域情報を生成する第2の高域情報計算部と、
     前記第1の係数、前記第2の係数、前記第1の高域情報、および前記第2の高域情報に基づいて、前記第2の高域情報を教師データとする学習を行い、前記第1の係数、前記第2の係数、および前記第1の高域情報から前記第2の高域情報を得るための係数データを生成する高域情報学習部と
     を備える学習装置。
  15.  前記係数データは、ニューラルネットワークを構成する係数である
     請求項14に記載の学習装置。
  16.  前記第1の係数は汎用の係数であり、前記第2の係数はユーザごとの係数である
     請求項14に記載の学習装置。
  17.  前記信号処理は、バーチャライズ処理またはレンダリング処理を含む処理であり、
     前記第1の係数および前記第2の係数はHRTF係数である
     請求項16に記載の学習装置。
  18.  前記第1のオーディオ信号は、オーディオオブジェクトのオブジェクト信号、またはチャネルベースのオーディオ信号である
     請求項14に記載の学習装置。
  19.  学習装置が、
     第1のオーディオ信号と第1の係数とに基づく信号処理により生成された第2のオーディオ信号に基づいて、帯域拡張のための第1の高域情報を生成し、
     前記第1のオーディオ信号と第2の係数とに基づく前記信号処理により生成された第3のオーディオ信号に基づいて、帯域拡張のための第2の高域情報を生成し、
     前記第1の係数、前記第2の係数、前記第1の高域情報、および前記第2の高域情報に基づいて、前記第2の高域情報を教師データとする学習を行い、前記第1の係数、前記第2の係数、および前記第1の高域情報から前記第2の高域情報を得るための係数データを生成する
     学習方法。
  20.  第1のオーディオ信号と第1の係数とに基づく信号処理により生成された第2のオーディオ信号に基づいて、帯域拡張のための第1の高域情報を生成し、
     前記第1のオーディオ信号と第2の係数とに基づく前記信号処理により生成された第3のオーディオ信号に基づいて、帯域拡張のための第2の高域情報を生成し、
     前記第1の係数、前記第2の係数、前記第1の高域情報、および前記第2の高域情報に基づいて、前記第2の高域情報を教師データとする学習を行い、前記第1の係数、前記第2の係数、および前記第1の高域情報から前記第2の高域情報を得るための係数データを生成する
     ステップを含む処理をコンピュータに実行させるプログラム。
PCT/JP2021/030599 2020-09-03 2021-08-20 信号処理装置および方法、学習装置および方法、並びにプログラム WO2022050087A1 (ja)

Priority Applications (7)

Application Number Priority Date Filing Date Title
MX2023002255A MX2023002255A (es) 2020-09-03 2021-08-20 Dispositivo y método de procesamiento de señales, dispositivo y método de aprendizaje y programa.
JP2022546230A JPWO2022050087A1 (ja) 2020-09-03 2021-08-20
US18/023,183 US20230300557A1 (en) 2020-09-03 2021-08-20 Signal processing device and method, learning device and method, and program
BR112023003488A BR112023003488A2 (pt) 2020-09-03 2021-08-20 Dispositivos e métodos de processamento de sinal e de aprendizado, e, programa
KR1020237005227A KR20230060502A (ko) 2020-09-03 2021-08-20 신호 처리 장치 및 방법, 학습 장치 및 방법, 그리고 프로그램
CN202180052388.8A CN116018641A (zh) 2020-09-03 2021-08-20 信号处理装置和方法、学习装置和方法以及程序
EP21864145.4A EP4210048A4 (en) 2020-09-03 2021-08-20 SIGNAL PROCESSING APPARATUS AND METHOD, LEARNING APPARATUS AND METHOD AND PROGRAM

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020-148234 2020-09-03
JP2020148234 2020-09-03

Publications (1)

Publication Number Publication Date
WO2022050087A1 true WO2022050087A1 (ja) 2022-03-10

Family

ID=80490814

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/030599 WO2022050087A1 (ja) 2020-09-03 2021-08-20 信号処理装置および方法、学習装置および方法、並びにプログラム

Country Status (8)

Country Link
US (1) US20230300557A1 (ja)
EP (1) EP4210048A4 (ja)
JP (1) JPWO2022050087A1 (ja)
KR (1) KR20230060502A (ja)
CN (1) CN116018641A (ja)
BR (1) BR112023003488A2 (ja)
MX (1) MX2023002255A (ja)
WO (1) WO2022050087A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021261235A1 (ja) * 2020-06-22 2021-12-30 ソニーグループ株式会社 信号処理装置および方法、並びにプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015194666A (ja) * 2014-03-24 2015-11-05 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
JP2016529544A (ja) * 2013-07-22 2016-09-23 フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. ジョイント符号化残留信号を用いたオーディオエンコーダ、オーディオデコーダ、方法、およびコンピュータプログラム
WO2018110269A1 (ja) 2016-12-12 2018-06-21 ソニー株式会社 Hrtf測定方法、hrtf測定装置、およびプログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10038966B1 (en) * 2016-10-20 2018-07-31 Oculus Vr, Llc Head-related transfer function (HRTF) personalization based on captured images of user
KR102002681B1 (ko) * 2017-06-27 2019-07-23 한양대학교 산학협력단 생성적 대립 망 기반의 음성 대역폭 확장기 및 확장 방법
ES2965741T3 (es) * 2017-07-28 2024-04-16 Fraunhofer Ges Forschung Aparato para codificar o decodificar una señal multicanal codificada mediante una señal de relleno generada por un filtro de banda ancha
US10650806B2 (en) * 2018-04-23 2020-05-12 Cerence Operating Company System and method for discriminative training of regression deep neural networks
EP3827603A1 (en) * 2018-07-25 2021-06-02 Dolby Laboratories Licensing Corporation Personalized hrtfs via optical capture

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016529544A (ja) * 2013-07-22 2016-09-23 フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. ジョイント符号化残留信号を用いたオーディオエンコーダ、オーディオデコーダ、方法、およびコンピュータプログラム
JP2015194666A (ja) * 2014-03-24 2015-11-05 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
WO2018110269A1 (ja) 2016-12-12 2018-06-21 ソニー株式会社 Hrtf測定方法、hrtf測定装置、およびプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP4210048A4

Also Published As

Publication number Publication date
BR112023003488A2 (pt) 2023-04-11
MX2023002255A (es) 2023-05-16
CN116018641A (zh) 2023-04-25
KR20230060502A (ko) 2023-05-04
JPWO2022050087A1 (ja) 2022-03-10
EP4210048A1 (en) 2023-07-12
US20230300557A1 (en) 2023-09-21
EP4210048A4 (en) 2024-02-21

Similar Documents

Publication Publication Date Title
US20190149936A1 (en) Binaural decoder to output spatial stereo sound and a decoding method thereof
EP2962298B1 (en) Specifying spherical harmonic and/or higher order ambisonics coefficients in bitstreams
US9794686B2 (en) Controllable playback system offering hierarchical playback options
KR101723332B1 (ko) 회전된 고차 앰비소닉스의 바이노럴화
JP6612337B2 (ja) 高次アンビソニックオーディオデータのスケーラブルコーディングのためのレイヤのシグナリング
US9313599B2 (en) Apparatus and method for multi-channel signal playback
US9219972B2 (en) Efficient audio coding having reduced bit rate for ambient signals and decoding using same
US20150170657A1 (en) Multiplet-based matrix mixing for high-channel count multichannel audio
EP3204942B1 (en) Signaling channels for scalable coding of higher order ambisonic audio data
CN105340009A (zh) 声场的经分解表示的压缩
Cobos et al. An overview of machine learning and other data-based methods for spatial audio capture, processing, and reproduction
JP7447798B2 (ja) 信号処理装置および方法、並びにプログラム
WO2022050087A1 (ja) 信号処理装置および方法、学習装置および方法、並びにプログラム
CN102576531B (zh) 用于处理多信道音频信号的方法、设备
WO2021261235A1 (ja) 信号処理装置および方法、並びにプログラム
Wang Soundfield analysis and synthesis: recording, reproduction and compression.

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21864145

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022546230

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 202317005482

Country of ref document: IN

REG Reference to national code

Ref country code: BR

Ref legal event code: B01A

Ref document number: 112023003488

Country of ref document: BR

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2021864145

Country of ref document: EP

Effective date: 20230403

ENP Entry into the national phase

Ref document number: 112023003488

Country of ref document: BR

Kind code of ref document: A2

Effective date: 20230224