WO2022054602A1 - 音響処理装置および方法、並びにプログラム - Google Patents

音響処理装置および方法、並びにプログラム Download PDF

Info

Publication number
WO2022054602A1
WO2022054602A1 PCT/JP2021/031449 JP2021031449W WO2022054602A1 WO 2022054602 A1 WO2022054602 A1 WO 2022054602A1 JP 2021031449 W JP2021031449 W JP 2021031449W WO 2022054602 A1 WO2022054602 A1 WO 2022054602A1
Authority
WO
WIPO (PCT)
Prior art keywords
speaker
processing unit
rendering
audio signal
band
Prior art date
Application number
PCT/JP2021/031449
Other languages
English (en)
French (fr)
Inventor
実 辻
徹 知念
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Priority to US18/023,882 priority Critical patent/US20230336913A1/en
Priority to CN202180053759.4A priority patent/CN116114267A/zh
Priority to EP21866561.0A priority patent/EP4213505A4/en
Priority to BR112023003964A priority patent/BR112023003964A2/pt
Priority to KR1020237005842A priority patent/KR20230062814A/ko
Priority to MX2023002587A priority patent/MX2023002587A/es
Priority to JP2022547497A priority patent/JPWO2022054602A1/ja
Publication of WO2022054602A1 publication Critical patent/WO2022054602A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R29/00Monitoring arrangements; Testing arrangements
    • H04R29/001Monitoring arrangements; Testing arrangements for loudspeakers
    • H04R29/002Loudspeaker arrays
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/307Frequency adjustment, e.g. tone control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/12Circuits for transducers, loudspeakers or microphones for distributing signals to two or more loudspeakers
    • H04R3/14Cross-over networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/07Generation or adaptation of the Low Frequency Effect [LFE] channel, e.g. distribution or signal processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/07Synergistic effects of band splitting and sub-band processing

Definitions

  • the present technology relates to sound processing devices and methods, and programs, and in particular, to sound processing devices, methods, and programs that enable higher-quality audio reproduction.
  • audio data is composed of a waveform signal (audio signal) with respect to an object and metadata showing localization information indicating the relative position of the object as seen from a predetermined reference viewing point (listening position). .. Then, based on the metadata, the waveform signal is rendered to a desired number of channels by, for example, VBAP (Vector Based Amplitude Panning), and reproduced (see, for example, Non-Patent Document 1 and Non-Patent Document 2).
  • VBAP Vector Based Amplitude Panning
  • in-vehicle audio is a use case in which many speakers can be arranged.
  • In-vehicle audio is composed of a speaker layout in which a speaker with a low-frequency reproduction band generally called a woofer, a speaker with a mid-range reproduction band called a squawker, and a speaker with a high-frequency reproduction band called a tweeter are mixed.
  • a speaker with a low-frequency reproduction band generally called a woofer
  • a speaker with a mid-range reproduction band called a squawker a speaker with a high-frequency reproduction band called a tweeter are mixed.
  • the playback band of the speaker used for playback differs depending on the localization position of the object.
  • the sound quality may disappear depending on the frequency band or localization position of the object's sound. Deterioration will occur.
  • This technology was made in view of such a situation, and makes it possible to perform audio reproduction with higher sound quality.
  • the sound processing device of one aspect of the present technology is a first rendering processing unit that performs rendering processing based on an audio signal and generates a first output audio signal for outputting sound by a plurality of first speakers.
  • a second rendering process that performs rendering processing based on the audio signal and generates a second output audio signal for outputting sound by a plurality of second speakers having a reproduction band different from that of the first speaker. It has a part.
  • the sound processing method or program of one aspect of the present technology performs rendering processing based on an audio signal, generates a first output audio signal for outputting sound by a plurality of first speakers, and uses the audio signal as the first output audio signal. Based on the above, a rendering process is performed, and a step of generating a second output audio signal for outputting sound by a plurality of second speakers having a reproduction band different from that of the first speaker is included.
  • rendering processing is performed based on an audio signal, a first output audio signal for outputting sound by a plurality of first speakers is generated, and rendering processing is performed based on the audio signal. Is performed, and a second output audio signal for outputting sound is generated by a plurality of second speakers having a reproduction band different from that of the first speaker.
  • This technology achieves higher sound quality by performing rendering processing for each speaker layout consisting of speakers with the same playback band when playing object-based audio on a speaker system consisting of speakers with multiple playback bands that are different from each other. It plays audio.
  • a plurality of speakers SP11-1 to SP11-18 surround the user U11 on the surface of the sphere P11 centered on the user U11 who is a listener of object-based audio. Be placed.
  • the object-based audio is reproduced by using the speaker system consisting of these speakers SP11-1 to SP11-18.
  • the speaker SP11-1 when it is not necessary to distinguish between the speaker SP11-1 and the speaker SP11-18, they are also simply referred to as the speaker SP11.
  • a speaker group consisting of speakers SP11 having the same reproduction band, and more specifically, a three-dimensional arrangement of each speaker SP11 constituting the speaker group is referred to as one speaker layout.
  • rendering processing is performed for each speaker layout constituting the speaker system, and a speaker reproduction signal for reproducing the sound of an object (audio object) in the speaker layout is generated.
  • the rendering process may be any process such as VBAP or panning.
  • the speaker reproduction signal of each speaker SP11 of that speaker layout is generated.
  • one or more meshes are formed on the surface of the sphere P11 by all the speakers SP11 constituting the speaker layout.
  • One mesh is a triangular area on the surface of the sphere P11 surrounded by the three speakers SP11 that make up the speaker layout.
  • the object data of the object is supplied, and the object data is composed of an object signal which is an audio signal for reproducing the sound of the object and metadata which is information about the object.
  • the metadata contains at least the position of the object, that is, the position information indicating the sound image localization position of the sound of the object.
  • the position information of this object is, for example, coordinate information indicating the relative position of the object as seen from the position of the head of the user U11, which is a predetermined listening position.
  • the position information is information indicating the relative position of the object with respect to the head position of the user U11.
  • one mesh including the position indicated by the position information of the object (hereinafter, also referred to as the object position) is selected from the mesh formed by the speaker SP11 of the speaker layout.
  • the selected mesh is referred to as a selection mesh.
  • the VBAP gain is obtained for each speaker SP11 based on the positional relationship between the placement position of each speaker SP11 constituting the selection mesh and the object position, and the gain of the object signal is adjusted by the VBAP gain. It is regarded as a speaker reproduction signal.
  • the signal obtained by adjusting the gain of the object signal based on the VBAP gain obtained for the speaker SP11 is the speaker reproduction signal of the speaker SP11.
  • the speaker reproduction signals of the speakers SP11 other than the speakers SP11 constituting the selection mesh are regarded as zero signals.
  • the VBAP gain of the speakers SP11 other than the speakers SP11 constituting the selection mesh is set to 0.
  • panning can be used to generate a speaker reproduction signal for each speaker SP11 in the speaker layout.
  • the gain for each speaker SP11 is obtained based on the positional relationship between each speaker SP11 in the speaker layout and the object in each direction such as the front-back direction, the left-right direction, and the up-down direction. Then, the gain of the object signal is adjusted by the obtained gain for each speaker SP11, and the speaker reproduction signal of each speaker SP11 is generated.
  • the rendering process for each speaker layout may be any process such as VBAP or panning, but the case where VBAP is performed as the rendering process will be described below.
  • rendering processing is performed for each of a plurality of speaker layouts having different reproduction bands from each other constituting the speaker system, and speaker reproduction signals of all the speakers SP11 constituting the speaker system are generated.
  • a plurality of speaker layout configurations are prepared for each reproduction band, and rendering processing is performed for each reproduction band.
  • a mesh is formed by all the speakers SP11 constituting the speaker system, and VBAP is performed as a rendering process.
  • the speaker SP11-1, the speaker SP11-2, and the speaker SP11-5 are located. Plays the sound of the object.
  • the speakers SP11-1, speaker SP11-2, and speaker SP11-5 are speakers whose reproduction band is low frequency, those speakers SP11 The sound of the object cannot be reproduced with sufficient sound pressure. Then, the sound quality of the object deteriorates, such as the sound of the object becoming quiet and inaudible.
  • rendering processing is performed for each of a plurality of playback bands, so that the components of each frequency band are always reproduced by the speaker SP11 in the reproduction band including those frequency bands. Therefore, deterioration of sound quality due to the reproduction band of the speaker SP11 can be suppressed, and higher sound quality audio reproduction can be performed.
  • the number of speakers SP11 constituting the speaker system, the reproduction band of each speaker SP11, and the arrangement position of the speaker SP11 in each reproduction band can be any number, reproduction band, or arrangement position. ..
  • FIG. 2 is a diagram showing a configuration example of an embodiment of an audio reproduction system to which the present technology is applied.
  • the audio reproduction system 11 shown in FIG. 2 has an audio processing device 21 and a speaker system 22, and reproduces object-based audio contents based on the supplied object data.
  • the content consists of N objects, and the object data of those N objects is supplied, but the number of objects may be any number.
  • the object data of one object includes an object signal for reproducing the sound of the object and the metadata of the object.
  • the sound processing device 21 includes a reproduction signal generation unit 31, a D / A (Digital / Analog) conversion unit 32-1-1 to a D / A conversion unit 32-3-Nw, and an amplification unit 33-1-1 to an amplification unit. It has 33-3-Nw.
  • the reproduction signal generation unit 31 performs rendering processing for each reproduction band to generate a speaker reproduction signal which is an output audio signal as an output.
  • the reproduction signal generation unit 31 includes rendering processing unit 41-1 to rendering processing unit 41-3, HPF (High Pass Filter) 42-1 to HPF 42-Nt, BPF (Band Pass Filter) 43-1 to BPF 43-Ns, and It has LPF (Low Pass Filter) 44-1 to LPF44-Nw.
  • HPF High Pass Filter
  • BPF Band Pass Filter
  • LPF Low Pass Filter
  • the speaker system 22 includes speakers 51-1-1 to 51-1-Nt, speakers 51-2-1 to speaker 51-2-Ns, and speakers 51-3-1 to speaker 51-, which have different reproduction bands. It has 3-Nw.
  • speaker 51-1-1 when it is not necessary to distinguish between the speaker 51-1-1 and the speaker 51-1-Nt, it is also simply referred to as a speaker 51-1.
  • the speaker 51-2 when it is not necessary to particularly distinguish between the speaker 51-2-1 and the speaker 51-2-Ns, they are also simply referred to as the speaker 51-2, and the speaker 51-3-1 to the speaker 51-3-Nw are particularly referred to. When it is not necessary to distinguish between them, it is also simply referred to as a speaker 51-3.
  • the speaker 51 constituting the speaker system 22 corresponds to the speaker SP11 shown in FIG.
  • the rendering processing unit 41-1 to the rendering processing unit 41-3 perform rendering processing such as VBAP based on the object signal and metadata constituting the supplied object data, and generate a speaker reproduction signal of each speaker 51. ..
  • the rendering processing unit 41-1 performs rendering processing for each of N objects, and generates each of the speaker reproduction signals having the speaker 51-1-1 to the speaker 51-1-Nt as output destinations for each object. do.
  • the rendering processing unit 41-1 adds the speaker reproduction signals for each object generated for the same speaker 51-1 to obtain the final speaker reproduction signal of the speaker 51-1.
  • the sound based on the speaker reproduction signal thus obtained includes the sound of each of N objects.
  • the rendering processing unit 41-1 supplies the final speaker reproduction signal generated for the speakers 51-1-1 to the speaker 51-1-Nt to the HPF42-1 to HPF42-Nt.
  • the rendering processing unit 41-2 also reproduces the sound of N objects having the speakers 51-2-1 to the speaker 51-2-Ns as the final output destinations in the same manner as the rendering processing unit 41-1.
  • a speaker reproduction signal of each speaker 51-2 is generated and supplied to BPF43-1 to BPF43-Ns.
  • the rendering processing unit 41-3 also reproduces the sound of N objects having the speakers 51-3-1 to the speaker 51-3-Nw as the final output destinations in the same manner as the rendering processing unit 41-1.
  • a speaker reproduction signal of each speaker 51-3 is generated and supplied to LPF44-1 to LPF44-Nw.
  • rendering processing unit 41-1 when it is not necessary to particularly distinguish between the rendering processing unit 41-1 and the rendering processing unit 41-3, it is also simply referred to as the rendering processing unit 41.
  • HPF42-1 to HPF42-Nt are HPFs that pass at least the frequency band including the reproduction band of the speaker 51-1, that is, the high frequency component and block the mid-low frequency component.
  • the HPF42-1 to HPF42-Nt perform filtering processing on the speaker reproduction signal supplied from the rendering processing unit 41-1, and the speaker reproduction signal containing only the high frequency component obtained as a result is a D / A conversion unit. It is supplied to 32-1-1 to D / A conversion unit 32-1-Nt.
  • HPF42 performs a band limiting process according to the reproduction band of the speaker 51-1 called a filtering process by the HPF on the input speaker reproduction signal, and obtains a band-limited speaker reproduction signal (band limitation signal). It can be said that it functions as a band limiting processing unit to be generated.
  • BPF43-1 to BPF43-Ns are BPFs that pass at least the frequency band including the reproduction band of the speaker 51-2, that is, the mid-range component, and block other components.
  • BPF43-1 to BPF43-Ns perform filtering processing on the speaker reproduction signal supplied from the rendering processing unit 41-2, and the speaker reproduction signal containing only the mid-range component obtained as a result is a D / A conversion unit. It is supplied to 32-2-1 to D / A conversion unit 32-2-Ns.
  • BPF43 performs a band limiting process according to the reproduction band of the speaker 51-2, which is a filtering process by the BPF, on the input speaker reproduction signal, and obtains a band-limited speaker reproduction signal (band limitation signal). It can be said that it functions as a band limiting processing unit to be generated.
  • LPF44-1 to LPF44-Nw are LPFs that pass at least the frequency band including the reproduction band of the speaker 51-3, that is, the low frequency component, and block the mid-high frequency component.
  • LPF44-1 to LPF44-Nw perform filtering processing on the speaker reproduction signal supplied from the rendering processing unit 41-3, and the speaker reproduction signal containing only the low-pass component obtained as a result is a D / A conversion unit. It is supplied to 32-3-1 to D / A conversion unit 32-3-Nw.
  • LPF44 performs a band limiting process according to the reproduction band of the speaker 51-3, which is a filtering process by the LPF, on the input speaker reproduction signal, and obtains a band-limited speaker reproduction signal (band limitation signal). It can be said that it functions as a band limiting processing unit to be generated.
  • the speaker reproduction signal of the above is supplied to the amplification unit 33-1-1 to the amplification unit 33-1-Nt.
  • D / A conversion unit 32-1-1 when it is not necessary to distinguish between the D / A conversion unit 32-1-1 and the D / A conversion unit 32-1-Nt, they are also simply referred to as the D / A conversion unit 32-1.
  • the D / A conversion unit 32-2-1 to the D / A conversion unit 32-2-Ns perform D / A conversion of the speaker reproduction signal supplied from the BPF43-1 to BPF43-Ns, and the analog obtained as a result.
  • the speaker reproduction signal of the above is supplied to the amplification unit 33-2-1 to the amplification unit 33-2-Ns.
  • D / A conversion unit 32-2-1 when it is not necessary to distinguish between the D / A conversion unit 32-2-1 and the D / A conversion unit 32-2-Ns, they are also simply referred to as the D / A conversion unit 32-2.
  • the speaker reproduction signal of the above is supplied to the amplification unit 33-3-1 to the amplification unit 33-3-Nw.
  • the D / A conversion unit 32-3-1 and the D / A conversion unit 32-3-Nw are also simply referred to as the D / A conversion unit 32-3.
  • the D / A conversion unit 32 is also simply referred to as the D / A conversion unit 32.
  • the amplification unit 33-1-1 to the amplification unit 33-1-Nt amplify the speaker reproduction signal supplied from the D / A conversion unit 32-1-1 to the D / A conversion unit 32-1-Nt, and the speaker is used. It is supplied to 51-1-1 to the speaker 51-1-Nt.
  • the amplification unit 33-2-1 to the amplification unit 33-2-Ns amplifies the speaker reproduction signal supplied from the D / A conversion unit 32-2-1 to the D / A conversion unit 32-2-Ns, and the speaker is used. It is supplied to 51-2-1 to the speaker 51-2-Ns.
  • the amplification unit 33-3-1 to the amplification unit 33-3-Nw amplifies the speaker reproduction signal supplied from the D / A conversion unit 32-3-1 to the D / A conversion unit 32-3-Nw, and the speaker is used. It is supplied to 51-3-1 to the speaker 51-3-Nw.
  • amplification unit 33-1-1 when it is not necessary to distinguish the amplification unit 33-1-1 to the amplification unit 33-1-Nt, they are also simply referred to as the amplification unit 33-1 and the amplification units 33-2-1 to the amplification unit 33-2-Ns. Is not particularly necessary to be distinguished, it is also simply referred to as an amplification unit 33-2.
  • amplification unit 33-3-1 when it is not necessary to particularly distinguish the amplification unit 33-3-1 to the amplification unit 33-3-Nw, they are also simply referred to as the amplification unit 33-3, and the amplification units 33-1 to the amplification unit 33-3 are particularly distinguished. When it is not necessary, it is also simply referred to as an amplification unit 33.
  • the D / A conversion unit 32 and the amplification unit 33 may be provided outside the sound processing device 21.
  • the speaker 51-1-1 to the speaker 51-1-Nt output sound based on the speaker reproduction signal supplied from the amplification unit 33-1-1 to the amplification unit 33-1-Nt.
  • Each of the Nt speakers 51-1 constituting the speaker system 22 is a speaker called a tweeter, which mainly has a high band (high range) reproduction band.
  • these Nt speakers 51-1 form one speaker layout for high bands.
  • the speaker 51-2-1 to the speaker 51-2-Ns output sound based on the speaker reproduction signal supplied from the amplification unit 33-2-1 to the amplification unit 33-2-Ns.
  • Each of the Ns speakers 51-2 constituting the speaker system 22 is a speaker called a squawker, which mainly has a reproduction band in the middle band (mid range).
  • these Ns speakers 51-2 form one speaker layout for the middle band.
  • the speaker 51-3-1 to the speaker 51-3-Nw output sound based on the speaker reproduction signal supplied from the amplification unit 33-3-1 to the amplification unit 33-3-Nw.
  • Each of the Nw speakers 51-3 constituting the speaker system 22 is a speaker called a woofer, which mainly has a low band (low frequency) reproduction band.
  • these Nw speakers 51-3 form one speaker layout for low band.
  • the speaker system 22 is composed of a plurality of speakers 51 having different reproduction bands of high band, medium band, and low band. That is, a plurality of speakers 51 having different reproduction bands are mixedly arranged around the listener who listens to the content.
  • the speaker system 22 including the speakers 51-1 to 51-3 is provided separately from the sound processing device 21
  • the speaker system 22 is provided in the sound processing device 21 as a configuration. May be good. That is, the speaker system 22 may be included in the sound processing device 21.
  • the rendering process is performed for each reproduction band of the speaker 51, that is, for each speaker layout of each reproduction band.
  • the rendering processing unit 41-1 selects the above-mentioned selection mesh from the mesh formed by the Nt speakers 51-1. ..
  • the rendering processing unit 41-2 selects the above-mentioned selection mesh from the mesh formed by the Ns speakers 51-2, and the rendering processing unit 41-3 selects the mesh formed by the Nw speakers 51-3.
  • the above-mentioned selection mesh is selected from.
  • the frequency characteristics of the HPF42, BPF43, and LPF44 that function as the band limiting processing unit, that is, the limiting band (passing band) are as shown in FIG. 3, for example.
  • the horizontal axis indicates the frequency (Hz)
  • the vertical axis indicates the sound pressure level (dB).
  • the polygonal line L11 shows the frequency characteristic of HPF42
  • the polygonal line L12 shows the frequency characteristic of BPF43
  • the polygonal line L13 shows the frequency characteristic of LPF44.
  • HPF42 high frequency pass filtering is performed to pass a component in a frequency band higher than other BPF43 and LPF44, that is, a high frequency component.
  • mid-range pass filtering is performed to pass components in the frequency band higher than LPF44 and lower than HPF42, that is, mid-range components.
  • LPF44 low-pass filtering is performed to pass components in a frequency band lower than those of other BPF43 and HPF42, that is, low-frequency components.
  • the passbands of HPF42 and BPF43 cross over, and the passbands of BPF43 and LPF44 also cross over.
  • the pass band of HPF42 and BPF43 and the pass band of BPF43 and LPF44 cross over
  • the present invention is not limited to this.
  • neither the pass band of HPF 42 and BPF 43 nor the pass band of BPF 43 and LPF 44 may cross over, and one of them may have a characteristic of crossing over.
  • Nt HPF 42s have the same characteristics (frequency characteristics), but even if these Nt HPF 42s are filters (HPFs) having different characteristics from each other. good.
  • the HPF 42 is not provided between the rendering processing unit 41-1 and the speaker 51-1 so that the speaker reproduction signal obtained by the rendering processing unit 41-1 is amplified by the D / A conversion unit 32-1. It may be supplied to the speaker 51-1 via the unit 33-1. That is, the sound based on the speaker reproduction signal may be reproduced by the speaker 51-1 without performing the filtering process (band limitation process) by the HPF42.
  • Ns BPF43s have the same characteristics (frequency characteristics), but these BPF43s may have different characteristics from each other, and the rendering processing unit 41-2 and the speaker 51 may have different characteristics. BPF43 may not be provided between -2 and -2.
  • Nw LPF44s have the same characteristics (frequency characteristics), but these LPF44s may have different characteristics from each other, and the rendering processing unit 41-3 and the speaker 51-3 may have different characteristics.
  • the LPF 44 may not be provided between the and.
  • step S11 the rendering processing unit 41-1 performs rendering processing on the high band speaker 51-1 based on the supplied N object data, and supplies the speaker reproduction signal obtained as a result to the HPF 42. ..
  • rendering is performed on the speaker layout consisting of Nt speakers 51-1 to generate a speaker reproduction signal as an output audio signal.
  • a mesh formed by Nt speakers 51-1 is used, and VBAP is performed as a rendering process.
  • step S12 the HPF 42 performs filtering processing (band limitation processing) by the HPF on the speaker reproduction signal supplied from the rendering processing unit 41-1, and D / D / the speaker reproduction signal after the band limitation obtained as a result. It is supplied to the A conversion unit 32-1.
  • the amplification unit 33-1 is supplied from the D / A conversion unit 32-1.
  • the generated speaker reproduction signal is amplified and supplied to the speaker 51-1.
  • step S13 the rendering processing unit 41-2 performs rendering processing on the speaker 51-2 for the middle band based on the supplied N object data, and supplies the speaker reproduction signal obtained as a result to the BPF 43. ..
  • step S13 a mesh formed by Ns speakers 51-2 is used, and VBAP is performed as a rendering process.
  • step S14 the BPF 43 performs filtering processing (band limitation processing) by BPF on the speaker reproduction signal supplied from the rendering processing unit 41-2, and D / D / the speaker reproduction signal after the band limitation obtained as a result. It is supplied to the A conversion unit 32-2.
  • the generated speaker reproduction signal is amplified and supplied to the speaker 51-2.
  • step S15 the rendering processing unit 41-3 performs rendering processing on the low-band speaker 51-3 based on the supplied N object data, and supplies the speaker reproduction signal obtained as a result to the LPF44. ..
  • step S15 a mesh formed by Nw speakers 51-3 is used, and VBAP is performed as a rendering process.
  • step S16 the LPF 44 performs filtering processing (band limitation processing) by the LPF on the speaker reproduction signal supplied from the rendering processing unit 41-3, and D / D / the speaker reproduction signal after the band limitation obtained as a result. It is supplied to the A conversion unit 32-3.
  • the D / A conversion unit 32-3 D / A converts the speaker reproduction signal supplied from the LPF 44 and supplies it to the amplification unit 33-3, and the amplification unit 33-3 supplies the speaker reproduction signal from the D / A conversion unit 32-3.
  • the generated speaker reproduction signal is amplified and supplied to the speaker 51-3.
  • step S17 all the speakers 51 constituting the speaker system 22 output sound based on the speaker reproduction signal supplied from the amplification unit 33, and the reproduction process ends.
  • the sound based on the speaker reproduction signal is output from all the speakers 51, the sound of N objects is reproduced in each reproduction band depending on the speaker layout of each reproduction band. Then, the sound image of each of those N objects is localized at the object position indicated by the position information included in the metadata of each object.
  • the audio reproduction system 11 performs rendering processing for each reproduction band of the speaker 51, that is, for each speaker layout of each of the plurality of reproduction bands, and reproduces the content. By doing so, deterioration of sound quality due to the reproduction band of the speaker 51 can be suppressed, and audio reproduction with higher sound quality can be performed.
  • speakers 51 having different reproduction bands are mixed.
  • speaker layout configurations are prepared for each of a plurality of reproduction bands, and each object is rendered and reproduced for each reproduction band.
  • the object is reproduced with an appropriate localization for each speaker layout of each reproduction band, and more appropriate rendering reproduction of the object-based audio is realized.
  • This makes it possible to avoid deterioration of sound quality such as sound disappearing depending on the frequency band and localization position of the object, for example. That is, it is possible to reproduce audio with higher sound quality.
  • the present invention is not limited to this, and for example, the object signal input to the rendering processing unit 41 may be subjected to band limiting filtering processing according to the target speaker layout.
  • the audio reproduction system has, for example, the configuration shown in FIG. In FIG. 5, the same reference numerals are given to the portions corresponding to those in FIG. 2, and the description thereof will be omitted as appropriate.
  • the audio reproduction system 81 shown in FIG. 5 has an audio processing device 91 and a speaker system 22.
  • the sound processing device 91 includes a reproduction signal generation unit 101, a D / A conversion unit 32-1-1 to a D / A conversion unit 32-3-Nw, and an amplification unit 33-1-1 to an amplification unit 33-3. -Has Nw.
  • the reproduction signal generation unit 101 includes HPF42-1 to HPF42-N, BPF43-1 to BPF43-N, LPF44-1 to LPF44-N, and a rendering processing unit 41-1 to a rendering processing unit 41-3. ..
  • the configuration of the audio reproduction system 81 is different from the audio reproduction system 11 shown in FIG. 2 in that the acoustic processing apparatus 91 is provided in place of the acoustic processing apparatus 21, and is otherwise the same as the audio reproduction system 11. There is.
  • the configuration of the sound processing device 91 is such that the reproduction signal generation unit 31 of the sound processing device 21 is replaced with the reproduction signal generation unit 101.
  • HPF42 As described above, in the reproduction signal generation unit 31, HPF42, BPF43, and LPF44 are provided after the rendering processing unit 41.
  • HPF42 HPF42, BPF43, and LPF44 are provided in front of the rendering processing unit 41.
  • filtering processing is performed on the object signals of each of the N objects input to the rendering processing unit 41, so that N HPF42, BPF43, and LPF44 are each. It is provided one by one. That is, HPF42, BPF43, and LPF44 are provided for each object.
  • each of HPF42-1 to HPF42-N performs filtering processing on each of the object signals of each of the supplied N object data, and renders the object signal containing only the high frequency component obtained as a result. It is supplied to the processing unit 41-1.
  • the same filtering processing bandwidth limiting processing
  • HPF42 in the reproduction signal generation unit 31 is performed.
  • each of BPF43-1 to BPF43-N performs a filtering process on each of the object signals of each of the N supplied object data, and obtains an object signal containing only the mid-range component obtained as a result. It is supplied to the rendering processing unit 41-2.
  • the same filtering processing band limiting processing
  • BPF43 in the reproduction signal generation unit 31 is performed.
  • Each of LPF44-1 to LPF44-N performs filtering processing on each of the object signals of each of the N supplied object data, and renders the object signal containing only the low frequency component obtained as a result in the rendering processing unit. Supply to 41-3.
  • LPF44-1 to LPF44-N the same filtering processing (band limiting processing) as that of LPF44 in the reproduction signal generation unit 31 is performed.
  • HPF42, BPF43, and LPF44 are provided for each speaker 51, whereas in the audio reproduction system 81, HPF42, BPF43, and LPF44 are provided for each object. There is.
  • the audio reproduction system 81 is provided with N HPF42, BPF43, and LPF44 each.
  • the N HPF 42s have the same frequency characteristics, but these N HPF 42s are filters (HPFs) having different characteristics from each other.
  • the HPF 42 may not be provided in front of the rendering processing unit 41-1.
  • the N BPF 43s have the same characteristics (frequency characteristics), but these BPF 43s may have different characteristics from each other, and may be in the preceding stage of the rendering processing unit 41-2.
  • the BPF 43 may not be provided.
  • N LPF 44s have the same characteristics (frequency characteristics), but these LPF 44s may have different characteristics from each other, and the LPF 44s are placed in front of the rendering processing unit 41-3. It may not be provided.
  • each of HPF42-1 to HPF42-N performs filtering processing by HPF on each of the supplied object signals of N objects, and renders the resulting object signal after band limitation. It is supplied to the processing unit 41-1.
  • step S42 the rendering processing unit 41-1 is used for high bandwidth based on the metadata of each of the N objects supplied and the signals of each of the N objects supplied from HPF42-1 to HPF42-N. Rendering is performed on the speaker 51-1.
  • step S42 the same processing as in step S11 of FIG. 4 is performed.
  • the rendering processing unit 41-1 supplies the speaker reproduction signal corresponding to each speaker 51-1 obtained by the rendering processing to the D / A conversion unit 32-1-1 to the D / A conversion unit 32-1-Nt. ..
  • the amplification unit 33-1 is a D / A conversion unit.
  • the speaker reproduction signal supplied from 32-1 is amplified and supplied to the speaker 51-1.
  • each of BPF43-1 to BPF43-N performs filtering processing by BPF on each of the supplied object signals of N objects, and renders the resulting object signal after band limitation. It is supplied to the processing unit 41-2.
  • step S44 the rendering processing unit 41-2 is used for the middle band based on the metadata of each of the N objects supplied and the signals of the N objects supplied from BPF43-1 to BPF43-N. Rendering is performed on the speaker 51-2.
  • step S44 the same processing as in step S13 of FIG. 4 is performed.
  • the rendering processing unit 41-2 supplies the speaker reproduction signal corresponding to each speaker 51-2 obtained by the rendering processing to the D / A conversion unit 32-2-1 to the D / A conversion unit 32-2-Ns. ..
  • the speaker reproduction signal supplied from 32-2 is amplified and supplied to the speaker 51-2.
  • each of LPF44-1 to LPF44-N performs filtering processing by LPF for each of the object signals of the supplied N objects, and renders the resulting object signal after band limitation. It is supplied to the processing unit 41-3.
  • step S46 the rendering processing unit 41-3 is used for low bandwidth based on the metadata of each of the N objects supplied and the signals of each of the N objects supplied from LPF44-1 to LPF44-N. Rendering is performed on the speaker 51-3.
  • step S46 the same processing as in step S15 of FIG. 4 is performed.
  • the rendering processing unit 41-3 supplies the speaker reproduction signal corresponding to each speaker 51-3 obtained by the rendering processing to the D / A conversion unit 32-3-1 to the D / A conversion unit 32-3-Nw. ..
  • the speaker reproduction signal supplied from 32-3 is amplified and supplied to the speaker 51-3.
  • step S47 is performed and the reproduction process is terminated, but the process of step S47 is the same as the process of step S17 of FIG. Since there is, the explanation is omitted.
  • the audio reproduction system 81 performs filtering processing for each object, and then performs rendering processing for each speaker layout of a plurality of reproduction bands to reproduce the content. By doing so, deterioration of sound quality due to the reproduction band of the speaker 51 can be suppressed, and audio reproduction with higher sound quality can be performed.
  • the amount of processing is smaller than in the case of the audio playback system 11 especially when the number of objects constituting the content (number of objects N) is small. It can be suppressed.
  • the processing amount of the filtering processing in HPF42, BPF43, and LPF44 is the same.
  • the processing amount (processing number) of the filtering processing required in the audio reproduction system 81 is the number of objects N ⁇ 3.
  • "3" is the number of rendering processing units 41.
  • filtering processing is performed for the total number (number of times) of the total number of speakers 51 (Nt + Ns + Nw) constituting the speaker system 22.
  • the number of processing of filtering processing is larger than that in the case of the audio reproduction system 11 by configuring the audio reproduction system 81. (Number of processing) can be reduced, and as a result, the overall processing amount can be suppressed to a small value.
  • ⁇ Third embodiment> ⁇ Configuration example of audio playback system>
  • whether the amount of processing is smaller when the filtering process is performed in the first stage or the second stage of the rendering process is determined by the number of objects N, the total number of speakers 51, and the number of types (reproduction bands) of the speakers 51 (rendering processing unit 41). It is determined by the number).
  • the audio reproduction system is configured as shown in FIG. 7, for example.
  • the same reference numerals are given to the portions corresponding to those in FIGS. 2 or 5, and the description thereof will be omitted as appropriate.
  • the audio reproduction system 131 shown in FIG. 7 has an audio processing device 141 and a speaker system 22.
  • the sound processing device 141 includes a selection unit 151, a reproduction signal generation unit 31, a reproduction signal generation unit 101, a D / A conversion unit 32-1-1 to a D / A conversion unit 32-3-Nw, and an amplification unit 33. It has 1-1 to the amplification unit 33-3-Nw.
  • the reproduction signal generation unit 31 has the same configuration as in the case of FIG. 2, and the reproduction signal generation unit 101 has the same configuration as in the case of FIG.
  • the object data of each of N objects is input to the selection unit 151.
  • the selection unit 151 selects one of the reproduction signal generation unit 31 and the reproduction signal generation unit 101 as the output destination of the object data based on the number of objects N and the total number of speakers 51, and sends the selected output destination to the selected output destination. And output object data.
  • the selection unit 151 causes the reproduction signal generation unit 31 to perform the rendering process and then the band limiting process, or causes the reproduction signal generation unit 101 to perform the band limiting process and then renders each object. Select whether to perform processing.
  • either the reproduction signal generation unit 31 or the reproduction signal generation unit 101 generates a speaker reproduction signal based on the object data, and the speaker reproduction signal is supplied to the D / A conversion unit 32. Will be done.
  • step S71 whether or not the selection unit 151 performs filtering processing prior to rendering processing based on the number N of supplied object data, the total number of speakers 51, and the number of reproduction bands (number of rendering processing units 41). Is determined. That is, the selection unit 151 selects the output destination of the supplied object data.
  • the number of reproduction bands that is, the number of rendering processing units 41 is "3".
  • the selection unit 151 determines that the filtering process is performed first.
  • the selection unit 151 determines that the filtering process is performed after the rendering process when the number of objects N ⁇ 3 is equal to or greater than the total number of speakers 51 (Nt + Ns + Nw).
  • step S71 If it is determined in step S71 that the filtering process is to be performed first, the selection unit 151 selects the reproduction signal generation unit 101 as the output destination of the supplied object data, and then the process proceeds to step S72.
  • the selection unit 151 supplies the object signal of the supplied object data to the HPF42, BPF43, and LPF44 of the reproduction signal generation unit 101, and supplies the metadata of the object data to the rendering processing unit 41 of the reproduction signal generation unit 101. Supply.
  • step S71 determines whether the filtering process will be performed later. If it is determined in step S71 that the filtering process will be performed later, the selection unit 151 selects the reproduction signal generation unit 31 as the output destination of the supplied object data, and then the process proceeds to step S78.
  • the selection unit 151 supplies the supplied object data, that is, the object signal and the metadata, to the rendering processing unit 41 of the reproduction signal generation unit 31.
  • step S84 is performed thereafter.
  • step S84 all the speakers 51 constituting the speaker system 22 output sound based on the speaker reproduction signal supplied from the amplification unit 33, and the reproduction process ends.
  • the audio reproduction system 131 selects the one of the reproduction signal generation unit 31 and the reproduction signal generation unit 101, which has a smaller processing amount, based on the number of objects N and the total number of speakers 51, and performs filtering processing. And render processing. That is, depending on the number of objects N and the total number of speakers 51, it is possible to switch between the reproduction signal generation unit 31 and the reproduction signal generation unit 101 to perform rendering processing and filtering processing.
  • switching (selection) between the reproduction signal generation unit 31 and the reproduction signal generation unit 101 to perform the rendering process and the filtering process may be performed for each frame or the like.
  • the reproduction signal generation unit 31 it is effective to limit the speaker reproduction signal according to the speaker layout for each reproduction band when the number of objects N is large.
  • the reproduction signal generation unit 101 it is effective to limit the band of the object signal according to the speaker layout for each reproduction band when the number of objects N is small.
  • the speaker layout for reproducing the sound of the object may be switched according to the contents of the object, that is, the characteristics of the object such as the sound source type of the object and the characteristics of the object signal.
  • the audio reproduction system is configured as shown in FIG. 9, for example.
  • the parts corresponding to the case in FIG. 2 are designated by the same reference numerals, and the description thereof will be omitted as appropriate.
  • the audio reproduction system 181 shown in FIG. 9 has an audio processing device 191 and a speaker system 192.
  • the sound processing device 191 includes a reproduction signal generation unit 201, a D / A conversion unit 32-1-1 to a D / A conversion unit 32-1-Nt, and a D / A conversion unit 32-3-1 to a D / A conversion unit. It has a 32-3-Nw, an amplification unit 33-1-1 to an amplification unit 33-1-Nt, and an amplification unit 33-3-1 to an amplification unit 33-3-Nw.
  • the reproduction signal generation unit 201 has a determination unit 211, a switching unit 212, a rendering processing unit 41-1, and a rendering processing unit 41-3.
  • the speaker system 192 has speakers 51-1-1 to 51-1-Nt, and speakers 51-3-1 to 51-3-Nw.
  • the reproduction signal generation unit 201 is not provided with a filter that functions as a band limitation processing unit such as the HPF42.
  • the speaker system 192 is provided with a speaker 51-1 which is a tweeter and a speaker 51-3 which is a woofer, but is not provided with a speaker 51-2 which is a squawker. Similar to the speaker system 22 described above, the speaker system 192 may be provided with a speaker 51-2 which is a squawker.
  • Object data of each of N objects is supplied to the determination unit 211.
  • the determination unit 211 determines which rendering processing unit 41 performs rendering processing, that is, which speaker layout is used for reproduction, for each object based on the object signal and metadata included in the supplied object data. Performs judgment processing.
  • the rendering processing is performed only by the rendering processing unit 41-1, the rendering processing is performed only by the rendering processing unit 41-3, or the rendering processing unit 41-1 and the rendering processing unit 41. It is determined (determined) whether to perform the rendering process in both of -3. At this time, at least one of information about the object such as an object signal and metadata can be used to make a determination.
  • the determination unit 211 supplies the supplied object data to the switching unit 212, controls the switching unit 212 based on the result of the determination processing, and transfers the object data to the rendering processing unit 41 according to the result of the determination processing. Supply.
  • the determination process as a characteristic of the object, it may be determined for each object which reproduction band to render to the speaker layout based on the frequency characteristic of the object signal.
  • the determination unit 211 performs frequency analysis on the supplied object signal by FFT (Fast Fourier Transform) or the like, and from the information indicating the frequency characteristics obtained as a result, to the speaker layout of which reproduction band. In other words, it is determined (determined) which rendering processing unit 41 performs the rendering processing.
  • FFT Fast Fourier Transform
  • the rendering process can be performed only by the rendering processing unit 41-3.
  • each object is rendered by the rendering processing unit 41 corresponding to all the reproduction bands.
  • the object signal contains only the low frequency component, the sound quality does not deteriorate even if the rendering process is performed only by the rendering processing unit 41-3.
  • the object signal containing only the low frequency component is rendered by only the rendering processing unit 41-3 corresponding to the low band, so that the sound quality is not deteriorated.
  • the amount of processing can be reduced.
  • rendering processing can be performed by both the rendering processing unit 41-1 and the rendering processing unit 41-3.
  • the metadata may contain information about the object.
  • the metadata contains sound source type information indicating what type of sound source the object is, such as a musical instrument such as a guitar or vocals.
  • the determination unit 211 determines (determines) which rendering processing unit 41 performs the rendering processing based on the sound source type information included in the metadata.
  • the rendering processing unit 41-1 targeting the high band can perform rendering processing on the object. It should be noted that which rendering processing unit 41 renders which sound source type object may be predetermined. Further, the sound source type of the object may be specified from the file name of the object signal or the like.
  • a content creator or the like specifies in advance which object should be rendered by which rendering processing unit 41, and the specified information indicating the specified result is included in the metadata as information about the object. You may.
  • the determination unit 211 determines (determines) which rendering processing unit 41 renders the object based on the specified information included in the metadata.
  • the designated information may be supplied to the determination unit 211 separately from the object data.
  • the switching unit 212 switches the output destination of the object data supplied from the determination unit 211 for each object according to the control of the determination unit 211.
  • the switching unit 212 either supplies the object data to the rendering processing unit 41-1 or the rendering processing unit 41-3 according to the control of the determination unit 211, or the rendering processing unit 41-1 and the rendering processing unit. Supply to 41-3.
  • step S111 the determination unit 211 performs determination processing for each object based on the supplied object data.
  • the determination process it is determined which reproduction band the rendering processing unit 41 corresponds to the rendering process based on at least the object signal and the metadata.
  • the determination unit 211 supplies the supplied object data to the switching unit 212, and controls the output of the object data by the switching unit 212 based on the result of the determination process.
  • step S112 the switching unit 212 supplies the object data supplied from the determination unit 211 according to the result of the determination process according to the control of the determination unit 211.
  • the switching unit 212 transfers the object data supplied from the determination unit 211 to the rendering processing unit 41-1, the rendering processing unit 41-3, or the rendering processing unit 41-1 and the rendering processing unit 41-3 for each object. And supply.
  • step S113 the rendering processing unit 41-1 performs rendering processing on the high-bandwidth speaker 51-1 based on the object data supplied from the switching unit 212, and D / A the speaker reproduction signal obtained as a result. It is supplied to the speaker 51-1 via the conversion unit 32-1 and the amplification unit 33-1.
  • step S114 the rendering processing unit 41-3 performs rendering processing on the low-band speaker 51-3 based on the object data supplied from the switching unit 212, and D / A the speaker reproduction signal obtained as a result. It is supplied to the speaker 51-3 via the conversion unit 32-3 and the amplification unit 33-3.
  • step S113 and step S114 the same processing as in step S11 and step S15 in FIG. 4 is performed.
  • step S115 all the speakers 51 constituting the speaker system 192 output sound based on the speaker reproduction signal supplied from the amplification unit 33, and the reproduction process ends.
  • the audio reproduction system 181 determines which reproduction band the rendering processing unit 41 corresponds to, based on at least one of the object signal and the information about the object such as metadata. Rendering is performed according to the determination result.
  • the rendering process in the rendering processing unit 41 corresponding to the appropriate reproduction band can be selectively performed, and the audio reproduction with higher sound quality can be performed.
  • the amount of processing due to multiple rendering processes can be increased as much as possible. It can be suppressed. That is, it is possible to omit the rendering process for the unnecessary reproduction band and reduce the processing amount.
  • ⁇ Fifth Embodiment> ⁇ Configuration example of audio playback system>
  • a subwoofer is added to reinforce the low frequency range during audio reproduction, and a method called bass management or bus management may be used.
  • a low-frequency component signal is extracted from the playback signal of the main speaker by filtering processing, and the extracted signal is routed to one or more subwoofers. That is, the reproduction of the low frequency component is performed by one or a plurality of subwoofers.
  • the same low frequency component is generally reproduced in all the subwoofers, so that the sense of localization of the object is impaired.
  • the subwoofer that routes the low frequency component of which main speaker is divided for each subwoofer, and the low frequency component is reproduced according to the localization direction of the object can also be changed.
  • the behavior of the entire system such as routing depends on the design, but the design becomes complicated and difficult.
  • rendering processing is performed for each of a plurality of playback bands, and the content is played back in the speaker layout for each playback band, so that the object can be localized without the need for complicated design. It is possible to realize base management that can suppress the decrease in the.
  • an audio signal of the LFE (Low Frequency Effect) channel for the subwoofer (hereinafter, also referred to as an LFE channel signal) may be prepared in advance.
  • the gain of the LFE channel signal may be adjusted as appropriate and added to the speaker reproduction signal of the subwoofer.
  • the audio reproduction system is as shown in FIG. 11, for example.
  • the audio reproduction system 241 shown in FIG. 11 has an audio processing device 251 and a speaker system 252, and reproduces object-based audio contents based on the supplied object data.
  • the content data consists of object data of N objects and channel-based LFE channel signals.
  • the LFE channel signal is a channel-based audio signal, metadata including position information and the like is not supplied.
  • the number of objects N can be any number.
  • the sound processing device 251 includes a reproduction signal generation unit 261 and a D / A conversion unit 271-1 to D / A conversion unit 271-2-2-Nsw, and an amplification unit 272-1 to an amplification unit 272-2-Nsw. have.
  • the reproduction signal generation unit 261 has a rendering processing unit 281-1, a rendering processing unit 281-2, HPF282-1 to HPF282-Nls, and LPF283-1 to LPF283-Nsw.
  • the speaker system 252 has speakers 291-1 to 291-1-1Nls and speakers 291-2-1 to 291-2-2Nsw having different reproduction bands from each other.
  • speaker 291-1 when it is not necessary to particularly distinguish between the speaker 291-1 to the speaker 291-1-Nls, it is also simply referred to as the speaker 291-1, and it is necessary to particularly distinguish the speaker 291-2-1 to the speaker 291-2-2Nsw. If there is no speaker, it is also simply referred to as a speaker 291-2.
  • speaker 291 when it is not necessary to distinguish between the speaker 291-1 and the speaker 291-2, it is also simply referred to as a speaker 291.
  • each of the Nls speakers 291-1 constituting the speaker system 252 is mainly a loudspeaker for a wide band having a wide band (broadband) from a relatively low band to a high range as a reproduction band. It is a speaker called.
  • these Nls speakers 291-1 form one speaker layout for a wide band.
  • each of the Nsw speakers 291-2 constituting the speaker system 252 is a speaker called a sub-woofer for low-frequency reinforcement having a low-frequency reproduction band of, for example, about 100 Hz or less.
  • these Nsw speakers 291-2 form one speaker layout for low band.
  • Object data of N objects constituting the content are supplied to the rendering processing unit 281-1 and the rendering processing unit 281-2, respectively.
  • the rendering processing unit 281-1 and the rendering processing unit 281-2 perform rendering processing such as VBAP based on the object signal and metadata constituting the supplied object data. That is, in the rendering processing unit 281-1 and the rendering processing unit 281-2, the same processing as in the case of the rendering processing unit 41 is performed.
  • each of the speaker reproduction signals having the speaker 291-1 to the speaker 291-1-Nls as the output destination is generated for each object. Then, the speaker reproduction signals for each object generated for the same speaker 291-1 are added to obtain the final speaker reproduction signal.
  • the rendering process section 281-1 uses a mesh formed by Nls speakers 291-1.
  • the rendering processing unit 281-1 supplies the final speaker reproduction signal generated for the speakers 291-1 to 291-1 to Nls to HPF282-1 to HPF282-Nls.
  • the rendering processing unit 281-2 Similar to the rendering processing unit 281-1, the rendering processing unit 281-2 also reproduces the speaker of each speaker 291-2 with each of the speaker 291-2-1 to the speaker 291-2-2Nsw as the final output destination. Generate a signal.
  • the rendering process section 281-2 uses a mesh formed by Nsw speakers 291-2.
  • the LFE channel signal is supplied to the rendering processing unit 281-2.
  • the LFE channel signal does not have localization information (position information), so that the rendering processing unit 281-2 distributes the LFE channel signal to all speakers 291-2 instead of rendering processing such as VBAP. It is output after being multiplied by a certain coefficient.
  • the rendering processing unit 281-2 obtains the LFE channel signal by adjusting the gain of each speaker 291-2 with respect to the speaker reproduction signal corresponding to the speaker 291-2 obtained by the rendering processing by a predetermined coefficient.
  • the generated signals are added together to obtain the final speaker reproduction signal.
  • the coefficient used in the gain adjustment can be, for example, (1 / Nsw) 1/2 .
  • the rendering processing unit 281-2 supplies the final speaker reproduction signal generated for the speakers 291-2-1 to 291-2-2Nsw to the LPF283-1 to LPF283-Nsw.
  • rendering processing unit 281 when it is not necessary to distinguish between the rendering processing unit 281-1 and the rendering processing unit 281-2, it is also simply referred to as the rendering processing unit 281.
  • HPF282-1 to HPF282-Nls are HPFs that pass a frequency band including at least the reproduction band of the speaker 291-1, that is, a frequency component of a relatively wide predetermined band.
  • the HPF282-1 to HPF282-Nls perform filtering processing on the speaker reproduction signal supplied from the rendering processing unit 281-1, and D / A the speaker reproduction signal composed of the frequency components of the predetermined band obtained as a result. It is supplied to the conversion unit 271-1 to the D / A conversion unit 271-1-1Nls.
  • HPF282 Similar to the HPF 42 shown in FIG. 2, the HPF 282 also functions as a band limiting processing unit that performs band limiting processing according to the reproduction band of the speaker 291-1.
  • LPF283-1 to LPF283-Nsw are LPFs that pass frequency components in a frequency band including at least the reproduction band of the speaker 291-2, that is, a band of, for example, about 100 Hz or less.
  • LPF283-1 to LPF283-Nsw perform filtering processing on the speaker reproduction signal supplied from the rendering processing unit 281-2, and D / A convert the speaker reproduction signal consisting of the frequency component of the low band obtained as a result. It is supplied to the unit 271-2-1 to the D / A conversion unit 271-2-2Nsw.
  • LPF283 when it is not necessary to distinguish between LPF283-1 and LPF283-Nsw, they are also simply referred to as LPF283. Similar to the LPF44 shown in FIG. 2, the LPF283 also functions as a band limiting processing unit that performs band limiting processing according to the reproduction band of the speaker 291-2.
  • the D / A conversion unit 271-1 to D / A conversion unit 271-1-1Nls D / A-convert the speaker reproduction signal supplied from HPF282-1 to HPF282-Nls, and the analog obtained as a result.
  • the speaker reproduction signal of the above is supplied to the amplification unit 272-1-1 to the amplification unit 272-1-Nls.
  • D / A conversion unit 271-1 when it is not necessary to distinguish D / A conversion unit 271-1 to D / A conversion unit 271-1-Nls, they are also simply referred to as D / A conversion unit 271-1.
  • the speaker reproduction signal of the above is supplied to the amplification unit 272-2-1 to the amplification unit 272-2-Nsw.
  • the D / A conversion unit 271-2-1 when it is not necessary to distinguish the D / A conversion unit 271-2-1 to the D / A conversion unit 271-2-Nsw, they are also simply referred to as the D / A conversion unit 271-2. Further, hereinafter, when it is not necessary to distinguish between the D / A conversion unit 271-1 and the D / A conversion unit 271-2, the D / A conversion unit 271 will be simply referred to as the D / A conversion unit 271.
  • the amplification unit 272-1-1 to the amplification unit 272-1-Nls amplifies the speaker reproduction signal supplied from the D / A conversion unit 271-1-1 to the D / A conversion unit 271-1-1Nls, and the speaker is used. It is supplied to 291-1 to 291-1 to the speaker 291-1-Nls.
  • the amplification unit 272-2-1 to the amplification unit 272-2-Nsw amplifies the speaker reproduction signal supplied from the D / A conversion unit 271-2-1 to the D / A conversion unit 271-2-2Nsw, and the speaker is used. It is supplied to 291-2-1 to the speaker 291-2-2Nsw.
  • amplification unit 272-1-1 and the amplification unit 272-1-Nls are also simply referred to as the amplification unit 272-1, and the amplification unit 272-1 to the amplification unit 272-2.
  • amplification unit 272-2 when it is not necessary to distinguish Nsw, it is simply referred to as amplification unit 272-2.
  • amplification unit 272-1 when it is not necessary to distinguish between the amplification unit 272-1 and the amplification unit 272-2, they are also simply referred to as the amplification unit 272.
  • the speaker 291-1 to speaker 291-1-Nls output sound based on the speaker reproduction signal supplied from the amplification unit 272-1-1 to the amplification unit 272-1-Nls.
  • the speaker 291-2-1 to the speaker 291-2-Nsw output sound based on the speaker reproduction signal supplied from the amplification unit 272-2-1 to the amplification unit 272-2-Nsw.
  • the speaker system 252 is composed of a plurality of speakers 291 having different reproduction bands from each other. That is, a plurality of speakers 291 having different reproduction bands are mixedly arranged around the listener who listens to the content.
  • the speaker system 252 may be provided in the sound processing device 251.
  • the frequency characteristics of the HPF282 and LPF283 that function as the band limiting processing unit are as shown in FIG. 12, for example.
  • the horizontal axis indicates the frequency (Hz)
  • the vertical axis indicates the sound pressure level (dB).
  • the polygonal line L21 shows the frequency characteristic of HPF282
  • the polygonal line L22 shows the frequency characteristic of LPF283.
  • HPF282 high frequency pass filtering is performed to pass components in a frequency band higher than LPF283, that is, a wide frequency band of about 100 Hz or more.
  • LPF283 low frequency pass filtering for passing a frequency band lower than the HPF282, that is, a component having a low frequency of about 100 Hz or less is performed.
  • the passbands of HPF282 and LPF283 are crossed over, but the passbands of HPF282 and LPF283 may not be crossed over.
  • the Nls HPF282 has the same characteristics (frequency characteristics), but even if these Nls HPF282s are filters (HPFs) having different characteristics from each other. good. Further, the HPF 282 may not be provided between the rendering processing unit 281-1 and the speaker 291-1.
  • the Nsw LPF283s have the same characteristics (frequency characteristics), but these LPF283s may have different characteristics from each other, and the rendering processing unit 281-2 and the speaker 291 may be used.
  • the LPF283 may not be provided between -2 and -2.
  • step S141 the rendering processing unit 281-1 performs rendering processing on the wideband speaker 291-1 based on the supplied N object data, and supplies the speaker reproduction signal obtained as a result to the HPF282. For example, in step S141, the same processing as in step S11 of FIG. 4 is performed.
  • step S142 the HPF 282 performs filtering processing (band limitation processing) by the HPF on the speaker reproduction signal supplied from the rendering processing unit 281-1.
  • the HPF282 supplies the speaker reproduction signal after band limitation obtained by the filtering process to the speaker 291-1 via the D / A conversion unit 271-1 and the amplification unit 272-1.
  • step S143 the rendering processing unit 281-2 performs rendering processing on the low-band speaker 291-2 based on the supplied N object data. For example, in step S143, the same processing as in step S15 of FIG. 4 is performed.
  • step S144 the rendering processing unit 281-2 adjusts the gain of the supplied LFE channel signal according to a predetermined coefficient, adds it to the speaker reproduction signal, and supplies the final speaker reproduction signal obtained as a result to the LPF283.
  • step S145 the LPF 283 performs filtering processing (band limitation processing) by the LPF on the speaker reproduction signal supplied from the rendering processing unit 281-2.
  • the LPF283 supplies the band-limited speaker reproduction signal obtained by the filtering process to the speaker 291-2 via the D / A conversion unit 271-2 and the amplification unit 272-2.
  • base management is realized by the processing of steps S143 and S144.
  • the rendering processing unit 281-2 since the rendering processing unit 281-2 performs the rendering processing for the low band, it is possible to easily suppress the deterioration of the localization feeling of the object without requiring a complicated design.
  • step S146 all the speakers 291 constituting the speaker system 252 output sound based on the speaker reproduction signal supplied from the amplification unit 272, and the reproduction process ends.
  • the audio reproduction system 241 performs rendering processing for each reproduction band of the speaker 291, that is, for each speaker layout of a plurality of reproduction bands, and adjusts the gain of the LFE channel signal to adjust the gain of the LFE channel signal to obtain a low-band speaker reproduction signal. Add to.
  • the optimum rendering according to the metadata of the object is realized.
  • deterioration of sound quality due to the reproduction band of the speaker 291 is suppressed, and deterioration of the localization of the object is easily suppressed without requiring a complicated design, and higher sound quality audio reproduction is performed. Can be done.
  • the series of processes described above can be executed by hardware or software.
  • the programs constituting the software are installed on the computer.
  • the computer includes a computer embedded in dedicated hardware and, for example, a general-purpose personal computer capable of executing various functions by installing various programs.
  • FIG. 14 is a block diagram showing a configuration example of computer hardware that executes the above-mentioned series of processes programmatically.
  • the CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • An input / output interface 505 is further connected to the bus 504.
  • An input unit 506, an output unit 507, a recording unit 508, a communication unit 509, and a drive 510 are connected to the input / output interface 505.
  • the input unit 506 includes a keyboard, a mouse, a microphone, an image pickup device, and the like.
  • the output unit 507 includes a display, a speaker, and the like.
  • the recording unit 508 includes a hard disk, a non-volatile memory, and the like.
  • the communication unit 509 includes a network interface and the like.
  • the drive 510 drives a removable recording medium 511 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory.
  • the CPU 501 loads the program recorded in the recording unit 508 into the RAM 503 via the input / output interface 505 and the bus 504 and executes the above-mentioned series. Is processed.
  • the program executed by the computer (CPU501) can be recorded and provided on a removable recording medium 511 as a package medium or the like, for example.
  • the program can also be provided via a wired or wireless transmission medium such as a local area network, the Internet, or digital satellite broadcasting.
  • the program can be installed in the recording unit 508 via the input / output interface 505 by mounting the removable recording medium 511 in the drive 510. Further, the program can be received by the communication unit 509 and installed in the recording unit 508 via a wired or wireless transmission medium. In addition, the program can be pre-installed in the ROM 502 or the recording unit 508.
  • the program executed by the computer may be a program in which processing is performed in chronological order according to the order described in the present specification, in parallel, or at a necessary timing such as when a call is made. It may be a program in which processing is performed.
  • the embodiment of the present technology is not limited to the above-described embodiment, and various changes can be made without departing from the gist of the present technology.
  • this technology can take a cloud computing configuration in which one function is shared by multiple devices via a network and processed jointly.
  • each step described in the above flowchart can be executed by one device or shared by a plurality of devices.
  • the plurality of processes included in the one step can be executed by one device or shared by a plurality of devices.
  • this technology can also have the following configurations.
  • a first rendering processing unit that performs rendering processing based on an audio signal and generates a first output audio signal for outputting sound by a plurality of first speakers, and a first rendering processing unit.
  • a second rendering processing unit that performs rendering processing based on the audio signal and generates a second output audio signal for outputting sound by a plurality of second speakers having a reproduction band different from that of the first speaker.
  • a sound processing device equipped with (2) A first band limiting processing unit that performs band limiting processing according to the reproduction band of the first speaker with respect to the first output audio signal.
  • the audio processing apparatus according to (1) further comprising a second band limiting processing unit that performs band limiting processing on the second output audio signal according to the reproduction band of the second speaker.
  • a third band limiting processing unit that performs band limiting processing according to the reproduction band of the first speaker with respect to the audio signal, and a third band limiting processing unit.
  • a third rendering processing unit that generates A fourth band limiting processing unit that performs band limiting processing according to the reproduction band of the second speaker with respect to the audio signal, and a fourth band limiting processing unit.
  • the fourth rendering processing unit that generates Whether the third band limiting processing unit and the fourth band limiting processing unit are to perform the band limiting processing, and the third rendering processing unit and the fourth rendering processing unit are to perform the rendering processing. Alternatively, whether the first rendering processing unit and the second rendering processing unit are to perform the rendering processing, and the first band limiting processing unit and the second band limiting processing unit are to perform the band limiting processing.
  • the sound processing apparatus according to (2) further comprising a selection unit for selection.
  • the selection unit makes the selection based on the number of the audio signals and the total number of the first speaker and the second speaker.
  • a first band limiting processing unit that performs band limiting processing according to the reproduction band of the first speaker with respect to the audio signal, and a first band limiting processing unit. Further, the audio signal is further provided with a second band limiting processing unit that performs band limiting processing according to the reproduction band of the second speaker.
  • the first rendering processing unit performs rendering processing based on the first band limiting signal obtained by the band limiting processing by the first band limiting processing unit.
  • the sound processing apparatus according to (1), wherein the second rendering processing unit performs rendering processing based on a second band limiting signal obtained by the band limiting processing by the second band limiting processing unit.
  • the rendering process based on the audio signal is performed by the first rendering processing unit, or the second rendering process is performed.
  • (1), (2), or (5) further includes a determination unit for determining whether to have the rendering processing unit perform the processing, or both the first rendering processing unit and the second rendering processing unit.
  • the sound processing device described in. (7) The acoustic processing device according to (6), wherein the determination unit makes the determination based on the frequency characteristics of the audio signal.
  • the audio signal is an object signal of an audio object.
  • Sound processing equipment (10) The acoustic processing apparatus according to (9), wherein the metadata includes position information indicating the position of the audio object.
  • the position information is information indicating a relative position of the audio object with respect to a predetermined listening position.
  • the second rendering processing unit adds the second output audio signal obtained by the rendering processing and the channel-based audio signal to obtain the final second output audio signal (9).
  • (13) The acoustic processing apparatus according to (12), wherein the channel-based audio signal is an audio signal of an LFE channel.
  • the sound processing apparatus according to any one of (1) to (13), wherein the first rendering processing unit and the second rendering processing unit perform processing using VBAP as rendering processing.
  • the sound processing apparatus according to any one of (1) to (14), further comprising the plurality of the first speaker and the plurality of the second speakers.
  • the sound processing device Rendering is performed based on the audio signal, and a first output audio signal for outputting sound by a plurality of first speakers is generated.
  • An acoustic processing method that performs rendering processing based on the audio signal and generates a second output audio signal for outputting sound by a plurality of second speakers having a reproduction band different from that of the first speaker.
  • Rendering is performed based on the audio signal, and a first output audio signal for outputting sound by a plurality of first speakers is generated.
  • a computer performs a process including a step of performing rendering processing based on the audio signal and generating a second output audio signal for outputting sound by a plurality of second speakers having a reproduction band different from that of the first speaker. Program to be executed by.
  • Audio playback system 21 Sound processing device, 22 Speaker system, 41-1 to 41-3, 41 Rendering processing unit, 42-1 to 42-Nt, 42 HPF, 43-1 to 43-Ns, 43 BPF, 44 -1 to 44-Nw, 44 LPF, 151 selection unit, 211 judgment unit

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Stereophonic System (AREA)

Abstract

本技術は、より高音質なオーディオ再生を行うことができるようにする音響処理装置および方法、並びにプログラムに関する。 音響処理装置は、オーディオ信号に基づいてレンダリング処理を行い、複数の第1のスピーカにより音を出力するための第1の出力オーディオ信号を生成する第1のレンダリング処理部と、オーディオ信号に基づいてレンダリング処理を行い、第1のスピーカとは再生帯域が異なる複数の第2のスピーカにより音を出力するための第2の出力オーディオ信号を生成する第2のレンダリング処理部とを備える。本技術はオーディオ再生システムに適用することができる。

Description

音響処理装置および方法、並びにプログラム
 本技術は、音響処理装置および方法、並びにプログラムに関し、特に、より高音質なオーディオ再生を行うことができるようにした音響処理装置および方法、並びにプログラムに関する。
 近年、オブジェクトベースのオーディオ技術が注目されている。
 オブジェクトベースオーディオでは、オブジェクトに対する波形信号(オーディオ信号)と、所定の基準となる視聴点(受聴位置)から見たオブジェクトの相対位置を示す定位情報を示すメタデータとによりオーディオデータが構成されている。そして、そのメタデータに基づき、例えばVBAP(Vector Based Amplitude Panning)により波形信号が所望のチャネル数にレンダリングされ、再生される(例えば、非特許文献1および非特許文献2参照)。
ISO/IEC 23008-3 Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio Ville Pulkki, "Virtual Sound Source Positioning Using Vector Base Amplitude Panning", Journal of AES, vol.45, no.6, pp.456-466, 1997
 ところで、3次元空間に複数のスピーカを配置したスピーカレイアウトで、オブジェクトのレンダリング再生を行う場合、多くのスピーカが用いられることになるが、全てのスピーカが同一の再生帯域を持たないケースが考えられる。
 例えば、車載オーディオは、多くのスピーカを配置することができるユースケースである。車載オーディオは、一般的にウーハと呼ばれる低域の再生帯域をもつスピーカ、スコーカと呼ばれる中域の再生帯域をもつスピーカ、トゥイータと呼ばれる高域の再生帯域をもつスピーカが混在したスピーカレイアウトで構成される。
 しかしながら、このようなスピーカレイアウトでオブジェクトオーディオのVBAP等のレンダリングを行った場合、オブジェクトの定位位置によって、再生に用いられるスピーカの再生帯域が異なる。
 そのため、例えば高域成分のみを含むオブジェクトの音が、そのオブジェクトの定位位置近傍にあるウーハにより再生される場合など、オブジェクトの音の周波数帯域や定位位置によっては、音が消えてしまうなどの音質劣化が発生してしまう。
 本技術は、このような状況に鑑みてなされたものであり、より高音質なオーディオ再生を行うことができるようにするものである。
 本技術の一側面の音響処理装置は、オーディオ信号に基づいてレンダリング処理を行い、複数の第1のスピーカにより音を出力するための第1の出力オーディオ信号を生成する第1のレンダリング処理部と、前記オーディオ信号に基づいてレンダリング処理を行い、前記第1のスピーカとは再生帯域が異なる複数の第2のスピーカにより音を出力するための第2の出力オーディオ信号を生成する第2のレンダリング処理部とを備える。
 本技術の一側面の音響処理方法またはプログラムは、オーディオ信号に基づいてレンダリング処理を行い、複数の第1のスピーカにより音を出力するための第1の出力オーディオ信号を生成し、前記オーディオ信号に基づいてレンダリング処理を行い、前記第1のスピーカとは再生帯域が異なる複数の第2のスピーカにより音を出力するための第2の出力オーディオ信号を生成するステップを含む。
 本技術の一側面においては、オーディオ信号に基づいてレンダリング処理が行われ、複数の第1のスピーカにより音を出力するための第1の出力オーディオ信号が生成され、前記オーディオ信号に基づいてレンダリング処理が行われ、前記第1のスピーカとは再生帯域が異なる複数の第2のスピーカにより音を出力するための第2の出力オーディオ信号が生成される。
本技術について説明する図である。 オーディオ再生システムの構成例を示す図である。 HPF、BPF、およびLPFの周波数特性例を示す図である。 再生処理を説明するフローチャートである。 オーディオ再生システムの構成例を示す図である。 再生処理を説明するフローチャートである。 オーディオ再生システムの構成例を示す図である。 再生処理を説明するフローチャートである。 オーディオ再生システムの構成例を示す図である。 再生処理を説明するフローチャートである。 オーディオ再生システムの構成例を示す図である。 HPFおよびLPFの周波数特性例を示す図である。 再生処理を説明するフローチャートである。 コンピュータの構成例を示す図である。
 以下、図面を参照して、本技術を適用した実施の形態について説明する。
〈第1の実施の形態〉
〈本技術について〉
 本技術は、互いに異なる複数の再生帯域を有するスピーカからなるスピーカシステムでオブジェクトベースオーディオを再生する場合に、同じ再生帯域を有するスピーカからなるスピーカレイアウトごとにレンダリング処理を行うことで、より高音質なオーディオ再生を行うものである。
 例えば本技術では、図1に示すようにオブジェクトベースオーディオの受聴者であるユーザU11を中心とする球P11の表面上に、ユーザU11を囲むように複数のスピーカSP11-1乃至スピーカSP11-18が配置される。
 そして、これらのスピーカSP11-1乃至スピーカSP11-18からなるスピーカシステムが用いられてオブジェクトベースオーディオが再生される。
 なお、以下、スピーカSP11-1乃至スピーカSP11-18を特に区別する必要のない場合、単にスピーカSP11とも称することとする。
 この例では、複数のスピーカSP11のなかには、互いに再生帯域が異なるものが含まれているため、再生帯域ごとにレンダリング処理が行われる。
 例えば、同じ再生帯域を有するスピーカSP11からなるスピーカ群(グループ)、より詳細にはそのスピーカ群を構成する各スピーカSP11の3次元的な配置を1つのスピーカレイアウトと呼ぶこととする。
 このとき、スピーカシステムを構成するスピーカレイアウトごとにレンダリング処理が行われ、スピーカレイアウトでオブジェクト(オーディオオブジェクト)の音を再生するためのスピーカ再生信号が生成される。
 なお、レンダリング処理は、VBAPやパニングなど、どのような処理であってもよい。
 1つのスピーカレイアウトに対してレンダリング処理が行われると、そのスピーカレイアウトの各スピーカSP11のスピーカ再生信号が生成される。
 レンダリング処理としてVBAPが行われる場合、スピーカレイアウトを構成する全スピーカSP11によって球P11の表面上に1または複数のメッシュが形成される。
 球P11の表面上における、スピーカレイアウトを構成する3つのスピーカSP11により囲まれる三角形状の領域が1つのメッシュである。
 いま、1つのオブジェクトについて所定のスピーカレイアウトのVBAPを行うこととする。
 また、オブジェクトのオブジェクトデータが供給され、そのオブジェクトデータは、オブジェクトの音を再生するためのオーディオ信号であるオブジェクト信号と、そのオブジェクトに関する情報であるメタデータとからなるものとする。
 メタデータには、少なくともオブジェクトの位置、つまりオブジェクトの音の音像定位位置を示す位置情報が含まれている。
 このオブジェクトの位置情報は、例えば所定の基準となる受聴位置であるユーザU11の頭部の位置から見たオブジェクトの相対的な位置を示す座標情報などとされる。換言すれば、位置情報は、ユーザU11の頭部位置を基準とするオブジェクトの相対的な位置を示す情報である。
 VBAPでは、スピーカレイアウトのスピーカSP11により形成されるメッシュのなかから、オブジェクトの位置情報により示される位置(以下、オブジェクト位置とも称する)が含まれる1つのメッシュが選択される。ここでは、選択されたメッシュを選択メッシュと呼ぶこととする。
 次に、選択メッシュを構成する各スピーカSP11の配置位置と、オブジェクト位置との位置関係に基づいて、それらのスピーカSP11ごとにVBAPゲインが求められ、VBAPゲインによりオブジェクト信号のゲイン調整が行われてスピーカ再生信号とされる。
 すなわち、スピーカSP11について求められたVBAPゲインに基づいてオブジェクト信号に対するゲイン調整を行うことで得られる信号が、そのスピーカSP11のスピーカ再生信号である。なお、スピーカレイアウトの全スピーカSP11のうち、選択メッシュを構成するスピーカSP11以外の他のスピーカSP11のスピーカ再生信号はゼロ信号とされる。換言すれば、選択メッシュを構成するスピーカSP11以外の他のスピーカSP11のVBAPゲインは0とされる。
 このようにして得られたスピーカレイアウトの各スピーカSP11のスピーカ再生信号に基づいて、それらのスピーカSP11から音を出力すると、位置情報により示されるオブジェクト位置に音像が定位するように、オブジェクトの音が再生される。
 その他、例えばパニングを利用してスピーカレイアウトの各スピーカSP11のスピーカ再生信号を生成することもできる。
 そのような場合、例えばスピーカレイアウトの各スピーカSP11と、オブジェクトとの図中、前後方向や左右方向、上下方向などの各方向における位置関係に基づいて、それらのスピーカSP11ごとのゲインが求められる。そして、求められたスピーカSP11ごとのゲインによりオブジェクト信号のゲイン調整が行われて、各スピーカSP11のスピーカ再生信号が生成される。
 このように、スピーカレイアウトごとのレンダリング処理は、VBAPやパニングなど、どのような処理であってもよいが、以下では、レンダリング処理としてVBAPが行われる場合について説明する。
 スピーカシステムでは、そのスピーカシステムを構成する互いに再生帯域が異なる複数のスピーカレイアウトごとにレンダリング処理が行われ、スピーカシステムを構成する全スピーカSP11のスピーカ再生信号が生成される。換言すれば、スピーカレイアウト構成が再生帯域ごとに複数用意され、それらの再生帯域ごとにレンダリング処理が行われる。
 このようにすることで、本技術では互いに再生帯域が異なるスピーカSP11が混在する場合であっても、スピーカSP11の再生帯域に起因する音質の劣化を抑制し、より高音質なオーディオ再生を行うことができる。
 例えばスピーカシステムを構成する全スピーカSP11によりメッシュを形成し、レンダリング処理としてVBAPを行ったとする。
 このとき、例えばスピーカSP11-1、スピーカSP11-2、およびスピーカSP11-5により形成されるメッシュ内にオブジェクト位置があるとすると、それらのスピーカSP11-1、スピーカSP11-2、およびスピーカSP11-5によりオブジェクトの音が再生される。
 この場合に、例えばオブジェクトの音が高域成分のみからなり、スピーカSP11-1、スピーカSP11-2、およびスピーカSP11-5が低域を再生帯域とするスピーカであるとすると、それらのスピーカSP11では十分な音圧でオブジェクトの音を再生することができない。そうすると、オブジェクトの音が小さくなって聞こえなくなるなど、音質の劣化が生じてしまうことになる。
 これに対して、本技術では、複数の再生帯域ごとにレンダリング処理が行われるので、各周波数帯域の成分の再生は、必ずそれらの周波数帯域を含む再生帯域のスピーカSP11により行われることになる。したがって、スピーカSP11の再生帯域に起因する音質の劣化を抑制し、より高音質なオーディオ再生を行うことができる。
 なお、本技術では、スピーカシステムを構成するスピーカSP11の数や、各スピーカSP11が有する再生帯域、各再生帯域のスピーカSP11の配置位置は、任意の数や再生帯域、配置位置とすることができる。
〈オーディオ再生システムの構成例〉
 図2は、本技術を適用したオーディオ再生システムの一実施の形態の構成例を示す図である。
 図2に示すオーディオ再生システム11は、音響処理装置21およびスピーカシステム22を有しており、供給されたオブジェクトデータに基づいてオブジェクトベースオーディオのコンテンツを再生する。
 この例ではコンテンツは、N個のオブジェクトからなり、それらのN個のオブジェクトのオブジェクトデータが供給されるが、オブジェクトの数はいくつであってもよい。また、上述したように、1つのオブジェクトのオブジェクトデータには、そのオブジェクトの音を再生するためのオブジェクト信号と、オブジェクトのメタデータとが含まれている。
 音響処理装置21は、再生信号生成部31、D/A(Digital/Analog)変換部32-1-1乃至D/A変換部32-3-Nw、および増幅部33-1-1乃至増幅部33-3-Nwを有している。
 再生信号生成部31は、再生帯域ごとのレンダリング処理を行って、出力となる出力オーディオ信号であるスピーカ再生信号を生成する。
 再生信号生成部31は、レンダリング処理部41-1乃至レンダリング処理部41-3、HPF(High Pass Filter)42-1乃至HPF42-Nt、BPF(Band Pass Filter)43-1乃至BPF43-Ns、およびLPF(Low Pass Filter)44-1乃至LPF44-Nwを有している。
 スピーカシステム22は、互いに異なる再生帯域を有するスピーカ51-1-1乃至スピーカ51-1-Nt、スピーカ51-2-1乃至スピーカ51-2-Ns、およびスピーカ51-3-1乃至スピーカ51-3-Nwを有している。
 なお、以下、スピーカ51-1-1乃至スピーカ51-1-Ntを特に区別する必要のない場合、単にスピーカ51-1とも称する。
 同様に、以下、スピーカ51-2-1乃至スピーカ51-2-Nsを特に区別する必要のない場合、単にスピーカ51-2とも称し、スピーカ51-3-1乃至スピーカ51-3-Nwを特に区別する必要のない場合、単にスピーカ51-3とも称する。
 また、以下、スピーカ51-1乃至スピーカ51-3を特に区別する必要のない場合、単にスピーカ51とも称することとする。スピーカシステム22を構成するスピーカ51は、図1に示したスピーカSP11に対応する。
 レンダリング処理部41-1乃至レンダリング処理部41-3は、供給されたオブジェクトデータを構成するオブジェクト信号とメタデータとに基づいてVBAP等のレンダリング処理を行い、各スピーカ51のスピーカ再生信号を生成する。
 例えばレンダリング処理部41-1は、N個のオブジェクトごとにレンダリング処理を行い、オブジェクトごとにスピーカ51-1-1乃至スピーカ51-1-Ntのそれぞれを出力先とするスピーカ再生信号のそれぞれを生成する。
 また、レンダリング処理部41-1は、同じスピーカ51-1について生成したオブジェクトごとのスピーカ再生信号を加算し、そのスピーカ51-1の最終的なスピーカ再生信号とする。このようにして得られたスピーカ再生信号に基づく音には、N個の各オブジェクトの音が含まれている。
 レンダリング処理部41-1は、スピーカ51-1-1乃至スピーカ51-1-Ntについて生成した最終的なスピーカ再生信号を、HPF42-1乃至HPF42-Ntに供給する。
 レンダリング処理部41-2もレンダリング処理部41-1と同様にして、スピーカ51-2-1乃至スピーカ51-2-Nsのそれぞれを最終的な出力先とする、N個のオブジェクトの音を再生するための各スピーカ51-2のスピーカ再生信号を生成し、BPF43-1乃至BPF43-Nsに供給する。
 レンダリング処理部41-3もレンダリング処理部41-1と同様にして、スピーカ51-3-1乃至スピーカ51-3-Nwのそれぞれを最終的な出力先とする、N個のオブジェクトの音を再生するための各スピーカ51-3のスピーカ再生信号を生成し、LPF44-1乃至LPF44-Nwに供給する。
 以下、レンダリング処理部41-1乃至レンダリング処理部41-3を特に区別する必要のない場合、単にレンダリング処理部41とも称することとする。
 HPF42-1乃至HPF42-Ntは、少なくともスピーカ51-1の再生帯域を含む周波数帯域、すなわち高域の成分を通過させ、中低域成分を遮断するHPFである。
 HPF42-1乃至HPF42-Ntは、レンダリング処理部41-1から供給されたスピーカ再生信号に対してフィルタリング処理を行い、その結果得られた高域成分のみを含むスピーカ再生信号をD/A変換部32-1-1乃至D/A変換部32-1-Ntに供給する。
 なお、以下、HPF42-1乃至HPF42-Ntを特に区別する必要のない場合、単にHPF42とも称することとする。HPF42は、入力されたスピーカ再生信号に対して、HPFによるフィルタリング処理という、スピーカ51-1の有する再生帯域に応じた帯域制限処理を行って、帯域制限されたスピーカ再生信号(帯域制限信号)を生成する帯域制限処理部として機能するということができる。
 BPF43-1乃至BPF43-Nsは、少なくともスピーカ51-2の再生帯域を含む周波数帯域、すなわち中域の成分を通過させ、その他の成分を遮断するBPFである。
 BPF43-1乃至BPF43-Nsは、レンダリング処理部41-2から供給されたスピーカ再生信号に対してフィルタリング処理を行い、その結果得られた中域成分のみを含むスピーカ再生信号をD/A変換部32-2-1乃至D/A変換部32-2-Nsに供給する。
 以下、BPF43-1乃至BPF43-Nsを特に区別する必要のない場合、単にBPF43とも称することとする。BPF43は、入力されたスピーカ再生信号に対して、BPFによるフィルタリング処理という、スピーカ51-2の有する再生帯域に応じた帯域制限処理を行って、帯域制限されたスピーカ再生信号(帯域制限信号)を生成する帯域制限処理部として機能するということができる。
 LPF44-1乃至LPF44-Nwは、少なくともスピーカ51-3の再生帯域を含む周波数帯域、すなわち低域の成分を通過させ、中高域の成分を遮断するLPFである。
 LPF44-1乃至LPF44-Nwは、レンダリング処理部41-3から供給されたスピーカ再生信号に対してフィルタリング処理を行い、その結果得られた低域成分のみを含むスピーカ再生信号をD/A変換部32-3-1乃至D/A変換部32-3-Nwに供給する。
 以下、LPF44-1乃至LPF44-Nwを特に区別する必要のない場合、単にLPF44とも称することとする。LPF44は、入力されたスピーカ再生信号に対して、LPFによるフィルタリング処理という、スピーカ51-3の有する再生帯域に応じた帯域制限処理を行って、帯域制限されたスピーカ再生信号(帯域制限信号)を生成する帯域制限処理部として機能するということができる。
 D/A変換部32-1-1乃至D/A変換部32-1-Ntは、HPF42-1乃至HPF42-Ntから供給されたスピーカ再生信号をD/A変換し、その結果得られたアナログのスピーカ再生信号を増幅部33-1-1乃至増幅部33-1-Ntに供給する。
 以下、D/A変換部32-1-1乃至D/A変換部32-1-Ntを特に区別する必要のない場合、単にD/A変換部32-1とも称することとする。
 D/A変換部32-2-1乃至D/A変換部32-2-Nsは、BPF43-1乃至BPF43-Nsから供給されたスピーカ再生信号をD/A変換し、その結果得られたアナログのスピーカ再生信号を増幅部33-2-1乃至増幅部33-2-Nsに供給する。
 以下、D/A変換部32-2-1乃至D/A変換部32-2-Nsを特に区別する必要のない場合、単にD/A変換部32-2とも称することとする。
 D/A変換部32-3-1乃至D/A変換部32-3-Nwは、LPF44-1乃至LPF44-Nwから供給されたスピーカ再生信号をD/A変換し、その結果得られたアナログのスピーカ再生信号を増幅部33-3-1乃至増幅部33-3-Nwに供給する。
 以下、D/A変換部32-3-1乃至D/A変換部32-3-Nwを特に区別する必要のない場合、単にD/A変換部32-3とも称することとする。また、以下、D/A変換部32-1乃至D/A変換部32-3を特に区別する必要のない場合、単にD/A変換部32とも称することとする。
 増幅部33-1-1乃至増幅部33-1-Ntは、D/A変換部32-1-1乃至D/A変換部32-1-Ntから供給されたスピーカ再生信号を増幅させ、スピーカ51-1-1乃至スピーカ51-1-Ntに供給する。
 増幅部33-2-1乃至増幅部33-2-Nsは、D/A変換部32-2-1乃至D/A変換部32-2-Nsから供給されたスピーカ再生信号を増幅させ、スピーカ51-2-1乃至スピーカ51-2-Nsに供給する。
 増幅部33-3-1乃至増幅部33-3-Nwは、D/A変換部32-3-1乃至D/A変換部32-3-Nwから供給されたスピーカ再生信号を増幅させ、スピーカ51-3-1乃至スピーカ51-3-Nwに供給する。
 以下、増幅部33-1-1乃至増幅部33-1-Ntを特に区別する必要のない場合、単に増幅部33-1とも称し、増幅部33-2-1乃至増幅部33-2-Nsを特に区別する必要のない場合、単に増幅部33-2とも称する。
 以下、増幅部33-3-1乃至増幅部33-3-Nwを特に区別する必要のない場合、単に増幅部33-3とも称し、増幅部33-1乃至増幅部33-3を特に区別する必要のない場合、単に増幅部33とも称する。
 なお、D/A変換部32や増幅部33は、音響処理装置21の外部に設けられるようにしてもよい。
 スピーカ51-1-1乃至スピーカ51-1-Ntは、増幅部33-1-1乃至増幅部33-1-Ntから供給されたスピーカ再生信号に基づいて音を出力する。
 スピーカシステム22を構成するNt個の各スピーカ51-1は、主に高帯域(高域)の再生帯域をもつ、トゥイータ(Tweeter)と呼ばれるスピーカである。スピーカシステム22では、これらのNt個のスピーカ51-1により、高帯域用の1つのスピーカレイアウトが形成される。
 スピーカ51-2-1乃至スピーカ51-2-Nsは、増幅部33-2-1乃至増幅部33-2-Nsから供給されたスピーカ再生信号に基づいて音を出力する。
 スピーカシステム22を構成するNs個の各スピーカ51-2は、主に中帯域(中域)の再生帯域をもつ、スコーカ(Squawker)と呼ばれるスピーカである。スピーカシステム22では、これらのNs個のスピーカ51-2により、中帯域用の1つのスピーカレイアウトが形成される。
 スピーカ51-3-1乃至スピーカ51-3-Nwは、増幅部33-3-1乃至増幅部33-3-Nwから供給されたスピーカ再生信号に基づいて音を出力する。
 スピーカシステム22を構成するNw個の各スピーカ51-3は、主に低帯域(低域)の再生帯域をもつ、ウーハ(Woofer)と呼ばれるスピーカである。スピーカシステム22では、これらのNw個のスピーカ51-3により、低帯域用の1つのスピーカレイアウトが形成される。
 このようにスピーカシステム22は、高帯域、中帯域、および低帯域という互いに異なる再生帯域を有する複数のスピーカ51から構成される。すなわち、コンテンツを受聴する受聴者の周囲には、再生帯域が互いに異なる複数のスピーカ51が混在して配置される。
 なお、ここではスピーカ51-1乃至スピーカ51-3からなるスピーカシステム22が音響処理装置21とは別に設けられている例について説明するが、スピーカシステム22が音響処理装置21に設けられた構成としてもよい。すなわち、スピーカシステム22が音響処理装置21に含まれるようにしてもよい。
 以上のようにオーディオ再生システム11では、スピーカ51の再生帯域ごと、すなわち各再生帯域のスピーカレイアウトごとにレンダリング処理が行われる。
 したがって、例えばレンダリング処理部41-1において、レンダリング処理としてVBAPが行われる場合には、レンダリング処理部41-1ではNt個のスピーカ51-1により形成されるメッシュから上述の選択メッシュが選択される。
 同様に、レンダリング処理部41-2ではNs個のスピーカ51-2により形成されるメッシュから上述の選択メッシュが選択され、レンダリング処理部41-3ではNw個のスピーカ51-3により形成されるメッシュから上述の選択メッシュが選択される。
 また、帯域制限処理部として機能するHPF42、BPF43、およびLPF44の周波数特性、すなわち制限帯域(通過帯域)は、例えば図3に示すようになされている。なお、図3において横軸は周波数(Hz)を示しており、縦軸は音圧レベル(dB)を示している。
 図3では、折れ線L11はHPF42の周波数特性を示しており、折れ線L12はBPF43の周波数特性を示しており、折れ線L13はLPF44の周波数特性を示している。
 折れ線L11から分かるように、HPF42では、他のBPF43やLPF44よりも高い周波数帯域の成分、すなわち高域成分を通過させる高域通過フィルタリングが行われる。
 また、BPF43では、LPF44よりも高く、HPF42よりも低い周波数帯域の成分、すなわち中域成分を通過させる中域通過フィルタリングが行われることが分かる。LPF44では、他のBPF43やHPF42よりも低い周波数帯域の成分、すなわち低域成分を通過させる低域通過フィルタリングが行われることが分かる。
 さらに、ここではHPF42とBPF43の通過帯域がクロスオーバーしており、BPF43とLPF44の通過帯域もクロスオーバーしている。ここでは、HPF42とBPF43の通過帯域、BPF43とLPF44の通過帯域がそれぞれクロスオーバーしている例を挙げたが、これに限定されない。例えば、HPF42とBPF43の通過帯域、BPF43とLPF44の通過帯域のいずれもがクロスオーバーをしていなくてもよく、どちらか一方がクロスオーバーするような特性を持っていてもよい。
 なお、オーディオ再生システム11では、Nt個のHPF42は同一の特性(周波数特性)を有しているものとするが、これらのNt個のHPF42は互いに異なる特性を有するフィルタ(HPF)であってもよい。
 また、レンダリング処理部41-1とスピーカ51-1との間にHPF42が設けられないようにし、レンダリング処理部41-1で得られたスピーカ再生信号が、D/A変換部32-1および増幅部33-1を介してスピーカ51-1に供給されるようにしてもよい。すなわち、HPF42によるフィルタリング処理(帯域制限処理)が行われずに、スピーカ再生信号に基づく音がスピーカ51-1で再生されるようにしてもよい。
 同様に、Ns個のBPF43は同一の特性(周波数特性)を有しているものとするが、これらのBPF43は互いに異なる特性を有していてもよいし、レンダリング処理部41-2とスピーカ51-2との間にBPF43が設けられないようにしてもよい。
 さらにNw個のLPF44は同一の特性(周波数特性)を有しているものとするが、これらのLPF44は互いに異なる特性を有していてもよいし、レンダリング処理部41-3とスピーカ51-3との間にLPF44が設けられないようにしてもよい。
〈再生処理の説明〉
 次に、オーディオ再生システム11の動作について説明する。すなわち、以下、図4のフローチャートを参照して、オーディオ再生システム11による再生処理について説明する。この再生処理は、コンテンツを構成するN個のオブジェクトのオブジェクトデータが各レンダリング処理部41に供給されると開始される。
 ステップS11においてレンダリング処理部41-1は、供給されたN個のオブジェクトデータに基づいて、高帯域用のスピーカ51-1についてレンダリング処理を行い、その結果得られたスピーカ再生信号をHPF42に供給する。
 すなわち、Nt個のスピーカ51-1からなるスピーカレイアウトに対するレンダリングが行われ、出力オーディオ信号としてのスピーカ再生信号が生成される。例えばステップS11では、Nt個のスピーカ51-1により形成されるメッシュが用いられて、レンダリング処理としてVBAPが行われる。
 ステップS12においてHPF42は、レンダリング処理部41-1から供給されたスピーカ再生信号に対してHPFによるフィルタリング処理(帯域制限処理)を行い、その結果得られた、帯域制限後のスピーカ再生信号をD/A変換部32-1に供給する。
 D/A変換部32-1は、HPF42から供給されたスピーカ再生信号をD/A変換して増幅部33-1に供給し、増幅部33-1はD/A変換部32-1から供給されたスピーカ再生信号を増幅させてスピーカ51-1に供給する。
 ステップS13においてレンダリング処理部41-2は、供給されたN個のオブジェクトデータに基づいて、中帯域用のスピーカ51-2についてレンダリング処理を行い、その結果得られたスピーカ再生信号をBPF43に供給する。
 例えばステップS13では、Ns個のスピーカ51-2により形成されるメッシュが用いられて、レンダリング処理としてVBAPが行われる。
 ステップS14においてBPF43は、レンダリング処理部41-2から供給されたスピーカ再生信号に対してBPFによるフィルタリング処理(帯域制限処理)を行い、その結果得られた、帯域制限後のスピーカ再生信号をD/A変換部32-2に供給する。
 D/A変換部32-2は、BPF43から供給されたスピーカ再生信号をD/A変換して増幅部33-2に供給し、増幅部33-2はD/A変換部32-2から供給されたスピーカ再生信号を増幅させてスピーカ51-2に供給する。
 ステップS15においてレンダリング処理部41-3は、供給されたN個のオブジェクトデータに基づいて、低帯域用のスピーカ51-3についてレンダリング処理を行い、その結果得られたスピーカ再生信号をLPF44に供給する。
 例えばステップS15では、Nw個のスピーカ51-3により形成されるメッシュが用いられて、レンダリング処理としてVBAPが行われる。
 ステップS16においてLPF44は、レンダリング処理部41-3から供給されたスピーカ再生信号に対してLPFによるフィルタリング処理(帯域制限処理)を行い、その結果得られた、帯域制限後のスピーカ再生信号をD/A変換部32-3に供給する。
 D/A変換部32-3は、LPF44から供給されたスピーカ再生信号をD/A変換して増幅部33-3に供給し、増幅部33-3はD/A変換部32-3から供給されたスピーカ再生信号を増幅させてスピーカ51-3に供給する。
 ステップS17においてスピーカシステム22を構成する全スピーカ51は、増幅部33から供給されたスピーカ再生信号に基づいて音を出力し、再生処理は終了する。
 全スピーカ51からスピーカ再生信号に基づく音が出力されると、各再生帯域のスピーカレイアウトによって、再生帯域ごとにN個のオブジェクトの音が再生される。そして、それらのN個の各オブジェクトの音像は、各オブジェクトのメタデータに含まれる位置情報により示されるオブジェクト位置に定位する。
 以上のようにしてオーディオ再生システム11は、スピーカ51が有する再生帯域ごと、すなわち複数の各再生帯域のスピーカレイアウトごとにレンダリング処理を行い、コンテンツを再生する。このようにすることで、スピーカ51の再生帯域に起因する音質の劣化を抑制し、より高音質なオーディオ再生を行うことができる。
 具体的には、例えばオーディオ再生システム11では、再生帯域が異なるスピーカ51が混在している。
 しかし、オーディオ再生システム11では、スピーカレイアウト構成が複数の再生帯域ごとに用意され、各オブジェクトが再生帯域ごとにレンダリングされて再生される。
 したがって、オブジェクトが、それぞれの再生帯域のスピーカレイアウトごとに適切な定位で再生され、より適切なオブジェクトベースオーディオのレンダリング再生が実現される。これにより、例えばオブジェクトがもつ周波数帯域と定位位置によって、音が消えてしまうなどの音質の劣化を回避することができる。すなわち、より高音質なオーディオ再生を行うことができる。
〈第2の実施の形態〉
〈オーディオ再生システムの構成例〉
 なお、以上においてはレンダリング処理部41の出力に対して、対象となるスピーカレイアウトに応じた帯域制限のフィルタリング処理が行われる例について説明した。
 しかし、これに限らず、例えばレンダリング処理部41への入力となるオブジェクト信号に対して、対象となるスピーカレイアウトに応じた帯域制限のフィルタリング処理が行われるようにしてもよい。
 そのような場合、オーディオ再生システムは、例えば図5に示す構成とされる。なお、図5において図2における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
 図5に示すオーディオ再生システム81は、音響処理装置91およびスピーカシステム22を有している。
 また、音響処理装置91は、再生信号生成部101、D/A変換部32-1-1乃至D/A変換部32-3-Nw、および増幅部33-1-1乃至増幅部33-3-Nwを有している。
 再生信号生成部101は、HPF42-1乃至HPF42-N、BPF43-1乃至BPF43-N、LPF44-1乃至LPF44-N、およびレンダリング処理部41-1乃至レンダリング処理部41-3を有している。
 オーディオ再生システム81の構成は、音響処理装置21に代えて音響処理装置91を設けた点で図2に示したオーディオ再生システム11と異なり、その他の点ではオーディオ再生システム11と同じ構成となっている。
 特に、音響処理装置91の構成は、音響処理装置21の再生信号生成部31を再生信号生成部101に置き換えた構成となっている。
 上述したように再生信号生成部31では、レンダリング処理部41の後段にHPF42、BPF43、およびLPF44が設けられている。
 これに対して、再生信号生成部101では、レンダリング処理部41の前段にHPF42、BPF43、およびLPF44が設けられている。
 しかも、再生信号生成部101では、レンダリング処理部41の入力となるN個の各オブジェクトのオブジェクト信号に対してフィルタリング処理(帯域制限処理)が行われるため、HPF42、BPF43、およびLPF44がそれぞれN個ずつ設けられている。すなわち、オブジェクトごとにHPF42、BPF43、およびLPF44が設けられている。
 したがって、HPF42-1乃至HPF42-Nのそれぞれは、供給されたN個の各オブジェクトデータのオブジェクト信号のそれぞれに対してフィルタリング処理を行い、その結果得られた高域成分のみを含むオブジェクト信号をレンダリング処理部41-1に供給する。なお、HPF42-1乃至HPF42-Nでは、再生信号生成部31におけるHPF42と同じフィルタリング処理(帯域制限処理)が行われる。
 同様に、BPF43-1乃至BPF43-Nのそれぞれは、供給されたN個の各オブジェクトデータのオブジェクト信号のそれぞれに対してフィルタリング処理を行い、その結果得られた中域成分のみを含むオブジェクト信号をレンダリング処理部41-2に供給する。BPF43-1乃至BPF43-Nでは、再生信号生成部31におけるBPF43と同じフィルタリング処理(帯域制限処理)が行われる。
 LPF44-1乃至LPF44-Nのそれぞれは、供給されたN個の各オブジェクトデータのオブジェクト信号のそれぞれに対してフィルタリング処理を行い、その結果得られた低域成分のみを含むオブジェクト信号をレンダリング処理部41-3に供給する。LPF44-1乃至LPF44-Nでは、再生信号生成部31におけるLPF44と同じフィルタリング処理(帯域制限処理)が行われる。
 このように、図2に示したオーディオ再生システム11ではスピーカ51ごとにHPF42やBPF43、LPF44が設けられていたのに対して、オーディオ再生システム81ではオブジェクトごとにHPF42やBPF43、LPF44が設けられている。
 この例では、コンテンツがN個のオブジェクトからなるので、オーディオ再生システム81では、HPF42、BPF43、およびLPF44がそれぞれN個ずつ設けられている。
 なお、この例においてもオーディオ再生システム11における場合と同様に、N個のHPF42は同一の周波数特性を有しているが、これらのN個のHPF42は互いに異なる特性を有するフィルタ(HPF)であってもよいし、レンダリング処理部41-1の前段にHPF42が設けられないようにしてもよい。
 同様に、N個のBPF43は同一の特性(周波数特性)を有しているものとするが、これらのBPF43は互いに異なる特性を有していてもよいし、レンダリング処理部41-2の前段にBPF43が設けられないようにしてもよい。
 さらにN個のLPF44は同一の特性(周波数特性)を有しているものとするが、これらのLPF44は互いに異なる特性を有していてもよいし、レンダリング処理部41-3の前段にLPF44が設けられないようにしてもよい。
〈再生処理の説明〉
 次に、図6のフローチャートを参照して、オーディオ再生システム81による再生処理について説明する。
 ステップS41においてHPF42-1乃至HPF42-Nのそれぞれは、供給されたN個のオブジェクトのオブジェクト信号のそれぞれに対して、HPFによるフィルタリング処理を行い、その結果得られた帯域制限後のオブジェクト信号をレンダリング処理部41-1に供給する。
 ステップS42においてレンダリング処理部41-1は、供給されたN個の各オブジェクトのメタデータと、HPF42-1乃至HPF42-Nから供給されたN個の各オブジェクト信号とに基づいて、高帯域用のスピーカ51-1についてレンダリング処理を行う。
 例えばステップS42では、図4のステップS11と同様の処理が行われる。レンダリング処理部41-1は、レンダリング処理により得られた各スピーカ51-1に対応するスピーカ再生信号をD/A変換部32-1-1乃至D/A変換部32-1-Ntに供給する。
 D/A変換部32-1は、レンダリング処理部41-1から供給されたスピーカ再生信号をD/A変換して増幅部33-1に供給し、増幅部33-1はD/A変換部32-1から供給されたスピーカ再生信号を増幅させてスピーカ51-1に供給する。
 ステップS43においてBPF43-1乃至BPF43-Nのそれぞれは、供給されたN個のオブジェクトのオブジェクト信号のそれぞれに対して、BPFによるフィルタリング処理を行い、その結果得られた帯域制限後のオブジェクト信号をレンダリング処理部41-2に供給する。
 ステップS44においてレンダリング処理部41-2は、供給されたN個の各オブジェクトのメタデータと、BPF43-1乃至BPF43-Nから供給されたN個の各オブジェクト信号とに基づいて、中帯域用のスピーカ51-2についてレンダリング処理を行う。
 例えばステップS44では、図4のステップS13と同様の処理が行われる。レンダリング処理部41-2は、レンダリング処理により得られた各スピーカ51-2に対応するスピーカ再生信号をD/A変換部32-2-1乃至D/A変換部32-2-Nsに供給する。
 D/A変換部32-2は、レンダリング処理部41-2から供給されたスピーカ再生信号をD/A変換して増幅部33-2に供給し、増幅部33-2はD/A変換部32-2から供給されたスピーカ再生信号を増幅させてスピーカ51-2に供給する。
 ステップS45においてLPF44-1乃至LPF44-Nのそれぞれは、供給されたN個のオブジェクトのオブジェクト信号のそれぞれに対して、LPFによるフィルタリング処理を行い、その結果得られた帯域制限後のオブジェクト信号をレンダリング処理部41-3に供給する。
 ステップS46においてレンダリング処理部41-3は、供給されたN個の各オブジェクトのメタデータと、LPF44-1乃至LPF44-Nから供給されたN個の各オブジェクト信号とに基づいて、低帯域用のスピーカ51-3についてレンダリング処理を行う。
 例えばステップS46では、図4のステップS15と同様の処理が行われる。レンダリング処理部41-3は、レンダリング処理により得られた各スピーカ51-3に対応するスピーカ再生信号をD/A変換部32-3-1乃至D/A変換部32-3-Nwに供給する。
 D/A変換部32-3は、レンダリング処理部41-3から供給されたスピーカ再生信号をD/A変換して増幅部33-3に供給し、増幅部33-3はD/A変換部32-3から供給されたスピーカ再生信号を増幅させてスピーカ51-3に供給する。
 このようにして再生帯域ごとのスピーカレイアウトについてレンダリング処理が行われると、その後、ステップS47の処理が行われて再生処理は終了するが、ステップS47の処理は図4のステップS17の処理と同様であるので、その説明は省略する。
 以上のようにしてオーディオ再生システム81は、オブジェクトごとにフィルタリング処理を行ってから、複数の各再生帯域のスピーカレイアウトごとにレンダリング処理を行い、コンテンツを再生する。このようにすることで、スピーカ51の再生帯域に起因する音質の劣化を抑制し、より高音質なオーディオ再生を行うことができる。
 オーディオ再生システム81のようにレンダリング処理前にフィルタリング処理を行う構成は、特にコンテンツを構成するオブジェクトの数(オブジェクト数N)が少ない場合に、オーディオ再生システム11における場合と比較して処理量を少なく抑えることができる。
 例えばHPF42やBPF43、LPF44でのフィルタリング処理の処理量が同一であるとする。そのような場合、オーディオ再生システム81において必要となるフィルタリング処理の処理量(処理数)は、オブジェクト数N×3である。ここで、「3」はレンダリング処理部41の数である。
 一方、オーディオ再生システム11においては、スピーカシステム22を構成するスピーカ51の総数(Nt+Ns+Nw)の分(回数)だけフィルタリング処理が行われる。
 したがって、オブジェクト数N×3がスピーカ51の総数(Nt+Ns+Nw)よりも小さい場合には、オーディオ再生システム81の構成とすることで、オーディオ再生システム11における場合よりもフィルタリング処理の処理数(処理回数)を少なくすることができ、結果として全体的な処理量を少なく抑えることができる。
〈第3の実施の形態〉
〈オーディオ再生システムの構成例〉
 ところで、フィルタリング処理をレンダリング処理の前段と後段のどちらで行う方が処理量が少なくなるかはオブジェクト数Nや、スピーカ51の総数、スピーカ51の種類(再生帯域)の数(レンダリング処理部41の数)によって定まる。
 そこで、例えばオブジェクト数Nとスピーカ51の総数に基づいた判断基準により、レンダリング処理の前段と後段のどちらでフィルタリング処理を行うかを切り替えるようにしてもよい。
 そのような場合、オーディオ再生システムは、例えば図7に示すように構成される。なお、図7において図2または図5における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
 図7に示すオーディオ再生システム131は、音響処理装置141およびスピーカシステム22を有している。
 また、音響処理装置141は、選択部151、再生信号生成部31、再生信号生成部101、D/A変換部32-1-1乃至D/A変換部32-3-Nw、および増幅部33-1-1乃至増幅部33-3-Nwを有している。
 再生信号生成部31は図2における場合と同じ構成とされており、再生信号生成部101は図5における場合と同じ構成とされている。
 この例では、選択部151にN個の各オブジェクトのオブジェクトデータが入力される。選択部151は、オブジェクト数Nやスピーカ51の総数に基づいて、オブジェクトデータの出力先として再生信号生成部31と再生信号生成部101のうちの何れか1つを選択し、選択した出力先へとオブジェクトデータを出力する。
 換言すれば、選択部151は、オブジェクトごとに、再生信号生成部31においてレンダリング処理を行わせてから帯域制限処理を行わせるか、または再生信号生成部101において帯域制限処理を行わせてからレンダリング処理を行わせるかを選択する。
 したがって、オーディオ再生システム131では、再生信号生成部31と再生信号生成部101の何れか一方により、オブジェクトデータに基づいてスピーカ再生信号が生成され、D/A変換部32へとスピーカ再生信号が供給される。
〈再生処理の説明〉
 次に、図8のフローチャートを参照して、オーディオ再生システム131による再生処理について説明する。この再生処理は、選択部151にコンテンツを構成するN個のオブジェクトのオブジェクトデータが供給されると開始される。
 ステップS71において選択部151は、供給されたオブジェクトデータの個数Nやスピーカ51の総数、再生帯域の数(レンダリング処理部41の数)に基づいて、レンダリング処理よりも先にフィルタリング処理を行うか否かを判定する。すなわち、選択部151は、供給されたオブジェクトデータの出力先を選択する。なお、ここでは再生帯域の数、つまりレンダリング処理部41の数は「3」である。
 例えば、選択部151はオブジェクト数N×3がスピーカ51の総数(Nt+Ns+Nw)よりも小さい場合、先にフィルタリング処理を行うと判定する。
 これに対して、例えば選択部151は、オブジェクト数N×3がスピーカ51の総数(Nt+Ns+Nw)以上である場合、フィルタリング処理をレンダリング処理の後に行うと判定する。
 ステップS71において先にフィルタリング処理を行うと判定された場合、選択部151は、供給されたオブジェクトデータの出力先として再生信号生成部101を選択し、その後、処理はステップS72へと進む。
 この場合、選択部151は、供給されたオブジェクトデータのオブジェクト信号を再生信号生成部101のHPF42やBPF43、LPF44に供給するとともに、オブジェクトデータのメタデータを再生信号生成部101のレンダリング処理部41に供給する。
 このようにして再生信号生成部101にオブジェクトデータが供給されると、ステップS72乃至ステップS77の処理が行われるが、これらの処理は図6のステップS41乃至ステップS46の処理と同様であるので、その説明は省略する。これらの処理が行われると、スピーカ再生信号がスピーカ51へと供給される。
 一方、ステップS71においてフィルタリング処理を後で行うと判定された場合、選択部151は、供給されたオブジェクトデータの出力先として再生信号生成部31を選択し、その後、処理はステップS78へと進む。
 この場合、選択部151は、供給されたオブジェクトデータ、すなわちオブジェクト信号およびメタデータを再生信号生成部31のレンダリング処理部41に供給する。
 再生信号生成部31にオブジェクトデータが供給されると、その後、ステップS78乃至ステップS83の処理が行われるが、これらの処理は図4のステップS11乃至ステップS16の処理と同様であるので、その説明は省略する。これらの処理が行われると、スピーカ再生信号がスピーカ51へと供給される。
 ステップS77またはステップS83の処理が行われると、その後、ステップS84の処理が行われる。
 すなわち、ステップS84において、スピーカシステム22を構成する全スピーカ51は、増幅部33から供給されたスピーカ再生信号に基づいて音を出力し、再生処理は終了する。
 以上のようにしてオーディオ再生システム131は、オブジェクト数Nやスピーカ51の総数に基づいて、再生信号生成部31と再生信号生成部101のうちのより処理量が少なくなる方を選択し、フィルタリング処理とレンダリング処理を行う。すなわち、オブジェクト数Nやスピーカ51の総数に応じて、再生信号生成部31と再生信号生成部101の何れでレンダリング処理とフィルタリング処理を行うかが切り替えられる。
 このようにすることで、少ない処理量で、より高音質なオーディオ再生を行うことができる。なお、再生信号生成部31と再生信号生成部101の何れでレンダリング処理とフィルタリング処理を行うかの切り替え(選択)は、フレームごとなどに行われてもよい。
 特に、再生信号生成部31において、スピーカ再生信号に対して再生帯域ごとのスピーカレイアウトに応じた帯域制限を行うことは、オブジェクト数Nが多い場合に有効である。これに対して、再生信号生成部101において、オブジェクト信号に対して再生帯域ごとのスピーカレイアウトに応じた帯域制限を行うことは、オブジェクト数Nが少ない場合に有効である。
〈第4の実施の形態〉
〈オーディオ再生システムの構成例〉
 また、オブジェクトの内容、すなわちオブジェクトの音源種別やオブジェクト信号の特性など、オブジェクトが有する特徴によって、そのオブジェクトの音を再生するスピーカレイアウトを切り替えるようにしてもよい。
 そのような場合、オーディオ再生システムは、例えば図9に示すように構成される。なお、図9において図2における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
 図9に示すオーディオ再生システム181は、音響処理装置191およびスピーカシステム192を有している。
 音響処理装置191は、再生信号生成部201、D/A変換部32-1-1乃至D/A変換部32-1-Nt、D/A変換部32-3-1乃至D/A変換部32-3-Nw、増幅部33-1-1乃至増幅部33-1-Nt、および増幅部33-3-1乃至増幅部33-3-Nwを有している。
 また、再生信号生成部201は、判定部211、切り替え部212、レンダリング処理部41-1、およびレンダリング処理部41-3を有している。
 スピーカシステム192は、スピーカ51-1-1乃至スピーカ51-1-Nt、およびスピーカ51-3-1乃至スピーカ51-3-Nwを有している。
 例えばスピーカ51-1の再生帯域の一部と、スピーカ51-3の再生帯域の一部とが重なる、つまりスピーカ51-1とスピーカ51-3とが一部の共通する再生帯域を有するようにすることができる。
 また、再生信号生成部201には、HPF42などの帯域制限処理部として機能するフィルタは設けられていない。さらに、スピーカシステム192には、トゥイータであるスピーカ51-1と、ウーハであるスピーカ51-3とが設けられているが、スコーカであるスピーカ51-2は設けられていない。なお、前述のスピーカシステム22と同様に、スピーカシステム192にスコーカであるスピーカ51-2を設けてもよい。
 判定部211には、N個の各オブジェクトのオブジェクトデータが供給される。
 判定部211は、供給されたオブジェクトデータに含まれるオブジェクト信号やメタデータに基づいて、オブジェクトごとに、どのレンダリング処理部41でレンダリング処理をするか、すなわちどのスピーカレイアウトで再生を行うかを判定する判定処理を行う。
 例えば判定部211では、各オブジェクトについて、レンダリング処理部41-1のみでレンダリング処理を行うか、レンダリング処理部41-3のみでレンダリング処理を行うか、またはレンダリング処理部41-1およびレンダリング処理部41-3の両方でレンダリング処理を行うかが判定(決定)される。このとき、例えばオブジェクト信号、およびメタデータ等のオブジェクトに関する情報の少なくとも何れか一方が用いられて判定が行われるようにすることができる。
 判定部211は、供給されたオブジェクトデータを切り替え部212に供給するとともに、判定処理の結果に基づいて切り替え部212を制御して、判定処理の結果に応じたレンダリング処理部41へとオブジェクトデータを供給させる。
 例えば判定処理では、オブジェクトの有する特性として、オブジェクト信号の周波数特性に基づいて、どの再生帯域のスピーカレイアウトへのレンダリングを行うかをオブジェクトごとに判定するようにしてもよい。
 そのような場合、例えば判定部211は、供給されたオブジェクト信号に対してFFT(Fast Fourier Transform)などで周波数分析を行い、その結果得られる周波数特性を示す情報から、どの再生帯域のスピーカレイアウトへのレンダリングを行うか、つまりどのレンダリング処理部41でレンダリング処理を行うかを判定(決定)する。
 具体的には、例えばオブジェクト信号に低域成分のみが含まれている場合には、レンダリング処理部41-3のみでレンダリング処理が行われるようにすることができる。
 例えばオーディオ再生システム11では、各オブジェクトが全ての再生帯域に対応するレンダリング処理部41でレンダリング処理される。しかし、オブジェクト信号に低域成分のみが含まれている場合には、レンダリング処理部41-3のみでレンダリング処理を行うようにしても音質の劣化は生じない。
 オーディオ再生システム181では、例えば低域成分のみが含まれているオブジェクト信号は、低帯域に対応するレンダリング処理部41-3のみでレンダリング処理されるようにすることで、音質の劣化を生じさずに処理量を削減することができる。
 また、例えばオブジェクト信号に低域成分も高域成分も含まれている場合には、レンダリング処理部41-1とレンダリング処理部41-3の両方でレンダリング処理が行われるようにすることができる。
 さらに、例えばメタデータに、オブジェクトに関する情報が含まれていることもある。
 具体的には、例えばギター等の楽器やボーカルなど、オブジェクトがどのような種別の音源であるかを示す音源種別情報がメタデータに含まれているとする。
 そのような場合、例えば判定部211は、メタデータに含まれる音源種別情報に基づいて、どのレンダリング処理部41でレンダリング処理を行うかを判定(決定)する。
 この場合、例えばオブジェクトがハイハットなど、高域成分を多く含む音源であるときには、そのオブジェクトについては高帯域を対象とするレンダリング処理部41-1でレンダリング処理が行われるようにすることができる。なお、どの音源種別のオブジェクトがどのレンダリング処理部41でレンダリング処理されるかは、予め定められているようにしてもよい。また、オブジェクト信号のファイル名などからオブジェクトの音源種別が特定されるようにしてもよい。
 その他、例えばコンテンツ製作者等が、予めどのオブジェクトをどのレンダリング処理部41でレンダリング処理するかを指定しておき、その指定結果を示す指定情報がオブジェクトに関する情報としてメタデータに含まれているようにしてもよい。
 そのような場合、判定部211はメタデータに含まれる指定情報に基づいて、オブジェクトをどのレンダリング処理部41でレンダリング処理するかを判定(決定)する。なお、指定情報はオブジェクトデータとは別に判定部211に供給されるようにしてもよい。
 切り替え部212は、判定部211の制御に従って、判定部211から供給されたオブジェクトデータの出力先をオブジェクトごとに切り替える。
 すなわち、切り替え部212は、判定部211の制御に従って、オブジェクトデータをレンダリング処理部41-1に供給するか、レンダリング処理部41-3に供給するか、またはレンダリング処理部41-1およびレンダリング処理部41-3に供給する。
〈再生処理の説明〉
 次に、図10のフローチャートを参照して、オーディオ再生システム181による再生処理について説明する。この再生処理は、判定部211にコンテンツを構成するN個のオブジェクトのオブジェクトデータが供給されると開始される。
 ステップS111において判定部211は、供給されたオブジェクトデータに基づいて、オブジェクトごとに判定処理を行う。
 例えば判定処理では、少なくともオブジェクト信号とメタデータとに基づいて、どの再生帯域に対応するレンダリング処理部41でレンダリング処理を行うかが判定される。判定部211は、供給されたオブジェクトデータを切り替え部212に供給するとともに、判定処理の結果に基づいて切り替え部212によるオブジェクトデータの出力を制御する。
 ステップS112において切り替え部212は、判定部211の制御に従って、判定部211から供給されたオブジェクトデータの判定処理の結果に応じた供給を行う。
 すなわち、切り替え部212は、オブジェクトごとに、判定部211から供給されたオブジェクトデータをレンダリング処理部41-1、レンダリング処理部41-3、またはレンダリング処理部41-1およびレンダリング処理部41-3へと供給する。
 ステップS113においてレンダリング処理部41-1は、切り替え部212から供給されたオブジェクトデータに基づいて、高帯域用のスピーカ51-1についてレンダリング処理を行い、その結果得られたスピーカ再生信号をD/A変換部32-1および増幅部33-1を介してスピーカ51-1に供給する。
 ステップS114においてレンダリング処理部41-3は、切り替え部212から供給されたオブジェクトデータに基づいて、低帯域用のスピーカ51-3についてレンダリング処理を行い、その結果得られたスピーカ再生信号をD/A変換部32-3および増幅部33-3を介してスピーカ51-3に供給する。
 例えばステップS113およびステップS114では、図4のステップS11およびステップS15と同様の処理が行われる。
 ステップS115においてスピーカシステム192を構成する全スピーカ51は、増幅部33から供給されたスピーカ再生信号に基づいて音を出力し、再生処理は終了する。
 この例では、高帯域用のスピーカ51-1と、低帯域用のスピーカ51-3とから音が出力され、コンテンツのN個のオブジェクトの音が再生される。
 以上のようにしてオーディオ再生システム181は、オブジェクト信号と、メタデータ等のオブジェクトに関する情報の少なくとも何れか一方に基づいて、どの再生帯域に対応するレンダリング処理部41で処理を行うかを判定し、その判定結果に応じてレンダリング処理を行う。
 このようにすることで、適切な再生帯域に対応するレンダリング処理部41でのレンダリング処理を選択的に行うことができ、より高音質なオーディオ再生を行うことができる。
 この例では、例えばオブジェクト信号の主な周波数帯域の成分に応じて、レンダリング処理の対象とする再生帯域ごとのスピーカレイアウトを切り替える(選択する)ことで、多重のレンダリング処理による処理量の増加をなるべく抑えることができる。すなわち、不要な再生帯域についてのレンダリング処理を省略し、処理量を削減することができる。
〈第5の実施の形態〉
〈オーディオ再生システムの構成例〉
 ところで、オーディオ再生時の低域の補強のためにサブウーハが追加され、ベース・マネジメントやバス・マネジメントなどと呼ばれる手法が用いられることがある。
 ベース・マネジメントでは、メインスピーカの再生信号からフィルタリング処理により低域成分の信号が抽出され、その抽出された信号が1台以上のサブウーハにルーティングされる。すなわち、低域成分の再生が1または複数のサブウーハにより行われる。
 しかし、例えば複数のサブウーハを用いた場合、一般的には全てのサブウーハで同一の低域成分が再生されるので、オブジェクトの定位感が損なわれてしまう。
 また、そのような定位感の低下を回避するために、サブウーハごとに、どのメインスピーカの低域成分をルーティングするかを分けて、オブジェクトの定位方向に応じて、低域成分が再生されるサブウーハが変わるようにすることもできる。ところが、そのような場合、ルーティング等のシステム全体での挙動は設計次第であるが、その設計は複雑で困難なものとなってしまう。
 これに対して、本技術では、複数の再生帯域ごとにレンダリング処理が行われ、それらの再生帯域ごとのスピーカレイアウトでコンテンツが再生されるため、複雑な設計を必要とせずに、オブジェクトの定位感の低下を抑制可能なベース・マネジメントを実現することができる。
 さらに、コンテンツによっては、サブウーハ用のLFE(Low Frequency Effect)チャネルのオーディオ信号(以下、LFEチャネル信号とも称する)が予め用意されている場合がある。そのような場合、本技術では、適宜、LFEチャネル信号のゲイン調整を行って、サブウーハのスピーカ再生信号に加算すればよい。
 このように、コンテンツでLFEチャネル信号が予め用意されており、ベース・マネジメントも行う場合、オーディオ再生システムは、例えば図11に示すようになる。
 図11に示すオーディオ再生システム241は、音響処理装置251およびスピーカシステム252を有しており、供給されたオブジェクトデータに基づいてオブジェクトベースオーディオのコンテンツを再生する。
 この例ではコンテンツのデータは、N個のオブジェクトのオブジェクトデータと、チャネルベースのLFEチャネル信号とからなる。この場合、LFEチャネル信号は、チャネルベースのオーディオ信号であるので、位置情報等を含むメタデータは供給されない。また、オブジェクト数Nは任意の数とすることができる。
 音響処理装置251は、再生信号生成部261、D/A変換部271-1-1乃至D/A変換部271-2-Nsw、および増幅部272-1-1乃至増幅部272-2-Nswを有している。
 また、再生信号生成部261は、レンダリング処理部281-1、レンダリング処理部281-2、HPF282-1乃至HPF282-Nls、およびLPF283-1乃至LPF283-Nswを有している。
 スピーカシステム252は、互いに異なる再生帯域を有するスピーカ291-1-1乃至スピーカ291-1-Nls、およびスピーカ291-2-1乃至スピーカ291-2-Nswを有している。
 以下、スピーカ291-1-1乃至スピーカ291-1-Nlsを特に区別する必要のない場合、単にスピーカ291-1とも称し、スピーカ291-2-1乃至スピーカ291-2-Nswを特に区別する必要のない場合、単にスピーカ291-2とも称する。
 また、以下、スピーカ291-1およびスピーカ291-2を特に区別する必要のない場合、単にスピーカ291とも称する。
 この例では、スピーカシステム252を構成するNls個の各スピーカ291-1は、主に比較的低い帯域から高域までの広い帯域(広帯域)を再生帯域としてもつ広帯域用のラウドスピーカ(Loudspeaker)と呼ばれるスピーカである。スピーカシステム252では、これらのNls個のスピーカ291-1により、広帯域用の1つのスピーカレイアウトが形成される。
 また、スピーカシステム252を構成するNsw個の各スピーカ291-2は、例えば100Hz程度以下の低帯域の再生帯域をもつ、低域補強用のサブウーハ(Sub-woofer)と呼ばれるスピーカである。スピーカシステム252では、これらのNsw個のスピーカ291-2により、低帯域用の1つのスピーカレイアウトが形成される。
 レンダリング処理部281-1およびレンダリング処理部281-2には、それぞれコンテンツを構成するN個のオブジェクトのオブジェクトデータが供給される。
 レンダリング処理部281-1およびレンダリング処理部281-2は、供給されたオブジェクトデータを構成するオブジェクト信号とメタデータとに基づいてVBAP等のレンダリング処理を行う。すなわち、レンダリング処理部281-1およびレンダリング処理部281-2では、レンダリング処理部41における場合と同様の処理が行われる。
 例えばレンダリング処理部281-1では、オブジェクトごとにスピーカ291-1-1乃至スピーカ291-1-Nlsのそれぞれを出力先とするスピーカ再生信号のそれぞれが生成される。そして、同じスピーカ291-1について生成されたオブジェクトごとのスピーカ再生信号が加算され、最終的なスピーカ再生信号とされる。
 特に、レンダリング処理としてVBAPが行われる場合には、レンダリング処理部281-1では、Nls個のスピーカ291-1により形成されるメッシュが用いられる。
 レンダリング処理部281-1は、スピーカ291-1-1乃至スピーカ291-1-Nlsについて生成した最終的なスピーカ再生信号を、HPF282-1乃至HPF282-Nlsに供給する。
 レンダリング処理部281-2もレンダリング処理部281-1と同様にして、スピーカ291-2-1乃至スピーカ291-2-Nswのそれぞれを最終的な出力先とする、各スピーカ291-2のスピーカ再生信号を生成する。特に、レンダリング処理としてVBAPが行われる場合には、レンダリング処理部281-2では、Nsw個のスピーカ291-2により形成されるメッシュが用いられる。
 また、レンダリング処理部281-2には、LFEチャネル信号が供給される。
 一般的にLFEチャネル信号は定位情報(位置情報)を持たないので、レンダリング処理部281-2では、VBAP等のレンダリング処理ではなく、全てのスピーカ291-2にLFEチャネル信号が分配されるように一定の係数が掛けられて出力される。
 すなわち、レンダリング処理部281-2は、スピーカ291-2ごとに、レンダリング処理により得られたスピーカ291-2に対応するスピーカ再生信号に対して、LFEチャネル信号を所定の係数によりゲイン調整して得られた信号を加算し、最終的なスピーカ再生信号とする。このとき、ゲイン調整で用いられる係数は、例えば(1/Nsw)1/2などとすることができる。
 レンダリング処理部281-2は、スピーカ291-2-1乃至スピーカ291-2-Nswについて生成した最終的なスピーカ再生信号を、LPF283-1乃至LPF283-Nswに供給する。
 以下、レンダリング処理部281-1およびレンダリング処理部281-2を特に区別する必要のない場合、単にレンダリング処理部281とも称することとする。
 HPF282-1乃至HPF282-Nlsは、少なくともスピーカ291-1の再生帯域を含む周波数帯域、すなわち比較的広い所定帯域の周波数成分を通過させるHPFである。
 HPF282-1乃至HPF282-Nlsは、レンダリング処理部281-1から供給されたスピーカ再生信号に対してフィルタリング処理を行い、その結果得られた所定帯域の周波数の成分からなるスピーカ再生信号をD/A変換部271-1-1乃至D/A変換部271-1-Nlsに供給する。
 なお、以下、HPF282-1乃至HPF282-Nlsを特に区別する必要のない場合、単にHPF282とも称することとする。このHPF282も図2に示したHPF42と同様に、スピーカ291-1の有する再生帯域に応じた帯域制限処理を行う帯域制限処理部として機能する。
 LPF283-1乃至LPF283-Nswは、少なくともスピーカ291-2の再生帯域を含む周波数帯域、すなわち例えば100Hz程度以下の帯域の周波数成分を通過させるLPFである。
 LPF283-1乃至LPF283-Nswは、レンダリング処理部281-2から供給されたスピーカ再生信号に対してフィルタリング処理を行い、その結果得られた低い帯域の周波数成分からなるスピーカ再生信号をD/A変換部271-2-1乃至D/A変換部271-2-Nswに供給する。
 なお、以下、LPF283-1乃至LPF283-Nswを特に区別する必要のない場合、単にLPF283とも称することとする。このLPF283も図2に示したLPF44と同様に、スピーカ291-2の有する再生帯域に応じた帯域制限処理を行う帯域制限処理部として機能する。
 D/A変換部271-1-1乃至D/A変換部271-1-Nlsは、HPF282-1乃至HPF282-Nlsから供給されたスピーカ再生信号をD/A変換し、その結果得られたアナログのスピーカ再生信号を増幅部272-1-1乃至増幅部272-1-Nlsに供給する。
 以下、D/A変換部271-1-1乃至D/A変換部271-1-Nlsを特に区別する必要のない場合、単にD/A変換部271-1とも称することとする。
 D/A変換部271-2-1乃至D/A変換部271-2-Nswは、LPF283-1乃至LPF283-Nswから供給されたスピーカ再生信号をD/A変換し、その結果得られたアナログのスピーカ再生信号を増幅部272-2-1乃至増幅部272-2-Nswに供給する。
 以下、D/A変換部271-2-1乃至D/A変換部271-2-Nswを特に区別する必要のない場合、単にD/A変換部271-2とも称することとする。また、以下、D/A変換部271-1およびD/A変換部271-2を特に区別する必要のない場合、単にD/A変換部271とも称することとする。
 増幅部272-1-1乃至増幅部272-1-Nlsは、D/A変換部271-1-1乃至D/A変換部271-1-Nlsから供給されたスピーカ再生信号を増幅させ、スピーカ291-1-1乃至スピーカ291-1-Nlsに供給する。
 増幅部272-2-1乃至増幅部272-2-Nswは、D/A変換部271-2-1乃至D/A変換部271-2-Nswから供給されたスピーカ再生信号を増幅させ、スピーカ291-2-1乃至スピーカ291-2-Nswに供給する。
 なお、以下、増幅部272-1-1乃至増幅部272-1-Nlsを特に区別する必要のない場合、単に増幅部272-1とも称し、増幅部272-2-1乃至増幅部272-2-Nswを特に区別する必要のない場合、単に増幅部272-2とも称することとする。
 また、以下、増幅部272-1および増幅部272-2を特に区別する必要のない場合、単に増幅部272とも称することとする。
 スピーカ291-1-1乃至スピーカ291-1-Nlsは、増幅部272-1-1乃至増幅部272-1-Nlsから供給されたスピーカ再生信号に基づいて音を出力する。
 スピーカ291-2-1乃至スピーカ291-2-Nswは、増幅部272-2-1乃至増幅部272-2-Nswから供給されたスピーカ再生信号に基づいて音を出力する。
 このようにスピーカシステム252は、互いに異なる再生帯域を有する複数のスピーカ291から構成される。すなわち、コンテンツを受聴する受聴者の周囲には、再生帯域が互いに異なる複数のスピーカ291が混在して配置される。
 なお、ここではスピーカシステム252が音響処理装置251とは別に設けられている例について説明するが、スピーカシステム252が音響処理装置251に設けられた構成としてもよい。
 また、帯域制限処理部として機能するHPF282およびLPF283の周波数特性、すなわち制限帯域(通過帯域)は、例えば図12に示すようになされている。なお、図12において横軸は周波数(Hz)を示しており、縦軸は音圧レベル(dB)を示している。
 図12では、折れ線L21はHPF282の周波数特性を示しており、折れ線L22はLPF283の周波数特性を示している。
 折れ線L21から分かるように、HPF282では、LPF283よりも高い周波数帯域、すなわち100Hz程度以上の広い周波数帯域の成分を通過させる高域通過フィルタリングが行われる。これに対して、折れ線L22から分かるようにLPF283では、HPF282よりも低い周波数帯域、すなわち100Hz程度以下の低い周波数の成分を通過させる低域通過フィルタリングが行われる。ここではHPF282とLPF283の通過帯域がクロスオーバーしているが、HPF282とLPF283の通過帯域がクロスオーバーしていなくてもよい。
 なお、オーディオ再生システム241では、Nls個のHPF282は同一の特性(周波数特性)を有しているものとするが、これらのNls個のHPF282は互いに異なる特性を有するフィルタ(HPF)であってもよい。また、レンダリング処理部281-1とスピーカ291-1との間にHPF282が設けられないようにしてもよい。
 同様に、Nsw個のLPF283は同一の特性(周波数特性)を有しているものとするが、これらのLPF283は互いに異なる特性を有していてもよいし、レンダリング処理部281-2とスピーカ291-2との間にLPF283が設けられないようにしてもよい。
〈再生処理の説明〉
 次に、図13のフローチャートを参照して、オーディオ再生システム241による再生処理について説明する。
 ステップS141においてレンダリング処理部281-1は、供給されたN個のオブジェクトデータに基づいて、広帯域用のスピーカ291-1についてレンダリング処理を行い、その結果得られたスピーカ再生信号をHPF282に供給する。例えばステップS141では、図4のステップS11と同様の処理が行われる。
 ステップS142においてHPF282は、レンダリング処理部281-1から供給されたスピーカ再生信号に対してHPFによるフィルタリング処理(帯域制限処理)を行う。
 HPF282は、フィルタリング処理により得られた、帯域制限後のスピーカ再生信号をD/A変換部271-1および増幅部272-1を介してスピーカ291-1に供給する。
 ステップS143においてレンダリング処理部281-2は、供給されたN個のオブジェクトデータに基づいて、低帯域用のスピーカ291-2についてレンダリング処理を行う。例えばステップS143では、図4のステップS15と同様の処理が行われる。
 ステップS144においてレンダリング処理部281-2は、供給されたLFEチャネル信号を所定の係数によりゲイン調整してスピーカ再生信号に加算し、その結果得られた最終的なスピーカ再生信号をLPF283に供給する。
 ステップS145においてLPF283は、レンダリング処理部281-2から供給されたスピーカ再生信号に対してLPFによるフィルタリング処理(帯域制限処理)を行う。
 LPF283は、フィルタリング処理により得られた、帯域制限後のスピーカ再生信号をD/A変換部271-2および増幅部272-2を介してスピーカ291-2に供給する。
 音響処理装置251では、ステップS143およびステップS144の処理により、ベース・マネジメントが実現される。
 特に、この例ではレンダリング処理部281-2により低帯域についてのレンダリング処理が行われるため、複雑な設計を必要とすることなく、簡単にオブジェクトの定位感の低下を抑制することができる。
 ステップS146においてスピーカシステム252を構成する全スピーカ291は、増幅部272から供給されたスピーカ再生信号に基づいて音を出力し、再生処理は終了する。
 以上のようにしてオーディオ再生システム241は、スピーカ291が有する再生帯域ごと、すなわち複数の再生帯域のスピーカレイアウトごとにレンダリング処理を行うとともに、LFEチャネル信号のゲイン調整を行い、低帯域のスピーカ再生信号に加算する。
 このようにすることで、オーディオ再生システム241では、複数のサブウーハ(スピーカ291-2)を用いて低域補強をした場合でも、オブジェクトのメタデータに応じた最適なレンダリングが実現される。これにより、スピーカ291の再生帯域に起因する音質の劣化を抑制するとともに、複雑な設計を必要とすることなく、簡単にオブジェクトの定位感の低下を抑制し、より高音質なオーディオ再生を行うことができる。
〈コンピュータの構成例〉
 ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
 図14は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
 コンピュータにおいて、CPU(Central Processing Unit)501,ROM(Read Only Memory)502,RAM(Random Access Memory)503は、バス504により相互に接続されている。
 バス504には、さらに、入出力インターフェース505が接続されている。入出力インターフェース505には、入力部506、出力部507、記録部508、通信部509、及びドライブ510が接続されている。
 入力部506は、キーボード、マウス、マイクロフォン、撮像素子などよりなる。出力部507は、ディスプレイ、スピーカなどよりなる。記録部508は、ハードディスクや不揮発性のメモリなどよりなる。通信部509は、ネットワークインターフェースなどよりなる。ドライブ510は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体511を駆動する。
 以上のように構成されるコンピュータでは、CPU501が、例えば、記録部508に記録されているプログラムを、入出力インターフェース505及びバス504を介して、RAM503にロードして実行することにより、上述した一連の処理が行われる。
 コンピュータ(CPU501)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体511に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
 コンピュータでは、プログラムは、リムーバブル記録媒体511をドライブ510に装着することにより、入出力インターフェース505を介して、記録部508にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部509で受信し、記録部508にインストールすることができる。その他、プログラムは、ROM502や記録部508に、あらかじめインストールしておくことができる。
 なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
 また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
 例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
 また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、本技術は、以下の構成とすることも可能である。
(1)
 オーディオ信号に基づいてレンダリング処理を行い、複数の第1のスピーカにより音を出力するための第1の出力オーディオ信号を生成する第1のレンダリング処理部と、
 前記オーディオ信号に基づいてレンダリング処理を行い、前記第1のスピーカとは再生帯域が異なる複数の第2のスピーカにより音を出力するための第2の出力オーディオ信号を生成する第2のレンダリング処理部と
 を備える音響処理装置。
(2)
 前記第1の出力オーディオ信号に対して、前記第1のスピーカの再生帯域に応じた帯域制限処理を行う第1の帯域制限処理部と、
 前記第2の出力オーディオ信号に対して、前記第2のスピーカの再生帯域に応じた帯域制限処理を行う第2の帯域制限処理部と
 をさらに備える(1)に記載の音響処理装置。
(3)
 前記オーディオ信号に対して、前記第1のスピーカの再生帯域に応じた帯域制限処理を行う第3の帯域制限処理部と、
 前記第3の帯域制限処理部による帯域制限処理により得られた第1の帯域制限信号に基づいてレンダリング処理を行い、複数の前記第1のスピーカにより音を出力するための第3の出力オーディオ信号を生成する第3のレンダリング処理部と、
 前記オーディオ信号に対して、前記第2のスピーカの再生帯域に応じた帯域制限処理を行う第4の帯域制限処理部と、
 前記第4の帯域制限処理部による帯域制限処理により得られた第2の帯域制限信号に基づいてレンダリング処理を行い、複数の前記第2のスピーカにより音を出力するための第4の出力オーディオ信号を生成する第4のレンダリング処理部と、
  前記第3の帯域制限処理部および前記第4の帯域制限処理部に帯域制限処理を行わせるとともに、前記第3のレンダリング処理部および前記第4のレンダリング処理部にレンダリング処理を行わせるか、
  または
  前記第1のレンダリング処理部および前記第2のレンダリング処理部にレンダリング処理を行わせるとともに、前記第1の帯域制限処理部および前記第2の帯域制限処理部に帯域制限処理を行わせるか
 を選択する選択部と
 をさらに備える(2)に記載の音響処理装置。
(4)
 前記選択部は、前記オーディオ信号の数と、前記第1のスピーカおよび前記第2のスピーカの総数とに基づいて前記選択を行う
 (3)に記載の音響処理装置。
(5)
 前記オーディオ信号に対して、前記第1のスピーカの再生帯域に応じた帯域制限処理を行う第1の帯域制限処理部と、
 前記オーディオ信号に対して、前記第2のスピーカの再生帯域に応じた帯域制限処理を行う第2の帯域制限処理部と
 をさらに備え、
 前記第1のレンダリング処理部は、前記第1の帯域制限処理部による帯域制限処理により得られた第1の帯域制限信号に基づいてレンダリング処理を行い、
 前記第2のレンダリング処理部は、前記第2の帯域制限処理部による帯域制限処理により得られた第2の帯域制限信号に基づいてレンダリング処理を行う
 (1)に記載の音響処理装置。
(6)
 前記オーディオ信号、および前記オーディオ信号に関する情報の少なくとも何れか一方に基づいて、前記オーディオ信号ごとに、前記オーディオ信号に基づくレンダリング処理を、前記第1のレンダリング処理部に行わせるか、前記第2のレンダリング処理部に行わせるか、または前記第1のレンダリング処理部と前記第2のレンダリング処理部の両方に行わせるかを判定する判定部をさらに備える
 (1)、(2)、または(5)に記載の音響処理装置。
(7)
 前記判定部は、前記オーディオ信号の周波数特性に基づいて前記判定を行う
 (6)に記載の音響処理装置。
(8)
 前記判定部は、前記オーディオ信号の音源種別を示す情報に基づいて前記判定を行う
 (6)または(7)に記載の音響処理装置。
(9)
 前記オーディオ信号は、オーディオオブジェクトのオブジェクト信号であり、
 前記第1のレンダリング処理部および前記第2のレンダリング処理部は、前記オーディオ信号、および前記オーディオ信号のメタデータに基づいてレンダリング処理を行う
 (1)乃至(8)の何れか一項に記載の音響処理装置。
(10)
 前記メタデータには、前記オーディオオブジェクトの位置を示す位置情報が含まれている
 (9)に記載の音響処理装置。
(11)
 前記位置情報は、所定の受聴位置を基準とした前記オーディオオブジェクトの相対的な位置を示す情報である
 (10)に記載の音響処理装置。
(12)
 前記第2のレンダリング処理部は、レンダリング処理により得られた前記第2の出力オーディオ信号と、チャネルベースのオーディオ信号とを加算して、最終的な前記第2の出力オーディオ信号とする
 (9)乃至(11)の何れか一項に記載の音響処理装置。
(13)
 前記チャネルベースのオーディオ信号は、LFEチャネルのオーディオ信号である
 (12)に記載の音響処理装置。
(14)
 前記第1のレンダリング処理部および前記第2のレンダリング処理部は、レンダリング処理としてVBAPを用いた処理を行う
 (1)乃至(13)の何れか一項に記載の音響処理装置。
(15)
 前記複数の前記第1のスピーカおよび前記複数の前記第2のスピーカをさらに備える
 (1)乃至(14)の何れか一項に記載の音響処理装置。
(16)
 音響処理装置が、
 オーディオ信号に基づいてレンダリング処理を行い、複数の第1のスピーカにより音を出力するための第1の出力オーディオ信号を生成し、
 前記オーディオ信号に基づいてレンダリング処理を行い、前記第1のスピーカとは再生帯域が異なる複数の第2のスピーカにより音を出力するための第2の出力オーディオ信号を生成する
 音響処理方法。
(17)
 オーディオ信号に基づいてレンダリング処理を行い、複数の第1のスピーカにより音を出力するための第1の出力オーディオ信号を生成し、
 前記オーディオ信号に基づいてレンダリング処理を行い、前記第1のスピーカとは再生帯域が異なる複数の第2のスピーカにより音を出力するための第2の出力オーディオ信号を生成する
 ステップを含む処理をコンピュータに実行させるプログラム。
 11 オーディオ再生システム, 21 音響処理装置, 22 スピーカシステム, 41-1乃至41-3,41 レンダリング処理部, 42-1乃至42-Nt,42 HPF, 43-1乃至43-Ns,43 BPF, 44-1乃至44-Nw,44 LPF, 151 選択部, 211 判定部

Claims (17)

  1.  オーディオ信号に基づいてレンダリング処理を行い、複数の第1のスピーカにより音を出力するための第1の出力オーディオ信号を生成する第1のレンダリング処理部と、
     前記オーディオ信号に基づいてレンダリング処理を行い、前記第1のスピーカとは再生帯域が異なる複数の第2のスピーカにより音を出力するための第2の出力オーディオ信号を生成する第2のレンダリング処理部と
     を備える音響処理装置。
  2.  前記第1の出力オーディオ信号に対して、前記第1のスピーカの再生帯域に応じた帯域制限処理を行う第1の帯域制限処理部と、
     前記第2の出力オーディオ信号に対して、前記第2のスピーカの再生帯域に応じた帯域制限処理を行う第2の帯域制限処理部と
     をさらに備える請求項1に記載の音響処理装置。
  3.  前記オーディオ信号に対して、前記第1のスピーカの再生帯域に応じた帯域制限処理を行う第3の帯域制限処理部と、
     前記第3の帯域制限処理部による帯域制限処理により得られた第1の帯域制限信号に基づいてレンダリング処理を行い、複数の前記第1のスピーカにより音を出力するための第3の出力オーディオ信号を生成する第3のレンダリング処理部と、
     前記オーディオ信号に対して、前記第2のスピーカの再生帯域に応じた帯域制限処理を行う第4の帯域制限処理部と、
     前記第4の帯域制限処理部による帯域制限処理により得られた第2の帯域制限信号に基づいてレンダリング処理を行い、複数の前記第2のスピーカにより音を出力するための第4の出力オーディオ信号を生成する第4のレンダリング処理部と、
      前記第3の帯域制限処理部および前記第4の帯域制限処理部に帯域制限処理を行わせるとともに、前記第3のレンダリング処理部および前記第4のレンダリング処理部にレンダリング処理を行わせるか、
      または
      前記第1のレンダリング処理部および前記第2のレンダリング処理部にレンダリング処理を行わせるとともに、前記第1の帯域制限処理部および前記第2の帯域制限処理部に帯域制限処理を行わせるか
     を選択する選択部と
     をさらに備える請求項2に記載の音響処理装置。
  4.  前記選択部は、前記オーディオ信号の数と、前記第1のスピーカおよび前記第2のスピーカの総数とに基づいて前記選択を行う
     請求項3に記載の音響処理装置。
  5.  前記オーディオ信号に対して、前記第1のスピーカの再生帯域に応じた帯域制限処理を行う第1の帯域制限処理部と、
     前記オーディオ信号に対して、前記第2のスピーカの再生帯域に応じた帯域制限処理を行う第2の帯域制限処理部と
     をさらに備え、
     前記第1のレンダリング処理部は、前記第1の帯域制限処理部による帯域制限処理により得られた第1の帯域制限信号に基づいてレンダリング処理を行い、
     前記第2のレンダリング処理部は、前記第2の帯域制限処理部による帯域制限処理により得られた第2の帯域制限信号に基づいてレンダリング処理を行う
     請求項1に記載の音響処理装置。
  6.  前記オーディオ信号、および前記オーディオ信号に関する情報の少なくとも何れか一方に基づいて、前記オーディオ信号ごとに、前記オーディオ信号に基づくレンダリング処理を、前記第1のレンダリング処理部に行わせるか、前記第2のレンダリング処理部に行わせるか、または前記第1のレンダリング処理部と前記第2のレンダリング処理部の両方に行わせるかを判定する判定部をさらに備える
     請求項1に記載の音響処理装置。
  7.  前記判定部は、前記オーディオ信号の周波数特性に基づいて前記判定を行う
     請求項6に記載の音響処理装置。
  8.  前記判定部は、前記オーディオ信号の音源種別を示す情報に基づいて前記判定を行う
     請求項6に記載の音響処理装置。
  9.  前記オーディオ信号は、オーディオオブジェクトのオブジェクト信号であり、
     前記第1のレンダリング処理部および前記第2のレンダリング処理部は、前記オーディオ信号、および前記オーディオ信号のメタデータに基づいてレンダリング処理を行う
     請求項1に記載の音響処理装置。
  10.  前記メタデータには、前記オーディオオブジェクトの位置を示す位置情報が含まれている
     請求項9に記載の音響処理装置。
  11.  前記位置情報は、所定の受聴位置を基準とした前記オーディオオブジェクトの相対的な位置を示す情報である
     請求項10に記載の音響処理装置。
  12.  前記第2のレンダリング処理部は、レンダリング処理により得られた前記第2の出力オーディオ信号と、チャネルベースのオーディオ信号とを加算して、最終的な前記第2の出力オーディオ信号とする
     請求項9に記載の音響処理装置。
  13.  前記チャネルベースのオーディオ信号は、LFEチャネルのオーディオ信号である
     請求項12に記載の音響処理装置。
  14.  前記第1のレンダリング処理部および前記第2のレンダリング処理部は、レンダリング処理としてVBAPを用いた処理を行う
     請求項1に記載の音響処理装置。
  15.  前記複数の前記第1のスピーカおよび前記複数の前記第2のスピーカをさらに備える
     請求項1に記載の音響処理装置。
  16.  音響処理装置が、
     オーディオ信号に基づいてレンダリング処理を行い、複数の第1のスピーカにより音を出力するための第1の出力オーディオ信号を生成し、
     前記オーディオ信号に基づいてレンダリング処理を行い、前記第1のスピーカとは再生帯域が異なる複数の第2のスピーカにより音を出力するための第2の出力オーディオ信号を生成する
     音響処理方法。
  17.  オーディオ信号に基づいてレンダリング処理を行い、複数の第1のスピーカにより音を出力するための第1の出力オーディオ信号を生成し、
     前記オーディオ信号に基づいてレンダリング処理を行い、前記第1のスピーカとは再生帯域が異なる複数の第2のスピーカにより音を出力するための第2の出力オーディオ信号を生成する
     処理をコンピュータに実行させるプログラム。
PCT/JP2021/031449 2020-09-09 2021-08-27 音響処理装置および方法、並びにプログラム WO2022054602A1 (ja)

Priority Applications (7)

Application Number Priority Date Filing Date Title
US18/023,882 US20230336913A1 (en) 2020-09-09 2021-08-27 Acoustic processing device, method, and program
CN202180053759.4A CN116114267A (zh) 2020-09-09 2021-08-27 声学处理装置、方法和程序
EP21866561.0A EP4213505A4 (en) 2020-09-09 2021-08-27 APPARATUS, METHOD AND PROGRAM FOR ACOUSTIC PROCESSING
BR112023003964A BR112023003964A2 (pt) 2020-09-09 2021-08-27 Dispositivo e método de processamento acústico, e, programa
KR1020237005842A KR20230062814A (ko) 2020-09-09 2021-08-27 음향 처리 장치 및 방법, 그리고 프로그램
MX2023002587A MX2023002587A (es) 2020-09-09 2021-08-27 Dispositivo y metodo de procesamiento acustico y programa.
JP2022547497A JPWO2022054602A1 (ja) 2020-09-09 2021-08-27

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020151446 2020-09-09
JP2020-151446 2020-09-09

Publications (1)

Publication Number Publication Date
WO2022054602A1 true WO2022054602A1 (ja) 2022-03-17

Family

ID=80631626

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/031449 WO2022054602A1 (ja) 2020-09-09 2021-08-27 音響処理装置および方法、並びにプログラム

Country Status (8)

Country Link
US (1) US20230336913A1 (ja)
EP (1) EP4213505A4 (ja)
JP (1) JPWO2022054602A1 (ja)
KR (1) KR20230062814A (ja)
CN (1) CN116114267A (ja)
BR (1) BR112023003964A2 (ja)
MX (1) MX2023002587A (ja)
WO (1) WO2022054602A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011529658A (ja) * 2008-07-28 2011-12-08 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオシステム及びその操作方法
US20160066118A1 (en) * 2013-04-15 2016-03-03 Intellectual Discovery Co., Ltd. Audio signal processing method using generating virtual object
JP2018527825A (ja) * 2015-08-14 2018-09-20 ディーティーエス・インコーポレイテッドDTS,Inc. オブジェクトベースのオーディオのための低音管理

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102356246B1 (ko) * 2014-01-16 2022-02-08 소니그룹주식회사 음성 처리 장치 및 방법, 그리고 프로그램
US11477601B2 (en) * 2018-10-16 2022-10-18 Dolby Laboratories Licensing Corporation Methods and devices for bass management

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011529658A (ja) * 2008-07-28 2011-12-08 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオシステム及びその操作方法
US20160066118A1 (en) * 2013-04-15 2016-03-03 Intellectual Discovery Co., Ltd. Audio signal processing method using generating virtual object
JP2018527825A (ja) * 2015-08-14 2018-09-20 ディーティーエス・インコーポレイテッドDTS,Inc. オブジェクトベースのオーディオのための低音管理

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
See also references of EP4213505A4
VILLE PULKKI: "Virtual Sound Source Positioning Using Vector Base Amplitude Panning", JOURNAL OF AES, vol. 45, no. 6, 1997, pages 456 - 466

Also Published As

Publication number Publication date
MX2023002587A (es) 2023-03-22
EP4213505A4 (en) 2024-03-06
BR112023003964A2 (pt) 2023-04-11
EP4213505A1 (en) 2023-07-19
CN116114267A (zh) 2023-05-12
KR20230062814A (ko) 2023-05-09
JPWO2022054602A1 (ja) 2022-03-17
US20230336913A1 (en) 2023-10-19

Similar Documents

Publication Publication Date Title
US11785410B2 (en) Reproduction apparatus and reproduction method
RU2682864C1 (ru) Устройство и способ обработки аудиоданных, и его программа
TWI489887B (zh) 用於喇叭或耳機播放之虛擬音訊處理技術
JP5496235B2 (ja) 多重オーディオチャンネル群の再現の向上
JP6918777B2 (ja) オブジェクトベースのオーディオのための低音管理
GB2549532A (en) Merging audio signals with spatial metadata
KR20140010468A (ko) 오디오 신호의 공간 추출 시스템
US20220167103A1 (en) Computer system for realizing customized being-there in assocation with audio and method thereof
JP5931182B2 (ja) 付加的な出力チャンネルを提供するためのステレオ出力信号を生成する装置、方法およびコンピュータプログラム
WO2022054602A1 (ja) 音響処理装置および方法、並びにプログラム
WO2021140959A1 (ja) 符号化装置および方法、復号装置および方法、並びにプログラム
JP2004511927A (ja) パラメトリックスピーカー用電力アンプ
JP6699280B2 (ja) 音響再生装置
JP7517500B2 (ja) 再生装置、再生方法、およびプログラム
US11924628B1 (en) Virtual surround sound process for loudspeaker systems
JP2012049652A (ja) マルチチャネルオーディオ再生装置およびマルチチャネルオーディオ再生方法
JP6819236B2 (ja) 音処理装置、音処理方法、及びプログラム
JP6834398B2 (ja) 音処理装置、音処理方法、及びプログラム
JP2010118977A (ja) 音像定位制御装置および音像定位制御方法
KR20230119192A (ko) 스테레오 헤드폰 심리음향 음 위치측정 시스템 및 이를사용한 스테레오 심리음향 음 신호를 재구성하기 위한 방법
RU2384973C1 (ru) Устройство и способ синтезирования трех выходных каналов, используя два входных канала
JP2006174078A (ja) オーディオ信号処理方法及び装置
JP2019201308A (ja) 音響制御装置、方法及びプログラム
KR20110102719A (ko) 오디오 업믹싱 장치 및 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21866561

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022547497

Country of ref document: JP

Kind code of ref document: A

REG Reference to national code

Ref country code: BR

Ref legal event code: B01A

Ref document number: 112023003964

Country of ref document: BR

ENP Entry into the national phase

Ref document number: 112023003964

Country of ref document: BR

Kind code of ref document: A2

Effective date: 20230302

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2021866561

Country of ref document: EP

Effective date: 20230411